Автор Тема: Особенности индексации сайтов в Google (Прочитано 14861 раз)

FOX · « : Марта 28, 2012, 12:16:28 pm »

Решил создать отдельную тему, т.к. вопрос очень важный и объемный.
Последние исследования на основании своих сайтов, которые подтверждаются многими вебмастерами, показывают, что Гугл напрочь игнорирует robots.txt. Для него этот файл носит не более чем рекомендательный характер, но не как не запрещающий роботу какие либо действия на сайте. Действительно, кто мы такие, что бы управлять самим Google?

Это подтверждает и сама ПС. Вот цитата из справки для вебмастеров от Google:

Цитировать

Google больше не рекомендует блокировать доступ поисковых роботов к повторяющемуся контенту с помощью файла robots.txt или иных способов. Если поисковые системы не имеют возможности сканировать страницы с повторяющимся контентом, то они не смогут автоматически определять, что разные URL имеют одинаковый контент, и будут обращаться с ними как с уникальными страницами. Наилучший выход из этого положения – разрешить поисковым системам сканировать все URL, предварительно отметив их как повторяющиеся с помощью элемента link rel="canonical", функции обработки параметров URL или переадресации 301. Если на вашем сайте очень много страниц с повторяющимся контентом, рекомендуется настроить скорость сканирования в Инструментах для веб-мастеров.
Наличие на сайте повторяющегося контента не является основанием для принятия каких-либо мер по отношению к нему. Такие меры применяются только в том случае, если это сделано с целью ввести пользователей в заблуждение или манипулировать результатами поиска. Если у вас возникают проблемы из-за повторяющегося контента, но вы не последовали приведенным выше советам, то мы выберем версию контента для показа в результатах поиска на свое усмотрение.

Зявление о том, что дублированый контент не является основанием для принятия мер, думаю, можно поставить под сомнение!

Что мы в итоге имеем?
Google питается собрать о сайтах всю доступную информацию, а не только то, что ему отдают вебмастера.
Это мотивируется кагбэ, тем что сайты могут распространять вирусы и прочие прелести, направленые на принесения вреда или обман пользователя, а для ПС такие сайты белые и пушистые. Т.о. при индексации Гугол не смотрит ни на robots.txt ни на rel="nofollow". Это канешно хорошо, но почему мои технические разделы должны попадать в индекс???

Что делать?
По сути остается единственный способ закрытия не подлежащих индексации разделов, блоков, ссылок и контента является Jawascript. Такой подход нельзя расценивать как клоакинг т.к. и пользователям и ПС предоставляется одинаковое содержимое, просто ПС не может его проиндексировать.
Есть еще rel="canonical", но он опять таки носит не более чем рекомендательный характер, хотя использовать его все же стоит.

По Jawascript. я уже поднимал вопрос. Я пока еще мало разбираюсь в технических моментах реализации этого дела.
Но решать вопрос нужно! Причем всем!

wll · « **Ответ #1 :** Марта 28, 2012, 02:30:09 pm »

Цитата: FOX от Марта 28, 2012, 12:16:28 pm

Последние исследования на основании своих сайтов, которые подтверждаются многими вебмастерами, показывают, что Гугл напрочь игнорирует robots.txt.

Мой сайт:
Инструменты вебмастера (гугловский аккаунт). Конфигурация сайта -> Доступ для сканера: Заблокированные URL-471

Цитировать

Google tried to crawl these URLs in the last 90 days, but was blocked by robots.txt.

Чё-то googl сам себе противоречит. А от какого числа заявление googl_a?

FOX · « **Ответ #2 :** Марта 28, 2012, 03:36:11 pm »

12/22/2011

nictboom · « **Ответ #3 :** Марта 29, 2012, 12:29:48 am »

Как самая та вероятность попадания ненужных страниц, это начало. именно момент формирования сайта, создание, наполнение... не сформирован robots.txt. Я как то рекомендовал, закрыть всё для всех поисковых для начала.
А то что гугл хочет увидеть, он увидит, и js тут Вам не в помощь, порой бывает хуже - "Вы пытались нае... нашу поисковую систему..". В некоторых моментах, например как "подтяжка" информации, можно использовать и js.
Про rel="canonical", да, если есть правило, и есть возможность, то почему бы и нет. лишним не будет.
а то что основные поисковые системы игнорирую(или начинают игнорировать) rel="nofollow" или <noindex>, дык это понятно))). Умников упрятать инфу/ссылки хватает, и цели то разные))
Ну и стоит учесть, что гуль не "центр вселенского поиска" и не "пуп единой оптимизации", есть и другие поисковые системы, хотя пожалуй есть и "любимые движки", или так сказать "правильные"...
На примере, у меня у дружка/конкурента самописный движок(года 4-ре уже его сайту), товар у нас схожий, только у меня уникальный контент на основные позиции, а он копирайтит тупо всегда, а в выдаче его сайт выше без раскрутки и продвижения!!!
Вот и думай чё от гугля ожидать завтра.
Думаю основное это работа над контентом, статьи обзоры, описание интересное, не гуглу! набитое тупо ключевиками, а для людей. тем более что поговаривали(правда ещё летом) о интелектуальном распознавании контента поисковыми системами. хотя это, пожалуй, понты, обычный просчёт плотности ключевых слов.
ну как то имхо моЁ жизневиденье.

FOX · « **Ответ #4 :** Марта 29, 2012, 09:44:50 am »

Цитата: nictboom от Марта 29, 2012, 12:29:48 am

Думаю основное это работа над контентом, статьи обзоры, описание интересное, не гуглу! набитое тупо ключевиками, а для людей. тем более что поговаривали(правда ещё летом) о интелектуальном распознавании контента поисковыми системами. хотя это, пожалуй, понты, обычный просчёт плотности ключевых слов.
ну как то имхо моЁ жизневиденье.

За это и боремся! Чтобы написанная статья была в единственном экзампляре, на одной единственной странице, а не 20-ти дублях. К тому же наличие дублей сильно снижает скорость переиндексации всего сайта в целом и вхождения нового контента в индекс в частности. Так, что сам контент это не единственное над чем нужно задумываться, ИМХО!
В панели вебмастеров Гугл кричит:" У вас повторяющиеся страницы! Надо шо-то решать!" Но при этом, сам пихает в индекс кучу мусора и зубами его от туда не вырвешь!
По поводу интеллектуального распознавания контента - не верю! У моих конкурентов прямых вхождений ключей до 30% доходит, текст вообще не возможно читать! Сплошной <strong>! И при этом, что Яша, что Гугл держит их в ТОП-1,2,3. Хотя там тоже движки не без проблем и дубли можно плодить пачками, но в индексе их нет!
Кстати заметил такую штуку - два сайта на одинаковых движках могут вести себя по разному. Один индексируется как по нотам, а на другом сплошная хрень лезет. ХЗ, объяснить это никак нельзя.

Al_Uk · « **Ответ #5 :** Марта 29, 2012, 02:09:49 pm »

очень важен возраст сайта. Поэтому то многие и регестрируют доменные имена впрок и вешают на них заглушку.

старому сайту гугл доверяет а новые по два месяца в индекс не добавляет.. раньше яша только таким страдал а теперь вот и гугл

FOX · « **Ответ #6 :** Марта 30, 2012, 02:29:37 pm »

Черт его знает. Это уже может попадать под определение клоакинга, т.к. мы пользователю и роботу будем отдавать разные страницы. В данном случае /404/, но можно ведь и другую.....

Legosp Forum

Новости:

Автор Тема: Особенности индексации сайтов в Google (Прочитано 14861 раз)

FOX

Особенности индексации сайтов в Google

wll

Re: Особенности индексации сайтов в Google

FOX

Re: Особенности индексации сайтов в Google

nictboom

Re: Особенности индексации сайтов в Google

FOX

Re: Особенности индексации сайтов в Google

Al_Uk

Re: Особенности индексации сайтов в Google

FOX

Re: Особенности индексации сайтов в Google