Систематизация данных
в Google Поиске
Чтобы найти интересующую вас информацию, Google проверяет сотни миллиардов веб-страниц и других источников контента, сохраненных в поисковом индексе, – это больше, чем во всех библиотеках мира, вместе взятых.
Три человека сортируют данные на карточках
Поиск информации с помощью сканирования

Основная часть индекса Google Поиска создается специальным ПО – поисковыми роботами. Они автоматически открывают общедоступные веб-страницы и переходят по ссылкам на них, как это делают пользователи интернета. Поисковые роботы изучают каждую страницу и сохраняют найденные данные и другой общедоступный контент в индексе Google Поиска.

Сайт с велосипедом
Систематизация информации с помощью индексирования

Во время сканирования наши системы обрабатывают контент страниц так же, как это делают браузеры. Мы регистрируем данные по ключевым словам и новизне контента, а затем создаем на их основе поисковый индекс.

Три набора сайтов

Индекс Google Поиска включает сотни миллиардов веб-страниц. Его объем значительно превышает 100 млн гигабайт. Индекс похож на указатель в конце книги, в котором есть отдельная запись для каждого слова на всех проиндексированных страницах. Во время индексирования данные о странице добавляются в записи по всем словам, которые на ней есть.

Постоянный поиск новой информации

Интернет непрерывно меняется. Чтобы гарантировать актуальность данных в поисковом индексе, сканирование не должно прекращаться ни на минуту. Поисковые роботы оценивают, как часто меняется уже просмотренный контент, и при необходимости возвращаются к нему. Они также проверяют информацию при появлении новых ссылок или материалов.

Google предлагает бесплатный набор инструментов Search Console, который помогает владельцам сайтов повышать эффективность сканирования своего контента. Им также доступны традиционные инструменты, например файлы Sitemap и robots.txt. С их помощью можно задать частоту сканирования контента или вообще исключить его из индекса Google Поиска.

Google не увеличивает частоту сканирования отдельных ресурсов за плату. Чтобы результаты поиска были максимально полезными для пользователей, владельцы сайтов получают одни и те же инструменты.

Больше, чем просто веб-страницы

Помимо информации из интернета, в индексе Google Поиска содержатся полезные данные из других источников.

Google поддерживает несколько индексов с данными разных типов. Они собираются с помощью сканирования, предоставляются партнерами, берутся из фидов и из нашей собственной энциклопедии фактов – сети знаний.

Благодаря разным индексам можно искать информацию в миллионах книг из крупнейших библиотек, узнавать расписание общественного транспорта у местных перевозчиков или находить данные в открытых источниках, таких как Всемирный банк.