Як працює Google – 19 алгоритмів

6.01.2023
1853

У довідковій системі Google з’явився новий документ. У ньому розказано як працює Google: про алгоритми, які дбають, щоб ви швидко знаходили найкращі результати.

Google має кілька десятків систем (алгоритмів) ранжування. Вони щодня оцінюють мільярди сторінок, враховуючи при цьому сотні факторів – все, щоб видавати вам найкорисніші результати за секунду.

Ось як називаються і за що відповідають ці системи.

Bidirectional Encoder Representations from Transformers (двонаправлений кодувальник уявлень трансформера, частіше просто BERT)

Це система штучного інтелекту, яка «здогадується» про сутність запиту приблизно так, як це робить наш мозок, і працює, скажімо так, з перетином сутностей.

Яке поняття перебуває на перетині двох інших понять – «король» та «жінка»? Звісно, «королева»! Ваш мозок зрозумів це за секунду, і алгоритми таку просту модель теж давно освоїли. Тепер BERT схожим чином навчається (і дуже успішно!) на складніших випадках розуміти, що ж насправді шукає людина, навіть якщо запит не включає найпотрібніших і найточніших запитів.

Crisis information systems (кризові інформаційні системи)

Google має окремі системи, які дозволяють швидко знайти інформацію в кризових ситуаціях: особистих, пов’язаних із загрозою насильства чи вбивства, чи стихійних лих. Друга є оповіщення SOS і працює, щоб показувати повідомлення від влади. Вони включають номери та сайти екстрених служб, переклади корисних фраз, карти та багато іншого – докладніше можна переглянути у Довідці Google.

Deduplication systems (системи дедуплікації)

Алгоритм може знайти тисячі або навіть мільйони сторінок з релевантним змістом – але деякі можуть повністю дублювати контент один одного. Це не релевантний результат для користувача, тому за умовчанням Google приховує дублі.

Exact match domain system (доменна система точної відповідності)

Система ранжування Google враховує слова, що містяться в домені – це один із сигналів релевантності змісту. Але та сама система розуміє, що доменні імена на кшталт «найкращі місця, де можна пообідати» створені виключно для захоплення топу, і не враховує їх при формуванні видачі.

Freshness systems (системи свіжості)

Свіжий контент не завжди за визначенням, що якісніше вийшов давно. Але алгоритми Google розуміють, коли фактор новизни може мати більше значення, і піднімають останні публікації вище в пошуку. Наприклад, якщо вийшов огляд на новий фільм, то при запиті інформації про фільм цей огляд буде вищим, ніж новина про запуск виробництва стрічки, а новина про великий землетрус недалеко від вас – вищою, ніж стаття з «Вікіпедії».

Helpful content system (система корисного контенту)

Цей алгоритм орієнтований те що, щоб люди бачили в результатах видачі більше корисного контенту, написаного людьми людей.

Link analysis systems (системи аналізу посилань)

Google має системи, які фокусуються на тому, як сторінки посилаються одна на одну – завдяки цьому вони розуміють, про що сторінки та які з них можуть бути найбільш корисними.

Local news systems (місцеві системи новин)

Системи видачі місцевого контенту новин працюють в Google, як це стверджується в блозі компанії, «коли це доречно».

Це не відключений навесні в Росії Google News, а один зі швидких результатів. Але, можливо, ці алгоритми працюють у зв’язці: ми спробували перевірити роботу цього алгоритму на десятці запитів – і не побачили нічого релевантного.

Multitask Unified Model (багатозадачна уніфікована модель)

Це система штучного інтелекту, здатна як розуміти, і генерувати письмову мову. ІІ використовується не для загального ранжирування в пошуку, а лише для деяких «додатків», наприклад, для пошуку інформації про вакцину проти COVID-19.

Neural matching (нейронне зіставлення)

Цей ІІ Google використовує для розуміння того, про що йдеться у запитах і на сторінках – і зіставлення цих сутностей.

Original content systems (системи оригінального контенту)

Це алгоритми, які націлені на пріоритет у видачі оригінального контенту. Якщо контент з якихось причин дублюється на одному сайті, власник може просто вказати одну зі сторінок як канонічну – Google передбачив спеціальну розмітку.

Removal-based demotion systems (системи зниження сайтів у видачі, засновані на фактах законного видалення контенту)

Алгоритми Google знижують у видачі сайти, контент з яких видаляється з двох причин:

через порушення авторських прав;
через публікацію особистої інформації.

По суті, сайт, потрапляючи в такі конфлікти, сигналить пошуковій системі, що у нього не все ок з контентною політикою – якщо його контент видаляють на законній підставі.

Page experience system (системи, зав’язані на досвіді користувача)

Цей алгоритм оцінює критерії, які свідчать про поганий чи хороший досвід взаємодії зі сторінкою: швидкість завантаження, зручність для мобільних пристроїв, відсутність нав’язливих міжсторінкових оголошень, безпека обслуговування. За інших рівних показників пошуковик показує вище сторінки, які показують кращі результати за перерахованими критеріями.

Passage ranking system (система ранжування уривків)

Алгоритм, який аналізує не саму сторінку, а окремі розділи чи навіть уривки контенту – це робить пошук ще якіснішим.

Product reviews system (система відгуків про товари)

Це система, яка робить, по суті, те саме, що Helpful Content, – тобто «обчислює» найкориснішу інформацію та дає їй пріоритет – але «заточена» безпосередньо під товари. В іншому – те саме: алгоритм оцінює відгук як звичайний контент, «розглядаючи» насамперед експертність та досвід автора.

RankBrain («ранжуючий інтелект»)

Алгоритм «вивчає» значення слів, зустрінутих їм вперше, причому робить це у зв’язку з мовою, якою зроблено запит. Наприклад, запит banker від американця система зрозуміє як «людина, яка працює в банку», а ось для британця Google додасть у видачу також результати зі значенням «залізничний локомотив» (бо це додаткове значення слова banker в англійській).

Reliable information systems (інформаційні системи, що заслуговують на довіру)

Google дуже стежить за якістю інформації, у тому числі швидко змінюється. Коли алгоритми не впевнені, що конкретні дані є достовірними, він дає рекомендації, як виконати пошук іншими способами – такими, що призведуть до надійних результатів.

Site diversity system (система різноманітної видачі сайтів)

Як правило, Google не показує понад дві сторінки з одного сайту в кращих результатах, щоб виключити можливість захоплення видачі. При цьому здоровий глузд все ще в пріоритеті – якщо кілька сторінок одного сайту дійсно найбільш релевантні запиту, ніж всі інші, то робиться виняток.

Spam detection systems (системи виявлення спаму)

Інтернет містить величезну кількість спаму, який, якщо його не усунути, не дозволить пошуковику показувати найкорисніші та найрелевантніші результати. Google використовує цілу низку систем виявлення спаму. Спам, на жаль, постійно вдосконалюється – але й алгоритми також.

Більше цікавих матеріалів у нашій спільноті facebook.

[wpreactions sgc_id="5" bind_to_post="yes"]