У довідковій системі Google з’явився новий документ. У ньому розказано як працює Google: про алгоритми, які дбають, щоб ви швидко знаходили найкращі результати.
Google має кілька десятків систем (алгоритмів) ранжування. Вони щодня оцінюють мільярди сторінок, враховуючи при цьому сотні факторів – все, щоб видавати вам найкорисніші результати за секунду.
Ось як називаються і за що відповідають ці системи.
Це система штучного інтелекту, яка «здогадується» про сутність запиту приблизно так, як це робить наш мозок, і працює, скажімо так, з перетином сутностей.
Яке поняття перебуває на перетині двох інших понять – «король» та «жінка»? Звісно, «королева»! Ваш мозок зрозумів це за секунду, і алгоритми таку просту модель теж давно освоїли. Тепер BERT схожим чином навчається (і дуже успішно!) на складніших випадках розуміти, що ж насправді шукає людина, навіть якщо запит не включає найпотрібніших і найточніших запитів.
Google має окремі системи, які дозволяють швидко знайти інформацію в кризових ситуаціях: особистих, пов’язаних із загрозою насильства чи вбивства, чи стихійних лих. Друга є оповіщення SOS і працює, щоб показувати повідомлення від влади. Вони включають номери та сайти екстрених служб, переклади корисних фраз, карти та багато іншого – докладніше можна переглянути у Довідці Google.
Алгоритм може знайти тисячі або навіть мільйони сторінок з релевантним змістом – але деякі можуть повністю дублювати контент один одного. Це не релевантний результат для користувача, тому за умовчанням Google приховує дублі.
Система ранжування Google враховує слова, що містяться в домені – це один із сигналів релевантності змісту. Але та сама система розуміє, що доменні імена на кшталт «найкращі місця, де можна пообідати» створені виключно для захоплення топу, і не враховує їх при формуванні видачі.
Свіжий контент не завжди за визначенням, що якісніше вийшов давно. Але алгоритми Google розуміють, коли фактор новизни може мати більше значення, і піднімають останні публікації вище в пошуку. Наприклад, якщо вийшов огляд на новий фільм, то при запиті інформації про фільм цей огляд буде вищим, ніж новина про запуск виробництва стрічки, а новина про великий землетрус недалеко від вас – вищою, ніж стаття з «Вікіпедії».
Цей алгоритм орієнтований те що, щоб люди бачили в результатах видачі більше корисного контенту, написаного людьми людей.
Google має системи, які фокусуються на тому, як сторінки посилаються одна на одну – завдяки цьому вони розуміють, про що сторінки та які з них можуть бути найбільш корисними.
Системи видачі місцевого контенту новин працюють в Google, як це стверджується в блозі компанії, «коли це доречно».
Це не відключений навесні в Росії Google News, а один зі швидких результатів. Але, можливо, ці алгоритми працюють у зв’язці: ми спробували перевірити роботу цього алгоритму на десятці запитів – і не побачили нічого релевантного.
Це система штучного інтелекту, здатна як розуміти, і генерувати письмову мову. ІІ використовується не для загального ранжирування в пошуку, а лише для деяких «додатків», наприклад, для пошуку інформації про вакцину проти COVID-19.
Цей ІІ Google використовує для розуміння того, про що йдеться у запитах і на сторінках – і зіставлення цих сутностей.
Це алгоритми, які націлені на пріоритет у видачі оригінального контенту. Якщо контент з якихось причин дублюється на одному сайті, власник може просто вказати одну зі сторінок як канонічну – Google передбачив спеціальну розмітку.
Алгоритми Google знижують у видачі сайти, контент з яких видаляється з двох причин:
По суті, сайт, потрапляючи в такі конфлікти, сигналить пошуковій системі, що у нього не все ок з контентною політикою – якщо його контент видаляють на законній підставі.
Цей алгоритм оцінює критерії, які свідчать про поганий чи хороший досвід взаємодії зі сторінкою: швидкість завантаження, зручність для мобільних пристроїв, відсутність нав’язливих міжсторінкових оголошень, безпека обслуговування. За інших рівних показників пошуковик показує вище сторінки, які показують кращі результати за перерахованими критеріями.
Алгоритм, який аналізує не саму сторінку, а окремі розділи чи навіть уривки контенту – це робить пошук ще якіснішим.
Це система, яка робить, по суті, те саме, що Helpful Content, – тобто «обчислює» найкориснішу інформацію та дає їй пріоритет – але «заточена» безпосередньо під товари. В іншому – те саме: алгоритм оцінює відгук як звичайний контент, «розглядаючи» насамперед експертність та досвід автора.
Алгоритм «вивчає» значення слів, зустрінутих їм вперше, причому робить це у зв’язку з мовою, якою зроблено запит. Наприклад, запит banker від американця система зрозуміє як «людина, яка працює в банку», а ось для британця Google додасть у видачу також результати зі значенням «залізничний локомотив» (бо це додаткове значення слова banker в англійській).
Google дуже стежить за якістю інформації, у тому числі швидко змінюється. Коли алгоритми не впевнені, що конкретні дані є достовірними, він дає рекомендації, як виконати пошук іншими способами – такими, що призведуть до надійних результатів.
Як правило, Google не показує понад дві сторінки з одного сайту в кращих результатах, щоб виключити можливість захоплення видачі. При цьому здоровий глузд все ще в пріоритеті – якщо кілька сторінок одного сайту дійсно найбільш релевантні запиту, ніж всі інші, то робиться виняток.
Інтернет містить величезну кількість спаму, який, якщо його не усунути, не дозволить пошуковику показувати найкорисніші та найрелевантніші результати. Google використовує цілу низку систем виявлення спаму. Спам, на жаль, постійно вдосконалюється – але й алгоритми також.
Більше цікавих матеріалів у нашій спільноті facebook.