Порівняння різних пошукових систем
Рейтинг статті: / 15
НайгіршеНайкраще 

Для порівняння різних пошукових систем найчастіше використовують індекси пошукових систем – обєми баз даних індексів веб-документів.

Проведемо невеликий експеримент, доступний кожному. Виберемо найвідоміші англомовні пошукові системи:

Ask– одна з найстаріших пошукових систем (створена в 1996 році);

Google – найпопулярніша пошукова система, за допомогою якої шукають інформацію понад 60% користувачів Інтернету;

Yahoo! – відома пошукова система, об’єм індексу якої більший індексу Google;

Cuil – амбітна пошукова система, яка відкрилась в липні 2008 року, створена колишніми співробітниками Google;

Bing – “дитя” Microsoft, яке швидко завоювало прихильність.

Виконаємо пошук в кожній з наведених систем коротких слів, які найчастіше зустрічаються в англомовних документах, щоб оцінити об’єм індексу пошуковиків. Для порівняння результати зведені в табл. 1.

Навіть цей простий експеримент дозволить зробити певні висновки:

  • Об’єм індексу Yahoo! переважає індекс Google більше, ніж в 2 рази.
  • Ask за об’ємом індексу значно відстає від своїх конкурентів.
  • Bing дійсно може незабаром скласти серйозну конкуренцію Google.
  • Статистика, надана Cuil, надто суперечлива і не може сприйматися всерйоз до уваги.

Повторимо експеримент, але вже для російськомовного пошуку, вибравши, окрім Google, три головні пошуковики з Росії: Яндекс, Рамблер і Апорт. Останні два відносять всі прийменники до стоп-слів, тому довелось додати два короткі слова каі ок, які не так часто зустрічаються в документах, але дозволяють оцінити відносні об’єми індексів. Результати наведені в табл. 2.

Висновки:

  • Індекс Апорту в 10 разів менший індексу Рамблера, який приблизно в 50 разів поступається індексу Яндекса.
  • В російськомовному сегменті Яндекс за індексом майже в 20 разів переважає Google, а якщо взяти до уваги функціональні можливості Яндекса при виконанні складних запитів, то альтернативи йому в даному сегменті немає.

Залишається питання релевантності пошуку і для того, щоб продемонструвати, наскільки системи різняться цим параметром, знову експериментуємо, але вже з пошуком українською мовою лише на сайтах України. Обираємо Google, Яндекс та найвідоміший національний пошуковик Мета. Знову виникає проблема для порівняння, бо Мета також ігнорує пошук прийменників і навіть слово “є”. Доводиться обмежуватися лише відносними об’ємами індексів та шукати документи з короткими словами, в першу чергу, зі словами, які мають характерні українські літери і,їта є. Крім того довелось експеримент трохи змінити, додавши пошук в Яндексі та Google не лише документів з ключовими словами, а і взяти їх в лапки, щоб виконати пошук за правилом пошуку цілої фрази.

Результати, наведені в табл. 3, потребують деяких коментарів.

1. Для Google мі і ми – це одне і те ж саме, аналогічно для їв та ів. Також і в інших коротких словах літери і та и Google не розрізняє і лише пошук за методом “цілої фрази” дозволяє отримати більш релевантні результати, які за кількістю в 5-30 разів менші від попередніх (виділено в табл. 3). Інша причина нерелевантності пошуку за допомогою Google – віднесення знаку апострофа до роздільних знаків. Це означає, що при пошуку слова є ми отримуємо в результатах також документи зі словами бє,олівє,крупє,Тевє тощо. Беручи до уваги, що в українській мові достатня кількість слів, які закінчуються на “’є”, то зрозуміло, що хибних результатів досить багато. При цьому з табл. 3 видно, що навіть метод пошуку “цілої фрази” не дозволяє збільшити релевантність пошуку.

2. Яндекс не відрізняє є від е і тому при пошуку слова є в результатах будуть присутні всі документи зі скороченими іменами та по-батькові Е.. Аналіз першої сотні знайдених сторінок так і не прояснив, чому при пошуку точної фрази для є різко збільшується кількість знайдених документів. При пошуку документів зі словом ок Яндекс вносить в результати і документи зі словами Ока”, “Окита подібними, що різко збільшує кількість знайдених документів.

3. Національна Мета значно відстає за індексом від Google та Яндексу.

Загальних висновків два:

  • Для українських сайтів індекс Google менший від індексу Яндекса не так сильно, як для російськомовних сайтів – приблизно в 2 рази.
  • Релевантність пошуку ані Google, ані Яндексу на українських сайтах не задовольняє потреби користувача

Google+

 
>
КнигаНовиниПрактика пошукуПартнериПро нас
Підтримка та дизайн: Могильний С.С. Шаблон: Joomla Templates by BuyHTTP Joomla Hosting