вівторок, 16 жовтня 2012 р.

    Пошукова система - це складний програмно-апаратний комплекс, що призначений для здійснення пошуку ресурсів в Інтернет, збереження відомостей про них в своїх базах і надання користувачу переліку посилань відповідно до його пошукового запиту.
   Головним завданням пошукової системи є здатність надавати користувачам саме ту інформацію, яку вони шукають. А навчити користувачів робити «правильні» запити до пошукової системи, які відповідають її принципам роботи неможливо. Тому, розробники створюють такі алгоритми і принципи роботи пошукових систем, які найкраще пристосовані до поведінки і ходу думок пересічного користувача.
   Пошукова система повинна діяти так само, як діє користувач при пошуку інформації і надавати за його запитом інформацію максимально швидко і просто. Користувач оцінює роботу системи за кількома основними критеріями. Чи знайшов він те, що шукав? Якщо не знайшов, то скільки разів йому довелося перефразувати запит, щоб знайти потрібне? Наскільки актуальною є надана інформація? Наскільки швидко пошукова машина обробляла запит? Наскільки зручно було представлено результати пошуку? Чи була потрібна інформація серед перших результатів пошуку? Як багато непотрібної інформації було знайдено нарівні з корисною? 
Для того, щоб задовольнити зростаючим потребам користувачів, розробники пошукових машин постійно вдосконалюють алгоритми і принципи пошуку, додають нові функції і можливості, всіляко намагаються пришвидшити роботу системи. 
Основні характеристики пошукової системи
   Повнота - це відношення кількості знайдених за запитом документів до загальної кількості документів в Інтернет, що задовольняють даному запиту. Наприклад, якщо в Інтернеті є 100 сторінок, що містять словосполучення «Як вибрати автомобіль», а за відповідним запитом було знайдено всього 60 з них, то повнота пошуку буде 0,6. Очевидно, що чим повніше пошук, тим більше ймовірність, що користувач знайде потрібний документ.
   Точність визначається ступенем відповідності знайдених документів до запиту користувача. Наприклад, якщо за запитом «Як вибрати автомобіль» знаходиться 100 документів, у 50 з них міститься словосполучення «Як вибрати автомобіль», а в інших просто наявні ці слова («як правильно вибрати магнітолу і встановити в автомобіль»), то точність пошуку вважається рівної 50/100 (= 0,5). Чим точніше пошук, тим швидше користувач знайде документи, що відповідають запиту і тим менше різного роду «сміття» серед них буде зустрічатися.
Актуальність характеризується часом з моменту публікації документів в Інтернет, до їх занесення до бази пошукової системи. Наприклад, на наступний день після появи цікавої новини, велика кількість користувачів звернеться до пошукових систем з відповідними запитами. Об'єктивно з моменту публікації новинної інформації на цю тему минуло менше доби, однак основні документи вже було проіндексовано і доступно для пошуку, завдяки існуванню у великих пошукових систем так званої «швидкої бази», яка оновлюється кілька разів на день.
   Швидкість пошуку тісно пов'язана з стійкістю системи до навантажень. В робочі години до пошукових систем може надходити сотні запитів в секунду. Така завантаженість вимагає скорочення часу обробки окремого запиту. Тут інтереси користувачів та пошукової системи збігаються: відвідувач бажає отримати результати як можна швидше, а пошукова машина повинна обробити запит максимально оперативно, щоб не гальмувати обчислення наступних запитів.
    Наочність представлення результатів є важливим компонентом зручного пошуку. До популярних запитів пошукова машина знаходить сотні, а то й тисячі документів. Внаслідок нечіткості складання запитів або неточності пошуку, навіть перші сторінки видачі не завжди містять лише потрібну інформацію. Це означає, що користувачеві часто доводиться здійснювати додатковий пошук всередині знайденого списку. Орієнтуватися в результатах пошуку допомагають різні елементи сторінки видачі пошукової системи.


Коротка історія пошукових систем.
   На початку розвитку Інтернет, число користувачів та обсяг доступної інформації були порівняно невеликим. Доступ до мережі Інтернет мали переважно співробітники науково-дослідницької сфери і завдання пошуку інформації в Інтернеті не була таким актуальним, як тепер. 
   Одним з перших способів організації доступу до інформаційних ресурсів Інтернет стало створення відкритих каталогів сайтів, посилання на ресурси в яких групувалися згідно до тематики. Першим таким проектом став сайт Yahoo.com, що відкрився навесні 1994 року. Після того, як кількість сайтів в каталозі Yahoo значно збільшилася, було додано можливість пошуку потрібної інформації всередині  каталога. В повному розумінні це ще не було пошуковою системою, оскільки пошукову область було обмежено лише ресурсами, присутніми в каталозі, а не всіма Інтернет ресурсами.
   Каталоги посилань широко використовувалися раніше, проте практично повністю втратили свою популярність на даний час, бо навіть величезні за своїм обсягом каталоги, містять інформацію лише про мізерно малу частину Інтернет. Найбільший каталог мережі DMOZ (його ще називають Open Directory Project) містить інформацію про 5 мільйонів ресурсів, тоді як база пошукової системи Google складає мільярди документів. 
   Першою повноцінною пошуковою системою був проект WebCrawler, що вийшов у світ в 1994 році. 
   У 1995 році з'явилися пошукові системи Lycos і AltaVista. 
   У 1997 році Сергій Брін і Ларрі Пейдж створили пошукову машину Google як дослідницький проект в Стенфордському університеті. На даний момент Google є найпопулярнішою пошуковою системою в світі! 
  У 1997 року було офіційно анонсовано пошукову систему Yandex, яка є найпопулярнішою в Рунеті. 
  На даний час існують три основні міжнародні пошукові системи - Google, Yahoo і MSN, що мають власні бази і алгоритми пошуку. Більшість інших пошукових систем використовує їх бази. Наприклад, пошук AOL (search.aol.com) використовує базу Google, а AltaVista, Lycos і AllTheWeb - базу Yahoo. 
В Рунеті провідними пошуковими системами є Яндекс, Rambler.ru, Aport.ru, Mail.ru.



Як шукати інформацію в Інтернет


Як знайти потрібну інформацію? Коли ви вже були на сайті, і знаєте конкретну адресу, питань немає. Але якщо її місцезнаходження невідоме?

Існують два способи.
   Перший: ви знаєте, де інформація може з'явитися. Наприклад, чекаючи появи новин, ви можете навідатися на сайт novosti.com.ua,  або портал новин www.newsukr.net , якщо новини стосуються нашої країни або світу.
   Для здійснення такого пошуку існують каталоги Інтернет-ресурсів. Вони мають ієрархічну структуру, верхній рівень якої утворюють 10-15 найзагальніших предметних або тематичних категорій. Ці категорії підрозділяються на рубрики, які у свою чергу можуть мати ще більш дрібне ділення.

Приклади каталогів:
http://meta.ua/reestr.asp - каталог українських ресурсів на МЕТА
http://top100.rambler.ru - каталог Тор100 на Rambler
http://yaca.yandex.ru - каталог Yandex
http://dir.bigli.ru - каталог Біглі
http://www.lib.kherson.ua/ukr-links.htm - каталог Інтернет-ресурсів ХОУНБ ім. О.Гончара.

Але якщо ви знаєте тільки що вам потрібно, та не знаєте де це може знаходитися?

   На цей другий випадок існують пошукові машини, або "пошукачі". Пошукова машина регулярно, щодня, 24 години на добу обходить всі адреси Інтернет, проглядає сторінки і вносить їх до своєї бази. Цей процес називається індексацією. Пошукач обходить всі відомі йому сайти, сам шукає нові і включає їх в свій "шляховий лист".

Приклади пошукових систем:
Google (www.google.ru)
META (www.meta.ua)
Rambler (www.rambler.ru)
Апорт (www.aport.ru)
Яндекс (www.yandex.ru)

    Практика показує, що зараз ефективно і правильно використовувати пошукові системи вміють не більше 3% осіб. В основному люди занадто покладаються на їх ні в якому разі недосконалі можливості і в результаті на запит з 1-2 слів отримують абсолютно не потрібну для себе інформацію.


Правила пошук інформації:

1. Перш за все визначиться з метою вашого пошуку. (і мовою запиту: рос., укр, англ. та ін.). При цьому потрібно концентруватися не тільки на самій меті, але і на тому, що може їй супроводити (ключові слова, спеціальні терміни, дієслова і так далі).
Увага! Кількість україномовних сторінок в мережі Інтернет значно нижча, ніж російськомовних і тим більш англійських. Тому далі деякі приклади наводитимуться рос. мовою.

2. Як вибрати пошукову систему? На сьогоднішній день пошукових машин існує декілька десятків. Найпопулярнішими для пошуку російською мовою є Яндекс (www.yandex.ru) і Google (www.google.ru). Українську мову підтримують всі російськомовні системи. Крім того існує українська пошукова система МЕТА (meta.ua), але база її трохи обмежена. Для пошуку на іноземних мовах використовують Google (більше 30-ти мов), який має зручну настройку, де можна задати: «Шукати сторінки тільки такими мовами».
Іноді для пошуку якоїсь найсвіжішої інформації, можливо, потрібно буде використовувати декілька пошукових машин (так званий метапошук).
Пошукові машини розрізняються не тільки підтримуваними мовами. Різниця в способах індексування дає різні результати при пошуку. По одному і тому ж запиту “Яндекс” видає результат – 110534 сторінок, Google – 54500 сторінок, Апорт - 784, Рамблер –240069.

Google початково володів мінімалістичним дизайном, не переобтяженим додатковою інформацією. Якщо ви хочете використовувати такий же спартанський стиль в Яндексі, то вам сюди: www.ya.ru, на Рамблері: www.r0.ru.

3. Для простого пошуку зайдіть на будь-який з сайтів пошукачів і в рядок пошуку введіть необхідну фразу. Рядок знаходиться посередині екрану.

Наприклад: Вам необхідно знайти розклад потягів що проходять через Київ. Як загальний запит можна так і спробувати "запитати" пошукову систему: «розклад всіх потягів що проходять через київ» (лапки не потрібні). Регістр - тобто рядкові букви або прописні - значення не має. І натисніть на клавіатурі клавішу "Введення" або кнопку пошуку поряд з рядком.

Проте, по такому запиту, наприклад, Яндекс, знаходить лише розклади поїздів, що проходять через Самару, Тернопіль, але Києва серед результатів пошуку не видно. Це у жодному випадку не означає, що цієї інформації в базі пошукової системи немає, просто запит був сформульований не дуже вдало.

Річ у тому, що будь-яка пошукова система прагне знайти сторінки, на яких знаходиться максимальна кількість слів з вашого запиту, більш того, якщо ці слова ще слідують одне за одним, то такі сторінки будуть виведені першими. Тобто, наприклад, якщо в тексті сторінки зустрічається фраза «розклад всіх потягів, що проходять через Самару», то за відсутності такої ж фрази «розклад всіх потягів, що проходять через Київ» система визначить, що вони мають 5 спільних слів, тобто з великою вірогідністю сторінка, що містить цю фразу вам підійде, хоча це і не так. Тому потрібно такий запит скоректувати, прибравши всі слова-паразити і залишивши тільки слова, які точно характеризують вашу потребу. У нашому випадку словами-паразитами є слова «всіх, що проходять, через», які можуть зустрічатися на яких завгодно сторінках. Задавши скоректований запит «розклад потягів київ», ми отримаємо в точності те, що шукали.

4. Пошукова машина сама розташовує результати пошуку по релевантності, тобто по якнайкращій відповідності запиту. Це означає, що найпершими будуть розташовані посилання на документи, в яких слова, що шукаються, знаходяться поряд одне з одним, ближче до початку сторінки або в заголовках. Результати пошуку виводяться посторінково. Кількість посилань на одній сторінці автоматично для більшості пошукачів дорівнює 20, але це число можна змінити в настроюваннях. Зовсім не обов'язково проглядати всі виведені посилання, краще змінити або скоректувати запит.

5. Іноді необхідно не прибирати зайві слова, а навпаки деталізувати запит, якщо слова, задані для пошуку, дуже загальні. А результати настільки схожі, що легко вибрати потрібне з десятків або сотень сторінок не представляється можливим?
Наприклад, пошук по слову "фантастика" дасть тисячі абсолютно різноманітних документів. "Російська фантастика" звузить круг пошуку. "Російська фантастика письменник Лук'яненко" напевно буде точним.

6. В більшості випадків просто скоректувати запит недостатньо. Необхідно використовувати оператори мови запитів пошукової системи, яку ви використовуєте. Ці оператори не тільки істотно полегшать вам життя, але і допоможуть знаходити таку інформацію, яку за допомогою простих запитів знайти абсолютно неможливо.

Оператори, спільні для всіх пошукових систем.

6.1. Оператор строгої відповідності, як правило, в сучасних пошукових системах це лапки "". Поєднання слів, які ви вкажете в лапках, враховуватиметься системою як єдине ціле, тобто таким чином ви задаєте порядок слідування слів одне за одним. Наприклад, за запитом комп'ютерні журнали ви можете отримати в результатах пошуку сторінки із словами, що згадуються відособлено, тобто на одній сторінці може бути слово комп'ютерні, на іншій - журнали і т. д. Конструкція ж "комп'ютерні журнали" в лапках примушує пошукову систему відкинути всі зайві сторінки і показувати лише ті, на яких ці два слова йдуть одне за одним.

6.2. Оператор обов'язкової наявності слова "+" (плюс або «&», або AND) і оператор обов'язкової відсутності слова "-" (мінус або NOT). Наприклад, якщо ви хочете знайти сайт журналу ЧИП, достатньо до запиту "комп'ютерні журнали" додати + чип: "комп'ютерні журнали" + чип. Якщо ж потрібно вивести всі журнали, окрім Чипа, потрібно ввести: "комп'ютерні журнали" - чип.
Увага! Достатньо часто буває корисно, щоб необхідні ключові слова були присутні в межах одного документа. Для цього необхідно використовувати оператор логічного «І» AND. Проте, у всіх пошукових системах це ж можна зробити, поставивши звичайний пропуск (Space). Наприклад, запити: комп'ютерні журнали і комп'ютерні AND журнали, як правило, дадуть один і той же результат.

6.3. Оператор логічного «АБО», у якості якого використовується логічний оператор OR (знак «|») дозволяє знайти хоч би одне слово із запиту. Наприклад, за допомогою запиту: комп'ютерні OR журнали можна знайти документи, в яких зустрічається або слово комп'ютерні, або слово журнали.

6.4. Складні запити за допомогою логічних операторів можна здійснювати, використовуючи круглі дужки: обласні AND (архіви OR бібліотеки); (бібліотеки OR архіви) + (обласні OR міські). Дужки задають певний порядок ключових слів і виконання їх операторів.

6.5. Пошук без урахування морфології. Щоб зафіксувати словоформу без розгляду машиною її морфологічних варіацій в рядку запиту перед терміном ставиться знак "!". Наприклад: !інформація !база !даних

6.6. Усікання (пошук по частині ключового слова). Як правило, для цієї мети вживаються знаки: «*» (позначає довільну частину слова) і «?» (позначення будь-якого символу). Запит Комп'ютер* дасть результати: “Комп'ютер”,”комп'ютерра”, ”Комп'ютерники” і т. д. Запит: к?мпанія – результат: кампанія або компанія.

6.7. Регістр букв: сучасні системи розрізняють слова, набрані прописними і рядковими буквами. Якщо ключові слова починаються з великої літери або повністю введені великими літерами, то ці ж слова написані рядковими буквами, знайдені не будуть. При введенні ключових слів рядковими буквами область пошуку розширюється, тому що ключові слова шукаються незалежно від регістра.

Увага! З мовами запитів конкретної пошукової системи можна завжди ознайомитися в її розділі допомоги. При цьому потрібно відзначити, що багато хто з них володіє власними додатковими операторами, які можуть допомогти досвідченим користувачам.

7. Розширений пошук, або пошук з умовами різного ступеня складності. Зайдіть в режим розширеного пошуку по посиланню, розташованому праворуч від рядка пошуку, яке так і називається, - "Розширений пошук" (у Яндекса це може бути тільки знак "плюс"). Ви опинитесь на сторінці з декількома додатковими кнопками і підменю, які представляють широкі можливості для деталізації запиту, введення додаткових параметрів пошуку, фільтрів і т. д. (без знання мови запитів і його операторів).

Наприклад, можна задати умову точної відповідності фрази, без урахування словоформ. У Яндекса ця умова називається "употреблены в тексте: точно так, как в запросе", в Рамблері (www.rambler.ru) "Искать слова запроса: точную фразу", в Google (www.google.ru) "Знайти результати що містять точну фразу" і т. д.

8. Складнішим (і від того менш використовуваним) є Представлення необхідного документа як образа.

8.1. Пошук можна істотно спростити, уявивши собі образ сторінки, що містить потрібну інформацію. Річ у тому, що існують загальноприйняті правила, яким підкоряються практично всі сторінки мережі. Основне і головне правило, яке потрібно завжди пам'ятати, полягає в тому, що заголовок кожної сторінки стисло і точно характеризує її вміст. Ви будете здивовані, але відшукати, наприклад, яку-небудь книгу в електронному вигляді дуже просто. Звичайно, можна спробувати її знайти, просто задавши в пошуковій системі прізвище автора і назву і врешті-решт цю книгу знайти, але так ви ризикуєте витратити силу-силенну часу на проглядання абсолютно не потрібних для вас сторінок із згадкою даної книги або автора, але без її електронної копії.
Хоча можна відшукувати потрібну інформацію прямо в заголовках сторінок, минувши інший їх зміст.

Простий приклад - вам потрібно знайти, припустимо, книгу М.Булгакова "Мастер и Маргарита". Спершу складаємо образ потрібної нам сторінки - швидше за все, в її заголовку можуть знаходитися і прізвище автора, і назва твору. Далі потрібно з'ясувати, як включити розширені можливості пошуку по заголовку в пошуковій системі, яку ми використовуватимемо. Наприклад, в Яндексі для пошуку по заголовках потрібно використовувати конструкцію $title( ), таким чином, наш запит може виглядати як: $title(булгаков "мастер и маргарита"). Результат перевершує всі очікування - перші 7 посилань, які вивів Яндекс в результатах пошуку, містять те, що нам потрібне.

Для пошуку по заголовках у Google використовується абсолютно інша конструкція - allintitle.

8.2. Але не тільки заголовки корисні при пошуку потрібної інформації. Неоціниму допомогу може тут надати і текст посилань. Адже будь-який сайт має строго певну структуру, тобто якісь посилання, які ведуть на його сторінки або сторінки інших сайтів. Кожне таке посилання має власний опис, за значенням сумісне, а часто і більш інформативне, ніж заголовок самої сторінки, на яку вона веде. Адже і в текстах посилань теж можна шукати, та ще й як!

ВДАЛОГО ПОШУКУ!