Работата на търсачките

Много начинаещи уебмастъри и само феновете на интернет сърфирането се занимават с въпроса: как работят търсачките? Основни принципи на търсачките днес ще разгледаме страната на съветите.




Модерната търсачка е цялостен комплекс, състоящ се от най-сложните програми и алгоритми, работещи с изумителна скорост. Представете си, новото алгоритъм за търсене Кофеинът от Google е в състояние да обработва информация, еквивалентна на 3 килограма A4 листа, само за 1 секунда!



Във всички търсачки софтуерните компоненти могат да бъдат разделени на пет основни групи:



  • "паяци"

  • "Пътуващи паяци"

  • индексатори

  • база данни

  • системи за резултати



програми паяк - паяци (паяци) - чрез алгоритъма на тяхната работа приличат на браузъри, но нямат визуални компоненти. Паякът зарежда html-кода на страницата чрез http протоколи.



Заявката за робот към сървъра включва команда"Get / path / document" и някои други команди за заявка http. За тази заявка паякът получава отговор от сървъра като текстов поток, съдържащ сервизната информация за документа и самия документ. Паякът е част от индексиращия модул за търсачките.



"Пътуващият паяк" - робот - е друг компонентиндексиращ модул. Crawler автоматично преглежда всички хипервръзки, които са намерени от паяка на страницата и по този начин търси документи, които все още не са известни на търсачката.



робот показалец (indexer) работи директно със съдържанието на страниците, заредени с роботи на паяк. Индексиращият извършва морфологичен, лексикален анализ на страниците, пречупвайки ги в отделни части.



Данни на Guide-Bulgaria.com (база данни) са специален софтуер, предназначен за съхраняване на индексираните документи, които се събират и индексират по компоненти.



Двигател за резултатите от търсенето - системата за издаване на резултатите е една от най-важнитекомпоненти на търсачката. Това е с изходната система, която се занимава с крайния потребител, който въвежда заявката в търсещия низ. Системата за извличане на резултати въз основа на повече от двеста различни критерии изпълнява избора на резултатите, които отговарят най-много на целите за търсене.



Алгоритъмът на такава селекция обикновено се нарича алгоритъм или механизъм за класиране, За да избегнете измама от страна на уеб администраторите, за да повлияете на резултатите от издаването, точните търсачки за алгоритми за класиране се пазят в най-строга тайна.



Въпреки това съществуват редица известни критерии, които се вземат предвид при работата на търсачките, оптимизирайки това, което уеб администраторът може "законно" да повлияе върху резултатите от търсенето. Например, Търсещата машина, когато анализира страницата, взема под внимание:




  • дали има заглавие в заглавието на страницата (заглавие)

  • Показва ли се ключовата дума в URL адреса на страницата?

  • дали има ключова дума в заглавията H1-H6, таговете STRONG, B, EM, I

  • каква е плътността на ключовите думи на страницата (Плътност)

  • Има ли ключовата дума в мета маркерите: ключови думи, описание

  • Има ли вътрешни и външни връзки на страницата?



Потребителят взаимодейства с търсещата машина чрез сървъра за търсене. Получена заявка за търсене от потребителяСървърът обработва и предава модула за класиране като вход към параметъра. От своя страна модулът извършва обработка на документи, информация за която се съхранява в базата данни на системата за търсене и прави оценка на страниците, съответстващи на искането на потребителя.



След това системата генерира фрагмент - текстова информация, която се показва на потребителя под формата на SERP (страница за резултати от търсенето) страници с резултати от търсенето.



По този начин, дори и кратко описание на основнитепринципите на работа на системите за търсене показват колко близо са всички взаимосвързани софтуерни компоненти на системата и колко добре търсачката трябва да работи и ясно да работи, за да предостави на потребителя най-бързата и най-надеждна информация за заявката си за търсене.



Работата на търсачките
Коментари 0