21/6/16

Search Engine là gì?

Xin chào các bạn, trong bài viết trước mình có chia sẻ với các bạn về khái niệm “SEO là gì”.
Trong bài viết đó mình cũng nhắc đến một số thuật ngữ trong SEO và trong đó có nhắc đến thuật ngữ “Search Engine”. Vì vậy bài viết này mình xin chia sẻ cùng các bạn về Search Engine. Một cụm từ mà thường được nhắc đến trong SEO.
Mục lục nội dung bài viết
  • Thuật ngữ Search Engine
  • Các Search Engine hoạt động như thế nào
  • Những Search Engine phổ biến hiện nay
  • Lời kết

Thuật ngữ Search Engine

Thuật ngữ Search Engine được dùng để nói đến 2 hệ thống tìm kiếm.
  1. Do các chương trình máy tạo ra. (Crawaler-Based Search Engines và dạng thư mục do con người quản lý Human-Powered)
  2. Hệ thống này sẽ tìm kiếm và lập chỉ mục website theo 2 cách khác nhau:
Crawler-Based Search Engnes: Các máy tìm kiếm thuộc loại này được sử dụng các chương trình được gọi là Robots hay Spiders (mình hiểu chung nó là những con bot hay con bọ. ).
Các bot sẽ lần và tìm các website trên mạng và tự động phân tích và đưa website vào cơ sở dữ liệu của nó.
Khi có một yêu cầu tìm kiếm thì các Search Engine đối chiếu với các từ khóa trong dữ liệu mà nó đã lập chỉ mục và trả lại các kết quả phù hợp tại trang kết quả. Các cỗ máy tìm kiếm có chế cập nhật nội dung của website định kỳ để có thể phát hiện sự thay đổi của trang web nếu có.
Human-Powered Directories: Các chỉ mục của website (ở đây mình gọi nó là sitemap) hoàn toàn phụ thuộc và sự quản lý của con người. Nếu chúng ta muốn các Search Engine tìm thấy website của mình thì chúng ta phải gửi bản đăng ký website đến các Search Engine. (VD: Công cụ Submit URL của Google, Thêm sitemap của website vào Search Console của Google)
Các bạn có thể hiểu đơn giản là trong một website có những page nào đó ta muốn các con Bot không index nó thì, còn một số page khác ta lại muốn nó index.  (Các bạn có thể tham khảo thêm bài viết: “Thêm Sitemap và Submit URL của Website lên Google giúp website của bạn index nhanh hơn.” )

Các Search Engine hoạt động như thế nào

Bộ thu thập thông tin (Crawler)
Trước hết chúng ta cần hiểu  rằng các website trên thế giới được liên kết với nhau bằng hệ thống liết kết như mạng nhện vậy. Các SE ( Search Engine ) thả những con bọ tìm kiếm. Dựa trên những thuật toán có sẵn các con bọ tìm kiếm sẽ theo thuật toán và tìm đến các website.
Bộ lập chỉ mục (Index)
Từ những website mà các con bọ tìm đến thì các con bot của SE sẽ tiếp tục đi theo các liên kết trong website hoặc ngoài website. ( Trong quá trình Crawler các con bot sẽ nhân lên thành nhiều những con bot khác và đi đến các đường dẫn và index các site khác ).
Lập chỉ mục là dai giai  đoạn phân tích tài liệu (document) để xác định các chỉ mục biểu diễn các nội dung của bài viết.
Kho dữ liệu Repository
Là một hệ thống lưu trữ có khác năng mở rộng, nó quản lý một tập lớn các trang web. Kho dữ liệu Repositoy thực hiện 2 chức năng chính. Một là cho phép Crawler lữu trữ các trang web. Hai là nó phải cung cấp API truy cập hiệu quả để bộ Indexer và Collection Analysis có thể sử dụng để lấy các trang từ kho dữ liệu.
Nếu bạn chưa hiểu Indexer và Collection Analysis là gì thì dưới đây sẽ là một chút thông tin về nó.
Module Indexer và Collection Analysis có chức năng tạo ra nhiều loại chỉ mục khác nhau.
Module Indexer tạo ra hai loại chỉ mục chính đó là:
  • Text Index: Chỉ mục nội dung.
  • Structure Index: Chỉ mục liên kết.
Dựa vào hai loại chỉ mục này Collection Analysis sẽ tạo ra nhiều loại chỉ mục hữu ích khác như:
Link index: Tạo chỉ mục liên kết các đoạn web.
Text Index: Phương pháp đánh chỉ mục dựa theo nội dung (text-based) là phương pháp quan trọng để định danh các trang web có liên quan đến yêu cầu tìm kiếm.
Bộ tìm kiếm thông tin – Search Engine
Search Engine là cụm từ dùng để mô tả toàn bộ hệ thống bao gồm thu thâp thông tin, bộ lập chỉ mục, bộ tìm kiếm thông tin. Search Engine sẽ tương tác với người dùng qua giao diện của website, nó sẽ có nhiệm vụ tiếp nhận và trả về những kết quả từ người dùng sau khi đối sánh và tham chiếu.
Bộ Query Engine
Bộ công cụ Query Engine có nhiệm vụ nhận và tìm kiếm các yêu cầu của người sử dụng. Bộ công cụ này sẽ dựa vào các chỉ mục tại kho lưu trữ dữ liệu Repository để trả về các truy vấn của người dùng trên trang kết quả. Nhưng để tra về những kết quả chính xác nhất với người dùng thì sẽ cần đến module xắp xếp.
Module xắp xếp
Là một module có chức năng lọc các thông tin truy vấn từ người dùng từ rất nhiều các kết quả trong kho dữ liệu và trả về trang kết quả cũng như xắp xếp cho phù hợp nhất.

Những Search Engine phổ biến hiện nay

Khi nhắc đến Search Engine thì các ông lớn như Google, Yahoo, Bing chắc chắn không thiể thiếu rồi. Dưới đây là một chút thông tin và các ông lớn cho các bạn tham khảo nhé.
Google Search Engine
Google là một công trình nghiên cứu của Larry Page và Sergey Brin, hai nghiên cứu sinh tại trường Đại học Stanford. Họ có giả thuyết cho rằng một công cụ tìm kiếm dựa vào phân tích các liên hệ giữa các website sẽ đem lại kết quả tốt hơn cách đang được hiện hành lúc bấy giờ (1996). Đầu tiên nó được gọi là BackRub (Gãi lưng) tại vì hệ thống này dùng các liên kết đến để ước tính tầm quan trọng của trang. ( Xem thêm về Google tại Wiki https://vi.wikipedia.org/wiki/Google )
Bing Search Engine
Bing (trước đây là Live Search, Windows Live Search và MSN Search) là bộ máy tìm kiếm web (được quảng cáo là một bộ máy “ra quyết định”), đại diện cho công nghệ tìm kiếm hiện nay của Microsoft. Được Giám đốc Điều hành của Microsoft Steve Ballmer tiết lộ vào ngày 28 tháng 5 năm 2009 tại hội nghị All Things D tại San Diego, Bing là một sự thay thế cho Live Search, bộ máy tìm kiếm này được đưa lên trực tuyến hoàn toàn vào ngày 3 tháng 6 năm 2009.  (Các bạn có thể xem thêm về Bing tại Wiki https://vi.wikipedia.org/wiki/Bing)    
Yahoo Search Engine
Yahoo Search là công cụ tìm kiếm website thuộc sở hữu của tập đoàn Yahoo! Với lượng truy vấn tìm kiếm đạt 12,8% Yahoo Search đang là công cụ tìm kiếm lớn đứng thứ 3 tại Mỹ tính đến tháng 2 năm 2915.  (Các bạn tham khảo thêm về Yahoo Search tại đây https://en.wikipedia.org/wiki/Yahoo!_Search)

Lời kết

Trong bài viết mình có tham khảo một số tài liệu và chắt lọc lại những cái chính để chia sẻ cùng mọi người. Mong nhận được góp ý từ các bạn. Xin cám ơn.

Theo Taplamseo
Bạn đang đọc bài viết Search Engine là gì? tại Website: Học Lập Trình

0 nhận xét: