Robots.txt

robots.txt

Robots.txt là một file dữ liệu nằm ở thư mục gốc trang web. Nó cho phép chúng ta liên lạc với các trình thu thập dữ liệu web và các robots web khác.

Robots.txt

Để có thể hiểu rõ hơn, bạn có thể truy cập file robots.txt của mình. Đây chỉ là một file text đơn giản, với 3 dòng dữ liệu.

Để có thể hiểu rõ hơn về file này, chúng ta sẽ bắt đầu với một số khái niệm cơ bản:

  • Web Robots: Còn được biết đến dưới một số tên gọi khác như Web Wanderers, Crawlers, or Spiders. Chúng là các phần mềm tự động được các search engines hoặc các phần mềm spam mail sử dụng. Chúng sẽ truy cập các trang web trên internet một cách tự động. Tùy vào mục đích, chúng sẽ thu thập nội dung, cấu trúc… của trang web.
  • User-agent: Là một phần trong header của gói tin gửi đến máy chủ web. Thông số này cho chúng ta biết được thiết bị, trình duyệt của người dùng. Ví dụ: chrome trên android, chrome trên iOS hay chrome trên Windows 10…

Quay trở lại file robots.txt, chúng ta sẽ thấy 3 dòng, khai báo 3 thông số.

  • User-agent: * . Trong CNTT, dấu * (sao, hoa thị, asterisk…) biểu thị cho tất cả. Nghĩa là với thông số này, chúng ta quy định cho tất cả các thiết bị đầu cuối.
  • Disallow: /wp-admin/: Khu vực không cho phép truy cập
  • Allow: /wp-admin/admin-ajax.php: khu vực cho phép truy cập

Những thông tin trên được lưu trữ trong file robots.txt. Chúng được gọi là The Robots Exclusion Protocol nghĩa là giao thức loại trừ robots. Giao thức này cho phép chủ sở hữu trang web hướng dẫn các robots biết những khu vực nên và không nên truy cập. Lưu ý, đây chỉ là chỉ dẫn, còn chuyện tuân theo hay không chúng ta không thể bắt buộc.

staff-only

Robots.txt với SEO

Khi tìm hiểu về SEO, có thể chúng ta có nghe nhắc đến file robots.txt. Vậy chúng ta sử dụng chúng với vai trò gì?

  • Cho phép/không cho phép robots của search engines truy cập trang web của chúng ta. Nếu chúng ta không cho phép, thì robots sẽ bỏ qua 1 trang hoặc toàn bộ trang web. Và nếu chúng bỏ qua, thì tất nhiên trang web của chúng ta sẽ không hiển thị trên các công cụ tìm kiếm.
  • Giới hạn 1 số url nhạy cảm ví dụ như link đăng nhập quản trị, link thanh toán … để khi khách hàng tìm kiếm trang web của chúng ta, các link này sẽ không hiển thị.