Chat hỗ trợ
Chat ngay
Ngày đăng: 25/12/2021 | 277 lượt xem

Website nào cũng chứa file robots.txt. Vậy file robots.txt là gì? Ý nghĩa của nó ra sao? Cách chỉnh sửa file robots.txt như thế nào? Hãy cùng tôi đi tìm hiểu file này trên website nhé !

File Robots.txt là gì?

File robots.txt là một tập tin văn bản đơn giản có dạng .txt. Các tệp robots.txt chủ yếu nhằm mục đích quản lý hoạt động của các bot như trình thu thập dữ liệu trên web, truy cập, index nội dung và cung cấp các nội dung đó cho người dùng.

 

File Robot.txt là gì? Cách chỉnh sửa File Robots.txt

File Robot.txt là gì? Cách chỉnh sửa File Robots.txt

File Robots.txt có ý nghĩa quan trọng, nó cho phép bot của công cụ tìm kiếm thu thập dữ liệu toàn bộ trang web của bạn. Bên cạnh đó, bạn cũng có thể chặn các mục dữ liệu trên trang web theo ý muốn của mình không cho bot thu thập dữ liệu.

File Robots.txt có nhiều tính năng bổ ích, tuy nhiên với kinh nghiệm của tôi, tôi khuyên bạn nên chú ý tới 3 tính năng quan trọng của File Robots.txt như sau:

  • Chỉ định vị trí của sơ đồ trang web (sitemap)
  • Cho phép bot thu thập dữ liệu các mục đã chỉ định
  • Giữ toàn bộ các phần của trang web ở chế độ riêng tư

Định dạng cơ bản của file Robots.txt

User-agent: [user-agent name]

Disallow: [URL string not to be crawled]

Sitemap: https:www.domain.com/sitemap.xml

2 dòng này được coi là một tệp robots.txt hoàn chỉnh - mặc dù một tệp robots có thể chứa nhiều dòng User-agent và chỉ thị của người dùng (nghĩa là Disallow(không cho phép), Allown(cho phép), thu thập dữ liệu trễ, v.v.).

Tùy theo website, lập trình viên cho phép bạn chỉnh sửa file Robots.txt hay không? Vì file này rất ít khi sửa nhiều. Bạn chỉ cần soạn thảo ra file Robots.txt hoàn chỉnh và nhờ lập trình viên update hộ trên mã nguồn website. Hoặc bạn cũng có thể yêu cầu lập trình viên làm thêm mục cho tự chỉnh sửa trong trang quản trị website.