Tìm kiếm nhiều nhất:

, , , , , , , , , , , , , , , , , , , , , , , , ,
Đang tải...

Robots.txt disallows Web Robot, User-agent

Như các bạn đã biết, để đánh chỉ số một trang Web thì các máy tìm kiếm thường gửi các bọ tìm kiếm tới viếng thăm trang Web cần được chỉ số hóa. Ngoài việc sử dụng thẻ Meta Tag Robots, thì bạn có thể ứng dụng một file text đặc biệt đặt tại thư mục gốc của tên miền để điều chỉnh ứng xử của bọ tìm kiếm (trường hợp ứng dụng cho Google xem Google Robots).

Giới thiệu Robots.txt
Như đã viết ở trên, khi đánh chỉ số một trang Web thì các bọ tìm kiếm sẽ kiểm tra nội dung một tệp tin đặc biệt đặt tại thư mục gốc tên là robots.txt. Tệp tin này chứa hoàn toàn nội dung văn bản text (không phải HTML). Robots.txt được hiểu với nghĩa là “Robots Exclusion Protocol”; nó cho phép người quản trị Web (Webmaster) định ra các thành phần với quyền hạn riêng biệt cho từng bọ tìm kiếm. Nói cách khác thông qua tệp tin này, Webmaster sẽ giao tiếp với bọ tìm kiếm để điều khiển tác vụ của các bọ tìm kiếm nói trên.

Cú pháp trong Robots.txt
Cú pháp dùng trong tệp tin này thường dùng để cấm robots (bọ tìm kiếm) quét các trang mà đường dẫn URL được chỉ ra. Mỗi đoạn văn bản thường gồm có tên của bọ tìm kiếm (user agent hay robot) và đường dẫn mà nó không được quét. Và thường là bạn không thể chỉ định ra thư mục nhất định hay là các loại tệp tin mà bọ tìm kiếm có thể đánh chỉ số. Nên nhớ rằng, ngầm định, các robots có thể truy cập bất kể thư mục nào theo đường dẫn URL không được cấm trong tệp tin robots.txt. Tất cả mọi tài nguyên không bị cấm thì đều có thể được truy cập.

Bạn có thể hiển thị file robots.txt chỉ đơn giản bằng trình duyệt ( http://vietseo.net/robots.txt ). Bạn sẽ thấy một tệp tin định dạng text, rất dễ hiểu.

Xin nói thêm rằng Google gần đây có hỗ trợ cú pháp Sitemap trong robots.txt cho phép chỉ định sơ đồ Web (Sitemap XML) trong robots.txt

Ví dụ phần cú pháp Sitemap được chỉ định trong fie robots.txt trên vietSEO như sau :

[source:html]
#BEGIN XML-SITEMAP-PLUGIN
Sitemap: http://www.vietseo.net/sitemaps.xml.gz
#END XML-SITEMAP-PLUGIN
[/source]

Ứng dụng robots.txt
Đây là toàn bộ tài liệu liên quan tới chuẩn loại trừ Robot, mà theo lý thuyết thì tất cả các robots đề phải tuân theo các chỉ định trong file robots.txt. Sử dụng file robots.txt Cú pháp Ghi chú cho Webmaster User-agent: *
Disallow: Dấu (*) có nghĩa là áp dụng cho mọi robots. Nhưng vì không có tài nguyên nào bị cấm nên thành ra tất cả mọi thư mục đề được cho phép. User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
...