Để website của bạn xuất hiện trên trang kết quả tìm kiếm Google thì cần cho bot tìm kiếm đi vào bên trong website và thu thập dữ liệu. Một trong những việc mà webmaster (dùng WordPress) cực kỳ chú trọng, đó là cấu hình file robots.txt này cho chuẩn, để hiệu quả thu thập dữ liệu là tốt nhất. Xác định cái nào cho thu thập dữ liệu, cái nào ngăn không cho thu thập.
Không những thế, việc cấu hình file này tốt sẽ giúp bạn giảm bớt sự phá hoại về SEO từ đối thủ. Bài này mình chia sẻ Mẫu file robots.txt chuẩn cho website WordPress bạn áp dụng vào website đang làm xem sao nhé !
File robots.txt là gì ?
File robots.txt đơn giản là một file text thông thường, nó có nhiệm vụ khai báo cho Bots Google về những trang nào được thu thập dữ liệu, trang nào thì không.
Mặc định bots Google sẽ quét site của bạn kể cả khi bạn không có tùy chỉnh file robots.txt. Nhưng sẽ không đạt hiểu quả cao, do bots sẽ thu thập toàn bộ nội dung của bạn, có những thứ không cần phải index như plugin đang dùng, các thư viện nội dung bạn không muốn hiển thị trên kết quả tìm kiếm.
Nơi lưu file robots.txt trên WordPress
Khi bạn tạo website WordPress, nó sẽ tự động tạo ra một file robots.txt đặt ngay bên dưới thư mục gốc của hosting/server (thư mục public_html trên hosting cPanel).
Ví dụ: nếu site của bạn đặt trong thư mục gốc của địa chỉ thietkewebsitephuyen.com, bạn có thể xem file robots.txt ở đường dẫn thietkewebsitephuyen.com/robots.txt
, kết quả thông thường sẽ như này, tuy nhiên có lúc mình sẽ sửa đổi lại cho phù hợp với hoàn cảnh, thời điểm:
User-agent: * Disallow: /wp-admin/ Disallow: /readme.html Disallow: /license.txt Disallow: /search/?q=* Allow: /wp-admin/admin-ajax.php Allow: /wp-admin/images/* Sitemap: https://hocban.vn/sitemap_index.xml
Còn nếu bạn dùng Yoast SEO thì không cần phải vào host để tìm nó, mà theo trình tự: Yoast SEO >> Tools >> File editor >> Robots.txt | Nó hiển thị ngay đầu tiên luôn, bạn có thể sửa trực tiếp ngay trong đó và lưu lại.
Mình khuyến khích bạn sửa lại thay vì tạo mới file robots.txt | vì tạo lại nó cũng vậy thôi mà, quan trọng là nội dung bên trong, hay người ta còn gọi là cấu hình hay tùy chỉnh file robots.txt
Mẫu file robots.txt chuẩn cho WordPress
Như ở trên bạn đã thấy mẫu robots.txt của thietkewebsitephuyen.com đang sử dụng rồi đấy, mẫu này mình cũng tham khảo ở rất nhiều nơi và quyết định sử dụng nó, bạn cũng có thể lấy nó về và chỉnh sửa lại tên miền cũng như thêm những nội dung cần chặn nếu có.
User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /readme.html Disallow: /license.txt Disallow: /search/?q=* Disallow: /s/ Disallow: /?s= Disallow: *?replytocom Disallow: */attachment/* Disallow: /refer/ Disallow: /wp-login.php* Disallow: /component/* Allow: /*.js$ Allow: /*.css$ Allow: /wp-admin/admin-ajax.php Allow: /wp-admin/images/* Sitemap: https://hocban.vn/sitemap_index.xml
Trong đó:
- Disallow: là khai báo những trang / đường dẫn chặn thu thập dữ liệu;
- Allow: khai báo những trang / đường dẫn cho phép thu thập dữ liệu;
Nói về chuẩn SEO hay chưa thì cũng chưa chắc mẫu trên là nhất, tùy từng website mà mình tùy chỉnh lại cho phù hợp. Mẫu trên dùng cho blog WordPress mình thấy NGON, bạn có thể dùng thử một thời gian để xem thành quả.
Điểm quan trọng là mẫu này sẽ giúp bạn tránh được việc lợi dụng khung tìm kiếm của WordPress để tạo ra các link bẩn nội bộ, gây ảnh hưởng đến vấn đề SEO của website. Ví dụ: Các bên muốn phá hoại website của bạn về mặt SEO thì chỉ cần nhập nhiều truy vấn tìm kiếm “tầm bậy” và nếu bạn không chặn thì site bạn sẽ bị Google đánh giá xấu và rớt tóp tìm kiếm sau đó.
Xác nhận đã thay đổi nội dung file robots.txt với Google search console
Việc này rất quan trọng vì nếu sau khi bạn sửa lại file robots.txt nhưng không báo lại trong Google search console thì cũng chẳng có tác dụng gì. Do đó bạn phải thực hiện thêm bước này nữa, đây là cách thực hiện:
Bước 1: Copy toàn bộ nội dung trong file robots.txt sau khi đã chỉnh sửa >> mở Trình kiểm tra robots.txt của Google search console lên và dán đè nội dung đã copy vào đó.
Bước 2: Nhìn xuống dưới bạn thấy nút Gửi, nhấn vào đó >> nhấn tiếp Yêu cầu Google cập nhật là xong.
Như vậy là bây giờ file robots.txt trên host và trên Google search console đã thống nhất với nhau rồi đấy, rất đơn giản đúng không nào. Bài viết này mình chia sẻ dựa trên cách ứng dụng của mình để cho nhanh gọn hơn thôi chứ nó không phải là cách làm duy nhất. Bạn nào có những cách tùy chỉnh Robots TXT cho nó chuẩn hơn nữa hoặc bạn đang sử dụng file đó như thế nào, mời để lại bình luận bên dưới, cảm ơn bạn !