Lỗi thu thập thông tin là gì và cách khắc phục

17 Nov, 2021 admin

Bạn kiểm tra trong báo cáo “Lỗi thu thập thông tin” của Google Search Console (trước đây gọi là Công cụ quản trị trang web) và bạn thấy rất nhiều lỗi thu thập thông tin như: Loads of 404s, 500s, “Soft 404s”, 400s,… Những lỗi này bắt nguồn từ đâu và làm thế nào để khắc phục chúng nhanh chóng? Hãy cùng Diều Hâu tìm hiểu qua bài viết dưới đây nhé!

1. Lỗi thu thập thông tin là gì?

Trước hết, để hiểu lỗi thu thập thông tin là gì, bạn cần nắm rõ quy trình thu thập thông tin của các công cụ tìm kiếm. Theo đó, để thu thập thông tin, công cụ tìm kiếm sẽ cố gắng truy cập vào mọi trang trên website của bạn thông qua robot được lập trình sẵn.

Nó sẽ tìm các liên kết đến trang web của bạn và bắt đầu thu thập tất cả nội dung công khai từ đó. Để hiểu rõ hơn về quá trình hoạt động của công cụ tìm kiếm, bạn có thể tham khảo bài viết này.

Lỗi thu thập thông tin

Lỗi thu thập thông tin khi truy cập trang web

Với cách thức hoạt động như thế của công cụ tìm kiếm, lỗi thu thập thông tin sẽ xảy ra khi công cụ tìm kiếm cố gắng truy cập vào trang trên website của bạn nhưng không thành công. Vì vậy, để robot có thể thu thập dữ liệu các trang và lập chỉ mục tất cả nội dung của bạn, bạn cần tìm cách hạn chế số lần truy cập không thành công này từ công cụ tìm kiếm.

2. Phân loại lỗi thu thập thông tin và cách khắc phục

Lỗi thu thập thông tin

Các lỗi trong quá trình thu thập thông tin

Các lỗi thu thập thông tin thường được Google chia thành hai nhóm cơ bản:

  • Lỗi website: Đây là những lỗi thu thập dữ liệu ngăn không cho robot của công cụ tìm kiếm truy cập vào toàn bộ website của bạn. Lỗi này xảy ra có nghĩa là các nội dung từ website của bạn không thể được thu thập thông tin.
  • Lỗi URL: Đây là những lỗi chỉ liên quan đến một số URL cụ thể, chứ không phải toàn bộ website. Vì vậy, các lỗi này dễ bảo trì và sửa chữa hơn nhiều so với lỗi website ở trên.

2.1 Các lỗi website và cách khắc phục

Lỗi thu thập thông tin

Các lỗi website phổ biến 

Lỗi DNS:

Lỗi DNS xảy ra khi công cụ tìm kiếm không thể giao tiếp với máy chủ của bạn. Điều này có thể là do website của bạn bị sập hoặc không thể truy cập. Đây thường là những vấn đề tạm thời. Google sẽ quay lại website và thu thập dữ liệu trên website của bạn vào những lần sau.

Khi gặp lỗi DNS, bạn hãy kiểm tra với nhà cung cấp DNS của bạn để đảm bảo trang web của bạn được thiết lập đúng và máy chủ của bạn được kết nối với Internet.

Lỗi máy chủ:

Nếu Google Search Console của bạn hiển thị lỗi máy chủ, điều này có nghĩa là robot không thể truy cập website của bạn. Lỗi máy chủ xảy ra khi công cụ tìm kiếm phải chờ quá lâu để truy cập trang web của bạn, trang web của bạn chứa các mã ngăn tải trang hoặc có quá nhiều lượt truy cập đến mức máy chủ không thể xử lý tất cả các yêu cầu.

Để khắc phục vấn đề này bạn cần nâng cấp máy chủ và loại bỏ các mã ngăn tải trang không cần thiết để Google có thể nhanh chóng thu thập thông tin và lưu trang của bạn trong chỉ mục.

Lỗi Robot:

Trước khi thu thập thông tin, Googlebot sẽ cố gắng thu thập dữ liệu từ tệp robots.txt của bạn, để xem liệu có trang nào bạn không muốn lập chỉ mục hay không. Nếu robot không thể truy cập tệp robots.txt, Google sẽ hoãn thu thập thông tin cho đến khi nó có thể truy cập tệp robots.txt. Vì vậy, hãy luôn đảm bảo rằng tệp robots.txt hoạt động.

Bên cạnh đó bạn có thể tối ưu file Robots.txt như hướng dẫn trong bài viết này.

2.2 Các lỗi URL và cách khắc phục

Có một số lỗi URL chỉ xảy ra ở một số trang web nhất định. Đó là lý do tại sao Diều Hâu sẽ liệt kê các lỗi này một cách riêng biệt:

Lỗi thu thập thông tin

Cách khắc phục các lỗi gây ra bởi URL

Lỗi URL trên thiết bị di động:

Đây là những lỗi thu thập dữ liệu xảy ra với các trang web trên smartphone.

Nếu bạn duy trì một tên miền riêng biệt chỉ có trên thiết bị di động ví dụ như m.example.com, robot thu thập thông tin có thể không được chuyển hướng đến URL tương đương trên trang web dành cho điện thoại thông minh. Ngoài ra, bạn cũng có thể vô tình đã chặn một số trang web di động bằng một dòng trong tệp robots.txt. Những việc này sẽ dẫn đến lỗi URL trên thiết bị di động.

Để khắc phục lỗi URL trên thiết bị di động, hãy kiểm tra kỹ lưỡng tệp robots.txt để đảm bảo bạn không chặn các trang web di động. Ngoài ra, hãy thiết lập để máy chủ của bạn chuyển hướng đến URL tương đương trên trang web dành cho điện thoại thông minh.

Lỗi phần mềm độc hại:

Nếu bạn gặp lỗi phần mềm độc hại trong công cụ quản trị trang web của mình, điều này có nghĩa là các công cụ tìm kiếm đã tìm thấy một phần mềm độc hại nào đó trên URL bạn xây dựng.

Để khắc phục vấn đề này, bạn cần kiểm tra các trang có URL bị lỗi và xem có phần mềm độc hại nào đang hoạt động trên nó không. Nếu có hãy xóa phần mềm độc hại đó đi. Ngoài ra, bạn có thể sử dụng các công cụ quét mã độc tốt nhất và miễn phí tại đây.

Lỗi Google Tin tức:

Có một số lỗi URL cụ thể liên quan đến Google Tin tức. Vì vậy nếu trang web của bạn nằm trong Google Tin tức, bạn có thể gặp các lỗi thu thập thông tin này.

Lỗi thu thập thông tin

Các lỗi này có thể xuất phát từ việc thiếu tiêu đề, thiếu mô tả thông tin, chứa nội dung không phải là một bài tin tức… Vì vậy, hãy đảm bảo chắc chắn rằng trang web của bạn chứa đầy đủ các thông tin trên để trình thu thập Google có thể đưa bài viết của bạn dưới dạng tin tức nổi bật.

Trên đây là các lỗi thu thập thông tin phổ biến và cách khắc phục. Hy vọng với bài viết này, Diều Hâu có thể mang đến những thông tin cần thiết cho bạn trong quá trình khắc phục các lỗi và sự cố phát sinh, từ đó nâng cao thứ hạng website.

0 0 votes
Article Rating
Subscribe
Notify of
guest
0 Comments
Oldest
Newest Most Voted
Inline Feedbacks
View all comments