Có rất nhiều câu hỏi có gửi đến cho mình, và rất nhiều vấn đề liên quan. Nhưng tôi nhận thấy bạn hoàn toàn có thể hiểu, và tự trả lời cũng như phát triển thêm kỹ năng trong SEO nếu bạn nắm bắt rõ Google hoạt động ra sao, chúng thu thập thông tin như thế nào để giải quyết truy vấn của người dùng chỉ với 0,5s là trả về kết quả. Cũng như cách chúng xếp hạng các Website.
Google thu thập thông tin và xếp hạng thứ hạng từ khóa
Trước khi đi vào bài viết bạn có thể xem qua Video.
Quá trình “Thu thập thông tin và lập chỉ mục” Website của Google
(Lưu ý rằng video này có phụ đề bằng Tiếng Việt)
Cách thức hoạt động của tính năng Tìm kiếm
Các quy trình này thiết lập nền tảng — đó là cách chúng tôi thu thập và sắp xếp thông tin trên web để chúng tôi có thể đưa ra các kết quả hữu ích nhất cho bạn. Chỉ mục của chúng tôi ở mức hơn 100.000.000 gigabyte và chúng tôi đã dành trên một triệu giờ tính toán để tạo chỉ mục. Tìm hiểu thêm về các thông tin cơ bản trong video ngắn này.
Tải về Inforgraphic để xem quy trình bằng hình ảnh: Tại đây.
Hiểu một cách đơn giản, không phải khi bạn truy vấn tìm kiếm. Google mới thu thập dữ liệu và đưa ra kết quả cho người dùng. Google sẽ sử dụng những con robots để bò vào những liên kết trên mạng Internet. Những con robot này có nhiệm vụ đi theo những liên kết có tại trang đích (url) đó. Khi một con robot bò vào đường dẫn A, nó phát hiện có 10 liên kết tại trang có đường dẫn A, nó sẽ tự nhân bản thêm 10 con robots để đi theo 10 đường dẫn đó …..
Robots chúng sẽ làm những gì?
Robots chúng di chuyển như những nhện (spider), quá trình thu thập dữ liệu (crawler), dữ liệu mà robots đọc được sẽ là dạng ký tự HTML (HyperText Markup Language – Ngôn ngữ đánh dấu siêu văn bản (Theo Wiki) ) tức là những đoạn mã hiển thị dạng ký tự mà cấu tạo nên Website. Đối với Robots ngôn ngữ lập trình Php, Asp, Java, Ruby, Python…. không quan trọng vì trình duyệt sẽ biên dịch chúng ra ngôn ngữ HTML. Vì thế chúng không thể hiểu nội dung của File Audo, của file Flash…. với những file ảnh thì hiện tại Google đã phát triển được khả năng nhận dạng chúng, và chúng có thể hiểu được một phần. Nhưng chủ yếu vẫn thông qua việc bạn khai báo thuộc tinh alt, tên file của ảnh.
Khi thu thập dữ liệu HTML này, robots sẽ bóc tách nội dung của Page ra và sau đó chúng sẽ loại bỏ những cú pháp của ngôn ngữ HTML, giữ lại những đoạn là nội dung dạng TEXT. Và từ đây chúng bóc tách tiếp để xem số lượng từ, mật độ từ khóa (keyword density). Chúng dựa vào một số yếu tố như Title, Description…. và quan trọng là mật độ từ khóa để xác định nội dung mà Page nó thu thập được đang nói tới…. đồng thời qua trình này chúng còn lưu lại số lượng các liên kết nội bộ, liên kết ngoài của những Page chúng thu thập được.
Sau khi tổng hợp, chúng sẽ gửi dữ liệu về phía Server lưu trữ của Google. Bây giờ tổng hợp khoảng 200 yếu tố xếp hạng website khác để đưa ra kết quả tốt nhất cho người dùng. Điều này giải thích vì sao khi bạn gõ từ khóa tìm kiếm –> google sẽ đưa ra cho bạn kết quả chỉ với 0,5s xử lý mà vẫn đảm bảo dữ liệu luôn tốt.
Google sẽ xắp sếp thông tin bằng cách lập chỉ mục
Sắp xếp thông tin bằng cách lập chỉ mục
Hệ thống web giống như một thư viện công cộng không ngừng phát triển với hàng tỷ cuốn sách và không có hệ thống quản lý trung tâm. Google về cơ bản gom góp các trang web trong quá trình thu thập thông tin, sau đó tạo chỉ mục để chúng tôi biết chính xác cách tra cứu nội dung. Giống như chỉ mục ở phía sau của một cuốn sách, chỉ mục của Google cũng bao gồm thông tin về các từ và vị trí của chúng. Khi bạn tìm kiếm, ở mức cơ bản nhất, các thuật toán của chúng tôi sẽ tra cứu những cụm từ tìm kiếm của bạn trong chỉ mục để tìm các trang phù hợp.
Quy trình tìm kiếm trở nên phức tạp hơn kể từ giai đoạn đó. Khi bạn tìm kiếm từ “chó” bạn không muốn một trang với từ “chó” xuất hiện hàng trăm lần. Bạn có thể muốn tìm hình ảnh, video hoặc một danh sách các giống chó. Các hệ thống lập chỉ mục của Google ghi chú nhiều khía cạnh khác nhau của trang, chẳng hạn như thời gian trang được xuất bản, liệu trang có chứa hình ảnh và video hay không và nhiều hơn thế. Với Đồ thị tri thức này, chúng tôi tiếp tục đi xa hơn việc kết hợp từ khóa để hiểu rõ hơn về con người, địa điểm và những thứ mà bạn quan tâm.
Nguồn: google.com
Nắm bắt nguyên tắc này, rất nhiều SEOer (mũ đen) có thể đánh lừa đươc Google (phần lớn sẽ bị phát hiện), để có thể nâng cao thứ hạng Website của mình như ẩn nội dung cho Robots, cho đoạn văn bản SPAM hiển thị trùng với màu nền, cho kích thước chữ quá bé để người dùng không nhìn thấy….. Google, Bing và các công cụ tìm kiếm khác còn phát triển thêm những thuộc tính mới như follow và nofollow để người lập trình có thể điều hướng Robots đi tới những nội dung tốt nhất.
Cũng từ đây, khi bạn thiết kế hoặc thuê người thiết kế Website, bạn có thể tối ưu được bằng cách điều hướng robots, sắp xếp Code một cách hợp lý để thân thiện nhất với Googlebot như sắp xếp các thẻ title, description ưu tiên lên trên, sử dụng những đoạn mã khai báo Java script xuống dưới, hoặc đẩy nội dung text cần SEO dịch sang trái…. nhớ đó Website của bạn sẽ trở nên thân thiện hơn với những con Robots, quá tình crawler dữ liệu của chúng sẽ tốt hơn. Tài nguyên Server của Google là “hữu hạn” vì vậy ngoài những việc tối ưu về SEO, thì việc tối ưu về Website là hết sức cần thiết.
Ở bài viết sau, Xuân sẽ lấy demo cho các bạn về quá trình Google đọc dữ liệu, dữ liệu Google sẽ lấy, sắp xếp và phân loại các con bot…. cũng như chia sẻ với các bạn một số phương pháp, thủ thuật SEO mũ đen nên tránh dựa trên chính những kiến thức về bài viết cách “Google thu thập dữ liệu và xếp hạng từ khóa” ở bài viết này. Hãy đặt câu hỏi nếu bạn cảm thấy thắc mắc thì bài viết sau bạn sẽ rễ hiểu hơn và hiểu tận gốc được vấn đề.
Xuân tóc đỏ – Internet Marketing Online
Bình luận của bạn