Căn bản về Machine Learning có thể giúp ích cho quá trình Seo và nội dung của bạn

Thảo luận trong 'Thủ thuật SEO' bắt đầu bởi Admin, 27/12/14.

  1. Admin

    Admin Administrator Thành viên BQT

    Tham gia ngày:
    6/12/14
    Bài viết:
    70
    Đã được thích:
    1
    Điểm thành tích:
    8
    Web:
    Có lẽ nhiều người ở đây hẳn đã từng nghe về thuật ngữ như "Học máy" hoặc "Máy học" (Machine Learning), hay "thuật toán học máy" và là 1 khái niệm có trong bộ môn Trí tuệ nhân tạo mà Googe đang xử dụng. Nếu bạn đọc định nghĩa trong Wikipedia có lẽ sẽ hiểu được phần nào về những định nghĩa này. Nói ngắn gọn như Athur Samuael (1959) thì Máy học là một lĩnh vực nghiên cứu về khả năng "học" của máy tính mà không cần phải lập trình tường minh ngay từ đầu.
    [​IMG]
    Chắc chắn sẽ có nhiều bạn thắc mắc tại sao chúng ta phải nghiên cứu về thuật ngữ Machine Learning và biết nó để phục vụ cho mục đích gì? Câu trả lời là: Nếu bạn có thể hiểu những điều cơ bản (không cần quá cao siêu) về Máy học hoặc thuật toán học máy, hiểu được làm thế nào những cỗ máy có thể tự học và ứng dụng của nó vào trong các thuật toán, thì điều đó là vô cùng tốt cho tương lai SEO của các bạn, cả về mặt SEO kỹ thuật lẫn SEO nội dung. Nó đồng nghĩa với việc bạn nắm rõ được cách thức hoạt động của các cỗ máy tìm kiếm.

    Điều đầu tiên chúng tôi muốn nhấn mạnh với các bạn rằng: Một thuật toán chỉ đơn thuần là một quá trình tập hợp HỮU HẠN các phép toán để tập trung giải quyết các vấn đề nào đó. Tuy nhiên, một thuật toán học máy vừa có thể xác định được một vấn đề, vừa tiếp tục suy luận xác suất tiếp theo của cùng một vấn đề đó (hoặc liên quan).

    Ví dụ như "các máy có thể "học" cách phân loại thư điện tử xem có phải thư rác (spam) hay không và tự động xếp thư vào thư mục tương ứng. Học máy rất gần với suy diễn thống kê (statistical inference) tuy có khác nhau về thuật ngữ.” (Theo Wikipedia)

    Các quá trình học máy

    Tùy thuộc vào người lập trình mong muốn tập trung vào mảng gì thì hướng tiếp cận họ đưa ra cũng sẽ khác nhau. Ngay cả trong công cụ tìm kiếm, thì trọng tâm cũng không hề giống nhau.

    Các hướng tiếp cận phổ biến nhất đó là Suy luận thống kê và Lập luận quy nạp (mặc dù từ “suy luận” không thực sự phù hợp đối với một cỗ máy, tuy nhiên chúng ta đang tìm hiểu dưới góc nhìn của trí tuệ nhân tạo).

    Suy luận thống kê (hay Suy diễn thống kê)

    Suy luận thống kê đơn giản là tập hợp dữ liệu và phân tích xác suất của các lần xuất hiện trong tương lai sau kết quả quan sát trước đó.

    Ví dụ, nếu một thuật toán thu thập được những trường hợp đã quan sát có tới 80% khả năng sẽ xảy ra, thì nó sẽ suy luận ra rằng xác suất của những lần tới cũng sẽ là 80%.

    Lập luận quy nạp

    Lập luận quy nạp hay logic quy nạp cũng tương tự như suy diễn thống kê. Nó cũng đảm nhiệm vai trò suy luận ra các xác suất trong tương lai, tuy nhiên lập luận quy nạp thiên về hướng chứng minh hoặc bác bỏ một lý thuyết cụ thể nào đó. “Kiểu lập luận này được dùng để gán tính chất hay quan hệ cho một phạm trù dựa trên các ví dụ của phạm trù đó; hoặc để phát triển định luật dựa trên một số giới hạn các quan sát của các hiện tượng lặp đi lặp lại. Ví dụ như: Lý thuyết là một con chó khi nghe tiếng động lạ sẽ sủa, Machine Learning sẽ thu thập tất cả các kết quả đã được thử nghiệm theo kiểu logic quy nạp để xem xét liệu có nên chứng thực hoặc loại bỏ lý thuyết đó hay không, dựa trên những kết quả nổi bật trước đó.

    Có thể nói, cả mô hình suy diễn thống kê và logic quy nạp đều giống nhau ở chỗ cho phép thống kê tổng hợp các kết quả ngẫu nhiên khác nhau, chỉ khác cho đến khi chúng nhận diện được một tỷ lệ phần trăm cụ thể nào đó từ những kết quả đã thu thập được để đưa ra quyết định (suy diễn thống kê) hoặc chứng minh - loại trừ (logic quy nạp).

    Tính ứng dụng của Học máy vào các thuật toán công cụ tìm kiếm

    Giả sử như một thuật toán ra mắt được thiết kế để quyết định tính hợp lệ của các kết quả tìm kiếm đối với một truy vấn cụ thể. Nó có thể dựa vào các yếu tố như Bounce Rate để chứng minh tính hợp lệ đó có đủ tiêu chuẩn hay chưa. Nếu người dùng không phá vỡ ngưỡng chỉ tiêu của Bounce Rate mà công cụ tìm kiếm đã đặt ra, thì kết quả sẽ được coi là đồng nhất và liên quan chặt chẽ tới truy vấn, điều đó chứng minh rằng các thuật toán xếp hạng là chuẩn xác. Cách thức áp dụng này chính là suy luận thống kê.

    Mặt khác, một thuật toán được thiết kế để phát hiện ra trường hợp một website mua lại liên kết sẽ dựa vào những yếu tố như: một tập hợp các trang được liên kết với cùng một trang nguồn, hoặc nơi mà những trang nguồn đó đã được tìm thấy là đang mua bán liên kết. Tùy thuộc vào từng mức độ phần trăm cho những kết quả đã thu thập được (mà chúng tôi đã giải thích bên trên) mà thuật toán này sẽ thiết lập những xác suất khả thi để xem xét website này có thực sự mua link từ các trang khác hay không. Khi đã kiểm tra được tất cả các dấu hiệu và thu thập được đầy đủ chứng cứ thì thuật toán này sẽ chứng thực rằng xác suất xảy ra là đúng, hoặc không đúng. Cách thức ứng dụng này như bạn đã biết được gọi là logic quy nạp.

    Tuy nhiên, liệu chúng ta có dám chắc rằng tất cả các công cụ tìm kiếm đều đang sử dụng hai hình thức này cho các ví dụ trên mà chúng tôi đã đưa ra?

    Câu trả lời là không, hẳn nhiên là vậy. Những ví dụ trên chỉ là 2 trong rất nhiều khả năng khác mà công cụ tìm kiếm sử dụng suy luận thống kê và logic quy nạp.

    Tuy nhiên, điều đáng nói hơn ở đây là một thuật toán học máy có khả năng “học hỏi” như thế nào, trong cả hai trường hợp trên?

    Đối với suy luận thống kê thì khá là rõ ràng. Một khi thuật toán quyết định 80% khả năng xảy ra thì những xác suất trong tương lai mặc dù có thể cân chỉnh cho phù hợp trong giới hạn đó nhưng kết quả vẫn sẽ phụ thuộc hoàn toàn về xác suất và dựa trên số liệu thống kê.

    Tuy nhiên đối với logic quy nạp thì lại phức tạp và tinh tế hơn một chút. Thông thường, logic quy nạp sẽ phải giải quyết với nhiều dấu hiệu (hoặc khả năng) khác nhau với tỷ lệ không giống nhau. Điều đó thể hiện một đường cong xác suất phi tuyến tích mà chúng được coi là phức tạp hơn rất nhiều.

    Trong ví dụ trên, những yếu tố như có bao nhiêu trang web mục tiêu khác được liên kết với một trang nguồn đang bị nghi ngờ là có mua bán link, các thông số xác suất của hành động bị nghi ngờ đó là bao nhiêu, lịch sử của tất cả các website có liên quan trong phần phân tích và các dấu hiệu khác. Tất cả gộp chung trong một công thức toán học mà khi các yếu tố đã được tổng hợp lại, website đó sẽ được đặt vào trong một ngưỡng mà công cụ tìm kiếm đã đưa ra trước đó và tiến tới bị phạt hoặc giảm thứ hạng…

    Machine Learning ứng dụng cho Truy vấn tìm kiếm và Xếp hạng

    Vậy những gì mà các thuật toán có thể học và không thể học? Như chúng tôi đã đề cập trước đó, trí tuệ nhân tạo vẫn còn là mơ ước rất xa vời để trở nên hoàn hảo. Tuy nhiên, việc đem suy nghĩ, cảm nhận vào trong các cỗ máy, mặc dù bị nhiều người chế giễu nhưng chúng tôi tin không phải là hoàn toàn không thể.

    Ngay ví dụ đơn giản nhất cho điều này đó là việc một công cụ tìm kiếm hoàn toàn có thể quyết định tính tiêu cực hoặc tích cực đối với một truy vấn cụ thể như: truy vấn [các dịch vụ khách hàng kém chất lượng] thì công cụ tìm kiếm sẽ dò ra những từ như “kém”, “tồi”, “quá dở” trong phần nội dung, tiêu đề hoặc URL để quyết định (hình bên dưới). Thậm chí đối với các thuật ngữ phức tạp hơn như mỉa mai, châm biếm, hài hước thì một số thuật toán cũng hoàn toàn có thể hiểu được.

    [​IMG]

    Mặc dù các bạn có thể cho rằng ví dụ trên chỉ đơn giản là nhận ra các từ đồng nghĩa trong các truy vấn, nhưng hãy nhớ rằng, việc nhận diện từ đồng nghĩa hay trái nghĩa chỉ là bước đầu trong việc đánh giá của các công cụ tìm kiếm. Thử nhìn vào các truy vấn tìm kiếm khác phức tạp hơn như [những dịch vụ chăm sóc khách hàng không tốt]:

    [​IMG]

    Vậy đối với thuật toán, từ “không tốt” (not good) đồng nghĩa với từ “kém” (bad). Tuy nhiên không phải lúc nào Google cũng có thể tự đánh giá tất cả các mối quan hệ giữa các từ cũng như sắc thái của nó – bởi có quá nhiều tình huống khác nhau. Nhưng có một điều chắc chắn rằng họ sẽ cải thiện điều này trong tương lai.

    Thuật toán của công cụ tìm kiếm không chỉ giải quyết được các vấn đề về tiêu cực và tích cực đơn thuần, nó còn có thể nhận diện được sắc thái tăng tiến như “tốt, “tốt hơn”, “tốt nhất” hoặc tương tự như vậy. Ngay cả những cụm như “quá khứ”, “hiện tại”, “tương lai” cũng được nhìn thấy trong các kết quả tìm kiếm đối với các truy vấn về thời trang hay các từ khóa trừu tượng khác.

    Machine Learning ứng dụng vào nội dung như thế nào?

    Các thuật toán học máy có thể học được từ những mô hình mà trước đó nó đã nhận diện được, cả truy vấn, dữ liệu lẫn mối quan hệ giữa chúng. Đó là lý do vì sao khi viết nội dung sử dụng các thuật ngữ rộng hơn (bao gồm cả tính từ, bổ từ, trạng từ... thay vì chỉ có danh từ và động từ) sẽ có tác động kép như sau:
    • Nó cung cấp cú pháp mới trong một bối cảnh cụ thể, có thể hỗ trợ quá trình học hỏi của các thuật toán.
    • Nó cũng cho phép bạn viết nội dung có bối cảnh hơn và hướng nhiều đến người đọc chứ không phải công cụ tìm kiếm.
    Khi ứng dụng học máy vào trong các thuật toán, chúng tôi cho rằng các cỗ máy sẽ có thể hiểu được những điều phức tạp hơn rất nhiều trong tương lai – đó chính là sự nắm bắt về ngữ nghĩa. Nó cũng giúp bạn mang đến nội dung hữu ích, phong phú hơn, góp phần tăng tính tương tác giữa người dùng và website. Chúng tôi cho đó là điều có lợi cho cả nhiều bên, công cụ tìm kiếm và chủ website và độc giả.

    Lưu ý: Đây là một bài viết có tính chuyên môn cao và cần nghiên cứu. Nếu bạn đọc không hiểu thì tốt nhất nên đọc lại hoặc bỏ qua bài viết này vì nó không dành cho bạn.

    Hãy bình luận bên dưới để chia sẻ những ý kiến đóng góp cho bài viết này!

    nguồn thegioiseo.com
     

Chia sẻ trang này