Duplicate content - Cụm từ được nhắc đến khá nhiều khi thuật toán panda xuất hiện cũng như content is king đang là xu hướng seo của hiện tại và tương lai. Có thể các bạn mới chỉ được người khác dạy và nói : duplicate content là nội dung bị trùng lặp và không tốt cho SEO, thế nhưng đã khi nào bạn đi tìm hiểu bản chất thật sự của duplicate content. 
Bạn vẫn thắc mắc rằng một số trang như 24h, baomoi nội dung vẫn đi copy mà không hề bị phạt ? Bạn ức chế vì việc đối thủ toàn đi “ăn cắp” bài nhưng vẫn xếp hạng trên bạn ? Vậy thì hãy đọc bài viết tổng hợp sau của tôi để có cái nhìn khái quát cũng như hiểu đúng đắn hơn về duplicate content.

ĐỊNH NGHĨA DUPLICATE CONTENT

Duplicate content ( nội dung trùng lặp) là phần nội dung xuất hiện ở nhiều chỗ ( URL) trên internet. Khi có nhiều phần của nội dung giống hệt nhau trên internet, thật khó khăn cho các search engine để quyết định xem phiên bản nào là phù hợp để đưa ra đối với 1 truy vấn của người dùng. Để cung cấp những trải nghiệm tốt nhất khi tìm kiếm , các bộ máy tìm kiếm sẽ hiếm khi hiển thị hết tất cả những đoạn nội dung trùng lặp đó , và buộc phải chọn phiên bản nào có nhiều khả năng là phiên bản gốc hay tốt nhất.
Có 3 vấn đề lớn đối với việc nội dung bị trùng lặp

1. Bộ máy tìm kiếm không biết được phiên bản nào là phiên bản gốc từ các chỉ số đánh giá của chúng
2. Bộ máy tìm kiếm không biết có nên hướng các số liệu về liên kết ( như trust, authority, anchor text, link juice.v.vv) về 1 trang hay chia ra riêng biệt giữa các phiên bản
3. Bộ máy tìm kiếm không biết phiên bản nào để xếp hạng cho các truy vấn tìm kiếm.
Khi duplicate content xảy ra, các website sẽ bị ảnh hưởng trong việc xếp hạng và mất traffic, và bộ máy tìm kiếm sẽ cung cấp ít hơn những kết quả liên quan


NHỮNG TRƯỜNG HỢP DUPLICATE CONTENT THƯỜNG XẢY RA

1. URL parameters

Các thông số URL như theo dõi số lần click chuột hay các mã theo dõi phân tích khác có thể gây nên việc bị duplicate content

2. Printer-friendly

Phiên bản printer-friendly thích hợp cho việc in ấn trực tiếp 1 page trên website có thể gây nên việc trùng lặp nội dung.

3. Session IDs

Session IDs là một lỗi trùng lặp nội dung hay gặp. Điều này xảy ra khi mỗi user truy cập vào website được gán cho một session IDs và được lưu trữ trên các UR

4. www and non-www

 www.example.com và example.com là 2 URL hoàn toàn riêng biệt , nếu website của bạn chưa xử lý và để cả 2 phiên bản này cùng tồn tại song song trên internet, tức là bạn đang dính dupicate content

CÁC PHƯƠNG PHÁP GIẢI QUYẾT KHI DUPLICATE CONTENT XẢY RA

 

Bất cứ khi nào bạn phát hiện trên site của mình đang xảy ra tình trạng duplicate content, bạn cần thiết phải xử lý nó ngay. Có rất nhiều cách để xử lý vấn đề này :

1. Sử dụng REDIRECT 301

Trong rất nhiều trường hợp, cách tốt nhất để xử lý việc trùng lặp nội dung đó chính là thiết lập 1 redirect 301. Redirect 301 sẽ hướng người dùng từ các page “ duplicate” tới trang phiên bản nội dung gốc mà mình chỉ định.

2. Sử dụng thẻ Rel =“canonical”

Một cách khác để xử lý vấn đề này đó chính là tận dụng thẻ rel=canonical. Rel=canonical sẽ giúp cho bot google biết được phiên bản nào là phiên bản gốc của bài viết, có tác dụng giống như redirect 301 , thậm chí còn dễ dàng thực hiện hơn. Thẻ này được chèn trong cặp thẻ <head></head> của 1 page muốn canonical

<link href="http://www.example.com/canonical-version-of-page/" rel="canonical" />

>>Canonical và redirect 301 nên dùng cái nào hơn ?

3. no index,follow

Thẻ meta robots  với giá trị “ no index,follow” có thể được thực hiện trên trang để thông báo với google rằng, tôi không muốn trang này được index. Google bots vẫn crawling được trang đó nhờ thẻ follow, tuy nhiên nó sẽ không cho vào kho chỉ mục của google. Cách làm này thật sự hiệu quả đối với vấn đề phân trang.
Cách sử dụng giống như sử dụng canonical

<head> <meta name="robots" content="noindex, follow" /> </head>

4. Tự điều chỉnh các thông số URL trong Google Webmaster tools

1 cách nữa đó là bạn có thể dùng tính năng url parameter trong Google webmaster tools để tự điều chỉnh các URL bị duplicate. Tuy nhiên cách làm này chỉ có tác dụng đối với google mà không có tác dụng đối với các search engine khác. Việc thực hiện cũng khó khăn và yêu cầu kỹ thuật cao hơn so với 3 cách làm trên.
Chức năng URL Parameter trong webmaster tool

MỘT SỐ CHÚ Ý

1. Duy trì tính nhất quán khi liên kết nội bộ trong 1 website. Ví dụ nếu đã quyết định phiên bản chính sẽ là www.example.com thì tất cả các liên kết nội bộ nên trỏ tới http://www.example.com/

2. Hạn chế những nội dung na ná nhau. Điều này hay xảy ra trên những website bán hàng. Ví dụ 1 website có 1 page về quần áo cho bé nam, 1 page về quần áo cho bé nữ, 2 page này phần nội dung giống nhau tới 95%. Hãy gộp 2 page này lại thành 1 page quần áo cho trẻ em để xử lý việc nội dung na ná nhau.

GOOGLE CÓ THẬT SỰ PHẠT CÁC WEBSITE CÓ DUPLICATE CONTENT OR COPY ?

Khi mà có rất nhiều trang web bị duplicate content cũng như phần nội dung đi copy nhưng vẫn có thứ hạng cao trên google ? Vậy câu hỏi đặt ra ở đây là : Google có thật sự phạt các website có nội dung trùng lặp hay đi copy ?

Câu trả lời là : CÓ … VÀ KHÔNG

Theo Matt Cutt : "Duplicate content không gây hại cho website của bạn trừ khi đó là các nội dung mang tính chất spam". ( Xem bài viết gốc)



Cũng theo Matt Cutt : "Một website bị trùng lặp nội dung 25-30% điều đó không vấn đề gì . Có đến 1/4 nội dung lặp đi lặp lại hoặc bị trùng lặp đối với tất cả các website và nội dung trên internet". Điều đó cho thấy Google vẫn chấp nhận những phần nội dung trùng lặp này trong khoảng cho phép.

Google cũng đã nói đi nói lại rằng : vấn đề trùng lặp nội dung hiếm khi bị phạt ( vẫn xảy ra nhưng hiếm ). Nhưng có 1 sự thực rằng, Google chỉ muốn hiển thị một hoặc một vài kết quả tốt nhất cho người dùng     , và điều đó có cảm giác rằng site của bạn đang bị phạt nếu như không được Google chọn. Google sẽ đưa tất cả các phần nội dung giống nhau vào 1 nhóm, và sau đó Google sẽ hiển thị những kết quả mà Google cho là tốt nhất trong nhóm đó.

Điều đó lý giải tại sao các trang báo chí lớn như 24h hay baomoi lại luôn đứng thứ hạng cao mặc dù những phần nội dung chỉ là bản sao chép. Bởi vì những website đó có lượng traffic lớn, có độ trust rank khá cao, Google cảm thấy hữu ích với người dùng và vẫn ưu ái hiển thị trong top.

Cũng chính vì điều đó, các website của đối thủ bạn nếu có 1 trust rank cao, Domain age lâu đời, có nguồn traffic trung bình tương đối ổn, copy content của họ vẫn có thể đứng ở vị trí cao. Đơn giản là Google lựa chọn họ hoặc cố tình " lờ đi".

TIPS : Đối với các website mới xây dựng, việc tự xây dựng nội dung chất lượng là điều hết sức cần thiết. Bởi vì ở giai đoạn này, website của bạn không có một chức sức mạnh nào, copy content sẽ chỉ càng làm cho Google đánh giá thấp website của bạn, khả năng bị sandbox là cực kỳ cao.


Đến đây, sẽ có nhiều người tự hỏi rằng : Vậy tự viết bài để làm gì khi mà đối thủ lại đi copy của mình mà vẫn xếp trên mình ?

Đây là một vấn đề gây tranh cãi và cũng khá khó khăn để giải quyết. Trước hết, hãy tạm dẹp bỏ hết những ấm ức trong lòng và bình tĩnh suy xét tất cả các yếu tố khác ảnh hưởng đến việc xếp hạng mình còn thua kém đối thủ ở những khía cạnh nào ? Google không phải ngẫu nhiên lựa chọn mà là dựa vào các tiêu chí.

Có một câu nói tôi cảm thấy rất tâm đắc như sau : “Great minds discuss ideas; average minds discuss events; small minds discuss people” . Thay vì soi mói và ghen tị với đối thủ , hãy suy nghĩ làm thế nào để bảo vệ mình trước những hành động ăn cắp của đối thủ.

Hãy xem thêm bài viết sau để tìm hiểu : Các cách để bảo vệ bài viết khỏi bị copy.

KẾT LUẬN : Mục đích bài viết trên đây của tôi không nhằm khuyến khích các nội dung đi copy , Google chưa động tới website của bạn nghĩa là không bao giờ động tới. Thay vì chờ đón “ cái chết bất ngờ “ , hãy tối ưu lại những phần nội dung chưa tốt, cố gắng tự xây dựng phần nội dung cho chính website của mình. Mặc kệ đối thủ đang làm gì, hãy tư duy một cách đúng đắn và làm theo những gì bạn cho là đúng :)

Nguồn ( Moz.com và search engine land )

1 nhận xét:

 
Top