skip to Main Content

Zduplikowana treść: przyczyny i rozwiązania

Zduplikowana treść: przyczyny i rozwiązania

Jednym z zadań promocji w wyszukiwarkach internetowych i optymalizacji stron internetowych pod kątem wyszukiwarek jest eliminacja błędów zwanych „duplicate content”. Duplikaty treści oznaczają, że podobne treści są wyświetlane w kilku miejscach (URL) w Internecie. W rezultacie wyszukiwarki nie wiedzą, który adres URL pokazać w wynikach wyszukiwania. Może to mieć zły wpływ na ranking i pozycję strony internetowej.

Wyobraź sobie, że znajdujesz się na skrzyżowaniu dróg, a znaki drogowe wskazują dwa różne kierunki do tego samego celu: którą drogę powinieneś wybrać? A jeśli obierzesz „najgorszy” kierunek, koniec drogi też może się nieco zmienić. Jako czytelnik, nie przejmujesz się tym: dostałeś treść i odpowiedź, do której ostatecznie dążyłeś. Jednak wyszukiwarka musi wybrać, którą z nich pokazać w wynikach wyszukiwania, ponieważ nie powinna pokazywać tej samej treści dwa razy.

Wewnętrzna duplikacja treści

Załóżmy, że Twój artykuł o „słowie kluczowym x” pojawił się na stronie http://www.przykladowa-strona.pl/slowo-x/, a dokładnie taka sama treść pojawiła się na stronie http://www.przykladowa-strona.pl/kategoria/slowo-x/. Dzieje się tak w wielu nowoczesnych systemach zarządzania treścią (CMS). Twój artykuł został odebrany przez kilku blogerów, z których niektórzy połączyli się z pierwszym adresem URL, inni połączyli się z drugim adresem URL. Ta zduplikowana treść jest problemem dla Twojego zasobu internetowego, ponieważ linki jednocześnie promują różne adresy URL. Jeśli wszystkie one związane z tym samym adresem URL, Twój ranking w pierwszej dziesiątce dla „słowa kluczowego x” byłby znacznie wyższy.

Przyczyny powstawania duplikatów treści

Istnieje niezliczona ilość powodów, które powodują duplikowanie treści. Większość z nich ma charakter techniczny: nieczęsto zdarza się, że ktoś decyduje się na zamieszczenie tej samej treści w dwóch różnych miejscach bez podania oryginalnego źródła. Przyczyny techniczne są jednak liczne. Dzieje się tak głównie dlatego, że programiści nie myślą jak przeglądarka czy użytkownik, nie mówiąc już o sieci wyszukiwarek, myślą jak programista. A co ze wspomnianym artykułem, który pojawił się na stronach http://www.przykladowa-strona.pl/slowo-x/ i http://www.przykladowa-strona.pl/kategoria/slowo-x/? Jeśli spytasz dewelopera, powie Ci, że to jeden z powodów duplikacji.

Przyjrzyjmy się, jak zidentyfikować obecność duplikatów treści na Twojej stronie, wyjaśnijmy dlaczego i zróbmy co w naszej mocy, aby je wyeliminować.

 Wersja strony z przedrostkiem WWW i bez WWW

Jedna ze znanych powszechnie sytuacji: domena z WWW i bez WWW, duplikacja treści, gdzie dostępne są obie wersje Twojej strony dla robotów Google.

Błędne rozumienie znaczenia adresów URL

Programista po prostu mówi innym językiem niż zwykły człowiek. Widać, że cała strona jest prawdopodobnie zasilana przez system bazodanowy. Jest tylko jeden artykuł w tej bazie danych, oprogramowanie strony internetowej po prostu pozwala znaleźć ten sam artykuł w bazie danych poprzez wiele adresów URL. Dzieje się tak dlatego, że w oczach programisty unikalnym identyfikatorem dla tego artykułu jest identyfikator artykułu w bazie danych, a nie podany adres URL strony. Jednak dla wyszukiwarki adres URL jest unikalnym identyfikatorem fragmentu treści. Jeśli wyjaśnisz to deweloperowi, dostrzeże on problem.

Identyfikatory sesji odwiedzających

Kiedy śledzisz odwiedzających i dajesz im możliwość zapisania przedmiotów, które chcą kupić w koszyku, dajesz im sesję. Sesja jest w zasadzie krótką historią tego, co odwiedzający zrobił w Twojej witrynie i może zawierać takie rzeczy jak pozycje w koszyku. Aby zachować sesję odwiedzającego przechodzącego z jednej strony na drugą, musisz przechowywać gdzieś unikalny identyfikator dla tej sesji, zwany identyfikatorem sesji. Najczęściej wybieranym rozwiązaniem jest wykonanie tego za pomocą ciasteczka (cookies). Jednak wyszukiwarki internetowe przeważnie nie przechowują plików cookie.

Niektóre systemy powracają do używania identyfikatorów sesji w adresach URL. Oznacza to, że każdy link wewnętrzny na stronie internetowej otrzymuje ten identyfikator sesji dodany do adresu URL, a ponieważ ten identyfikator sesji jest unikalny dla tej sesji, tworzy nowy adres URL, a zatem duplikuje treść.

Parametry URL używane do śledzenia i sortowania

Inną przyczyną duplikowania treści jest stosowanie parametrów URL, które nie zmieniają treści strony, np. w linkach śledzących. Widzisz, http://www.przykladowa-strona.pl/slowo-x/ i http://www.przykladowa-strona.pl/slowo-x/?source=rss nie są w rzeczywistości tym samym adresem URL dla wyszukiwarki. Ten ostatni może pozwolić Ci śledzić, z jakich źródeł pochodzą Twoi odwiedzający, ale może również utrudnić Ci rankowanie w wyszukiwarce. jest to bardzo niepożądany efekt uboczny.

Oczywiście nie chodzi tu tylko o parametry śledzenia, ale o każdy parametr, jaki można dodać do adresu URL, który nie zmienia istotnego fragmentu treści. Ten parametr jest dla „zmień sortowanie według zestawu produktów” lub „pokaż inny pasek boczny”: wszystkie one powodują duplikację treści.

Analiza treści

Większość przyczyn duplikatów treści jest Twoja własna, lub przynajmniej wina Twojej strony, gdy inne strony używają Twoich treści za Twoją zgodą lub bez niej. Nie zawsze linkują do Twojego oryginalnego artykułu, więc wyszukiwarka go nie rozumie tego i musisz sobie radzić z kolejną wersją tego samego artykułu.

Paginacja komentarzy

W ukochanym przez wielu użytkowników i twórców stron internetowych, WordPressie, jak i w kilku innych systemach CMS, istnieje możliwość paginowania komentarzy. Powoduje to duplikaty treści w całym adresie URL artykułu i URL artykułu + / comment-page-1 /, / comment-page-2 / itp.

Wersja do druku

Jeżeli system zarządzania treścią CMS tworzy strony umożliwiające drukowanie, a Ty linkujesz do swoich stron z tymi artykułami, w większości przypadków Google je odszuka i zaindeksuje, no chyba, że specjalnie je dodasz do tych artykułach plik blokujący indeksowanie. Którą wersję pokaże Google? Tę, która jest naładowany reklamami i treścią poboczną, czy tę, która zawiera tylko Twój artykuł? Dlatego lepiej zablokować indeksowanie wersji do druku aby niknąć duplicate content.

This Post Has 0 Comments

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.

Back To Top