Duplicate content

Duplicate content har länge varit ett problem inom SEO men som många sajtägare länge ignorerat. Efter Googles uppdatering kallad Panda har det dock börjat uppmärksammats mer och allt fler har börjat förstå problemet med duplicate content.

Men vad gäller egentligen när det kommer till duplicate content, vad är duplicate content, hur löser man problem med duplicate content och hur hittar man duplicate content? Det är några av de frågor som jag kommer försöka besvara i det här inlägget.

Vad är Duplicate Content?

Duplicate content är när två eller fler sidor delar samma innehåll.

Visst låter det enkelt och logiskt men trots detta så skapar ändå duplicate content väldigt många missförstånd. Ett av de vanligaste felen många gör är att man har två eller fler URL:er som har samma innehåll på sin sajt men utan att egentligen veta om det då det kan vara svårt att upptäcka.

Olika typer av Duplicate Content

Det finns en del olika typer av duplicate content och jag kommer gå igenom dem kortfattat.

Kopior

En kopia är helt enkelt en sida som är helt identisk med en annan sida. Det enda som skiljer sidorna åt är att de nås via olika URL:er.

Nästan kopior

Nästan kopia är en sida som bara skiljer sig från en annan sida genom väldigt lite innehåll. Det kan till exempel handla om en bild, ett stycke text eller upplägget av innehållet, man kan tänka sig ordningen av styckena skiljer sig.

Cross-domain duplicates

En cross-domain duplicate uppstår när två olika webbplatser delar samma innehåll. Det kan både handla om ”kopior” eller ”nästan kopior” som jag döpte dessa till i styckena ovanför.

Hur fixar man duplicate content?

Det finns en hel del olika lösningar för hur man ska fixa duplicate content om man upptäcker sådant. Eftersom det är en hel del metoder jag kommer att presentera så kan det verka lite förvirrande vid en första anblick, men det är bara att andas och ta det lugnt. Alla metoder fyller sitt syfte.

404 – Sidan hittades inte

Ett av de enklaste och vanligaste metoderna för att hantera duplicate content är helt enkelt att man tar bort innehållet så att den returnerar 404- Sidan hittades inte. Har du inte mycket länkar till det berörda innehållet och det inte spelar någon större om det tas bort är det en fungerande metod.

301 redirect

Ett annat sätt att ta bort duplicate content är att ta bort sidan och omdirigera den med hjälp av en 301 redirect. Till skillnad från 404 som säger att sidan inte finns så säger 301 att sidan har flyttats permanent till en ny sida. Besökare omdirigeras till den nya sidan och sökmotorerna förstår omflytten. Med en 301-redirect förs den mesta av den inkommande länkkraften vidare till den nya sidan.

En 301-redirect kan göras via htaccess och ett exempel på hur det kan se ut är följande:

Redirect 301 /tidigare.html http://nysida.se/ny.html

Robots.txt

Ett annat alternativ är att låta ditt duplicerade innehåll vara kvar för besökarna men blockera sökmotorernas spindlar för att nå sidan. Detta görs med hjälp av en robots.txt som är en textfil som ska ligga på rooten i din domän.

Ett exempel på hur en robots.txt är följande där /enmapp/ och /en_fil.html blockeras för alla sökmotorer.

User-agent: *
Disallow: /enmapp/
Disallow: /en_fil.html

Meta robots

Du kan också använda dig av Meta robots-taggen för att bestämma vad som ska indexeras och blockeras för sökmotorernas spindlar. Dessa ska ligga innanför <head></head> och ser ut som följande: <META NAME=”ROBOTS” CONTENT=”NOINDEX, NOFOLLOW”>  där NOINDEX talar om att sidan inte ska indexeras och NOFOLLOW att inte följa några länkar på sidan. Anger du  “NOINDEX, FOLLOW” följs länkar med sidan indexeras inte. Just  “NOINDEX, FOLLOW” kan vara användbart för att applicera på sitt interna sökresultat då man oftast inte vill att detta ska indexeras men att länkarna i resultatet ändå ska följas.

Rel=”Canoncial”

Rel=”Canoncial” är relativt nytt och skapade så sent som 2009 på iniativ av de större aktörerna bland sökmotorerna, Google, MSN och Yahoo. Precis som META Robots ska den specificeras mellan <head></head> och ser ut som följande, <link rel=”canonical” href=”http://exempel.se”/>. Canoncial-taggen kan ses som om vilken sida som är original och är inte något direkt kommando i den bemärkelsen.

Canoncial hanteras som en 301-redirect av sökmotorerna men det sker ingen fysisk omdirigering och det fungerar bara internt på en sida. Du kan alltså inte använda en Canoncial till en extern sida. Canoncial kan alltså vara ett bra exempel om du har en https:// och en http:// version av din sajt.

Google URL Removal

I Webmaster Tools finns det en möjlighet att rapportera in URL:er som man vill ha bort från Googles index. Du hittar det genom att följa “Site configuration” > “Crawler access” och klicka på fliken där det står Remove URL.

Bing URL Removal

Googles ärkerival Bing har också ett verktyg i  sitt Webmaster tools för att rapportera in URL:er man vill ha bort från index. Du hittar verktyget genom att gå till “Index” fliken och sedan “Block URLs” > “Block URL and Cache” så får du upp en popup där du väljer om det är en sida, mapp eller en hel sajt som din förfrågan gäller.

Blockera parametrar

Bing och Google har också verktyg där man kan blockera parametrar, I Bing kallas det för URL Normalization och finns under samma flik som URL Removal. Bing ger dig där några förslag på parameterar som sökmotorn själv identifirat på din sajt och du kan där välja hur dessa ska hanteras.

Det fungerar likadant i Google Webmaster Tools där du hittar det genom att gå till  “Site Configuration” > “URL parameters” så får du en liknande lista som i Bing Webmaster tools. Du kan där välja Yes eller No för diverse parametrar där No betyder att parametern bidrar till duplicate content och Yes betyder att den är viktig och ska indexeras.

Rel=Prev och Rel=Next

För bara någon månad sen kom Google med två nya taggar, Rel=Prev och Rel=Next som ska hjälpa till att bekämpa duplicate content. Du kan läsa mer om det hos Google.

Exempel på Duplicate content

Nu ska vi gå igenom några exempel på hur duplicate content kan se ut och ge exempel på en bra lösning på hur man löser problemet för just det exemplet.

”www” vs. Non-www

Ett av de vanligaste duplicate content som man stöter på är när sajter låter både en www version och en utan www vilket gör att samma innehåll är tillgängligt på två separata URL:er. För att lösa detta ska man göra en 301-redirect på den versionen man inte vill ha som standard till den man vill ha som standard.

I Google Webmaster Tools kan man också välja hur sidan ska indexeras, med eller utan www. Du hittar det på Site Configuration” > “Settings”, så finns det en sektion som heter “Preferred domain”:

Utvecklingsdomän

När man utvecklar en ny sida så kan man ha en underdomän, till exempel test.dindomän.se där man testar sin sida. Denna underdomän ska blockeras för sökmotorerna genom att antingen använda Robots.txt eller META Robots.

HTTPS

När man använder sig av HTTPS och HTTP kan det uppstå duplicate content då båda versionen kan indexeras. Man kan lösa det genom Canoncial eller om det bara gäller en varukorg eller betalningsprocess använda sig av Noindex.

Dubbla startsidor

Genom att låta sin startsida vara tillgänglig via två eller flera olika URL:er kan man få problem med duplicate content.Vi kan ta ett exempel med domän.se och domän.se/index.html som går till samma innehåll men med olika URL:er. Här ska man använda sig av 301 och sätta en canoncial-tag på sin startsida. Tänk dock på att vara konsekvent i ditt val, länka inte till olika versioner utan bestäm dig för en och håll dig till den.

Olika länder

Om du har en sajt som har flera olika versioner för olika språk så är det viktigt att tänka på att England, USA och Australien delar samma språk och innehållet blir ofta duplicerat. Om det är möjligt så ska du se till att använda dig av versioner som bygger på olika språk och inte länder. Om det inte är möjligt så är det lite klurigt. Har du tur så klarar du dig utan att det hanteras som duplicate content men om det gör det så får antingen använda dig av 301-redirect till en av versionen alternativt göra en canoncial men då kommer bara en av sidorna ranka bra i sökmotorerna.

Parametrar

Parametrar kan vara lite problematiska och det kan handla om bland annat söksortering och sökfilter. Söksortering och sökfilter används i det interna söket för att helt enkelt sortera och filtrera resultatet. När detta sker så läggs ofta en parameter på, i stil med sort=desc. Det gör att innehållet är tillgängligt via olika URL:er och det fyller ingen funktion att låta versionen med parametern indexeras i det här fallet.

Verktyg för att hitta Duplicate content

Nu vet vi ju hur duplicate content ser ut men hur ska vi  nu lyckas hitta det på vår sajt? Som tur är finns det en del verktyg som hjälper oss på vägen.

Google Webmaster tools

Med hjälp av Google Webmaster Tools kan du få upp en lista på duplicerade Title tags och Meta descriptions som Google har sökt igenom. Dessa kan  vara en bra fingervisning och man kan hitta en del duplicerat innehåll genom detta. I Google Webmaster Tools,  välj den aktuella sidan, “Diagnostics” > “HTML Suggestions”, så kommer du att få upp en tabell likt den här:

När du klickar dig in på Duplicate meta descriptions och Duplicate title tags får du en lista på sidorna.

Google Sök

Man kan också använda sig av Googles sökfunktion för att leta efter duplicerat innehåll som Google har indexerat.

Om du är orolig för att du kan kopior av din startsida kan du kolla om Google indexerat detta genom att använda site:exempel.se intitle:”Din titel på hemsidan” där du skriver in din domän och din titel på startsidan. Tänk på att domänen ska anges utan www.

Du kan också hitta kopior i som orsakats genom https genom att använda dig av site:exempel.se inurl:https.

Om du misstänker att du kan ha några sidor som använder samma innehåll kan du använda site:exempel.se ”ett stycke text som du misstänker” för att identifiera dessa sidor. Om du vill hitta hemsidor som har kopierat ditt innehåll kan du ta bort  site:exempel.se och bara söka ”ett stycke text som du misstänker”. Tänk på att försöka ha det lite längre eller åtminstone en unik fras för att det ska ge ett relevant svar.

För att identifiera duplicate content som beror på parametrar kan man också använda sig av Google Sök. Med site:exempel.se inurl:parameter anger du din domän och sedan den parametern som du misstänker skapa duplicerat innehåll. T.ex. session=.

Gillade du inlägget?

   
       

Kommentera

E-postadressen publiceras inte. Obligatoriska fält är märkta *