RSS

Artikel zum Tag ‘DC’

Aus aktuellem Anlass hier ein kleines Tutorial, wie man Duplicate Content durch indizierte https-Seiten wieder los wird.

Einige Shops haben das Problem, dass ihre Seiten sowohl in der http- als auch https-Version verfügbar sind. Wäre auch kein Problem, käme Googlebot nicht auf die bescheuerte Idee, diese Seiten auch zu crawlen und in den Index zu werfen. Somit haben wir zwei identische Seiten im Index und ergo Duplicate Content.

Häßlich, aber leicht zu lösen Dank Apache’s mod_rewrite:

  1. Eine robots-ssl.txt anlegen mit folgendem Inhalt:
    #robots.txt fuer https-Seiten
    User-agent: *
    Disallow: /
  2. Nun müssen wir den Bots nur noch mitteilen, dass er bei https-Seiten auch unsere robots-ssl.txt verwendet. Dazu fügen wir folgenden Absatz in die .htaccess:
    RewriteEngine on
    RewriteCond %{SERVER_PORT} 443 [NC]
    RewriteRule ^robots.txt$ robots-ssl.txt [L]
  3. Da wir SEOs grundsätzlich paranoid sind und glauben, Googlebot befolgt die Anweisungen der robots.txt nicht mehr, sichern wir uns doppelt ab und lassen bei jeder https-Seite gleich noch ein NoIndex ausgeben:
    <?php if ($_SERVER["SERVER_PORT"] == 443){echo '<meta name="robots" content="noindex" />';} ?>
  4. Und jetzt gibt’s für alle, die keinen Apache haben oder keinen Zugriff auf die .htaccess oder einfach was neues ausprobieren wollen eine Weltneuheit: https Duplicate Content entfernen via Canonical-Tag :)
    <?php
    $uri=explode("?",$REQUEST_URI);
    echo '<link rel="canonical" href="http://'.$_SERVER["HTTP_HOST"].$uri[0].'" />';
    ?>

    Was diese zwei Zeilen PHP-Code zudem machen, ist die Parameter aus der URI entfernen. Quasi Multiple Duplicate Content Deindizierung.

Was sonst im Netz kursierende Tutorials noch empfehlen, ist das Entfernen dieser Seiten über die Webmaster Tools. Davon halte ich weniger, deswegen hier auch nicht aufgeführt. Wer dennoch dies versuchen möchte, hier der Link zum entsprechenden Artikel auf SEOmoz

19 April 10

Duplicate Content mit http und https vermeiden

Author: Uli | Kategorie: SEO

Neben der Angabe der kanonischen URL ermöglicht Google nun auch das gesteuerte Ignorieren von Parametern zur Vermeidung von Duplicate Content. Somit können – so die Theorie – Session-IDs oder auch Tracking-Parameter einfach von der Indexierung ausgeschlossen werden:

Dies führt zu einem effizienteren Crawling und verringert die Anzahl doppelter URLs. Gleichzeitig bleiben die von Ihnen benötigten Informationen erhalten. Google versucht zwar, Vorschläge zu berücksichtigen, kann aber nicht garantieren, dass sie in jedem Fall befolgt werden.

Ermöglicht wird diese Parameterbehandlung in den Webmaster Tools unter Website-Konfiguration >> Einstellungen. Es werden sowohl Parameter vorgeschlagen als auch die Option freigehalten, selbst Parameter hinzu zu fügen.

wmt-parameter

Ob Google nun wirklich alle Einstellungen hier beachtet, sei dahin gestellt. Die Parameterbehandlung stellt jedoch eine deutliche Vereinfachung bei der Vermeidung von Duplicate Content dar und setzt an einem Punkt an, an dem auch weniger technisch versierte Webseiten-Betreiber durch einfachste Handhabung diesem Problem entgegen wirken können.

17 September 09

Google kann Parameter in URLs ignorieren

Author: Uli | Kategorie: SEO