Ist es in Ordnung, Daten von Google-Ergebnissen zu scrappen?

Ich möchte Ergebnisse von Google mit curl abrufen, um mögliche doppelte Inhalte zu erkennen. Besteht ein hohes Risiko, von Google gesperrt zu werden?

Google wird Ihre IP möglicherweise blockieren, wenn Sie eine bestimmte Anzahl von Anfragen überschreiten.

Google untersagt den automatischen Zugriff in ihren Nutzungsbedingungen. Wenn Sie also ihre Bedingungen akzeptieren, werden Sie sie brechen.

Das heißt, ich kenne keine Klage von Google gegen einen Kratzer. Selbst Microsoft kratzte Google, sie betrieben damit ihre Suchmaschine Bing. Sie wurden im Jahr 2011 mit roten Händen gefangen 🙂

Es gibt zwei Möglichkeiten, Google-Ergebnisse zu scrappen:

1) Verwenden Sie ihre API

  • Sie können ungefähr 40 Anfragen pro Stunde ausgeben. Sie sind auf das beschränkt, was sie Ihnen geben. Es ist nicht wirklich nützlich, wenn Sie Ranking-Positionen verfolgen wollen oder was ein echter Benutzer sehen würde. Das ist etwas, was du nicht sammeln darfst.

  • Wenn Sie eine größere Anzahl von API-Anfragen haben möchten, müssen Sie zahlen.

  • 60 Anfragen pro Stunde kosten 2000 USD pro Jahr, mehr Anfragen erfordern ein individuelles Angebot.

2) Kratzen Sie die normalen Ergebnisseiten

  • Hier kommt der knifflige Teil. Es ist möglich, die normalen Ergebnisseiten zu scrappen. Google lässt dies nicht zu.
  • Wenn Sie mit einer Rate von mehr als 8 (aktualisiert von 15) Keyword-Anfragen pro Stunde die Erkennung riskieren, höher als 10 / h (aktualisiert von 20), werden Sie von meiner Erfahrung blockiert.
  • Wenn Sie mehrere IPs verwenden, können Sie die Rate erhöhen, sodass Sie mit 100 IP-Adressen bis zu 1000 Anfragen pro Stunde scrappen können. (24k pro Tag) (aktualisiert)
  • Es gibt einen Open-Source-Suchmaschinenschaber, der in PHP unter http://scraping.compunect.com geschrieben wurde. Er ermöglicht es, Google zuverlässig zu scrappen, analysiert die Ergebnisse und verwaltet IP-Adressen, Verzögerungen usw. Wenn Sie also PHP verwenden können, ist es ein nettes Programm Kickstart, sonst wird der Code immer noch nützlich sein, um zu lernen, wie es gemacht wird.

3) Alternativ einen Scraping-Service verwenden (aktualisiert)

  • Kürzlich hatte ein Kunde von mir eine riesige Suchmaschinenkratzungsanforderung, aber es war nicht “fortlaufend”, es ist mehr wie eine große Aktualisierung pro Monat.
    In diesem Fall konnte ich keine selbstgemachte Lösung finden, die “wirtschaftlich” ist.
    Ich habe stattdessen den Dienst unter http://scraping.services benutzt . Sie stellen auch Open-Source-Code zur Verfügung und es läuft bisher gut (mehrere tausend Ergebnisseiten pro Stunde während der Aktualisierung)
  • Der Nachteil ist, dass ein solcher Service bedeutet, dass Ihre Lösung an einen professionellen Anbieter gebunden ist. Der Vorteil ist, dass sie viel günstiger ist als die anderen Optionen, die ich evaluiert habe (und in unserem Fall schneller).
  • Eine Möglichkeit, die Abhängigkeit von einem Unternehmen zu reduzieren, besteht darin, zwei Ansätze gleichzeitig zu machen. Verwenden Sie den Scraping-Dienst als primäre Datenquelle und greifen Sie bei Bedarf auf eine Proxy-basierte Lösung zurück, wie unter Punkt 2 beschrieben.

Google lebt davon, Websites der Welt zu scrappen … wenn es also “so illegal” war, dann wird auch Google nicht überleben. Natürlich erwähnen andere Antworten Möglichkeiten, IP-Blöcke von Google abzuschwächen. Ein weiterer Weg zu erkunden, Captcha zu vermeiden könnte Kratzen zu zufälligen Zeiten (dint versuchen) .. Darüber hinaus habe ich das Gefühl, dass, wenn wir Neuheit oder einige signifikante Verarbeitung von Daten dann klingt es gut für mich zumindest … wenn wir einfach eine Website kopieren … oder ihr Geschäft / ihre Marke in irgendeiner Weise behindern … dann ist es schlecht und sollte vermieden werden..über allem … wenn du ein Startup bist, dann wird niemand dich bekämpfen wie dort ist kein Vorteil .. aber wenn Ihre gesamte Prämisse auf Kratzen ist, selbst wenn Sie finanziert werden, dann sollten Sie an ausgeklügeltere Wege denken … alternative APIs … Eventuell .. Auch Google veröffentlicht (oder entzieht) Felder für seine API so was Sie möchten jetzt eine Übersicht über neue Google API-Versionen erstellen.