Om innholdsskraping

Content scraping, eller innholdsskraping på norsk, er nok det som har gjort at jeg har mistet mye av lysten på å blogge.

Content scraping; også kjent som web scraping og web harvesting; er en spamteknikk som det virker som at har kommet for full styrke dette året. I alle fall er det først nå jeg for alvor har merket problemene med dette.

Innholdsskraping går ut på at man benytter seg av programvare til å hente ut innhold fra nettsider. Dette kan for eksempel være tekst og bilder fra en blogg; disse tas så og automatisk publiseres på nettsider som innholdsskraperne selv kontrollerer.

Årsaken til at man ønsker å skrape innholdet fra nettsider; er naturligvis at man selv ønsker å få trafikk til sine egne sider som man selv kontrollerer. Disse kan man så fylle opp med reklamer; men også for eksempel med ondsinnede programkoder (du vet: virus og den slags).

Jeg har hatt min nettside på ojrosten.com siden 2000; og jeg har med ujevne mellomrom hatt problemer av ulike typer. I starten hadde jeg en ren html-side; og serveren min ble hacket i 2003. I 2004 begynte jeg med min første blogg (benyttet meg av bloggprogramvaren b2evolution). En svakhet i programvaren gjorde at jeg ble hacket på ny i 2005; og jeg mistet alle mine bloggposter (fant da ut viktigheten av å ta backup av databasen). Startet så på nytt med ny blogg sommeren 2005: Brukte da GeekLog; før jeg på slutten av 2008 byttet til WordPress. Og det har stort sett gått greit med WordPress; selv om jeg også da har hatt en god del forsøk på mer eller mindre autmatiserte hackerforsøk på svakheter i WordPressprogramvaren. I tillegg har jeg hatt min del av kommentarspam som alle andre.

Men det jeg har opplevd dette året er av en litt annen karakter: Nemmelig at jeg har funnet tekster (tekstutdrag eller hele bloggtekster) på andre nettsider. Og det er forsåvidt nettsider som ikke har med min bloggs tematikk å gjøre: Ei heller at det er naturlig å kopiere mine norske bloggposter / bilder i andre blogger som inneholder all mulig annen tematikk med sammesatte poster fra alle mulige slags temaer.

Har liten lyst til å gi disse innholdsskraperne vann på mølla: Så vil ikke legge inn noen  lenker til disse folkene (eller spamrobotene lettere sagt).

Eksempel:

Jeg har også opplevd at mine bilder kopieres. Det har jeg forsåvidt opplevd før også. For eksempel hvis noen har blogget om noe på blogg.no eller noe; og så brukt bilder jeg har laget til min blogg. Men dette er litt på en annen måte. Ved at jeg rett og slett føler at bildene ikke har noen poeng på sidene de lenkes til. Og når jeg går på slike sider har jeg også opplevd å få opp advarsel fra min maskins virusprogram om at jeg ikke bør gå inn på sidene pga ondsinnet programvare. Andre sider jeg har vært på har ved siden av mine bilder hatt reklamer / bilder av type som gjør at jeg ikke har lyst til å bli assosiert med siden.

Eksempel:

Så hva har jeg gjort med dette? Vel, jeg har lest meg opp. Og funnet ut at dette er noe som mange sliter med i bloggverdenen. Og det virker som at dette har økt i utbredelse i 2011 og nå i 2012.

Jeg har også gjort en god del med innstillingene på min blogg: RSS-feeden har jeg nå kuttet ned til et minimum. Jeg har en mistanke om at innholdsskraperne har brukt denne ved å få ut all tekst og bilder rett inn fra min blogg. Nå har jeg en feed som kun gir noen få setninger; og så en henvisning om å lese resten ved å gå til min blogg. Jeg har også gjort førstesiden på min blogg statisk: Slik at man fysisk må gå inn og klikke seg inn på bloggen min.

Og i tillegg har jeg begynt å sperre ute besøkende fra min nettserver: Og de som har vært mest aktive på min server mht negativ aktivitet har hatt nettadresser fra Kina, Russland, Ukraina og diverse land i Øst-Europa / Latin-Amerika. Men samtidig har jeg også hatt uønskede besøkende fra andre land.

Så da får vi se om mine tiltak har en virkning: Hvis ikke får jeg gjøre som på min private blogg; rett og slett sette passord på bloggen min. De gamle postene på skolebloggen min har jeg alt satt bak passordbeskyttelse.

Jeg har jo egentlig alltid skrevet blogg for min egen del: For å sammenfatte hva jeg har lært på kurs; hva jeg har lest av litteratur; og om mer hverdagslige ting. Så jeg tviler vel egentlig sterkt på at det har så særlig stor interesse utenfor min egen sfære. Så jeg forstår ikke helt hvorfor innholdsskraperne er interessert i min blogg. Men det er vel mer at den har vært online siden 2000; og at denne innholdsskrapingen foregår helt automatisk; ved hjelp av roboter.

Mer er informasjon om innholdsskraping finner man på:

Wikipedia Web scraping: http://en.wikipedia.org/wiki/Web_scraping .
Beginner’s Guide to Preventing Blog Content Scraping in WordPress:  http://www.wpbeginner.com/beginners-guide/beginners-guide-to-preventing-blog-content-scraping-in-wordpress/ .