*   >> läser Utbildning artiklar >> tech >> web development

Vikten av robots.txt File

Despite vikten av robots.txt-filen för att få din webbplats indexeras med de stora sökmotorerna, många webmasters inte erbjuda en på deras webbplats. Vad är robots.txt fil du frågar? Om du inte vet, du är långt ifrån ensam. Filen robots.txt är en enkel textfil (ingen html) som placeras på din webbplats rotkatalog för att berätta sökmotorer vilka sidor att indexera och för att skip.When en sökmotor sänder sin webcrawler till din webbplats, en av de första saker som webcrawler kommer att göra är att söka rotkatalogen för robots.txt-fil. En korrekt formaterad robots.

txt-fil kommer att bestå av flera rekord, var och en ger anvisningar för en viss sökning-bot. En post består i allmänhet av två delar, den första kallas användaragenten och är där namnet på sök-bot är noterat. Den andra raden consits av en eller flera "Hindra" linjer. Dessa rader berätta webcrawler som inte ska indexeras filer eller mappar (dvs. en cgi-bin mapp) .Om du för närvarande har en hemsida och inte har en robots.txt-fil kan du skapa en lätt. Som tidigare nämnts, filerna är vanlig text, så det är bara öppna notepad och spara filen på robots.txt.

De flesta webmasters kan använda en post som kommer att gälla för alla sökrobotar. När du har öppnat anteckningsblock ange följande: User-agent: * Disallow: Den "*" gäller denna regel för alla robotar. I detta exempel finns det ingenting som anges i disallow linjen. Detta talar om för roboten att indexera hela webbplatsen. Du kan också ange en sökväg här som "/privat" om det finns en mapp som inte ska indexeras. Detta kan vara mycket användbart om du fortfarande testar en del av din webbplats eller är en del är fortfarande under construction.Now att du vet vad som ska gå in i din robots.

txt-fil, finns det flera vanliga misstagen folk gör när du skapar dessa filer. Gå aldrig anteckningar och kommentarer i filen eftersom dessa poster kan orsaka förvirring för webcrawler. Dessutom bör formatet alltid den användaragent på den första raden, följt av disallow (er). Inte kasta om ordningen. Ett annat vanligt misstag innebär att man använder fel fallet. Om otillåtna mappen /privat, se till att din robots.txt-fil inte lista mapp som /Privat. Det verkar vara en mycket mindre fråga, men det kommer att orsaka problem om det görs på fel sätt. Slutligen finns det ingen Tillåt kommando.

Du kan inte tala om webcrawler vad man ska titta på, bara vad man inte ska se at.If du fortfarande nyfiken på robots.txt filen du kan hitta många mer komplexa exempel på nätet. B

Page   <<       [1] [2] >>
Copyright © 2008 - 2016 läser Utbildning artiklar,https://utbildning.nmjjxx.com All rights reserved.