Arama Motorlarına Kayıt (Robots.txt) İşlemi Nasıl Olur?

Arama Motorlarına Kayıt (Robots.txt) İşlemi Nasıl Olur? Merhaba Arkadaşlar, Web sayfası olan arkadaşlarımız günler geçtikçe sayfalarını geliştiriyorlar ve google’da indexlenmek istiyorlar ancak bununda bir kuralı var. Web sayfanızı google’a tanıtmanız gerekiyor. Sözlemek istediklerimi çoğu okuyucu anlamıştır bazı okuyucularımızda google analytics’ten bahsediyorum sanabilir 🙂 Sizlere yazacağım bu makalemde arama motorlarına kayıt işlemini yani Robots.txt dosyasını anlatacağım.       Arama motorları bir web sitesine ulaştıklarında ilk şekilde kök dizinde bulunan robots.txt dosyasını ararlar. Burada kısaca robot.txt dosyası nasıl oluşturulur, ne işe yarar, onu her zaman beraber öğreneceğiz.   Bu dosya robotlara hangi sayfaların indexlenip hangilerinin indexlenmeyeceği ile ilgili yol gösterir. Robots.txt dosyasını herhangi bir içerik editörü ile oluşturabilirsiniz. Boş bir robots.txt dosyasını oluşturduğunuzu varsayarak devam edelim.     Robots.txt dosyasının içerisinde “User-agent” , “Disallow” ve“Allow” yönergeleri kullanılır. “User-agent” arama motorunu, “Disallow” engellenecek dosya yahut klasörleri “Allow” ise izin verilen dosya ya da klasörleri gösterir.     sorun arama motorlarının “resimler” klasörümüzü indexlenmesini istemiyorsak;     User-Agent: * Disallow: /resimler/ ibarelerini kullanıyoruz. Burada “User-Agent: ” (yıldız) bütün arama motorlarını “Disallow: /resimler/” ise indexlenmeyecek klasörü belirtmektedir. Yani bu halde sitemizi ziyaret eden bir arama motoru bu kodları gördüğünde sitemizi indexlemeye devam edecek ama /resimler klasörümüzü indexlemeyecektir.     Ya da “site” isimli klasörümüzün arama motorları anlamında bilhassa indexlenmesini istiyoruz;     User-Agent: * Allow: /site/ ibarelerini kullanıyoruz. Sitemizi ziyaret eden arama motorları buradaki yolu takip ederek “site” klasörümüzü indexleyecektir. Yani arama motoruna bu klasörü ziyaret edebilirsin, benim açımdan bir sakıncası yoktur diyoruz.     Buraya kadar arama motorlarının sitemizdeki bazı klasörleri aramasını ya da aramamasını nasıl sağlayacağımızı öğrendik. Bu işlemi yalnızca klasörler değil dosyalar için de kullanabiliriz.     misal şekilde ana dizinimizdeki “arsivim.html” dosyasının aranmasını ve indexlenmesini istemiyoruz. Yapmamız gereken robots.txt dosyasına;     User-Agent: * Disallow: /arsivim.html     yönergelerini girmektir. Bu yönergeyi gören arama motoru “arsiv.html” dosyamızın yanından geçecek, arasında ne olduğuna bakmayacaktır. Bu işlemi yalnızca kök dizinde değil alt klasördeki dosyalarda da uygulayabiliriz. Örnek:     User-Agent: * Disallow: /arsiv/emre.html     Yukarıda klasör ve ya dosyaların indexlenmesi ya da indexlenmemesi ile ilgili evrelerden bahsettik. Robots.txt dosyasının işlevi bunlarla bitmiyor elbette. Robots.txt dosyasına ekleyeceğimiz bazı yönergelerle, sitemizi bazı arama motorlarının indexlemesine izin verebilir, bazılarının ise indexlemesini engelleyebiliriz. Ya da bütün arama motorlarının sitemizi indexlemesini sağlayabiliriz. Bunu nasıl yaparız?   Sitemizin bütün arama motorları nedeniyle indexlemesini istiyorsak;   User-Agent: * Disallow: ibarelerini robots.txt dosyasına yazıyoruz. Burada “” göstergesi kullanıp “Disallow:” ibaresinin karşısını boş bıraktık. Bu yönergeyi gören arama motorları sitemizi indexlemeye devam edecektir.     Sitemizin hiç bir arama motoru sebebiyle indexlenmesini istemiyorsak;   User-Agent: * Disallow: / halinde yönerge uyguluyoruz. Burada gene “” göstergesi bütün arama motorlarını anlatım etmektedir. “Disallow: /” ise bütün klasörlerin indexlenmesinin engellendiğini yani izin verilmediğini gösterir.     Eğer herhangi bir arama motorunun sitemizi indexlemesini istemiyorsak;   User-Agent: Scooter Disallow: /     ibaresini kullanırız. Burada “Scooter” altavista arama motorunun ismidir. Bu biçimde her arama motorunun kendi adı vardır ve bunlardan istediklerinizi buraya yazabilir, sitenizi indexlemelerini engelleyebilirsiniz. Tüm arama motorlarının listesine bu adresten ulaşabilirsiniz. http://www.robotstxt.org/db.html    Eğer yalnızca Google’in “resimler” klasörünüzü indexlemesini istemiyorsanız;   User-Agent: Googlebot-Image Disallow: /resim/     kodlarını kullanıyoruz. Bunu gören google arama motoru bizim “resimler” klasöründeki ayrıntıları indexlemeyecektir.     Robotlar sadece kök dizindeki robots.txt dosyasını inceler, dolayısı ile alt dizinlere bu dosyayı yerleştirmenin bir manası yoktur.     Eğer altdomain (subdomain) kullanıyorsanız robots.txt dosyasını altdomain klasörüne yerleştirebilirsiniz. misal şekilde alt domian: “http://forum.emresupcin.com” şeklinde ise, robots.txt dosyamızı kökdizinimizde bulunan“forum” klasörünün içine yerleştiririz.     İndexlenmesini istemediğimiz sayfaları ve dizinleri teker teker belirtmek zorundayız. Fakat indexlenmesini istemediğimiz bir klasörün içindeki dosyaları bununla birlikte belirtmenize gerek yoktur.   # www.orneksite.com için “robots.txt” dosyası: User-agent: * Disallow: /cgi-bin/ Disallow: /resimler/yoneticiler/ Disallow: /ozelbilgi.html   Not: Burada hangi klasör ve dosyaların indexlenmeyeceğini belirttiğimiz için arama motoru sitemizin arka kalan tarafını zaten indexlemeye çlışacaktır. Dolayısı ile burada Allow ibaresini kullanmamıza gerek yoktur. Ayrıca “User-agent: *bot”, “Disallow: /tmp/*” “Disallow: *.gif” benzeri ibareleri de kullanması faydasızdır. Arama motorları bunları okumayacaktır.   Yukarıdaki örnekler ışığında kendi sitenize göre bir Robots.txt dosyası oluşturun ve sitenizin ana dizinine atın. Burada hangi kalasörlerin ya da dosyaların aranmasını hangilerinin aranmamasını istediğinizi belirtin ve arama motorlarının işini kolaylaştırın.   Bir sitenin robots.txt dosyasını analiz etmek için: * Google web yöneticisi araçlarında Google Hesabınızla oturum açın. *Kontrol Paneli’nde, dilediğiniz sitenin URL’sini tıklayın. (bu siteyi önceden eklemiş olmanız gerekmektedir.) *Araçlar ve ardından [b] robots.txt dosyasını analiz et öğesini tıklayın. Sonuçlara gore değişiklikler yaparak robots.txt dosyanızı arama motorlarına uygun duruma getirin.


Yapılan Yorumlar
Erdem OFLAZ

Bir mum, diğer mumu tutuşturmakla ışığından bir şey kaybetmez.
 Kategoriler
 Popüler yazılar