Αρχείο robots.txt

Αρχείο robots.txt. Tι κάνει ακριβώς και ποιος ο ρόλος του στο SEO

Με το αρχείο robots.txt, οι κάτοχοι ιστοτόπων έχουν τη δυνατότητα να ορίσουν την προσβασιμότητα των ανιχνευτών στα έγγραφα του ιστοχώρου τους.

Στην ουσία, ένας ανιχνευτής (ή robot, όπως ονομάζεται αλλιώς) επιθυμεί να επισκεφθεί μία διεύθυνση URL, για παράδειγμα τη διεύθυνση http://www.onoma.gr/test.html. Προτού την επισκεφθεί, ελέγχει τη διεύθυνση http://www.onoma.gr/robots.txt , στην οποία διαβάζει τα εξής:

User-agent: *
Disallow: /cgi-bin/

User-agent: GoogleBot
Disallow: /cgi-bin/

User-agent: *
Disallow: /pub/

Με το παραπάνω αρχείο, οι διαχειριστές του ιστοχώρου onoma.gr επιθυμούν να αποκλείσουν την είσοδο όλων των ανιχνευτών στους φακέλους /cgi-bin/ και /pub/, ενώ έχουν απευθυνθεί κι ειδικότερα σε ορισμένους βασικούς ανιχνευτές (των Google), αποκλείοντάς τους από τον φάκελο /cgi-bin/ και επιτρέποντάς τους την πρόσβαση σε όλο τον υπόλοιπο ιστοχώρο, συμπεριλαμβανομένου και του φακέλου /pub/.

Συγκεκριμένα, με την εντολή “User-agent: *” του παραπάνω αρχείου, απευθυνόμαστε σε όλους τους ανιχνευτές, από οποιαδήποτε μηχανή αναζήτησης ή ιστοχώρο, δίνοντάς τους τις οδηγίες που βρίσκονται ακριβώς μετά από αυτήν και μέχρι την κενή γραμμή που ακολουθείται από άλλη αντίστοιχη εντολή. Η εντολή “Disallow: /cgi-bin/” δηλώνει στους ανιχνευτές να μην επισκεφθούν τον συγκεκριμένο φάκελο, καθώς και όλα τα αρχεία και τους υποφακέλους που υπάρχουν μέσα σε αυτόν.

Σύνταξη του αρχείου Robots.txt

Υπάρχουν συγκεκριμένες εντολές που μας επιτρέπουν να κατευθύνουμε τους ανιχνευτές Ιστού στις σωστές διευθύνσεις του ιστοχώρου μας, όπως φαίνεται στο παρακάτω robots.txt:

#Τα σχόλια τοποθετούνται μετά από το σύμβολο “#” στην αρχή #μιας γραμμής ή ακριβώς δεξιά από μία εντολή.

#Για τον αποκλεισμό όλων των ανιχνευτών από τον ιστοχώρο:

User-agent: *

Disallow: /

#Για να επιτραπεί η πρόσβαση όλων των ανιχνευτών παντού:

User-agent: *

Disallow:

#Εναλλακτικά, μπορούμε να δημιουργήσουμε ένα κενό αρχείο

#robots.txt

#Για τον αποκλεισμό ενός συγκεκριμένου ανιχνευτή:

User-agent: BotName

Disallow: /

#Για να επιτραπεί η πρόσβαση σε ορισμένο ανιχνευτή:

User-agent: BotName

Disallow:

#Για τον αποκλεισμό ανιχνευτή σε ορισμένα αρχεία μόνο και

#όχι ολόκληρο τον φάκελο:

User-agent: BotName

Disallow: /tmp/folder/file1.php

Disallow: /tmp/folder/file2.html

Καλύτερες πρακτικές με το αρχείο Robots.txt

α) Με τη χρήση του αρχείου robots.txt μπορούμε να εμποδίσουμε την ανίχνευση φακέλων και υποφακέλων των οποίων την ανίχνευση δεν επιθυμούμε. Για παράδειγμα, είναι σύνηθες φαινόμενο να μην επιτρέπεται η πρόσβαση στους φακέλους που αφορούν τη διαχείριση ενός ιστοτόπου (/administrator, /admin, /administration) οι οποίοι δημιουργούνται δυναμικά σε συστήματα διαχείρισης περιεχομένου, τους φακέλους με τα διάφορα templates, plugins, modules που χρησιμοποιήθηκαν στην κατασκευή της ιστοσελίδας, τον φάκελο με τα αρχεία της εγκατάστασης του συστήματος διαχείρισης περιεχομένου, καθώς και οποιονδήποτε άλλον φάκελο επιθυμούμε να διατηρήσουμε μακριά από τις μηχανές αναζήτησης.

β) Είναι σαφές πως με το αρχείο αυτό έχουμε τη δυνατότητα να εμποδίσουμε την πρόσβαση των ανιχνευτών σε έγγραφα των οποίων τα δικαιώματα δε μας ανήκουν (π.χ. εικόνες) ή σε περιεχόμενο που ανήκει σε ξένο ιστότοπο και αναπαράγουμε, επιθυμώντας, φυσικά, να μη τιμωρηθεί η σελίδα μας για διπλότυπο περιεχόμενο από τον αλγόριθμο της μηχανής αναζήτησης.

γ) Το αρχείο robots.txt οφείλει να βρίσκεται στον αρχικό φάκελο (root directory) ‘/’. Αυτό σημαίνει ότι οποιαδήποτε άλλη τοποθεσία δεν είναι έγκυρη, καθώς οι ανιχνευτές δεν πρόκειται να ανιχνεύσουν τον ιστοχώρο με σκοπό να το βρουν, καθώς δε θα έχουν τις αντίστοιχες οδηγίες για τα μονοπάτια που επιτρέπεται να ακολουθήσουν. Στην περίπτωση που αυτό δεν υπάρχει, ή είναι κενό, ο ανιχνευτής θα θεωρήσει ότι όλες οι περιοχές του διακομιστή είναι προσβάσιμες. Παρ’ όλα αυτά, η ύπαρξη του αρχείου αυτού, έστω και κενού, καθιστά την ιστοσελίδα πιο φιλική στις μηχανές αναζήτησης, διευκολύνοντας τη λειτουργία των ανιχνευτών τους, επομένως και θα εκμαιεύσει μια πιο ευνοϊκή αντιμετώπιση από τους αλγορίθμους αυτών. (βλέπε SEO)

δ) Μεγάλη προσοχή πρέπει να δοθεί στις πληροφορίες που ο διαχειριστής θεωρεί πως μπορεί να αποκρύψει. Στο σημείο αυτό, τονίζεται ότι το αρχείο robots.txt είναι διαθέσιμο για ανάγνωση σε οποιονδήποτε επισκεφθεί τη διεύθυνση URL /robots.txt (καθώς και οι πληροφορίες που αναγράφονται μέσα σε αυτό μέχρι και οι πληροφορίες που ενδεχομένως ο επισκέπτης θα ανακαλύψει ακολουθώντας τους φακέλους των οποίων την ανίχνευση απαγορεύουμε στους ανιχνευτές.

ε) Τέλος, οι οδηγίες που δίνονται στο robots.txt δεν έχουν καμία αξία εάν η σύνταξη των εντολών είναι λανθασμένη και δεν ακολουθεί τα πρότυπα, ενώ υπάρχει η περίπτωση ο ίδιος ο ανιχνευτής να μην συμβιβαστεί με τη διαδικασία ανάγνωσης του αρχείου robots, να το αγνοήσει ή να προσπεράσει τις εντολές. Παρόλο που η συνεργασία του ανιχνευτή απαιτείται για τη διαδικασία αυτή, έχει παρατηρηθεί η δραστηριότητα κακόβουλων ανιχνευτών που αγνοούν το αρχείο γιατί στοχεύουν στην εξαγωγή πελατολογίων, διευθύνσεων ηλεκτρονικής αλληλογραφίας και άλλων προσωπικών κι ευαίσθητων στοιχείων των οποίων την έκθεση στα αποτελέσματα των μηχανών αναζήτησης ο διαχειριστής ενδέχεται να επιθυμεί να αποτρέψει.

Δείτε ακόμη:

Μηχανές αναζήτησης: Δείτε πως λειτουργούν

Καλή κατάταξη στις μηχανές αναζήτησης πως θα το πετύχουμε

Μοιραστείτε το άρθρο