Saturday, April 20, 2013

Ο αλγόριθμος της Google - Part 2



 Aυτή είναι η βασική ιδέα πίσω από τη Google και αρχικό αλγόριθμο PageRank που κατασκεύασαν οι Page και Brin.Έκτοτε ο αλγόριθμος, ως στατική κατανομή της αλυσίδας Markov που αντιστοιχεί στο στοχαστικό πίνακα της Google,  έχει βελτιστοποιηθεί από τους PhDs της Google αρκετές φορές. Ενδεικτικά,πλέον η Google τον επαναπροσαρμόζει 500 φορές το χρόνο.



Εξάλλου,στο μοντέλο προσέγγισης του PageRank αγνοήσαμε ότι:

Ο πίνακας Τ δεν είναι κανονικός πίνακας.Οι Page και Brin επιχείρησαν να τον κανονικοποιήσουν επιλέγοντας 0<t<1.
•O PageRank στην αρχική του μορφή που περιγράψαμε αγνοεί στοχαστικά το πλήκτρο Back.
•Οι λεπτομέρειες των ακριβών διαδικασιών του αλγόριθμου και η επιλογή της τιμής α (damping factor) είναι μυστικά της Google.
•Ο γράφος του web έχει και μη κατευθυνόμενους υπογράφους.Είτε για κατευθυνόμενους είτε μη υπογράφους, οι διαδικασίες που θα τους αποδώσουν μία τιμή PageRank τρέχουν αλγοριθμικά με πολυπλοκότητα :
 όπου n είναι το μέγεθος του web και ε η πιθανότητα να ξαναρχίσει ο χρήστης άλλη αναζήτηση αντί να συνεχίσει να κλικάρει(ε=1-α)

 
Φάσμα ιδιοτιμών του πίνακα Google του Πανεπιστημίου του Cambridge για  α=1.
Μπλε οι ιδιοτιμές απομονωμένων υποχώρων και κόκκινες οι ιδιοτιμές πυρήνα.
Πως μπορούμε να αποκτήσουμε καλύτερο PageRank;

•Μπορούμε να πετύχουμε καλύτερα ποιοτικά backlinks για την ιστοσελίδα μας από άλλες ιστοσελίδες με υψηλό PageRank.Ένας απλός τρόπος είναι να κάνουμε σχόλια σε άλλες ιστοσελίδες υψηλότερου κατά προτίμηση PageRank ή και μέσα κοινωνικής δικτύωσης, όπου παραθέτουμε προσεκτικά και την ιστοσελίδα μας ή να κάνουμε link exchange με άλλες ιστοσελίδες.
•Μπορούμε να κάνουμε προσεκτική επιλογή των keywords που χρησιμοποιούμε στην ιστοσελίδα μας.Επίσης,να χτίσουμε μία SEO friendly,Flash minimum ιστοσελίδα που να διαβάζεται εύκολα από τα crawlers των μηχανών αναζήτησης.
Mπορούμε να υποβάλλουμε το site map της ιστοσελίδας μας στο Google Webmaster Tools και την ίδια στη Google και σε καταλόγους σαν το DMOZ ή το Yahoo directory.

 Μετά τα updates του PageRankGoogle ¨τιμωρεί¨ τις ιστοσελίδες που σχετίζονται με malware ή πορνογραφικό υλικό,ιστοσελίδες που είναι υπερφορτωμένες με διαφημίσεις(ad-heavy) καθώς και εκείνες που έχουν αγοράσει backlinks (Do-follow vs No-Follow debate),καθώς επεμβαίνουν εσκεμμένα στο Google juice.Φυσικά ο PageRank υποβαθμίζει και τις ιστοσελίδες που κάνουν cloaking,δηλαδή δείχνουν άλλο περιεχόμενο στο χρήστη-άνθρωπο και άλλο στη μηχανή αναζήτησης.


 Και φυσικά,το πιο σημαντικό.Συχνή και ποιοτική ανανέωση της ιστοσελίδας.Η επισκεψιμότητα θα είναι φυσικό επακόλουθο και ο PageRank θα μας ανταμείψει στο σύντομο μέλλον.