Semalt - Πώς να ξύσετε ιστοσελίδες;

Το Beautiful Soup είναι μια βιβλιοθήκη Python που χρησιμοποιείται ευρέως για την απόξεση ιστοσελίδων δημιουργώντας ένα δέντρο ανάλυσης από έγγραφα XML και HTML. Το web scraping, μια τεχνική εξαγωγής δεδομένων από ιστότοπους και σελίδες, χρησιμοποιείται ευρέως σε τομείς ανάλυσης και διαχείρισης δεδομένων. Στις περισσότερες περιπτώσεις, η γλώσσα προγραμματισμού Python αποτελεί προϋπόθεση για την επιστήμη των δεδομένων.

Το Python 3 διαθέτει εργαλεία αποκόλλησης και λειτουργικές μονάδες που μπορείτε να εφαρμόσετε στο έργο διαχείρισης δεδομένων σας. Αυτήν τη στιγμή λειτουργεί ως Beautiful Soup 4, αυτή η ενότητα είναι συμβατή με το Python 3 και το Python 2.7. Η ενότητα Beautiful Soup 4 είναι επίσης ικανή να δημιουργήσει ένα δέντρο ανάλυσης για μη κλειστή σούπα με ετικέτες. Σε αυτό το σεμινάριο, θα μάθετε πώς να ξύσετε τη σελίδα και να γράψετε τα αποκομμένα δεδομένα σε ένα αρχείο CSV.

Ξεκινώντας

Για να ξεκινήσετε, ρυθμίστε έναν διακομιστή ή ένα τοπικό περιβάλλον κωδικοποίησης Python στον υπολογιστή σας. Θα πρέπει επίσης να εγκαταστήσετε τη μονάδα Beautiful Soup and Requests στο μηχάνημά σας. Η γνώση της εργασίας και με τις δύο ενότητες είναι επίσης απαραίτητη προϋπόθεση. Η εξοικείωση με HTML tagging και δομή είναι επίσης ένα πρόσθετο πλεονέκτημα.

Κατανόηση των δεδομένων σας

Σε αυτό το πλαίσιο, θα χρησιμοποιηθούν πραγματικά δεδομένα από την Εθνική Πινακοθήκη για να σας βοηθήσουν να καταλάβετε πώς να χρησιμοποιήσετε το Beautiful Soup 4. Η Εθνική Πινακοθήκη περιλαμβάνει 120.000 κομμάτια που γίνονται από περίπου 13.000 καλλιτέχνες. Η τέχνη εδρεύει στην Ουάσιγκτον, Ηνωμένες Πολιτείες.

Η εξαγωγή δεδομένων Ιστού με το Beautiful Soup δεν είναι τόσο περίπλοκη. Για παράδειγμα, εάν εστιάσετε στο γράμμα Z, σημειώστε και σημειώστε το όνομα στην λίστα. Σε αυτήν την περίπτωση, το πρώτο όνομα είναι Zabaglia, Niccola. Για συνέπεια, υποδείξτε τον αριθμό των σελίδων και το όνομα του τελευταίου καλλιτέχνη σε αυτήν τη σελίδα.

Τρόπος εισαγωγής αιτημάτων και βιβλιοθήκης Beautiful Soup

Για να εισαγάγετε βιβλιοθήκες, ενεργοποιήστε το περιβάλλον προγραμματισμού Python 3. Ελέγξτε για να βεβαιωθείτε ότι βρίσκεστε στον ίδιο κατάλογο με το περιβάλλον προγραμματισμού σας. Εκτελέστε την ακόλουθη εντολή για να ξεκινήσετε. my_env / bin / ενεργοποίηση.

Δημιουργήστε ένα νέο αρχείο και ξεκινήστε την εισαγωγή βιβλιοθηκών Beautiful Soup and Requests. Η βιβλιοθήκη αιτημάτων θα σας επιτρέψει να χρησιμοποιήσετε το HTTP στα προγράμματα Python σε αναγνώσιμες μορφές. Το Beautiful Soup, από την άλλη πλευρά, λειτουργεί γρήγορα για να ξύσει τις σελίδες. Χρησιμοποιήστε το bs4 για να εισαγάγετε την όμορφη σούπα.

Πώς να συλλέξετε και να αναλύσετε μια ιστοσελίδα

Η χρήση αιτημάτων συλλέγει τη διεύθυνση URL της πρώτης σελίδας σας. Η διεύθυνση URL της πρώτης σελίδας θα αντιστοιχιστεί στη μεταβλητή σελίδα. Δημιουργήστε ένα αντικείμενο BeautifulSoup από τα αιτήματα και αναλύστε το αντικείμενο από το πρόγραμμα ανάλυσης του Python.

Σε αυτό το σεμινάριο, ο στόχος είναι να συλλέξετε συνδέσμους και τα ονόματα των καλλιτεχνών. Για παράδειγμα, μπορείτε να συλλέξετε ημερομηνίες και εθνικότητες καλλιτεχνών. Για χρήστες Windows, κάντε δεξί κλικ στο όνομα του καλλιτέχνη. Σε αυτήν την περίπτωση, χρησιμοποιήστε το Zabaglia, Niccola. Για χρήστες Mac OS, πατήστε "CTRL" και κάντε κλικ στο όνομα. Κάντε κλικ στο μενού "Επιθεώρηση στοιχείου" που εμφανίζεται στην οθόνη σας για πρόσβαση στα εργαλεία προγραμματιστών ιστού. Εκτυπώστε τα ονόματα του καλλιτέχνη για να κάνετε το Beautiful Soup να αναλύσει ένα δέντρο γρήγορα.

Αφαίρεση των κάτω συνδέσμων

Για να καταργήσετε τους κάτω συνδέσμους στην ιστοσελίδα σας, ελέγξτε το DOM κάνοντας δεξί κλικ στο στοιχείο. Θα διαπιστώσετε ότι οι σύνδεσμοι βρίσκονται κάτω από έναν πίνακα HTML. Χρησιμοποιώντας το Beautiful Soup, χρησιμοποιήστε τη "μέθοδο αποσύνθεσης" για να αφαιρέσετε ετικέτες από το δέντρο ανάλυσης.

Πώς να τραβήξετε περιεχόμενο από μια ετικέτα

Δεν χρειάζεται να εκτυπώσετε ολόκληρη την ετικέτα συνδέσμου, χρησιμοποιήστε το Beautiful Soup για να αφαιρέσετε υλικό από μια ετικέτα. Μπορείτε επίσης να καταγράψετε διευθύνσεις URL που σχετίζονται με τους καλλιτέχνες χρησιμοποιώντας το Beautiful Soup 4.

Λήψη αποκομμένων δεδομένων σε αρχείο CSV

Το αρχείο CSV θα σας επιτρέψει να αποθηκεύσετε δομημένα δεδομένα σε απλό κείμενο, μια μορφή που χρησιμοποιείται κυρίως για φύλλα δεδομένων. Συνιστάται η γνώση για το χειρισμό αρχείων απλού κειμένου στο Python.

Η εξαγωγή δεδομένων Ιστού χρησιμοποιείται για την απόξεση σελίδων και τη λήψη πληροφοριών. Να είστε προσεκτικοί από τους ιστότοπους από τους οποίους λαμβάνετε πληροφορίες εξαγωγής. Ορισμένοι δυναμικοί ιστότοποι περιορίζουν την εξαγωγή δεδομένων ιστού στους ιστότοπούς τους. Το ξύσιμο της σελίδας με το Beautiful Soup και το Python 3 είναι τόσο απλό.