Drucken der Inhalt aller html-Dateien in einem Verzeichnis mit BeautifulSoup

Ich öffnete ein Verzeichnis mit 200 html-Dateien mit BeautifulSoup, aber wenn ich versuche, drucken Sie den Inhalt des ganzen Verzeichnisses mit print(Suppe).prettify()) es zeigt nur den Inhalt von nur einer HTML-Datei. Das gleiche passiert wenn ich versuche die Suppe.find('title'), die es nur zu Lasten der Titel der gleiche HTML-Datei vor. Können Sie mir sagen, warum ? python zeigt keine Fehler und ich kann nicht verstehen, was falsch in meinem code.


import os
from bs4 import BeautifulSoup
import glob
import errno

dir_path = '/Users/martinagalletti/Desktop/parte 2 data mining/train/student'
files = glob.glob(dir_path)
for name in files:
    try:
        with open(name) as f:
            soup = BeautifulSoup(f, "html.parser")
            print(type(soup))
    except IOError as exc:
        if exc.errno != errno.EISDIR:
            raise

print(type(soup))
soup.find('title')

Stacktr

Drucken der Inhalt aller html-Dateien in einem Verzeichnis mit BeautifulSoup

1 Antworten

glhr