Hallo, bin neu hier und hoffe mit meiner Frage die richtige Rubrik zu benutzen.
Es liegen mir ca 1 Million html-Dateien mit Texten vor, die semantisch ausgewertet werden sollen mit Hilfe von Python-scripten. Jeden Monat kommen weitere Dateien hinzu. Die ausgelesenen Informationen sollen in eine postgreSQL-Tabelle. Da es sicher mehrere Auswertungsdurchläufe geben wird bis das Ergebnis alle zufrieden stellt, wollte ich das Rohmaterial konvertieren, um die Auswertungen zu beschleunigen. Viele Tausend Dateien einzulesen ist auf meinem Fileserver langsam. 3 Varianten sind mir bisher in den Sinn gekommen: Umwandeln der kleinen html-Dateien in große WARC-Dateien(Archivierungsformat von archive.org). Weitere Möglichkeiten sind das Ablegen in eine NoSQL-Datenbank oder in ein JSONb-Feld in postgreSQL? Zu was könnt ihr mir raten?
Es liegen mir ca 1 Million html-Dateien mit Texten vor, die semantisch ausgewertet werden sollen mit Hilfe von Python-scripten. Jeden Monat kommen weitere Dateien hinzu. Die ausgelesenen Informationen sollen in eine postgreSQL-Tabelle. Da es sicher mehrere Auswertungsdurchläufe geben wird bis das Ergebnis alle zufrieden stellt, wollte ich das Rohmaterial konvertieren, um die Auswertungen zu beschleunigen. Viele Tausend Dateien einzulesen ist auf meinem Fileserver langsam. 3 Varianten sind mir bisher in den Sinn gekommen: Umwandeln der kleinen html-Dateien in große WARC-Dateien(Archivierungsformat von archive.org). Weitere Möglichkeiten sind das Ablegen in eine NoSQL-Datenbank oder in ein JSONb-Feld in postgreSQL? Zu was könnt ihr mir raten?