Froschkoenig84
Aktiver Benutzer
- Beiträge
- 27
Hallo Profis.
Zunächst mal, das ist keine rein technische Frage, sondern mehr eine philosophische...
Ich habe vor, eine überraschend große/breite Plattform aufzubauen, die jede Menge Nutzer-Objekte enthält, die von anderen Nutzern "geliked" werden können. - Like-Relation zwischen Nutzer und Objekt also.
USERs <> LIKEs <> OBJs
In der Like-Tabelle (typisch Relationstabelle) befinden sich nur die UserIds und die ObjektIds, ggf. noch ein Zeitstempel. Zwar werde ich nicht gleich Facebook Konkurrenz machen, aber wenn ich Best- und WorstCases hochrechne komme ich auf 10 Mio User (später sicherlich noch mehr), die täglich im Schnitt 25 Objekte anlegen und ca. 100 Likes abgeben. Was bereits 1 Mrd Likes pro Tag sind (Twitter generiert 4 Mio Favs pro Minute).
Prinzipiell sind 1 Mrd Datensätze (Relationstabelle mit IDs) datenbankseitig problemlos zu managen, aber das ist ja nur der Anfang, denn nach 10 Jahren wären das bereits 3.5 Billionen Datensätzen. - Ich hab das mal ausprobiert und festgestellt, dass selbst einfache Relationstabellen bei 1 Billion Datensätzen bereits sehr träge werden.
Jeder, der schon mal ein Forum oder einen wirklich großen Blog umgesetzt hat, weiß wie schnell man in die Mrd-Records gerät. Was am Anfang noch handlebare Größen sind, werden mit den Jahren gigantische Mengen an Datensätzen. Ich gebe zu, dass ich mich im BigData nicht immer 100%ig an die 3NF halte, aber zumindest versuche ich es, auch wenn ich meine Tabellen und DB-Gruppen ein wenig controllerlastig entwerfe.
Aber wie managed man Billionen von Datensätzen? Ich nutze primär MSSQL und spiele mit dem Gedanken, irgendwann auf MongoDB umzusatteln. Dennoch sind Billionen Datensätze nun mal immer ziemlich hart, egal welche Technik darunter läuft.
Hat jemand von euch Erfahrungen mit wirklich großen Zahlen und Datenmengen? Welche Technik, welche Tricks und Kniffe, welche Kombinationen und welche Form der Umsetzung bieten sich an, um wirklich sehr große Mengen an Datensätzen zu verwalten? - Bisher bin ich meistens mit Tabellen unter 1 Mrd. Datensätze unterwegs gewesen. Mein aktuelles Projekt nutzt ca. 60 Tabellen und ein paar Relationstabellen darunter, füllen sich eben besonders schnell. :/
Zunächst mal, das ist keine rein technische Frage, sondern mehr eine philosophische...
Ich habe vor, eine überraschend große/breite Plattform aufzubauen, die jede Menge Nutzer-Objekte enthält, die von anderen Nutzern "geliked" werden können. - Like-Relation zwischen Nutzer und Objekt also.
USERs <> LIKEs <> OBJs
In der Like-Tabelle (typisch Relationstabelle) befinden sich nur die UserIds und die ObjektIds, ggf. noch ein Zeitstempel. Zwar werde ich nicht gleich Facebook Konkurrenz machen, aber wenn ich Best- und WorstCases hochrechne komme ich auf 10 Mio User (später sicherlich noch mehr), die täglich im Schnitt 25 Objekte anlegen und ca. 100 Likes abgeben. Was bereits 1 Mrd Likes pro Tag sind (Twitter generiert 4 Mio Favs pro Minute).
Prinzipiell sind 1 Mrd Datensätze (Relationstabelle mit IDs) datenbankseitig problemlos zu managen, aber das ist ja nur der Anfang, denn nach 10 Jahren wären das bereits 3.5 Billionen Datensätzen. - Ich hab das mal ausprobiert und festgestellt, dass selbst einfache Relationstabellen bei 1 Billion Datensätzen bereits sehr träge werden.
Jeder, der schon mal ein Forum oder einen wirklich großen Blog umgesetzt hat, weiß wie schnell man in die Mrd-Records gerät. Was am Anfang noch handlebare Größen sind, werden mit den Jahren gigantische Mengen an Datensätzen. Ich gebe zu, dass ich mich im BigData nicht immer 100%ig an die 3NF halte, aber zumindest versuche ich es, auch wenn ich meine Tabellen und DB-Gruppen ein wenig controllerlastig entwerfe.
Aber wie managed man Billionen von Datensätzen? Ich nutze primär MSSQL und spiele mit dem Gedanken, irgendwann auf MongoDB umzusatteln. Dennoch sind Billionen Datensätze nun mal immer ziemlich hart, egal welche Technik darunter läuft.
Hat jemand von euch Erfahrungen mit wirklich großen Zahlen und Datenmengen? Welche Technik, welche Tricks und Kniffe, welche Kombinationen und welche Form der Umsetzung bieten sich an, um wirklich sehr große Mengen an Datensätzen zu verwalten? - Bisher bin ich meistens mit Tabellen unter 1 Mrd. Datensätze unterwegs gewesen. Mein aktuelles Projekt nutzt ca. 60 Tabellen und ein paar Relationstabellen darunter, füllen sich eben besonders schnell. :/