Vorschau des Inhalts als PDF
A Hypercube-based Peer-to-Peer Data Store Resilient against Peer Population Fluctuation
 |
Autor(en):
Hamburg-Harburg, 24. Januar 2008
Seiten: 280
Auflage: 1
Sprache: EN
ISBN-10: 3867274983
ISBN-13: 9783867274982
Zugeordnete Fachbereiche:
Informatik
Kategorie:
Dissertation
Bezugsmöglichkeiten
|
Kurzbeschreibung
Peer-to-Peer-Netzwerke (P2PN) sind heutzutage vor allem unter dem Begriff "Tauschbörse im Internet" bekannt. In traditionellen P2PN sind meist nur einzelne Peers für eine Menge von Dateien zuständig. Diese können nicht mehr heruntergeladen werden, wenn die Peers das Netzwerk verlassen. Weiterhin sorgt die Fluktuation der Peerpopulation dafür, dass eine bestimmte Dienstgüte in Bezug auf fehlerfreie "Downloads" nicht oder nur eingeschränkt gewährleistet werden kann.
Im Fokus dieser Dissertation stehen die Probleme, die durch Peerpopulationsfluktuation verursacht werden. Ausgehend von einer Analyse der Problematik in P2PN der 2. Generation entwickelt der Autor eine Definition und einen eigenen Ansatz zu einem Peer-to-Peer-Datenspeicher (P2PDS), der im Gegensatz zu reinen P2PN einmal eingefügte Datenelemente mit hoher Wahrscheinlichkeit sicher und zuverlässig speichert. Der P2PDS des Autors bietet folgende Alleinstellungsmerkmale gegenüber vergleichbaren P2PN:
Nicht ein einzelner Peer ist verantwortlich für die Verfügbarkeit, Zugänglichkeit und Sicherheit einer Menge von Daten, sondern eine Gruppe von mehreren Peers. So eine Gruppe wird vom Autor "Replikationsgruppe" genannt, da alle Peers eine identische Kopie aller Daten der Gruppe speichern. Aus- und Beitritte von Peers zu einer Replikationsgruppe wirken sich somit weit weniger gravierend auf die Verfügbarkeit der Daten aus als in P2PN der 2. Generation.
Im P2PDS gibt es logische Verbindungen, die zur Kommunikation und für den Datenaustausch zwischen Peers in unterschiedlichen Replikationsgruppen genutzt werden. Diese Verbindungen sind redundant ausgelegt, so dass der P2DS mit hoher Wahrscheinlichkeit immer verbunden bleibt und nicht partitioniert.
Der P2PDS unterstützt drei Datenkonsistenzmodelle, um so flexibel den Anforderungen der Anwendungen aus unterschiedlichen Domänen gerecht zu werden.
Ausgehend von den aus den Anwendungsdomänen stammenden Anforderungen wurde zunächst der P2PDS entworfen, anhand eines Referenzmodells beschrieben und schließlich als Simulationsmodell realisiert. Zur Vorhersage der theoretischen Anfrageleistung bei gegebener Größe des P2PDS und Fluktuationsrate wurde ein wahrscheinlichkeitstheoretisches Modell aufgestellt. Zwei weitere theoretische Modelle zielen auf die Bestimmung des Ausführungszeitpunkts der Wartungsoperationen „Coalesce“ bzw. „Split“ ab. Mittels „Coalesce“ werden zwei Replikationsgruppen fusioniert, um die Verfügbarkeit der Daten in beiden Gruppen bei schrumpfender Peerpopulation zu gewährleisten. Mittels der konträren Wartungsoperation ``Split'' wird eine Replikationsgruppe in zwei Gruppen aufgespaltet, wenn ihre ökonomische Verwaltung bei wachsender Peerpopulation nicht mehr möglich ist.
Zur Validation der theoretischen Modelle wurden zahlreiche Simulationsexperimente durchgeführt. Diese dienten dazu, zunächst die Implementation des P2PDS-Simulationsmodells zu überprüfen, um dann seine Anfrageleistung und -zuverlässigkeit mit den Vorhersagen des theoretischen Modells zu vergleichen. Mit weiteren Simulationsexperimenten wurde das Berechnungsmodell für die Wartungsoperation „Coalesce“ validiert und gezeigt, dass Fusionen zweier Replikationsgruppen mit hoher Wahrscheinlichkeit bis zu einer gewissen Grenzfluktuationsrate gelingen. Mit der dritten Serie von Simulationsexperimenten wurde das Berechnungsmodell für die Wartungsoperation „Split“ validiert. Als letztes wurden eingangs erwähnte P2PN der 2. Generation in Bezug auf Anfrageleistung und Widerstandskraft gegen Peerpopulationsfluktuation mit dem P2PDS des Autors verglichen.
Description
These days many people, when hearing the term Peer-to-Peer network (P2PN), think of unrestricted and potentially illegal ``file-sharing'' on the Internet. In traditional P2PN usually a limited number of peers make a set of files available. These files become inaccessible when those peers leave the network. Furthermore inevitable fluctuation of the peer population makes the attainment of a specific quality of service in terms of correct and complete file downloads hard or even impossible. In what follows the author also wants to foster the emerging conception that the concept of Peer-to-Peer networks has much more potential than simple file-sharing.
In the focus of this dissertation are the problems caused and aggravated by peer population fluctuation. Starting from an analysis of the problems in 2nd generation P2PN, the author expounds his own definition and approach to a Peer-to-Peer data store (P2PD) that, in contrast to a pure P2PN, stores data items, once inserted, reliably with high probability. The P2PD of the author offers the following unique selling points in comparison with related P2PN:
Instead of a single peer being responsible for availability, accessibility, and security of a set of data items, a group of peers is. The author calls such a group a ``replication group'' because all peers belonging to such a group store an identical copy of the group's set of data items. Peer joins and leaves thus affect the availability of data items much less than they would in 2nd generation P2PN.
In the author's P2PD, virtual links enable communication and data transfer among peers in different replication groups. These links are designed to be redundant so that the P2PD remains connected and does not partition with high probability.
The P2PD of the author supports three data consistency models in order to better serve applications from different domains with diverse requirements.
Starting with the analysis of requirements from different application domains, the author set out to design and describe his P2PD with a reference model for P2PN followed by implementing his P2PD for simulation. To predict the theoretical lookup performance, given the size of and fluctuation rate in the P2PD, the author used probability theory to analyze the lookup operation. Two other theoretical models aim at analyzing and determining optimal points in time for executing maintenance operations that counter peer population fluctuation. With the first maintenance operation, coalesce, two replication groups can be merged to maintain data availability in case the peer population shrinks. With the opposite maintenance operation, split, a replication group can be divided into two sibling groups in the event that the peer population grows and economic maintenance of the original group becomes impossible.
To validate the theoretical models, numerous simulation experiments were conducted. First of all, experiments served to verify the correctness of the P2PD simulation model implementation. In a second step, the author compared theoretical results predicting lookup reliability and performance under various conditions with those obtained from simulation runs. With an additional string of experiments the coalesce operation was validated and shown that fusions of any two sibling groups succeed with high probability provided the fluctuation rate does not exceed an upper bound. With the third string of experiments the theoretical model of the split operation was validated. Finally, the author compared the lookup performance and resilience against peer population fluctuation of some well-known 2nd generation P2PN with those of his own P2PD.
Stichwörter
Peer-to-Peer, P2P, Verteilte Hashtabelle, DHT, Overlay-Netzwerk, verteilte Systeme, Fluktuation, Peerpopulation, Verfügbarkeit, Theoretisches Modell, nicht-lineare Optimierung, Overlay-Netzwerk-Visualisierung, , Simulation, Anwendungsbeispiel Reputationsmanagement.
Keywords
Distributed hash table,Churn,Greedy routing, Prediction interval theory, Hypercube, Resilience, epidemic content dissemination, activity-based simulation.