V3D2 ChemVis - Abschlussphase

  Zusammenfassung    
Die letzte Phase des Projektes ChemVis befasst sich mit der Visualisierung hochdimensionaler Datenbanken aus der Chemie. Die Wirkstoffentwicklung in der Chemie hat in den letzten Jahren starke Fortschritte gemacht, es wurden eine Reihe von neuen Techniken entwickelt, die die Zahl der synthetisierten und getesteten potentiellen Wirkstoffverbindungen dramatisch erhöhten. Durch den Einsatz von kombinatorischen Synthesen, High-Throughput-Screening und automatisierten Robotikanlagen werden heute routinemäßig Datenvolumina produziert, die um mehrere Größenordnungen höher sind als die Zahl der Versuchsergebnisse die durch herkömmliche Ansätze noch vor wenigen Jahren erhalten wurden. Es fehlen jedoch adäquate Werkzeuge zur effektiven und effizienten Analyse dieser Daten.

  Punktbasierte Visualisierung    
Um diese Anforderungen erfüllen zu können, gingen wir vom glyph-basierten Ansatz in [Oellien01] aus und behoben zunächst die Limitierung auf sehr kleine Datensätze durch den Einsatz einer anderen Darstellung. Ein dreidimensionaler Scatterplot kann ebenso durch den Punktwolken-Algorithmus aus [Hopf03] dargestellt werden. Hierbei werden spezielle Datenstrukturen und Datenreduktion eingesetzt, gekoppelt mit einer hierarchischen Darstellung, die die Auflösung an die aktuellen Betrachtungsparameter anpaßt, indem zusammenfassende Strukturen in uninteressanten (entfernten) Bereichen darstellt werden und die tatsächlichen Daten nur in Betrachternähe gerendert werden. Der Benutzer kann dadurch Datenmengen von mehreren Millionen Punkten betrachten, wenn er eine Untermenge von Eigenschaften auswählt und explizit gewissen Darstellungsparametern wie Position, Farbe und Größe zuordnet. Um die Zahl der darstellbaren Attribute zu erhöhen, wurde mit der Darstellung von Glyphen bei feinster Auflösung experimentiert, doch hierbei entstand das Problem, daß die Art der Darstellung von zusammenfassenden Strukturen unklar schien, da das Zusammenfassen von Glyphen problematisch ist.

glyphs

3D-Scatterplot mit Glyphen als höchster Detailstufe.

  Interaktion    
Die performante Darstellung und einfache Navigation in solchen Datensätzen war dadurch zwar gewährleistet, doch der direkte Zugriff auf die Datenwerte nicht möglich. Ebenso war eine Selektion und Filterung dieser Daten nicht vorgesehen. Deshalb wurde der Ansatz so erweitert, daß dem Benutzer mehrere Möglichkeiten zur Selektion und Filterung der Daten im Raum zur Verfügung stehen. Es wurde außerdem der Einsatz der Selektion auch bei Verwendung des verteilten Renderings über mehrere Knoten eines Clusters ermöglicht. Da hierdurch der Einsatz einer Powerwall für die immersive Darstellung von Datensätzen ermöglicht wurde, wurde das System um eine Steuerung ausschließlich durch Bedienelemente, die von einem optischen Trackingsystem erfasst werden, erweitert.

pw

Immersive Navigation in der VR-Umgebung.

  Volumenbasierte Visualisierung    
Ein alternativer Ansatz wurde in [Reina04] vorgestellt: Hier wurde der Fokus auf eine möglichst umfangreiche Konfigurierbarkeit der darzustellenden Dimensionen gesetzt. Außerdem wird hierbei optional FastMap eingesetzt, um hochdimensionale Datensätze auf ihre Ähnlichkeit zu reduzieren und in einem abstrakten Raum darzustellen. Die resultierenden Daten werden in ein Volumen quantisiert und mittels Direct Volume Rendering dargestellt. Dies soll gewährleisten, dass die Performance von der Datenmenge entkoppelt wird, da die Auflösung des Volumens unabhängig von der Größe des Datensatzes eingestellt werden kann. Ein Nachteil dieses Ansatzes ist, dass mehrere Datenwerte in einem Voxel zum Liegen kommen, weshalb der Benutzer einstellen kann, wie die Werte aufgerechnet werden sollen, um zur endgültigen Darstellung zu kommen. Um den Benutzer bei der explorativen Datenanalyse zu unterstützen, können bis zu drei konkrete Attribute des Datensatzes in das Volumen übertragen werden. Es ist dann möglich, durch Linsen im Objekt- und Bildraum interaktiv den Bereich zu bestimmen, wo jedes dieser Attribute dargestellt wird, um es zu ermöglichen, abhängig von einem gewissen Datenwert andere Datenwerte zu untersuchen. Die Darstellung der Wertebereiche jedes dieser Attribute wird durch eine unabhängige Transferfunktion bestimmt. Ausserdem ist eine Filterung der Datepunkte auf Basis eines bestimmten Attributes gleichzeitig mit der Hervorhebung eines anderen Attributs möglich. Der Benutzer kann zudem ein Scatterplot eines Teilbereichs des Datensatzes aufrufen, in dem jeder einzelne Datenpunkt zugreifbar ist ebenso wie in einer damit gekoppelten Tabelle, in der die konkreten Werte aller Attribute dieser Untermenge dargestellt werden. Eine Selektion in einem der beiden Fenster wird direkt auf das jeweils andere übertragen (brushing).
Dieses Visualisierungsverfahren kann natürlich auf hochdimensionale Daten aus anderen Forschungsgebieten übertragen werden.

gui

Volumendarstellung(links oben) der Daten im GUI. Rechts unten das Scatterplot, darüber die Tabelle mit expliziten Werten.

  Dimensionsreduktion auf der GPU    
Der gewählte Algorithmus zur Dimensionsreduktion weist zwar nur linearen Aufwand auf, jedoch wurde versucht, die Zeit zwischen dem Erhalt eines Datensatzes und der ersten Untersuchung desselben weiter zu reduzieren, indem FastMap auf Grafikhardware implementiert wurde. Die ersten Ergebnisse (noch auf Radeon 9700) konnten zwar die Performance einer aktuellen CPU bei weitem übertreffen, jedoch kostete der Transfer der benötigten Daten- und Ergebnistexturen soviel Zeit, dass der Vorsprung der GPU zunichte gemacht wird. Ein weiteres Problem schien damals auch die nur 24-bittige Rechengenauigkeit von Radeon-GPUs, die nicht ausreichte für zufrieden stellende Ergebnisse. Dieses Problem ist mit der nVidia GeForce FX und neueren Karten behoben und Grafikkarten der Geforce-6-Serie bieten auch genügend Transferleistung, um einen signifikanten Performancevorsprung gegenüber der CPU-Implementierung bieten zu können [Reina05]. Mit dieser Lösung können Datensätze mit beispielsweise einer Million Datenpunkten mit 40 Attributen in 0,3 Sekunden in einen 3D-Ähnlichkeitsraum projiziert werden, was einer Beschleunigung um Faktor 50 gegenüber der Berechnung mit einem Pentium 4 mit 2,4GHz entspricht. Durch diese Beschleunigung können die Parameter der Projektion in Echtzeit beeinflusst werden, was es den Forschern erlaubt, explorativ unterschiedliche Cluster-Strukturen in großen Datensätzen aufzuspüren.

perf

Zeitmessungen in Sekunden für die Durchführung von FastMap auf verschiedenen Datensätzen auf CPU und GPU.

Weiter zu den Ergebnissen der vorhergehenden Phasen



zurueck zur VIS Homepage
English