Methoden zur effizienten Proteinidentifizierung anhand von Massenspektrometrie
Autoři
Více o knize
Die Datenverarbeitung im Bereich der Massenspektrometrie ab der Generierung der Spektrendaten stellt sich immer wieder als Engpass vieler Proteomics-Projekte heraus. Für die Analyse komplexer Gemische ist eine leistungsfähige Software notwendig. Die vorliegende Arbeit nimmt sich diesem Problem an und zeigt Lösungsansätze dafür auf. Mit Lösung dieses Problems wurde es ermöglicht, wichtige Proteine des Mitochondriums der Hefe Saccharomyces cerevisiae und von Dictyostelium discoideum einschließlich deren Modifikationen effizient zu bestimmen. Die entwickelten Verfahren fanden bei der Vervollständigung des Proteininventars der Mitochondrienmembran in Saccharomyces cerevisiae und bei der Untersuchung des Centrosomproteoms in Dictyostelium discoideum Anwendung. Die durch Anwendung der entwickelten computergestützten Methoden erhaltenen biologisch relevanten Ergebnisse wurden von den Anwendern in anerkannten Journalen publiziert. Ziel dieser Arbeit war es, eine Infrastruktur zur Datenanalyse und zum komplexen Data-Mining in der Proteinmassenspektrometrie aufzubauen. Des weiteren sollen Softwarepakete geschaffen werden, die die Realisierung dieses Ziels ermöglichen. Für die einzelnen Projektabschnitte in der Datenauswertung, wie sie in jedem massenspektrometriebasierten Proteomprojekt vorkommen, wurde eine Software-Unterstützung entwickelt und implementiert. Beispielsweise wurde die Datenverarbeitung optimiert und eine integrierte Plattform für die verschiedenen Auswertungsverfahren implementiert und etabliert. Hierzu mussten Mittel und Wege der Datenkonvertierung geschaffen werden einerseits um die Massenspektren in portabler Form zu gewinnen und andererseits um die Ergebnisse der Identifizierungsalgorithmen der gezielten Weiterverarbeitung zur Verfügung zu stellen. Die Besonderheiten des Systems paOla sind zum einen die Nutzung einer relationalen Datenbank, die auch komplexe Abfragen auf den Daten unterstützt. Damit ist es möglich, die in Proteomprojekten üblichen Datenmengen zu bewältigen und auch die verschiedenen Identifizierungsalgorithmen untereinander zu vergleichen. Zum anderen wurde ein Kern entwickelt, der es ermöglicht, die in der Protein-Massenspektrometrie benutzten Identifizierungsalgorithmen auf mehrere Rechner zu verteilen und so den Durchsatz gemessen in Realzeit an Identifizierungen zu steigern. Er ist offen konzipiert, wodurch weitere Algorithmen ohne großen Aufwand integriert werden können. Dabei wurde ein Scoringsystem eingeführt, das eine Bewertung der zu einem Konsensus zusammengeführten Peptididentifizierungen ermöglicht, die durch Anwendung der Polymetric Views visualisiert wird. In das System ist eine eigene Proteinsequenzdatenbank integriert, die automatisch aus verschiedenen Quellen aktuell gehalten wird. Sie ist dabei nicht-redundant und ermöglicht die Auflösung des Alias-Problems bei Proteinbezeichnern und Accession Identifiern. Aus ihr können Sequenzdatenbanken als Basis zur Proteinidentifizierung exportiert werden.