DAVID Reduktion

DAVID ist ein ziemlich mächtiges Tool, wenn es darum geht, biologischen Sinn aus daten zu gewinnen. Das Problem ist nur, dass Bioinformatiker und Biologen an dieser Stelle zwei unterschiedliche Ansätze fahren. Der Bioinformatiker möchte natürlich so viel wie möglich aus den Daten herausziehen und fährt, wenn es beim Auswählen der Datenbanken geht meist nach dem Prinzip Default oder gleich alles. Das macht für den Biologen wiederum wenig Sinn, denn für ihn ist die Argumentation so:

1. Ich möchte das wiederfinden, was ich seit 10 Jahren mit anderen Methoden bereits im Labor sehe
2. Ich möchte die These bestätigt finden, die der Doktorand X vor vier Jahren in seiner Doktorarbeit aufgestellt hat, die wir aber bisher nie wieder so nachweisen konnten
3. Und es darf auch noch ein bisschen mehr sein.

Insofern macht es Sinn, einerseits den Partner aus dem Labor zu einem Gespräch einzuladen, damit man wirklich versteht, was er denn eigentlich sucht und danach den Teil der Analyse auf das zu beschränken, was für das Nachprüfen im Labor und die weitere Arbeit wirklich Sinn macht. Alles andere ist zwar schöne Spielerei, aber von keinem praktischen Nutzen und führt vor allem zu immenser Miskommunikation und folglich Zeitverlust für beide Seiten.

Datendatendatendatendaten…

Immer wieder gern verwendet: Glaube keiner Statistik, die Du nicht selbst gefälscht hast. Das trifft aud Politiker zu, auf kleine Beamte, auf Betriebsverantwortliche, auf Wissenschaftler, die mit Daten jonglieren. Nur kann man das nicht so verallgemeinern. Seit Jahren ist es zwar so, dass sich die Ergebnisse bioinformatischer Studien kaum validieren lassen, trotzdem wird munter weiter algorithmisiert, meist ohne verlässlichere Standards als pval<0,05 und FDR<0,001. Vielleicht noch Bonferoni correction,aber dann hat es sich auch. Und immer mehr Daten müssen es sein, weil die genrerierungsmethoden weltweit so unterschiedlich sind, dass es dem Vergleich von Äpfeln und Möhren gleichkommt. Und immer neue Allgorithmen müssen es sein, den Universaladapter für alle Adapter immitierend, der dann aber wieder einen anderen Anschluß hat…

Lange verwirrende Rede, kurzer Sinn: Auch Wired hat das Thema aufgenommen und fordert: Weniger Daten, dafür bessere, standardisiertere und verläßlichere Analysen.

Analogie: Datenanalyse

Was man alles mit Daten machen kann. Was passiert, wenn ein Bioinformatiker auf einen Datensatz gesetzt wird, der nichts mit seinem Fachgebiet zu tun hat? In Analogie: funktioniert reverse engeneering auch bei Vortragsdaten? Ein amüsantes, Video findet sich hierzu auf den TED-Seiten.

TED ist eine kleine Organisation, die unter dem Motto „Technology, Entertainment, Design“ seit einigen Jahren Vortragsreihen veranstalt. Die relativ kurzen Vorträge (ca. 20 min) werden von Wissenschaftlern, Politikern, Musikern ect. gehalten und decken so ziemlich alles ab, was einen interessieren könnte. Meist mit aha-Effekt.

Zum Selberbasteln von Vorträgen aus den Stichworten gehts hier lang.