Bioinformatiikka - uusi tieteenala biologian, tietojenkäsittelytieteenja matematiikan rajapinnassa

 

Bioinformatiikka - uusi tieteenala biologian, tietojenkäsittelytieteen ja matematiikan rajapinnassa

Juha Saharinen, FT
KTL, Molekyylilääketieteen osasto
Biomedicum

Bioinformatiikka on uusi poikkitieteellinen ala, joka käyttää tietojenkäsittelytieteen, matematiikan ja tilastotieteen menetelmiä biologisten ongelmien ratkaisemiseen. Bioinformatiikan käytetyimmät sovellukset liittyvät sekvenssianalyysiin. Nykyisin läpiluetut kymmenien eri lajien perimät ovat asettaneet bioinformatiikalle valtavia haasteita. Bioinformatiikalla on lisäksi suuri merkitys monissa muissa nykyajan molekyylibiologian menetelmissä, kuten mikrosirututkimuksessa ja erilaisissa laskennallisen rakennebiologian menetelmissä.
 

Sekvenssianalyysi bioinformatiikassa


Bioinformatiikan käytetyimmät sovellukset liittyvät sekvenssitiedon analysointiin. Käynnissä oleva julkisrahoitteinen ihmisen genomin läpiluentaprojekti HUGO tuotti vuonna 2000 keskimäärin 2,6 miljoonaa emäsparia uutta sekvenssiä päivässä. Lisäksi nykyisin tunnetaan kymmenien eri eliöiden perimien emäsjärjestys. Tämän tietomäärän mukana bioinformatiikka on käynyt yhä keskeisemmäksi osaksi nykyajan molekyylibiologista tutkimusta. Esimerkiksi ihmisen genomin miljardien emäsparien joukosta on löydettävä alueet, jotka koodaavat toiminnallisia geenejä tai geenien säätelyalueita. Vain sekvenssin tehokas analysointi tuottaa informaatiota muuten epäselväksi jäävästä massiivisesta emäsjoukosta.

Sekvenssianalyysiin kuuluvat sekvenssivertailut eri lajien välillä, geneettisten variaatioiden etsiminen saman lajin sisällä vaikkapa sairautta aiheuttavien geenien etsimisessä, geenien ja edelleen proteiineja koodaavien alueiden paikallistaminen perimästä ja biologisten funktioiden ennustaminen näille proteiineille. Eräs käytetyimmistä menetelmistä on nk. Blast-haku, jolla etsitään tutkitulle sekvenssille samankaltaisia sekvenssejä miljoonien sekvenssien tietokannoista. Tällä hetkellä lähes jokainen molekyylibiologi osaa perustiedot näistä käytetyimmistä menetelmistä ja käyttää niitä erilaisten solu-ja molekyylibiologisten ongelmiensa ratkaisuun.

Käytännössä sekvenssin analysointi suoritetaan mikrotietokoneiden tai keskustietokoneiden sekvenssianalyysiohjelmilla sekä Internetissä olevilla lukuisilla sekvenssianalyysipalveluilla. Bioinformatiikka-ala hyödyntää tehokkaasti Internetin tarjoamia mahdollisuuksia ja alalle tyypilliseen tapaan useimmat näistä palveluista ovat ilmaisia. Edelleen käytetyt ohjelmat ovat monesti vapaasti levitettäviä nk. avoimen lähdekoodin (OpenSource) ohjelmistoja, joita kuka tahansa voi vapaasti kehittää erilaisia tarpeita vastaaviksi.
 

Mikrosirututkimus ja bioinformatiikka


Mikrosirututkimus on hyvin uusi teknologia biotieteissä. Tavallisimmin mikrosirututkimuksella tutkitaan tuhansien eri geenituotteiden ilmentymistä lähetti-RNA tasolla. Tämän teknologian synnylle bioinformatiikan menetelmien vastavuoroinen kehitys on ollut välttämätöntä ja näiden tulosten analysointiin on tuotettu viime vuosina joukko erilaisia matemaattisia ja tilastotieteellisiä menetelmiä, jotka soveltavat muun muassa hermoverkkoja (neural networks), itseoppivia karttoja (self-organizing maps, SOM) ja erilaisia tiedon louhintamenetelmiä (data-mining). Toistaiseksi mikrosiruanalyysi on ollut perustutkimuksen palveluksessa, mutta mikrosiruanalyysimenetelmien kehittyessä tulevaisuudessa on mahdollista tuottaa apuvälineitä muun muassa erilaisten sairauksien diagnostisointiin. Esimerkiksi syöpäkasvaimen tyypin luokittelussa voidaan mikrosirutekniikoilla mitata näytteestä kerralla tuhansien relevanttien geenituotteiden ilmentymistasot. Edelleen vertaamalla näitä tunnettuihin eri syöpätyyppeihin, voidaan entistä tarkemmin molekulaarisella tasolla määrittää tutkitun kasvaimen ominaisuuksia. Toinen tulevaisuuden kliininen mikrosirusovellus liittyy perinnöllisten sairauksien diagnostiikkaan, jossa yhdellä laboratoriokokeella potilasnäytteestä voidaan kerralla määrittää tuhansien tunnettujen perinnöllisille sairauksille altistavien mutaatioiden olemassaolo.
 

Rakennebiologia ja bioinformatiikka


Bioinformatiikkaan liittyy läheisesti myös biologinen rakennetutkimus, jossa selvitetään proteiinien kolmiulotteisia rakenteita. Koska nykyisin ei pystytä luotettavasti ennustamaan proteiinien kolmiulotteisia rakenteita pelkästään niiden sekvenssitiedon perusteella, tähän täytyy käyttää yhä niin kutsuttua kokeellista rakennetutkimusta. Toistaiseksi kokeellisen rakennetutkimuksen menetelmillä (röntgensädekristallografia ja ydinmagneettinen resonassitutkimus (NMR)) on selvitetty noin 15 000 proteiinin rakenne. Kokeellinen rakennetutkimus onkin hyvin hidasta käsityötä verrattuna automatisoituun sekvenssitiedon tuottamiseen. Tämän takia on kehitetty menetelmiä, joilla proteiinien rakenne voidaan ennustaa jos ainakin yhden, läheistä sukua olevan proteiinin rakenne on tunnettu. Proteiinin rakenteen ollessa tunnettu, voidaan näiden laskennallisten menetelmien avulla ennustaa esimerkiksi löydetyn mutaation vaikutuksia itse proteiinin rakenteessa. 

Edelleen erilaisten niin kutsutuiden molekyylidynamiikkasimulaatioiden avulla voidaan ennustaa proteiinien liikettä, niiden vuorovaikutuksia toisten proteiinien kanssa tai entsymaattisen katalyysin toimintaa lyhyellä aikajaksolla. Eräs laskennallisen rakennetutkimuksen menetelmä on uusien lääkeainemolekyyliehdokkaiden etsiminen sovittamalla niitä kohdeproteiinin kolmiulotteiseen rakennemalliin. Tällöin tarkoituksena on löytää uusia, pieniä, synteettisesti valmistettavia molekyylejä, joiden avulla voidaan esimerkiksi vaikuttaa jonkin proteiinin entsymaattiseen aktiviisuuteen.
 

Bioinformatiikka tänään ja huomenna


Bioinformatiikan menetelmien kehittämiseen ja soveltamiseen on viimeaikoina tullut paljon kaupallisia yrityksiä, jotka yleensä joko tuottavat ja varastoivat biologista tietoa bioinformatiikan menetelmin tai pyrkivät hyödyntämään näitä menetelmiä etsiessään vastauksia biologisiin ongelmiin. Tunnetuimpia tämän alan yrityksiä ovat mm. Celera Genomics, LionBiosciences, Incyte Genomics ja DoubleTwist. Vastaavasti myös julkisella puolella on viime aikoina panostettu paljon bioinformatiikan tutkimukseen ja palveluiden tuottamiseen. Tunnettuja suuria julkisrahoitteisia bioinformatiikan keskuksia ovat mm. National Center for Biotechnology Information (NCBI), European Bioinformatics Institute (EBI), Sanger Center ja Weizmann Institute of Science. Suomessa bioinformatiikan alan tutkijoiden ja tutkimuslaitosten yhteistyötä koordinoi opetusministeriön omistama CSC-Tieteellisen laskennan palvelu, joka itse mm. tarjoaa bioinformatiikan asiantuntija-apua sekä ohjelmistoja ja suurta tietokonelaskentakapasiteettia.
Valtavan suurten tietomäärien hallinta ja analysointi ovat usein hyvin raskaita töitä tietokoneille. Esimerkkinä mainittakoon IBM:n BlueGene projekti, jonka tarkoituksena on vuoteen 2004 mennessä rakentaa tietokone, jonka laskentakapasiteetti tulee olemaan yli sata kertaa nykyistä maailman tehokkainta supertietokonetta suurempi. Tämä BlueGene tietokone on tarkoitus valjastaa muun muassa mallintamaan proteiinien laskostumista kolmiulotteisiksi rakenteiksi.
Nämä bioinformatiikkaa voimakkaasti hyödyntävät menetelmät ovat yhä tärkeämpi osa nykyaikaista molekyylibiologian ja molekyylilääketieteen tutkimusta, joiden tulokset ovat hyödynnettävissä myös kliinisessä työssä. Vaikka bioinformatiikka on nuori ala, se on osoittautunut korvaamattomaksi modernissa biologisessa tutkimuksessa ja voidaan pitää varmana, että tulevaisuudessa bioinformatiikan käyttö edelleen kasvaa.
Kansanterveyslaitoksen molekyylilääketieteen osastolla toimii bioinformatiikan tutkimusryhmä, joka kehittää bioinformatiikan sovelluksia erilaisiin biologisiin ongelmiin sekä järjestelmiä biologisen tiedon varastointiin. Lisäksi ryhmä hyödyntää jo olemasssa olevia bioinformatiikan työkaluja ja kouluttaa molekyylibiologian tutkijoita käyttämään näitä työkaluja. Molekyylilääketieteen osastolla käytetyt bioinformatiikan sovellukset liittyvät lähinnä perimän analysointi- ja ennustusmenetelmiin, sairauksia aiheuttavien geenivirheiden hakuun sekä mikrosirututkimuksessa käytettyihin menetelmiin.

Proteiinin kolmiulotteinen rakennemalli - kuva.

Lähteet:
Celera Genomics: http://www.celera.com
Lion Biosciences: http://www.lionbioscience.com
Incyte Genomics: http://www.incyte.com
DoubleTwist: http://www.doubletwist.com
EBI: http://www.ebi.ac.uk
NCBI: http://www.ncbi.nlm.nih.gov
Sanger Center: http://www.sanger.ac.uk
Weizmann Institute of Science: http://bioinfo.weizmann.ac.il
CSC Tieteellisen laskennan palvelu: http://www.csc.fi/molbio
IBM Blue Gene: http://www.research.ibm.com/bluegene
KTL:n molekyylilääketieteen osasto ja bioinformatiikka: http://www.ktl.fi/lmgo/, http://www.ktl.fi/bioinfo/

 

Lehden aineistoa lainattaessa lähde on aina mainittava.
Takaisin sisällysluetteloon