Bioinformatika adalah
ilmu yang mempelajari penerapan teknik komputasional untuk mengelola dan
menganalisis informasi biologis. Bidang ini mencakup penerapan metode-metode
matematika, statistika, dan informatika untuk memecahkan masalah-masalah
biologis, terutama dengan menggunakan sekuens DNA dan asam amino serta
informasi yang berkaitan dengannya. Contoh meliputi :
- · basis data untuk mengelola informasi biologis,
- · penyejajaran sekuens (sequence alignment),
- · prediksi struktur untuk meramalkan bentuk struktur protein maupun struktur sekunder RNA,
- · analisis filogenetik, dan
- · analisis ekspresi gen.
Basis data untuk
mengelola informasi biologis,
Sesuai dengan jenis informasi biologis yang disimpannya,
basis data sekuens biologis dapat berupa basis data primer untuk menyimpan
sekuens primer asam nukleat maupun protein, basis data sekunder untuk menyimpan
motif sekuens protein, dan basis data struktur untuk menyimpan data struktur
protein maupun asam nukleat.
Basis data utama untuk sekuens asam nukleat saat ini adalah
GenBank (Amerika Serikat), EMBL (Eropa), dan DDBJ(Inggris) (DNA Data Bank of
Japan, Jepang). Ketiga basis data tersebut bekerja sama dan bertukar data
secara harian untuk menjaga keluasan cakupan masing-masing basis data. Sumber
utama data sekuens asam nukleat adalah submisi langsung dari periset
individual, proyek sekuensing genom, dan pendaftaran paten. Selain berisi
sekuens asam nukleat, entri dalam basis data sekuens asam nukleat umumnya
mengandung informasi tentang jenis asam nukleat (DNA atau RNA), nama organisme
sumber asam nukleat tersebut, dan pustaka yang berkaitan dengan sekuens asam
nukleat tersebut.
Sementara itu, contoh beberapa basis data penting yang
menyimpan sekuens primer protein adalah PIR (Protein Information Resource,
Amerika Serikat), Swiss-Prot (Eropa), dan TrEMBL (Eropa). Ketiga basis data
tersebut telah digabungkan dalam UniProt (yang didanai terutama oleh Amerika
Serikat). Entri dalam UniProt mengandung informasi tentang sekuens protein,
nama organisme sumber protein, pustaka yang berkaitan, dan komentar yang
umumnya berisi penjelasan mengenai fungsi protein tersebut.
Penyejajaran sekuens
(sequence alignment)
Penyejajaran sekuens (sequence alignment) adalah proses
penyusunan/pengaturan dua atau lebih sekuens sehingga persamaan sekuens-sekuens
tersebut tampak nyata. Hasil dari proses tersebut juga disebut sebagai sequence
alignment atau alignment saja. Baris sekuens dalam suatu alignment diberi
sisipan (umumnya dengan tanda "–") sedemikian rupa sehingga
kolom-kolomnya memuat karakter yang identik atau sama di antara sekuens-sekuens
tersebut. Berikut adalah contoh alignment DNA dari dua sekuens pendek DNA yang
berbeda, "ccatcaac" dan "caatgggcaac" (tanda "|"
menunjukkan kecocokan atau match di antara kedua sekuens).
Sequence alignment merupakan metode dasar dalam analisis
sekuens. Metode ini digunakan untuk mempelajari evolusi sekuens-sekuens dari
leluhur yang sama (common ancestor). Ketidakcocokan (mismatch) dalam alignment
diasosiasikan dengan proses mutasi, sedangkan kesenjangan (gap, tanda
"–") diasosiasikan dengan proses insersi atau delesi. Sequence
alignment memberikan hipotesis atas proses evolusi yang terjadi dalam
sekuens-sekuens tersebut. Misalnya, kedua sekuens dalam contoh alignment di
atas bisa jadi berevolusi dari sekuens yang sama "ccatgggcaac". Dalam
kaitannya dengan hal ini, alignment juga dapat menunjukkan posisi-posisi yang
dipertahankan (conserved) selama evolusi dalam sekuens-sekuens protein, yang
menunjukkan bahwa posisi-posisi tersebut bisa jadi penting bagi struktur atau
fungsi protein tersebut.
Selain itu, sequence alignment juga digunakan untuk mencari
sekuens yang mirip atau sama dalam basis data sekuens. BLAST adalah salah satu
metode alignment yang sering digunakan dalam penelusuran basis data sekuens.
BLAST menggunakan algoritma heuristik dalam penyusunan alignment.
Beberapa metode alignment lain yang merupakan pendahulu
BLAST adalah metode "Needleman-Wunsch" dan
"Smith-Waterman". Metode Needleman-Wunsch digunakan untuk menyusun
alignment global di antara dua atau lebih sekuens, yaitu alignment atas
keseluruhan panjang sekuens tersebut. Metode Smith-Waterman menghasilkan
alignment lokal, yaitu alignment atas bagian-bagian dalam sekuens. Kedua metode
tersebut menerapkan pemrograman dinamik (dynamic programming) dan hanya efektif
untuk alignment dua sekuens (pairwise alignment)
Prediksi struktur
untuk meramalkan bentuk struktur protein maupun struktur sekunder RNA
Secara kimia/fisika, bentuk struktur protein diungkap dengan
kristalografi sinar-X ataupun spektroskopi NMR, namun kedua metode tersebut
sangat memakan waktu dan relatif mahal. Sementara itu, metode sekuensing
protein relatif lebih mudah mengungkapkan sekuens asam amino protein. Prediksi
struktur protein berusaha meramalkan struktur tiga dimensi protein berdasarkan
sekuens asam aminonya (dengan kata lain, meramalkan struktur tersier dan
struktur sekunder berdasarkan struktur primer protein). Secara umum, metode
prediksi struktur protein yang ada saat ini dapat dikategorikan ke dalam dua
kelompok, yaitu metode pemodelan protein komparatif dan metode pemodelan de
novo.
Pemodelan protein komparatif (comparative protein modelling)
meramalkan struktur suatu protein berdasarkan struktur protein lain yang sudah
diketahui. Salah satu penerapan metode ini adalah pemodelan homologi (homology
modelling), yaitu prediksi struktur tersier protein berdasarkan kesamaan
struktur primer protein. Pemodelan homologi didasarkan pada teori bahwa dua
protein yang homolog memiliki struktur yang sangat mirip satu sama lain. Pada
metode ini, struktur suatu protein (disebut protein target) ditentukan
berdasarkan struktur protein lain (protein templat) yang sudah diketahui dan
memiliki kemiripan sekuens dengan protein target tersebut. Selain itu,
penerapan lain pemodelan komparatif adalah protein threading yang didasarkan
pada kemiripan struktur tanpa kemiripan sekuens primer. Latar belakang protein
threading adalah bahwa struktur protein lebih dikonservasi daripada sekuens
protein selama evolusi; daerah-daerah yang penting bagi fungsi protein
dipertahankan strukturnya. Pada pendekatan ini, struktur yang paling kompatibel
untuk suatu sekuens asam amino dipilih dari semua jenis struktur tiga dimensi
protein yang ada. Metode-metode yang tergolong dalam protein threading berusaha
menentukan tingkat kompatibilitas tersebut.
Analisis ekspresi
gen.
Ekspresi gen dapat ditentukan dengan mengukur kadar mRNA
dengan berbagai macam teknik (misalnya dengan microarray ataupun Serial
Analysis of Gene Expression ["Analisis Serial Ekspresi Gen", SAGE]).
Teknik-teknik tersebut umumnya diterapkan pada analisis ekspresi gen skala
besar yang mengukur ekspresi banyak gen (bahkan genom) dan menghasilkan data
skala besar. Metode-metode penggalian data (data mining) diterapkan pada data
tersebut untuk memperoleh pola-pola informatif. Sebagai contoh, metode-metode
komparasi digunakan untuk membandingkan ekspresi di antara gen-gen, sementara
metode-metode klastering (clustering) digunakan untuk mempartisi data tersebut
berdasarkan kesamaan ekspresi gen.