Genoma umano

Sebbene sia pratica comune riferirsi a "la sequenza del genoma umano", esistono in realtà molte sequenze, poiché ciascun essere umano, eccetto i gemelli omozigoti, ne ha una propria versione individuale. Le differenze tra i singoli genomi individuali sono causate in larga maggioranza dai polimorfismi di singolo nucleotide (SNP, single nucleotide polymorphisms), posizioni nel genoma in cui alcuni individui hanno un nucleotide (ad es. A) e altri uno diverso (ad es. G).

Noi consideriamo i geni come la parte più "importante" del genoma, poiché sono le regioni che contengono l'informazione biologica, anche se le bozze di sequenza hanno mostrato che circa il 62% del genoma umano è costituito da regioni intergeniche, parti del genoma che si trovano tra i geni e la cui funzione è sconosciuta. Inoltre, gli esoni costituiscono solo l'1,5% (48 Mb) del genoma umano.
La maggior parte dei geni specificano una o più molecole proteiche. L'espressione di questi geni coinvolge un intermedio a RNA, chiamato RNA messaggero o mRNA, che viene trasportato dal nucleo al citoplasma, dove dirige la sintesi della proteina codificata dal gene. Altri geni non specificano proteine, ma RNA non codificante, che svolge ruoli diversi nella cellula.

Struttura dei geni umani

L'informazione biologica è divisa in una serie di esoni separati da introni non codificanti. La maggior parte dei geni umani sono discontinui, con una media di nove esoni per gene, sebbene alcuni ne contengano di più. Il record è detenuto dal gene che codifica una grande proteina muscolare, chiamata titina, con 178 esoni, che è anche il più grande gene umano noto, lungo 80.780 bp.
Durante l'espressione genica, l'RNA è sintetizzato inizialmente come copia dell'intero gene, contenente sia introni che esoni. Il processo noto come splicing rimuove gli introni da questo pre-mRNA e riunisce insieme gli esoni per formare l'mRNA che poi dirige la sintesi proteica.
All'inizio si credeva che lo splicing fosse un processo univoco, che legava ciascun esone al successivo per produrre un singolo mRNA da ogni gene discontinuo. Ora è noto che alcuni (forse la maggior parte) mRNA subiscono splicing alternativo o differenziale, dando origine ad una serie di mRNA contenenti diverse combinazioni di esoni, che specificano proteine diverse. Questo è il motivo per cui il numero dei geni è stato largamente sovrastimato: si pensava che il numero di proteine (meglio noto) corrispondesse al numero dei geni.

I pre-mRNA trascritti da un gene contengono, oltre al gene stesso, le sequenze che precedono il primo esone e seguono l'ultimo esone. Queste porzioni prendono rispettivamente il nome di regione 5' non tradotta (5' UTR, untranslated region) e regione 3' non tradotta (3' UTR).

Le funzioni dei geni umani

Le funzioni di circa la metà dei geni umani sono note o possono essere dedotte con un ragionevole margine di sicurezza.

  • La grande maggioranza codifica proteine;
    • Quasi un quarto dei geni che codificano proteine sono coinvolti nell'espressione, nella replicazione e nel mantenimento del genoma.
    • Un altro 20% specifica componenti delle vie di trasduzione del segnale, che regolano l'espressione del genoma e altre attività cellulari in risposta a segnali ricevuti dall'esterno della cellula. Si può dire che tutti questi geni sono coinvolti in un modo o nell'altro con l'attività del genoma.
    • Gli enzimi responsabili delle funzioni biochimiche generali della cellula rappresentano un altro 17,5% dei geni noti.
    • Tutti i rimanenti geni hanno a che fare con attività quali il trasporto di composti all'interno o all'esterno della cellula, il corretto ripiegamento delle proteine nelle strutture tridimensionali, la risposta immunitaria e la sintesi di proteine strutturali quali quelle del citoscheletro o dei muscoli.
  • meno di 2500 specificano i vari tipi di RNA non codificante.

Quanti geni sono presenti nel genoma umano?

I due progetti genoma differiscono nella stima del numero totale di geni del genoma umano, ma la cifra quasi certamente è tra 30.000 e 40.000 (Bork and Copley, 2001).1
L'incertezza deriva dalla difficoltà di identificare quali sequenze sono geni e quali no. Il numero è molto inferiore a quello ipotizzato precedentemente, la cui 'stima maggiore' era di 80.000-100.000, in voga fino a pochi mesi prima che la bozza della sequenza fosse completata (Pennisi, 2000). Queste stime erano basate sull'ipotesi che, in molti casi, un singolo gene specifica un unico RNA ed una sola proteina. Secondo questo modello, il numero dei geni nel genoma umano dovrebbe essere simile al numero delle proteine nelle cellule umane, portando alla suddetta stima. La scoperta che il numero dei geni è molto inferiore2 indica che lo splicing differenziale è un fenomeno più diffuso di quanto si ritenesse originariamente e suggerisce che il legame tra mRNA e proteina può essere più complesso di quanto si pensasse. Processi come l'editing dell'RNA, che permette ad un singolo mRNA di codificare più di una proteina, già si conoscevano, ma erano considerati eventi rari3. Il piccolo numero di geni nel genoma umano può indicare che l'editing, insieme ad altri fenomeni 'inusuali', svolge un ruolo più importante, nell'espressione del genoma, di quanto si credeva in passato.

Pseudogeni

Vedi anche la voce Pseudogene
Gli pseudogeni sono una sorta di relitti evolutivi a dimostrazione che il genoma umano è continuamente soggetto a cambiamenti. Esistono due tipi principali di pseudogeni:

  • Uno pseudogene convenzionale è un gene che è stato inattivato in seguito ad una mutazione della sua sequenza nucleotidica. Molte mutazioni hanno soltanto un effetto minore sull'attività di un gene, ma altre sono più importanti ed possibile che il cambiamento di un singolo nucleotide porti ad un gene completamente non funzionale. Una volta che uno pseudogene è diventato completamente non funzionale si degraderà per accumulazione di ulteriori mutazioni e potrebbe addirittura non essere più riconoscibile come relitto genico. TRY5 è un esempio di pseudogene convenzionale.
  • Uno pseudogene maturato deriva non dal degrado evolutivo ma da un'anormale espressione genica. Uno pseudogene maturato deriva dall'RNA trascritto da un gene, da cui si ha la sintesi di una copia di DNA che in seguito si reinserisce nel genoma. Poiché uno pseudogene maturato è una copia di una molecola di mRNA, non contiene alcuno degli introni presenti nella copia parentale. Manca anche delle sequenze nucleotidiche immediatamente a monte del 5'-UTR del gene parentale, dove sono localizzati i segnali necessari per attivare l'espressione del gene parentale. L'assenza di questi segnali rende inattivo uno pseudogene maturato.

Oltre agli pseudogeni, i genomi contengono altri relitti genici sotto forma di geni tronchi, che mancano di un tratto più o meno lungo della parte finale di un gene completo, e frammenti genici, che sono corte e isolate regioni interne di un gene.

Ripetizioni disperse in tutto il genoma e microsatelliti

Le bozze di sequenza hanno mostrato che circa il 62% del genoma umano è costituito da regioni intergeniche, parti del genoma che si trovano tra i geni e la cui funzione è sconosciuta. Queste sequenze venivano chiamate 'DNA spazzatura' (junk DNA), ma il termine è caduto in disuso in parte perché, a causa delle numerose sorprese derivate dalla ricerca genomica negli ultimi anni, i biologi molecolari si sentono meno sicuri di asserire che una parte del genoma non è importante solo perché non se ne conosce la funzione. Certo è che la grande maggioranza del DNA intergenico4 è rappresentato da sequenze ripetute di un tipo o di un altro5.

Voci correlate

Bibliography
1. Terence A. Brown, Genomi 2, II edizione, EdiSES, 2003, ISBN:8879594311
2. T. A. Brown, Genomi 3, EdiSeS, Napoli, 2008
Salvo diversa indicazione, il contenuto di questa pagina è sotto licenza Creative Commons Attribution-ShareAlike 3.0 License