Project information

Description

Toda informação biológica dos seres vivos está armazenada em uma biomolécula chamada ácido desoxirribonucleico ou simplesmente DNA. O conjunto de todo material genético dentro de cada célula, de qualquer forma de vida, sejam bactérias, arqueas ou eucariotos, é denominado genoma. Nos organismos eucariotos, aqueles que possuem núcleo celular - estrutura que contém o genoma - e multicelulares, como nós humanos, todas as células possuem o genoma completo, com todas as características e "receitas" que ditam o que aquele ser vivo é, seu comportamento, suas estruturas histológicas e anatômicas e como se desenvolve. Se todas as células do nosso corpo contêm todo o nosso genoma, como existem milhares de células altamente especializadas, com diferentes funções e estruturas totalmente divergentes espalhadas por aí? É nesse contexto que precisamos entender o conceito de expressão gênica e os mecanismos epigenéticos. A vida é algo extremamente complexo e tem um poder de organização incrível. Dependendo do tecido e função da célula, determinados genes são "ligados" ou "desligados" como se fossem interruptores, ou em termos técnicos, expressos ou não. A célula cardíaca sabe quais genes precisam ser expressos para que ela seja uma célula cardíaca, o mesmo acontece com os neurônios, células epiteliais, células que formam nossas mucosas, do nosso sangue e todas as outras que compõe nosso corpo. Nosso objetivo neste projeto é mergulhar no universo da biologia e da biotecnologia e explorar uma base de dados da área. Utilizando uma base de dados disponibilizada pela Alura, baseada em uma competição do Kaggle. Vamos tentar compreender como esses dados estão organizados e utilizaremos um algorítmo de aprendizagem não supervisionada de clusterização.