# Início de uma jornada

Olá, querido leitor! Antes de entrarmos de fato nos assuntos relacionados ao dataset que iremos trabalhar, gostaria de me apresentar.

Meu nome é Ana Luiza Prata, tenho 24 anos e sou residente da cidade de Nova Iguaçu (RJ). Atualmente, eu estou no final da minha graduação em Engenharia Química na UFRRJ e inicianndo meus estudos na área de análise de dados.

Portanto, esse projeto é o meu primeiro de muitos que ainda virão. Graças à incrível imersão de dados da Alura, aprendi muito sobre diversas bibliotecas do Python e estou podendo desenvolver esse trabalho, dando o meu primeiro passo na construção de um portfólio para Data Science.

# O que iremos explorar?

Nesta edição da imersão de dados, a Alura propôs que explorássemos uma base de dados disponibilizada no site https://www.kaggle.com/ relacionada a estudos de **drug discovery**.

É bem clara a relevância dessas informações e estudos para a atual conjuntura que o mundo está vivendo: a pandemia do COVID-19. Já estamos em pouco mais de um ano no combate a esse vírus e, até o presente momento, já foram 3,55 milhões de mortes no mundo todo e zero tratamentos comprovadamente eficazes desenvolvidos.

Desenvolver drogas que sejam úteis no cambate à doença é um processo longo e que demanda muitos ensaios bioquímicos e clínicos. É uma verdadeira corrida contra o tempo.

(procurar as etapas do processo para colocar aqui)
(mostrar a relevância da análise de dados para esse caso)

É na fase inicial desse processo que iremos focar aqui nesse trabalho.

## Bibliotecas utilizadas

In [3]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

## Importando e compreendendo as bases de dados

In [4]:
url_dados1 = "https://github.com/anaprataa/imersao-dados-desafio-final/blob/main/Dados/dados_experimentos.zip?raw=true"
url_dados2 = "https://github.com/anaprataa/imersao-dados-desafio-final/blob/main/Dados/dados_resultados.csv?raw=true"

experimentos = pd.read_csv(url_dados1, compression='zip')
resultados = pd.read_csv(url_dados2)

display(experimentos.head())
display(resultados.head())

Unnamed: 0,id,tratamento,tempo,dose,droga,g-0,g-1,g-2,g-3,g-4,...,c-90,c-91,c-92,c-93,c-94,c-95,c-96,c-97,c-98,c-99
0,id_000644bb2,com_droga,24,D1,b68db1d53,1.062,0.5577,-0.2479,-0.6208,-0.1944,...,0.2862,0.2584,0.8076,0.5523,-0.1912,0.6584,-0.3981,0.2139,0.3801,0.4176
1,id_000779bfc,com_droga,72,D1,df89a8e5a,0.0743,0.4087,0.2991,0.0604,1.019,...,-0.4265,0.7543,0.4708,0.023,0.2957,0.4899,0.1522,0.1241,0.6077,0.7371
2,id_000a6266a,com_droga,48,D1,18bb41b2c,0.628,0.5817,1.554,-0.0764,-0.0323,...,-0.725,-0.6297,0.6103,0.0223,-1.324,-0.3174,-0.6417,-0.2187,-1.408,0.6931
3,id_0015fd391,com_droga,48,D1,8c7f86626,-0.5138,-0.2491,-0.2656,0.5288,4.062,...,-2.099,-0.6441,-5.63,-1.378,-0.8632,-1.288,-1.621,-0.8784,-0.3876,-0.8154
4,id_001626bd3,com_droga,72,D2,7cbed3131,-0.3254,-0.4009,0.97,0.6919,1.418,...,0.0042,0.0048,0.667,1.069,0.5523,-0.3031,0.1094,0.2885,-0.3786,0.7125


Unnamed: 0,id,5-alpha_reductase_inhibitor,11-beta-hsd1_inhibitor,acat_inhibitor,acetylcholine_receptor_agonist,acetylcholine_receptor_antagonist,acetylcholinesterase_inhibitor,adenosine_receptor_agonist,adenosine_receptor_antagonist,adenylyl_cyclase_activator,...,tropomyosin_receptor_kinase_inhibitor,trpv_agonist,trpv_antagonist,tubulin_inhibitor,tyrosine_kinase_inhibitor,ubiquitin_specific_protease_inhibitor,vegfr_inhibitor,vitamin_b,vitamin_d_receptor_agonist,wnt_inhibitor
0,id_000644bb2,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,id_000779bfc,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,id_000a6266a,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,id_0015fd391,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,id_001626bd3,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


### Tabela experimentos:
Nossa primeira tabela possui informações sobre inúmeros experimentos feitos em meios de cultura e sob diversas condições. Vamos entender cada coluna.

**id**: Código de identificação de cada experimento realizado.

**tratamento**: Identifidica se naquela cultura foi aplicada alguma molécula (com_droga) ou se não (com_controle).

**tempo**: Tempo durante o qual o meio ficou exposto à droga, podendo ser 24, 48 ou 72 horas.

**dose**: Dosagem ou concentração de droga usada naquela cultura, D1 ou D2.

**droga**: Código da molécula que foi aplicada à cultura.

**g-0, g-1,...,g-n**: Expressão gênica obtida para cada gene sob cada configuração de tratamento, droga, tempo e dose.

**c-0,...,c-99**: Viabilidade celular para cada configuração de tratamento, droga, tempo e dose.

### Tabela resultados:
Já nesse segundo dataset, encontramos os mecanismos de ação que foram ativados (1) ou não (0) em cada experimento, totalizando 206 mecanismos. Aqui vale fazer um explicação do significado de alguns dos sufixos encontrados nos nomes dos mecanismos.

**inhibitor**: É uma molécula que se prende à uma determinada enzima e bloqueia a interação da mesma com o seu substrato, interrompendo reações químicas nas quais aquela mesma enzima esteja envolvida.

**agonist**: São substâncias que se ligam a um receptor, ativando-o e provocando uma resposta biológica.

**antagonist**: Em oposição ao caso agonista, essa substância bloqueia a ativação da resposta biológica.

**activator**: Um ativador tem a função de acelerar ou permitir a continuação do processo de transcrição, aumentando a atividade do gene.

Agora que vimos e entendemos as informações que temos, podemos começar a levantar algumas perguntas na busca de um insight ou algum ponto interessante para explorarmos mais a fundo.

## Quais foram as moléculas mais testadas?

Abaixo podemos notar que as três moléculas mais testadas foram: cacb2b860, 87d714366 e 9f80f3f77. Isso nos leva a suspeitar que existe algo interessante a ser avaliado individualmente em cada uma delas.

Vamos começar pela de maior frequência.

In [7]:
experimentos['droga'].value_counts(normalize=True).map('{:.4%}'.format).head(15)

cacb2b860    7.8357%
87d714366    3.0150%
9f80f3f77    1.0330%
8b87a7a83    0.8524%
5628cb3ee    0.8482%
d08af5d4b    0.8230%
292ab2c28    0.8146%
d50f18348    0.7811%
d1b47f29d    0.7475%
67c879e79    0.0798%
83a9ea167    0.0756%
d488d031d    0.0756%
52d1e6f43    0.0756%
1a52478dc    0.0588%
a7c2673c1    0.0588%
Name: droga, dtype: object

## Molécula "cacb2b860"

In [12]:
experimentos.query('droga == "cacb2b860"').head()

Unnamed: 0,id,tratamento,tempo,dose,droga,g-0,g-1,g-2,g-3,g-4,...,c-90,c-91,c-92,c-93,c-94,c-95,c-96,c-97,c-98,c-99
25,id_0054388ec,com_controle,48,D1,cacb2b860,-0.6696,-0.2718,-1.223,-0.6226,-0.722,...,0.6171,0.6405,0.5429,0.3562,1.329,0.5573,0.8837,0.5534,0.8976,1.005
38,id_0079af0fb,com_controle,24,D1,cacb2b860,-0.1636,-1.823,-0.5211,0.3054,-1.128,...,-0.388,-0.6828,-0.6594,-0.2043,0.3571,-0.1319,0.2187,0.0737,0.6498,-1.482
40,id_007bfbb91,com_controle,24,D2,cacb2b860,-1.32,-1.734,-0.0741,1.544,-1.829,...,0.7412,1.034,0.7393,1.102,0.3786,0.2636,-0.5751,0.3362,0.8543,0.918
47,id_008a986b7,com_controle,48,D2,cacb2b860,0.486,0.143,0.5281,-0.0022,-0.2334,...,-0.3085,-0.1866,0.7629,0.3288,-0.9915,-0.3694,-0.4979,0.5281,-0.9245,-0.9367
63,id_009d8340f,com_controle,24,D2,cacb2b860,0.4471,-0.0839,-0.3864,0.3196,0.2584,...,0.4795,0.3939,0.7665,0.7932,-0.6804,-0.0435,0.0949,0.2,-0.4326,0.9364


In [11]:
experimentos.query('droga == "cacb2b860"')['tratamento'].value_counts()

com_controle    1866
Name: tratamento, dtype: int64