<a href="https://colab.research.google.com/github/viniciusbeckerdesouza/ImersaoDados2021/blob/main/Aula02.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Aula 01

## O que é uma droga?

Os termos droga e medicamento são usados de forma intecambiável, embora droga costume ser associado a substância como cocaína e maconha. Para o FDA (a Anvisa dos EUA), uma droga é :


*   uma substância que é reconhecida pela farmacopeia oficial
*   uma substância que é usada para tratar ou curar uma doença
*   uma substância que não seja uma alimento e altera as funções corporais
*   uma substância que seja parte de um medicamento, mas que nçao seja uma ferramenta para aplicação do mesmo
* produtos biológicos em geral

Se quisermos uma definição mais científica, podemos dizer que "uma droga é um agente que modifica um alvo de droga com o objetivo de alterar o funcionamento deste alvo. Drogas podem reduzir ou acelerar a atividade do alvo." (E. D. Zanders, [The Science and Business of Drug Discovery](https://doi.org/10.1007/978-3-030-57814-5))





##O pipeline do *drug discovery*

Tradicionalmente, a descoberta de novas drogas segue um percurso bem definido.


1.   Seleção da doença a ser tratada
2.   Identificação do alvo da droga
3. Criação de molécula ou agentes biológicos em laboratório
4. Triagem confrontando as substância com o alvo em busca de candidatos para futuro denvolvimento
5. Testagem dos candidatos em modelos de doença (geralmente, colonias de células)



##E onde entra a Ciência de Dados?

As técnicas de ciência de dados e aprendizado de máquina podem nos ajudar a reaproveitar os dados de testes para encontrar novos usos para drogas já existentes ou para substâncias que não passaram em testes para outras doenças.
Com isso, podemos usar o dataset a seguir para entender como algumas drogas potenciais alteram a expressão gênica - os alvos de droga dos experimentos.

In [None]:
import pandas as pd

url_dados = 'https://github.com/alura-cursos/imersaodados3/blob/main/dados/dados_experimentos.zip?raw=true'

dados = pd.read_csv(url_dados, compression = 'zip') #descompactar o arquivo zip
dados.head()

###Desafio 01: Por que a classe tratamento é tão desbalanceada?

Ao investigarmos as classes do dataset, percebemos uma grande diferença entre os casos `com_droga` e `com_controle`. Por que será que isso ocorre?

Como vemos abaixo, os casos `com_droga` são cerca de 92% e os `com_controle` cerca de 8%.

In [None]:
dados['tratamento'].value_counts(normalize=True)

In [None]:
dados['tratamento'].value_counts()

In [None]:
import matplotlib.pyplot as plt
dados['tratamento'].value_counts().plot.bar()
plt.title('Tratamento utilizado no experimento')
plt.xlabel('Tratamentos')
plt.ylabel('Quant de Experimentos')

Vamos separar as ocorrências do valor `com_controle` em um novo dataframe.

In [None]:
controle = dados.query('tratamento == "com_controle"')
controle.head()

Agora vamos observar o que mudou neste dataframe:

In [None]:
controle['tempo'].unique()

In [None]:
controle['dose'].unique()

In [None]:
controle['droga'].unique() 

Opa! Aqui apareceu algo interessante. **Todas as culturas receberam a mesma droga"**

Quando a classe `tratamento` contém o valor `com_controle` se trata do grupo controle, que provavelmente recebeu um placebo. Este grupo é utilizado para comparar os resultados e garantir que a ação da droga seja significante.

###Desafio 02: Plotar as 5 últimas linhas da tabela

In [None]:
dados.tail()

###Desafio 03: Proporção das classes tratamento.

In [None]:
dados['tratamento'].value_counts(normalize=True)

###Desafio 04: Quantos tipos de drogas foram investigados.

Foram investigados 3289 tipos de drogas.

In [None]:
dados['droga'].describe()

###Desafio 05: Procurar na documentação o método query(pandas).

In [None]:
t24 = dados.query('tempo == 24')
t48 = dados.query('tempo == 48')
t72 = dados.query('tempo == 72')

In [None]:
t24.shape

In [None]:
t48.shape

In [None]:
t72.shape

###Desafio 06: Renomear as colunas tirando o hífen.

Com uma ajuda do [Guilherme Silveira](https://www.alura.com.br/artigos/manipulacao-de-strings-no-pandas-lower-replace-startswith-e-contains)

In [None]:
dados.columns

In [None]:
dados.columns = dados.columns.str.lower().str.replace('-', '')

Agora é possível fazer queries nas colunas dos genes:

In [None]:
dados.query('g0 > 0')

In [None]:
dados.query('g12 < 0')

###Desafio 07: Deixar os gráficos bonitões

In [None]:
dados['tempo'].value_counts().sort_index().plot.bar()
plt.title('Tempo do experimento')
plt.xlabel('Horas')
plt.ylabel('Quant de experimentos')

###Desafio 08: Resumo do que você aprendeu com os dados

Com estes dados eu aprendi que os experimentos em busca de novas drogas são feitos utilizando colonias de células e procurando alterações nas expressões gênicas.

Também aprendi que estes experimentos precisam ser feitos com um grupo controle, que não recebe o tratamento e com o qual vão ser comparados os resultados.

Além disso, aprendi que os experimentos pode  ter durações diferentes (24, 48 ou 72 horas) para que possamos saber o perídodo de exposição que produz as alterações nas expressões gênicas.


Por fim, os dados geraram uma expectativa do que falta explorar e das inúmeras descobertas possíveis.

# Aula 02

Desafio 01: Ordenar o gráfico countplot

In [None]:
mapa = {'droga': 'composto'}
dados.rename(columns=mapa, inplace=True)
cod_compostos = dados['composto'].value_counts().index[0:5]

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt
composto_ordenado = ['cacb2b860', '87d714366', '9f80f3f77', '8b87a7a83', '5628cb3ee']
sns.set()
plt.figure(figsize=(8, 6))
ax = sns.countplot(x = 'composto', data=dados.query('composto in @cod_compostos'), order=composto_ordenado)
ax.set_title('Top 5 compostos')
plt.show()

Desafio 02: Melhorar a visualização alterando tamanho da fonte


In [None]:
sns.set(font_scale=1.3, palette='flare', style='whitegrid')
plt.figure(figsize=(9, 7))
ax = sns.countplot(x = 'composto', data=dados.query('composto in @cod_compostos'), order=composto_ordenado)
ax.set_title('Top 5 compostos')
plt.show()

Desafio 03: Plotar os histogramas com seaborn


In [None]:
plt.figure(figsize=(9, 7))
ax = sns.histplot(data = dados.loc[:,'g0':'g771'].describe().T['mean'])
ax.set_title('Distribuição da média de expressão gênica')
ax.set_xlabel('Média')
ax.set_ylabel('Contagem')
plt.show()

In [None]:
plt.figure(figsize=(9, 7))
ax = sns.histplot(data = dados.loc[:,'g0':'g771'].describe().T['min'])
ax.set_title('Distribuição dos mínimos de expressão gênica')
ax.set_xlabel('Mínimo')
ax.set_ylabel('Contagem')
plt.show()

In [None]:
plt.figure(figsize=(9, 7))
ax = sns.histplot(data = dados.loc[:,'g0':'g771'].describe().T['max'])
ax.set_title('Distribuição dos máximos de expressão gênica')
ax.set_xlabel('Máximo')
ax.set_ylabel('Contagem')
plt.show()

Desafio 04: Estudar sobre as estatíticas retornadas no .describe()


* **count** - faz a contagem dos valores
* **mean** - é a média aritmética dos valores
* **std** - mostra o desvio padrão dos valores
* **min e max** - são os valores minimo e máximo
* **quartis** - valores que mostram como os dados estão distribuídos

Desafio 05: Refletir sobre a manipulação do tamanho das visualizações.


In [None]:
#Eu acho estranho passar uma tupla com valores proporcionais

Desafio 06: Fazer outras análises com o boxplot e até com o histograma.


In [None]:
plt.figure(figsize=(9, 7))
ax = sns.boxplot(data = dados.loc[:,'g0':'g7'])
ax.set_title('Expressão gênica')
ax.set_xlabel('Gene')
ax.set_ylabel('Contagem')
plt.show()

Desafio 07: Resumo do que você aprendeu com os dados

Aprendi que a expressão gênica tem uma distribuição normal.

Aprendi que apesar disso existem outliers, que podem ser interesses de pesquisa.