In [None]:
import pandas as pd
import matplotlib.pyplot as plt

In [None]:

url_dados = 'https://github.com/alura-cursos/imersaodados3/blob/main/dados/dados_experimentos.zip?raw=true'

dados = pd.read_csv(url_dados, compression = 'zip')
dados

# o compression = 'zip' descompacta o documento

In [None]:
dados.head()

In [None]:
dados.shape
#informação do total de linhas e colunas

In [None]:
dados['tratamento']
#selecionada somente a serie tratamento

In [None]:
dados['tratamento'].unique()
#mostra quais são os valores unicos encontrados na tabela unica

In [None]:
dados['tempo'].unique()

In [None]:
dados['dose'].unique()

In [None]:
dados['droga'].unique()

In [None]:
dados['g-0'].unique()

# esses números nos dizem a expressão de cada gene frente as drogas ou a exposição.

In [None]:
dados['tratamento'].value_counts()

#quantidade de valores que tem em cada um das colunas 

In [None]:
dados['dose'].value_counts()

In [None]:
dados['droga'].value_counts()

In [None]:
dados['tratamento'].value_counts(normalize = True)

#calcula a normalização dos dados, calculando assim a proporção entre os dados de tratamento

In [None]:
dados['dose'].value_counts(normalize = True)

In [None]:
dados['tratamento'].value_counts().plot.pie()

In [None]:
dados['tempo'].value_counts().plot.pie()
#essa forma não é muito facil de ver a diferença entre os valores, pois o balanceamento entre os valores está muito proximo

In [None]:
dados['tempo'].value_counts().plot.bar()

#é interessante estudar cada tipo de grafico e também as melhores situações para utilizar cada um deles

In [None]:
dados_filtrados = dados[dados['g-0'] > 0]
dados_filtrados.head()

#Analisa quais sao os valores de g-0 que são maiores que 0

In [None]:
dados.columns


In [None]:
nome_das_colunas = dados.columns

In [None]:
novo_nome_coluna = []

for coluna in nome_das_colunas:
  coluna = coluna.replace('-', '_')
  novo_nome_coluna.append(coluna)
dados.columns = novo_nome_coluna 

dados.head()

#Esse for roda todo o array e faz a substituição dos nomes das colunas, nas colunas
#que tem o '-' ele vai substituir por '_'

In [None]:
dados_filtrados = dados[dados['g_0'] > 0]
dados_filtrados.head()

#comparação do resultado usando Query com o resultado usando máscara + slice

In [None]:
dados_filtrados = dados.query('g_0 > 0')
dados_filtrados.head()

Deixando os graficos mais bonitin hahaha

In [None]:
valore_tempo = dados['tempo'].value_counts(ascending=True)
valore_tempo.sort_index()

In [None]:
plt.figure(figsize=(15, 10))
valore_tempo = dados['tempo'].value_counts(ascending=True)
ax = valore_tempo.sort_index().plot.bar()
ax.set_title('Janelas de tempo', fontsize=20)
ax.set_xlabel('Tempo', fontsize=18)
ax.set_ylabel('Quantidade', fontsize=18)
plt.xticks(rotation = 0, fontsize=16)
plt.yticks(fontsize=16)
plt.show()

In [None]:
dados

In [None]:
mapa = {'droga': 'composto'}
dados.rename(columns=mapa, inplace=True)

#altera o nome da coluna 'droga' por 'composto'
#parâmetro 'inplace = True', esse parâmetro faz com que os dados sejam modificados no local e o dataframe será atualizado. 

In [None]:
dados.head()

In [None]:
cod_compostos = dados['composto'].value_counts().index[0:5]
#elenca os 5 compostos que mais aparecem. 

In [None]:
cod_compostos

In [None]:
dados.query('composto in @cod_compostos')
#realiza um filtro em nossos dados, selecionando apenas as linhas nas quais o 
#composto esteja dentro da lista cod_composto (lista que representa os 5 compostos mais testados no experimento) 
#e utiliza o método query para resolver este problema.

#Como parâmetro da função, passamos uma string contendo a lógica para realização 
#da seleção dos dados. O que queremos é o seguinte: o queryprecisa retornar para 
#nós todas as linhas contendo os 5 compostos mais utilizados. Logo, a string necessária para isso é: composto in @cod_compostos.

#Usamos composto porque essa é a coluna a ser verificada no dataframe e cod_compostos 
#por ser a lista com os top 5 compostos, o detalhe aqui é que o @ é necessário para 
#informar o query que cod_composto é uma variável que já foi definida fora da função.

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt
sns.set()
plt.figure(figsize=(8, 6))
ax = sns.countplot(x = 'composto', data=dados.query('composto in @cod_compostos'))
ax.set_title('Top 5 compostos')
plt.show()

#O countplot é um gráfico pré-programado da biblioteca Seaborne, por isso, precisaremos fazer a importação padrão da mesma (import seaborn as sns)
#para que possamos enxergar o gráfico com os padrões de configuração da biblioteca, precisamos rodar sns.set()

In [None]:
len(dados['g_0'].unique())
#Como temos diversos compostos únicos dentro da coluna g-0, não é viável que façamos o mesmo gráfico utilizado anteriormente. Por isso, precisamos traçar uma nova estratégia para visualizar os nossos dadose aqui, usaremos um histograma. O primeiro passo, é identificar qual o valor mínimo (min()) e o valor máximo (max()) 
#para entender qual o intervalo númerico com o qual estamos trabalhando.

In [None]:
dados['g_0'].min()

In [None]:
dados['g_0'].max()

In [None]:
dados['g_0'].hist(bins = 100, figsize=(20, 6))

In [None]:
dados['g_19'].hist(bins = 100, figsize=(20, 6))

In [None]:
dados.describe()
#olha as descrições das estatisticas

In [None]:
dados.loc[:,'g_0':'g_771'].describe()
#Como argumentos, passamos primeiramente o :, os dois pontos faz com que o loc[] retorne todos os elementos de uma 
#determinada coluna, isso é importante quando não sabemos qual a quantidade de linhas de um dataframe. E, o segundo
# elemento, passamos as colunas que são de nosso interesse. No caso, queremos que a função nos retorne todos os elementos das colunas g-0até g-771. 
#E, por fim, podemos declarar a nossa função de interesse a partir deste filtro realizado nos dados, o describe().

In [None]:
dados.loc[:,'g_0':'g_771'].describe().T['mean'].hist(bins=30, figsize=(20, 6))

#trasforma as linhas em colunas


In [None]:
dados.loc[:,'g_0':'g_771'].describe().T['min'].hist(bins=30)

In [None]:
dados.loc[:,'g_0':'g_771'].describe().T['max'].hist(bins=30)

In [None]:
sns.boxplot(x='g_0' , data=dados)
#O boxplot apresenta uma caixa no meio onde podemos identificar a mediana (linha 
#no meio da caixa que é o ponto onde metade dos dados estão na direita e a outra 
#metade para a esquerda), os outliers (pontos acima ou abaixo do eixo principal do 
#gráfico que representam valores discrepantes para mais ou para menos), a maior 
#concentração dos dados (caixa principal que representa onde está a mior parte dos dados - 
#primeiro quartil (25%) e terceiro quartil (75%)) e os máximos e mínimos desconsiderando os 
#outliers (linhas laterais à caixa principal). 
#O boxplot é uma importante ferramenta na visualização de dados porque em apenas um gráfico, podemos identificar várias métricas estatísticas.

In [None]:
plt.figure(figsize=(10,8))
sns.boxplot(y='g_0', x='tratamento' , data=dados)

In [None]:
pd.crosstab(dados['dose'], dados['tempo'])
#Esta função recebe como argumentos os dados que gostaríamos de correlacionar de 
#uma maneira bem simples: crosstab(dataframe['coluna1'], dataframe['coluna2']) e 
#então, como retorno, temos uma matriz que relaciona essas variáveis a partir da frequência.

#Podemos ver que as categorias da variável dose transformaram-se em linhas e as categorias da variável tempo são colunas.

In [None]:
pd.crosstab([dados['dose'], dados['tempo']],  dados['tratamento'])


In [None]:
pd.crosstab([dados['dose'], dados['tempo']],  dados['tratamento'], values=dados['g_0'], aggfunc='mean')

In [None]:
dados[['g_0', 'g_3']]

O scatterplot é um tipo de gráfico pré programado da biblioteca Seaborn e recebe como parâmetros a variável que vai ser usada no eixo x, a variável do eixo y e, por fim, o conjunto de dados.

O código ficará:

sns.scatterplot(x = 'variavel para o eixo x', y = 'variavel para o eixo y', data = base de dados)

E, como queremos investigar as variáveis g-0 e g-3, atribuímos cada uma delas a um eixo.

O gráfico de dispersão utiliza os dados como uma coleção de pontos cartesianos e ele é usado para apurar se há relação de causa e efeito entre duas variáveis quantitativas.

No nosso caso, cada linha será um par ordenado de acordo com o que declaramos no código, ou seja, o valor de g-0 será a cordenada x e o valor de g-3 será a coordenada y.

Por exemplo: para a linha 0 da base de dados teremos (1,0620 , -0,6208)

Mas, por outro lado, a partir do gráfico de dispersão, não podemos dizer que uma variável afeta a outra, podemos apenas definir se há relação entre elas e qual a intensidade disso.

In [None]:
sns.scatterplot(x='g_0', y = 'g_3', data=dados)

Observando o gráfico que construímos acima, não parecemos encontrar nenhum padrão tão definido. Então, vamos confrontar mais duas colunas para verificar se encontramos algum padrão melhor definido.

Aqui, vamos usar a variável g-0 para o eixo x e a variável g-8 para o eixo y para construir o nosso novo gráfico.

Como retorno, recebemos um gráfico de dispersão onde a nuvem de pontos cartesianos parece desenhar melhor um padrão: conforme o g-0 aumenta, o valor de g-8 diminui. Aparentemente, a relação entre essas duas variáveis desenha uma curva com inclinação negativa.

In [None]:
sns.scatterplot(x='g_0', y = 'g_8', data=dados)

E, como parte do nosso trabalho é levantar hipóteses e confirmá-las (ou não), precisamos verificar se a nossa suspeita de que a relação entre as variáveis g-0 e g-8desenha uma curva com inclinação negativa.

Para isso, vamos utilizar uma outra função do Seaborn, a lmplot. A lmplot vai desenhar no nosso gráfico de dispersão uma linha de tendência e, assim, poderemos confirmar o padrão daquele conjunto de dados.

Os parâmetros a serem recebidos, são muito parecidos com aqueles usados no scatterplot. Então teremos

sns.lmplot(data=base de dados, x='variavel para o eixo x', y='variavel para o eixo y', line_kws={'color': 'cor da linha de tendencia'})

Utilizamos o parâmetro line_kws = {'color': 'red'} para criar um bom contraste entre os pontos do gráfico de dispersão e a linha de tendência.

Observando o nosso gráfico, podemos concluir a nossa hipótese inicial, mas ele ainda não é suficiente para finalizarmos a nossa análise.

In [None]:
sns.lmplot(data=dados, x='g_0', y='g_8', line_kws={'color': 'red'})

Para uma análise mais real e completa, é interessante que separemos ainda mais o nosso conjunto de dados. Isso porque, na imagem acima, apesar de termos uma linha de tendência para a relação entre os dados ```g-0``` e ```g-8```, não há filtros para a dosagem, o tratamento e o tempo. E, pesando em drug discorevy, é extremamente importante que façamos a separação desses conjuntos.

Então, vamos acrescentar mais alguns parâmetros para executar a separação. Acrescentamos o parâmetro ```col = tramento``` para que sejam plotados gráficos de acordo com as categorias da variável em questão nas colunas (```com_droga``` e ```com_controle```) e também incluímos o parâmetro ```row = 'tempo'``` para que mais uma subdivisão seja feita e, as linhas apresentem novos gráficos com as diferentes categorias (```24```,```48``` e ```72```).

Assim, podemos perceber as nuances de cada gráfico e o comportamento de determinado subconjunto.

In [None]:
sns.lmplot(data=dados, x='g_0', y='g_8', line_kws={'color': 'red'}, col='tratamento', row='tempo')

Outra medida para analisar como as variáveis estão associadas é a correlação. 

Para isso, vamos usar uma função já conhecida do Pandas, o ```loc``` e, vamos agregar o ```.corr```. O ```loc``` serve para definirmos o intervalo em que a correlação vai ser calculada. Aqui, estamos calculando a correlação entre todos os genes. 

Como retorno, temos uma tabela bem grande que correlaciona a variável e apresenta valores entre 1 e -1.
Por exemplo, o primeiro valor numérico apresentado na primeira linha é o resultado da correlação entre a variável que está nesta linha e nesta coluna, no nosso caso, o ```g-0``` em ambas as extremidades. No primeiro valor numérico apresentado na segunda linha, temos a correlação entre ```g-1``` e ```g-0``` e assim por diante. 

Mas, como interpretar esses valores? Bom, temos a seguinte divisão:
    
    - Valores muito próximos de 1 ou -1: variáveis altamente correlacionadas
    - Valores muito próximos de 0: variáveis pouco ou não correlacionadas

E, o que diferencia se essa correlação será proporcional ou inversamente proporcional, será o sinal. Quer dizer:

    - Valores muito próximos de 1: variáveis proporcionalmente correlacionadas
    - Valores muito próximos de -1: variáveis correlacionadas inversamente proporcionais

Agora que já sabemos como analisar essa tabela, podemos voltar para o nosso gráfico de dispersão construído com ```g-0``` e ```g-8`` e perceber que a nossa tabela confirma que ambas as variáveis estão correlacionadas e são inversamente proporcionais, visto que o valor apresentado na tabela é de -0,604212.

In [None]:
dados.loc[:,'g_0':'g_771'].corr()

In [None]:
corr = dados.loc[:,'g_0':'g_50'].corr()

O mapa de calor mostra uma escala de cores em sua lateral direita, a legenda e, para cada pontinho, podemos perceber a força da correlação sendo mostrada através de uma cor associada.

Olhando para o nosso gráfico, percebemos que, em sua maioria, as expressões genicas não apresentam correlações tão altas entre si (podemos deduzir isso observando que o gráfico em grande parte é translúcido).

É importante destacar que não podemos inferir causalidade a partir da correlação, como já descrevemos anteriormente no gráfico de dispersão. 
Exemplificando: vimos que ```g-0``` e ```g-8``` têm correlação inversamente proporcional entre si mas não podemos concluir que é o ```g-0``` que faz o ```g-8``` diminuir, ou seja, a causa.



In [None]:
import numpy as np


# Generate a mask for the upper triangle
mask = np.triu(np.ones_like(corr, dtype=bool))

# Set up the matplotlib figure
f, ax = plt.subplots(figsize=(11, 9))

# Generate a custom diverging colormap
cmap = sns.diverging_palette(230, 20, as_cmap=True)

# Draw the heatmap with the mask and correct aspect ratio
sns.heatmap(corr, mask=mask, cmap=cmap, center=0,
            square=True, linewidths=.5, cbar_kws={"shrink": .5})

Agora, vamos repetir o processo de construção do mapa de calor para a a viabilidade celular (```c```).

Definimos uma nova variável ```corr_celular``` e ajustamos os parâmetros de acordo com os nossos ```cs```.

Observando o gráfico de saída, podemos perceber uma grande diferença entre os dois mapas de calor que construímos. A escala deste novo gráfico é bem diferente da escala anterior, temos valores apenas entre 0,65 e 0,90, correlações altamente proporcionais.

In [None]:
corr_celular = dados.loc[:,'c_0':'c_50'].corr()

In [None]:

# Generate a mask for the upper triangle
mask = np.triu(np.ones_like(corr_celular, dtype=bool))

# Set up the matplotlib figure
f, ax = plt.subplots(figsize=(11, 9))

# Generate a custom diverging colormap
cmap = sns.diverging_palette(230, 20, as_cmap=True)

# Draw the heatmap with the mask and correct aspect ratio
sns.heatmap(corr_celular, mask=mask, cmap=cmap, center=0,
            square=True, linewidths=.5, cbar_kws={"shrink": .5})

In [None]:
dados_resultados = pd.read_csv('https://github.com/alura-cursos/imersaodados3/blob/main/dados/dados_resultados.csv?raw=true')
dados_resultados.head()

In [None]:
dados_resultados['acetylcholine_receptor_agonist'].unique()

In [None]:
dados_resultados.info()

In [None]:
contagem_moa = dados_resultados.drop('id', axis=1).sum().sort_values(ascending=False)
contagem_moa

In [None]:
dados_resultados.drop('id', axis=1).sum(axis=1)

In [None]:
dados_resultados.head()

In [None]:
dados.head()

In [None]:
dados_resultados['n_moa'] = dados_resultados.drop('id', axis=1).sum(axis=1)

In [None]:
dados_resultados['n_moa'] != 0

In [None]:
dados_resultados['ativo_moa'] = (dados_resultados['n_moa'] != 0)
dados_resultados.head()

In [None]:
 dados_combinados = pd.merge(dados, dados_resultados[['id','n_moa', 'ativo_moa']], on='id')
 dados_combinados.head()

In [None]:
dados_combinados.query('tratamento == "com_controle"' )['ativo_moa'].value_counts()

In [None]:
dados_combinados.query('tratamento == "com_droga"' )['ativo_moa'].value_counts()

In [None]:
composto_principal = dados_combinados['composto'].value_counts().index[:5]
plt.figure(figsize=(12,8))
sns.boxplot(data = dados_combinados.query('composto in @composto_principal'), y= 'g_0', x='composto', hue='ativo_moa')


In [None]:
dados_combinados.head()

In [None]:
dados_resultados.head()