## Mechanisms of Action (MoA)

Base de dados: https://www.kaggle.com/c/lish-moa/overview/description

![image.png](attachment:image.png)

## Python, Pandas e Pharmacia

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np

In [None]:
url_dados = 'https://github.com/alura-cursos/imersaodados3/blob/main/dados/dados_experimentos.zip?raw=true'

df = pd.read_csv(url_dados, compression = 'zip')

df.head()

In [None]:
df.shape

In [None]:
df['tratamento'].unique()

In [None]:
df['tratamento'].value_counts()

In [None]:
df['tratamento'].value_counts(normalize = True)

In [None]:
df['tempo'].unique()

In [None]:
df['tempo'].value_counts()

In [None]:
df['tempo'].value_counts(normalize = True)

In [None]:
df['dose'].unique()

In [None]:
df['dose'].value_counts()

In [None]:
df['dose'].value_counts(normalize = True)

In [None]:
df['droga'].unique()

In [None]:
df['g-0'].unique()

In [None]:
df['tratamento'].value_counts().plot.pie()

In [None]:
df['tempo'].value_counts().plot.pie()

In [None]:
df['tempo'].value_counts().plot.bar()

In [None]:
dados_filtrados = df[df['g-0'] > 0]
dados_filtrados.head()

###### Desafio 01: Investigar por que a classe tratamento é tão desbalanceada?

In [None]:
print(f'Total de linhas: {df.shape[0]}\nTotal de colunas: {df.shape[1]}')

In [None]:
df['tratamento'].value_counts()

In [None]:
y = df['tratamento']
sns.countplot(y = y)

###### Desafio 02: Plotar as 5 últimas linhas da tabela

In [None]:
df.tail()

###### Desafio 03: Proporção das classes tratamento.

In [None]:
df['tratamento'].value_counts(normalize = True)

###### Desafio 04: Quantas tipos de drogas foram investigados.

In [None]:
len(df['droga'].unique())

###### Desafio 05: Procurar na documentação o método query(pandas).
https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.query.html

###### Desafio 06: Renomear as colunas tirando o hífen.

In [None]:
colunas_hifen = df.columns
colunas_sem_hifen = []
for c in colunas_hifen:
    c = c.replace('-', '')
    colunas_sem_hifen.append(c)
df.columns = colunas_sem_hifen
df.head(0)

###### Desafio 07: Deixar os gráficos bonitões. (Matplotlib.pyplot)

In [None]:
valore_tempo = df['tempo'].value_counts(ascending=True)
valore_tempo.sort_index()

In [None]:
plt.figure()
valore_tempo = df['tempo'].value_counts(ascending=True)
ax = valore_tempo.sort_index().plot.bar()
ax.set_title('Janelas de tempo', fontsize=20)
ax.set_xlabel('Tempo', fontsize=18)
ax.set_ylabel('Quantidade', fontsize=18)
plt.xticks(rotation = 0, fontsize=16)
plt.yticks(fontsize=16)
plt.show()

## Estatísticas, dados e distribuições

In [None]:
import seaborn as sns
sns.set()

In [None]:
mapa = {'droga': 'composto'}
df.rename(columns=mapa, inplace=True)

In [None]:
df.head()

In [None]:
df['composto'].index

In [None]:
cod_compostos = df['composto'].value_counts().index[:5]

In [None]:
cod_compostos

In [None]:
df.query('composto in @cod_compostos')

In [None]:
plt.figure(figsize=(8, 6))
ax = sns.countplot(x = 'composto', data = df.query('composto in @cod_compostos'))
ax.set_title('Top 5 Compostos')
plt.show()

In [None]:
len(df['g0'].unique())

In [None]:
df['g0'].describe()

In [None]:
df['g0'].hist(bins = 100)

In [None]:
df['g19'].hist(bins = 100)

In [None]:
df.describe()

In [None]:
df[['g0', 'g1']]

In [None]:
df.loc[:, 'g0':'g771'].describe().T

In [None]:
df.loc[:, 'g0':'g771'].describe().T['min'].hist(bins = 30)

In [None]:
df.loc[:, 'g0':'g771'].describe().T['max'].hist(bins = 30)

In [None]:
df.loc[:, 'g0':'g771'].describe().T['mean'].hist(bins = 30)

In [None]:
sns.boxplot(x='g0' , data=df)

In [None]:
plt.figure(figsize=(10,8))
sns.boxplot(y='g0', x='tratamento' , data=df)

###### Desafio 01: Ordenar o gráfico countplot

In [None]:
plt.figure(figsize=(8, 6))
ax = sns.countplot(x = 'composto', data = df.query('composto in @cod_compostos'), order = cod_compostos)
ax.set_title('Top 5 Compostos')
plt.show()

###### Desafio 02: Melhorar a visualização alterando tamanho da fonte...

In [None]:
plt.rc('axes', titlesize = 15, labelsize = 14)
plt.rc(['xtick', 'ytick'], labelsize = 10)
plt.figure(figsize=(8, 6))
ax = sns.countplot(x = 'composto', data=df.query('composto in @cod_compostos'), order = cod_compostos)
ax.set_title('Top 5 compostos')
ax.set_ylabel('Contagem')
ax.set_xlabel('Composto')
plt.show()

###### Desafio 03: Plotar os histogramas com seaborn

In [None]:
sns.histplot(data = df['g0'], bins = 100)

In [None]:
sns.histplot(data = df['g19'], bins = 100)

In [None]:
sns.histplot(data = df.loc[:,'g0':'g771'].describe().T['min'], bins = 30)

In [None]:
sns.histplot(data = df.loc[:,'g0':'g771'].describe().T['max'], bins = 30)

In [None]:
sns.histplot(data = df.loc[:,'g0':'g771'].describe().T['mean'], bins = 30)

###### Desafio 04: Estudar sobre as estatíticas retornadas no .describe()
https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.describe.html

###### Desafio 05: Refletir sobre a manipulação do tamanho das visualizações.
https://www.alura.com.br/artigos/visualizando-informacoes-com-um-grafico

###### Desafio 06: Fazer outras análises com o boxplot e até com o histograma.

In [None]:
plt.figure(figsize=(10,8))
sns.boxplot(y = 'g0', x = 'dose' , data = df)

In [None]:
plt.figure(figsize=(10,8))
sns.boxplot(y = 'c0', x = 'dose' , data=df)

In [None]:
plt.figure(figsize=(10,8))
sns.boxplot(y='c15', x='tempo' , data=df)

In [None]:
plt.figure(figsize=(10,8))
sns.histplot(data = df, x = 'g0', bins = 100, hue = 'tratamento')

## Correlações e causalidade

In [None]:
df.head()

In [None]:
pd.crosstab(df['dose'], df['tempo'])

In [None]:
pd.crosstab([df['dose'], df['tempo']], df['tratamento'], normalize = True)

In [None]:
pd.crosstab([df['dose'], df['tempo']], df['tratamento'], normalize = 'index')

In [None]:
pd.crosstab([df['dose'], df['tempo']], df['tratamento'], values = df['g0'], aggfunc = 'mean')

In [None]:
sns.scatterplot(x = 'g0', y = 'g3', data = df)

In [None]:
df[['g0', 'g3']]

In [None]:
sns.lmplot(x = 'g0', y = 'g8', data = df, line_kws = {'color': 'red'})

In [None]:
sns.lmplot(x = 'g0', y = 'g8', data = df, line_kws = {'color': 'red'}, col = 'tratamento', row = 'tempo')

In [None]:
df.loc[:, 'g0':'g771'].corr()

In [None]:
corr = df.loc[:, 'g0':'g50'].corr()

In [None]:
import numpy as np


# Generate a mask for the upper triangle
mask = np.triu(np.ones_like(corr, dtype=bool))

# Set up the matplotlib figure
f, ax = plt.subplots(figsize=(11, 9))

# Generate a custom diverging colormap
cmap = sns.diverging_palette(230, 20, as_cmap=True)

# Draw the heatmap with the mask and correct aspect ratio
sns.heatmap(corr, mask=mask, cmap=cmap, center=0,
            square=True, linewidths=.5, cbar_kws={"shrink": .5})

In [None]:
corr_celular = df.loc[:,'c0':'c50'].corr()

In [None]:
# Generate a mask for the upper triangle
mask = np.triu(np.ones_like(corr_celular, dtype=bool))

# Set up the matplotlib figure
f, ax = plt.subplots(figsize=(11, 9))

# Generate a custom diverging colormap
cmap = sns.diverging_palette(230, 20, as_cmap=True)

# Draw the heatmap with the mask and correct aspect ratio
sns.heatmap(corr_celular, mask=mask, cmap=cmap, center=0,
            square=True, linewidths=.5, cbar_kws={"shrink": .5})

###### Desafio 01: Criar tabelas de frequência com pandas.groupby()

In [None]:
com_droga = df[df['tratamento']=='com_droga'].groupby(['dose','tempo']).count()['tratamento']
com_droga

In [None]:
com_controle = df[df['tratamento']=='com_controle'].groupby(['dose','tempo']).count()['tratamento']
com_controle

In [None]:
concatenado = pd.concat([com_controle, com_droga], axis=1)
concatenado

In [None]:
concatenado.columns = ['com_controle', 'com_droga'] 
concatenado

In [None]:
concatenado.div(concatenado.sum(axis=1),axis=0)

###### Desafio 02: Normalizar o crosstab pela coluna.

In [None]:
pd.crosstab([df['dose'], df['tempo']], df['tratamento'], normalize = 'columns')

###### Desafio 03: Explorar outros agregadores.

In [None]:
pd.crosstab([df['dose'], df['tempo']], df['tratamento'], values = df['g0'], aggfunc = 'min')

In [None]:
pd.crosstab([df['dose'], df['tempo']], df['tratamento'], values = df['g0'], aggfunc = 'max')

In [None]:
pd.crosstab([df['dose'], df['tempo']], df['tratamento'], values = df['g0'], aggfunc = 'median')

###### Desafio 04: Explorar o melt.
https://pandas.pydata.org/docs/reference/api/pandas.melt.html

In [None]:
pd.melt(df, id_vars = ['dose'], value_vars = ['g0'])

###### Desafio 05: Calcular e analisar a correlação entre G e C. Refletir sobre os efeitos biológicos.

In [None]:
corr = df.loc[:, 'g0':'c99'].corr()

In [None]:
corr_celular_genes = corr.loc['g0':'g25','c0':'c25']

In [None]:
# Set up the matplotlib figure
f, ax = plt.subplots(figsize=(11, 9))

# Generate a custom diverging colormap
cmap = sns.diverging_palette(230, 20, as_cmap=True)

# Draw the heatmap with the mask and correct aspect ratio
sns.heatmap(corr_celular_genes, cmap=cmap, center=0,
            square=True, linewidths=.5, cbar_kws={"shrink": .5})

###### Desafio 06: Estudar o código que plota a matriz de correlação (heatmap)

https://seaborn.pydata.org/examples/many_pairwise_correlations.html

## Merge e Análise de Resultados

In [None]:
df_resultados = pd.read_csv('https://github.com/alura-cursos/imersaodados3/blob/main/dados/dados_resultados.csv?raw=true')
df_resultados.head()

In [None]:
df_resultados['acetylcholine_receptor_agonist'].unique()

In [None]:
df_resultados.info()

In [None]:
contagem_moa = df_resultados.drop('id', axis = 1).sum().sort_values(ascending = False)
contagem_moa

In [None]:
df_resultados.drop('id', axis = 1).sum(axis = 1)

In [None]:
df_resultados.head()

In [None]:
df.head()

In [None]:
df_resultados['n_moa'] = df_resultados.drop('id', axis=1).sum(axis=1)

In [None]:
df_resultados['n_moa'] != 0

In [None]:
df_resultados['ativo_moa'] = (df_resultados['n_moa'] != 0)
df_resultados.head()

In [None]:
df_combinados = pd.merge(df, df_resultados[['id','n_moa', 'ativo_moa']], on='id')
df_combinados.head()

In [None]:
df_combinados.query('tratamento == "com_controle"' )['ativo_moa'].value_counts()

In [None]:
df_combinados.query('tratamento == "com_droga"' )['ativo_moa'].value_counts()

In [None]:
composto_principal = df_combinados['composto'].value_counts().index[:5]
plt.figure(figsize=(12,8))
sns.boxplot(data = df_combinados.query('composto in @composto_principal'), y= 'g0', x='composto', hue='ativo_moa')

###### Desafio 01: Encontrar o top 10, das ações do MOA (inibidor, agonista...)

In [None]:
contagem_moa.filter(like='inhibitor')[:10]

In [None]:
contagem_moa.filter(like='antagonist')[:10]

In [None]:
contagem_moa.filter(like='_agonist')[:10]

###### Desafio 02: Criar a coluna eh_controle para quando na linha tratamento == com_controle

In [None]:
df_resultados['eh_controle'] = (df['tratamento'] == 'com_controle')
df_resultados.head()

In [None]:
df_combinados = pd.merge(df, df_resultados[['id','n_moa', 'ativo_moa','eh_controle']], on='id')
df_combinados.head()

###### Desafio 03: Criar três colunas para indicar o tempo 24, 48, 72

In [None]:
df_resultados['24'] = (df['tempo'] == 24)
df_resultados['48'] = (df['tempo'] == 48)
df_resultados['72'] = (df['tempo'] == 72)
df_resultados.head()

In [None]:
df_combinados = pd.merge(df, df_resultados[['id','n_moa', 'ativo_moa','eh_controle','24','48','72']], on='id')
df_combinados.head()

###### Desafio 04: Estudar sobre combinações de DF 
https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html

###### Desafio 05: Fazer análise mais detalhada considerando tempo e dose, para comparar as distribuições (Escolher uma droga e comparar com controle)

In [None]:
composto_principal = df_combinados['composto'].value_counts().index[0:2]
composto_principal

In [None]:
fig, (ax1, ax2, ax3) = plt.subplots(1,3,figsize=(15,5))

sns.boxplot(data = df_combinados.query('composto in @composto_principal & tempo == 24'), y= 'g0', x='composto',
            hue='ativo_moa', order=composto_principal, ax=ax1)

sns.boxplot(data = df_combinados.query('composto in @composto_principal & tempo == 48'), y= 'g0', x='composto',
            hue='ativo_moa', order=composto_principal, ax=ax2)

sns.boxplot(data = df_combinados.query('composto in @composto_principal & tempo == 48'), y= 'g0', x='composto',
            hue='ativo_moa', order=composto_principal, ax=ax3)

plt.show()

In [None]:
fig, (ax1, ax2) = plt.subplots(1,2,figsize=(12,8))

sns.boxplot(data = df_combinados.query('composto in @composto_principal & dose == "D1"'), y= 'g0', x='composto',
            hue='ativo_moa', order=composto_principal, ax=ax1)

sns.boxplot(data = df_combinados.query('composto in @composto_principal & dose == "D2"'), y= 'g0', x='composto',
            hue='ativo_moa', order=composto_principal, ax=ax2)

plt.show()

###### Desafio 06: Descobrir se tem algum composto que dependendo da configuração do experimento, ativa ou não ativa algum MOA

In [None]:
df_combinados.groupby('composto').ativo_moa.mean().value_counts()

## Merge e Análise de Resultados

In [None]:
df_combinados.head()

In [None]:
df_resultados.head()

In [None]:
from sklearn.model_selection import train_test_split

X = df_combinados.select_dtypes('float64')
y = df_combinados['ativo_moa']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, stratify = y, random_state = 376)

In [None]:
from sklearn.linear_model import LogisticRegression

Model_LR = LogisticRegression(max_iter=1000)
Model_LR.fit(X_train, y_train)
Model_LR.score(X_test, y_test)

In [None]:
from sklearn.dummy import DummyClassifier
from sklearn.metrics import accuracy_score

Model_dummy = DummyClassifier('most_frequent')
Model_dummy.fit(X_train, y_train)
Predict_dummy = Model_dummy.predict(X_test)
accuracy_score(y_test, Predict_dummy)

In [None]:
df_combinados['ativo_moa'].value_counts(normalize=True)

In [None]:
from sklearn.tree import DecisionTreeClassifier

DTC = DecisionTreeClassifier(max_depth = 3)
DTC.fit(X_train, y_train)
DTC.score(X_test, y_test)

In [None]:
from sklearn import tree

fig, ax = plt.subplots(figsize=(15, 10), facecolor='k')
tree.plot_tree(DTC,
               ax=ax,
               fontsize=10,
               rounded=True,
               filled=True,
               feature_names=X_train.columns,
               class_names=['Não Ativado', 'Ativado'])

plt.show()

In [None]:
treino = []
teste = []
for i in range(1, 15):
    DTC = DecisionTreeClassifier(max_depth = i)
    DTC.fit(X_train, y_train)
    treino.append(DTC.score(X_train, y_train))
    teste.append(DTC.score(X_test, y_test))

In [None]:
treino

In [None]:
teste

In [None]:
sns.lineplot(x = range(1, 15), y = teste, label = 'Teste')
sns.lineplot(x = range(1, 15), y = treino, label = 'Treino')

In [None]:
pd.get_dummies(df_combinados['tratamento'])

In [None]:
pd.get_dummies(df_combinados, columns = ['tratamento', 'dose', 'tempo'])

In [None]:
df_combinados.drop(['id', 'n_moa', 'ativo_moa', 'composto'], axis = 1)

In [None]:
from sklearn.ensemble import RandomForestClassifier

X = df_combinados.drop(['id', 'n_moa', 'ativo_moa', 'composto'], axis = 1)
X = pd.get_dummies(X, columns = ['tratamento', 'dose', 'tempo'])
y = df_combinados['ativo_moa'] 
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, stratify = y, random_state = 376)

RFC = RandomForestClassifier()
RFC.fit(X_train, y_train)
RFC.score(X_test, y_test)

###### Desafio 01: Tente outros modelos ou mude os parâmetros dos modelos que testamos em aula.

In [None]:
from sklearn.neighbors import KNeighborsClassifier
from xgboost import XGBClassifier

In [None]:
X = df_combinados.select_dtypes('float64')
y = df_combinados['ativo_moa']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, stratify = y, random_state = 376)

In [None]:
XG = XGBClassifier()
XG.fit(X_train, y_train)
XG.score(X_test, y_test)

###### Desafio 02: Estude a documentação do Sklearn.

https://scikit-learn.org/stable/index.html

###### Desafio 03: Pesquisar o fluxograma 'Escolhendo o melhor modelo' choosing the right estimator

https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html

###### Desafio 04: Teste outras problemas (perguntas). 0, 1 ou +.

In [None]:
df_combinados.head(0)

In [None]:
df_combinados['dose'].value_counts()

In [None]:
X = df_combinados.loc[:, 'g0':'c99']
y = df_combinados['dose'].map({'D1':0,'D2':1})

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, stratify = y, random_state = 376)

In [None]:
LR2 = LogisticRegression(solver='newton-cg')
LR2.fit(X_train, y_train)
LR2.score(X_test, y_test)

###### Desafio 05: Escolha a droga mais utilizada e tente criar um modelo para prever está label.

In [None]:
df_combinados['composto'].value_counts()

In [None]:
X = df_combinados.loc[:, 'g0':'g10']
y = df_combinados['composto'].map({'cacb2b860': 0, '87d714366': 1})

In [None]:
# dados desbalanceados
sns.countplot(y = y)

In [None]:
dt_query = df_combinados.query('composto in ["8b87a7a83", "5628cb3ee"]')
X = dt_query.loc[:, 'g0':'g10']
# Alterando o y
y = dt_query['composto'].map({'8b87a7a83':0, '5628cb3ee':1})

In [None]:
dt_query['composto'].value_counts()

In [None]:
# Melhor :D
sns.countplot(y = y)

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, stratify = y, random_state = 376)

In [None]:
MLR2 = LogisticRegression()
MLR2.fit(X_train, y_train)
MLR2.score(X_test, y_test)