<a href="https://colab.research.google.com/github/sandrodsilva/PUC-Minas/blob/main/Drug_discovery_2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Análise de Dados sobre Drug Discovery (Descoberta de drogas)**



# Análise Exploratória dos Dados

A Análise Exploratória dos Dados (AED) consiste em utilizar técnicas estatísticas e de visualização para melhor entender os dados que temos e gerar insights, formular hipóteses e procurar a resposta de perguntas baseadas nos dados. E é exatamente isso que faremos aqui nesse notebook a partir de agora.

Importar as Bibliotecas

As principais bibliotecas da linguagem Python utilizadas neste projeto foram:

- [Numpy](https://numpy.org/), para manipulação de arrays e seus cálculos numéricos, quando necessário;
- [Pandas](https://pandas.pydata.org/), utilizada para a manipulação das bases de dados, essa biblioteca é quase que a alma da análise de dados em Python;
- [Matplotlib](https://matplotlib.org/) e [Seaborn](https://seaborn.pydata.org/), para a criação de gráficos estáticos;
- [Plotly](https://plotly.com/python/), para a criação de gráficos interativos;
- [Scikit-Learn](https://scikit-learn.org/), para modelos de Machine Learning.

Então vamos importá-las para o nosso notebook:

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.dummy import DummyClassifier

# configuração de estilo para gráficos
sns.set_theme(style='darkgrid', palette='cool')

Importar os Dados

As bases de dados foram disponibilizadas em formato '.csv' (comma separeted values).

In [2]:
# dados dos experimentos
url_dados = 'https://github.com/alura-cursos/imersaodados3/blob/main/dados/dados_experimentos.zip?raw=true'
raw_data = pd.read_csv(url_dados, compression = 'zip')

# dados dos resultados
url_resultados = 'https://raw.githubusercontent.com/alura-cursos/imersaodados3/main/dados/dados_resultados.csv'
results = pd.read_csv(url_resultados)

Análise do Dataset "Experimentos"

In [3]:
# observar as primeiras linhas do dataset (5 por padrão)
raw_data.head()

Unnamed: 0,id,tratamento,tempo,dose,droga,g-0,g-1,g-2,g-3,g-4,...,c-90,c-91,c-92,c-93,c-94,c-95,c-96,c-97,c-98,c-99
0,id_000644bb2,com_droga,24,D1,b68db1d53,1.062,0.5577,-0.2479,-0.6208,-0.1944,...,0.2862,0.2584,0.8076,0.5523,-0.1912,0.6584,-0.3981,0.2139,0.3801,0.4176
1,id_000779bfc,com_droga,72,D1,df89a8e5a,0.0743,0.4087,0.2991,0.0604,1.019,...,-0.4265,0.7543,0.4708,0.023,0.2957,0.4899,0.1522,0.1241,0.6077,0.7371
2,id_000a6266a,com_droga,48,D1,18bb41b2c,0.628,0.5817,1.554,-0.0764,-0.0323,...,-0.725,-0.6297,0.6103,0.0223,-1.324,-0.3174,-0.6417,-0.2187,-1.408,0.6931
3,id_0015fd391,com_droga,48,D1,8c7f86626,-0.5138,-0.2491,-0.2656,0.5288,4.062,...,-2.099,-0.6441,-5.63,-1.378,-0.8632,-1.288,-1.621,-0.8784,-0.3876,-0.8154
4,id_001626bd3,com_droga,72,D2,7cbed3131,-0.3254,-0.4009,0.97,0.6919,1.418,...,0.0042,0.0048,0.667,1.069,0.5523,-0.3031,0.1094,0.2885,-0.3786,0.7125


In [4]:
# observar as últimas linhas do dataset (5 por padrão)
raw_data.tail()

Unnamed: 0,id,tratamento,tempo,dose,droga,g-0,g-1,g-2,g-3,g-4,...,c-90,c-91,c-92,c-93,c-94,c-95,c-96,c-97,c-98,c-99
23809,id_fffb1ceed,com_droga,24,D2,df1d0a5a1,0.1394,-0.0636,-0.1112,-0.508,-0.4713,...,0.1969,0.0262,-0.8121,0.3434,0.5372,-0.3246,0.0631,0.9171,0.5258,0.468
23810,id_fffb70c0c,com_droga,24,D2,ecf3b6b74,-1.326,0.3478,-0.3743,0.9905,-0.7178,...,0.4286,0.4426,0.0423,-0.3195,-0.8086,-0.9798,-0.2084,-0.1224,-0.2715,0.3689
23811,id_fffc1c3f4,com_controle,48,D2,cacb2b860,0.3942,0.3756,0.3109,-0.7389,0.5505,...,0.5409,0.3755,0.7343,0.2807,0.4116,0.6422,0.2256,0.7592,0.6656,0.3808
23812,id_fffcb9e7c,com_droga,24,D1,8b87a7a83,0.666,0.2324,0.4392,0.2044,0.8531,...,-0.1105,0.4258,-0.2012,0.1506,1.523,0.7101,0.1732,0.7015,-0.629,0.074
23813,id_ffffdd77b,com_droga,72,D1,972f41291,-0.8598,1.024,-0.1361,0.7952,-0.3611,...,-3.389,-1.745,-6.63,-4.095,-7.386,-1.416,-3.577,-0.4775,-2.15,-4.252


In [5]:
# observar 3 linhas aleatórias do nosso dataset
raw_data.sample(3)

Unnamed: 0,id,tratamento,tempo,dose,droga,g-0,g-1,g-2,g-3,g-4,...,c-90,c-91,c-92,c-93,c-94,c-95,c-96,c-97,c-98,c-99
7231,id_4da4abb24,com_droga,72,D1,a7abe00bf,0.0888,-1.017,-1.334,-0.1912,-0.9276,...,-0.4513,0.8726,-0.0338,0.7538,1.263,0.761,1.067,1.063,0.2579,0.9279
2183,id_176047159,com_droga,48,D2,cedcfd30a,-0.0271,-0.8365,-0.2222,0.6147,0.1996,...,1.296,1.031,-0.9122,0.649,0.1441,0.0764,1.049,0.9327,0.8768,0.1564
11692,id_7e0bef6c4,com_droga,48,D1,56d71e6c1,-0.2076,0.1791,-3.04,-0.1393,-0.4194,...,-0.7673,0.7017,-0.4983,-0.541,0.1892,0.3974,0.5347,0.2106,0.4289,-0.7419


In [6]:
print("\nQuantidade de Linhas no Dataset: {}".format(raw_data.shape[0]))
print("\nQuantidade de Colunas no Dataset: {}".format(raw_data.shape[1]))


Quantidade de Linhas no Dataset: 23814

Quantidade de Colunas no Dataset: 877


Temos uma quantidade considerável de colunas nesse dataset, $877$ delas.

Inicialmente, para facilitar o trabalho em futuras análises, vamos modificar os nomes das colunas e remover o hífen de cada título. Uma razão para fazermos isso é poder acessar, por exemplo, a coluna ```"g-0"``` utilizando o código ```raw_data.g0```ao invés de ```raw_data['g0']```. Com espaços ou outros caracteres especiais no título da coluna esse procedimento fica mais complexo (ou até mesmo impossível).

In [7]:
# fazemos uma cópia para evitar alterações no dataframe original
df = raw_data.copy()

# iremos substituir (replace) os hífens '-' com nada ''
df.columns = df.columns.str.replace('-', '')

# conferindo as novas colunas
df.columns

Index(['id', 'tratamento', 'tempo', 'dose', 'droga', 'g0', 'g1', 'g2', 'g3',
       'g4',
       ...
       'c90', 'c91', 'c92', 'c93', 'c94', 'c95', 'c96', 'c97', 'c98', 'c99'],
      dtype='object', length=877)

Uma nomeclatura mais apropriada para a coluna "droga" seria "composto". Então vamos renomear essa coluna:

In [8]:
df.rename(columns = {'droga': 'composto'}, inplace=True)
df.head()

Unnamed: 0,id,tratamento,tempo,dose,composto,g0,g1,g2,g3,g4,...,c90,c91,c92,c93,c94,c95,c96,c97,c98,c99
0,id_000644bb2,com_droga,24,D1,b68db1d53,1.062,0.5577,-0.2479,-0.6208,-0.1944,...,0.2862,0.2584,0.8076,0.5523,-0.1912,0.6584,-0.3981,0.2139,0.3801,0.4176
1,id_000779bfc,com_droga,72,D1,df89a8e5a,0.0743,0.4087,0.2991,0.0604,1.019,...,-0.4265,0.7543,0.4708,0.023,0.2957,0.4899,0.1522,0.1241,0.6077,0.7371
2,id_000a6266a,com_droga,48,D1,18bb41b2c,0.628,0.5817,1.554,-0.0764,-0.0323,...,-0.725,-0.6297,0.6103,0.0223,-1.324,-0.3174,-0.6417,-0.2187,-1.408,0.6931
3,id_0015fd391,com_droga,48,D1,8c7f86626,-0.5138,-0.2491,-0.2656,0.5288,4.062,...,-2.099,-0.6441,-5.63,-1.378,-0.8632,-1.288,-1.621,-0.8784,-0.3876,-0.8154
4,id_001626bd3,com_droga,72,D2,7cbed3131,-0.3254,-0.4009,0.97,0.6919,1.418,...,0.0042,0.0048,0.667,1.069,0.5523,-0.3031,0.1094,0.2885,-0.3786,0.7125


Análise das Colunas

**O "id" é único?**

In [9]:
# checamos se cada coluna tem um id próprio

if (df.shape[0] == len(df['id'].value_counts())):
    print('O \'id\' é único para cada coluna.')
else:
    print('O \'id\' não é único para cada coluna.')

O 'id' é único para cada coluna.


**Quais e quantos valores temos na coluna "tratamento"?**

In [10]:
print('Temos {} valores únicos na coluna \'tratamento\'.'.format(len(df['tratamento'].unique())))

print('\nDestes, {} são do tipo \'{}\' e {} são do tipo \'{}\'.'.format(df['tratamento'].value_counts()[0], 
                                                                        df['tratamento'].unique()[0], 
                                                                        df['tratamento'].value_counts()[1], 
                                                                        df['tratamento'].unique()[1]))

print('\nIsso representa, respectivamente, {0:.2f}% e {1:.2f}% do total.'.format(df['tratamento'].value_counts(normalize=True)['com_droga'] * 100, 
                                                                                 df['tratamento'].value_counts(normalize=True)['com_controle'] * 100))

Temos 2 valores únicos na coluna 'tratamento'.

Destes, 21948 são do tipo 'com_droga' e 1866 são do tipo 'com_controle'.

Isso representa, respectivamente, 92.16% e 7.84% do total.


**Graficamente:**

In [11]:
a = [df['tratamento'].value_counts(normalize=True)['com_droga'], df['tratamento'].value_counts(normalize=True)['com_controle']]

fig = go.Figure(go.Bar (x = ['Com Controle', 'Com Droga'],
                        y = a,
                        marker = {'color': [1, 2],
                                  'colorscale': 'geyser'}))

fig.update_layout(
    title_text = 'Porcentagem de Tratamento por Tipo',
    title_font_size = 18,
    template = 'seaborn',
    autosize = False,
    width = 470,
    height = 500,
    bargap = 0.1,
    yaxis_tickformat = '%',
    hoverlabel = dict(bgcolor = "white", font_size = 16)
    )

fig.update_xaxes(type = 'category', title = 'Tipo')
fig.update_yaxes(title = 'Porcentagem')

fig.show()

**Quais e quantos valores temos na coluna "tempo"?**

In [12]:
print('Temos {} valores únicos na coluna \'tempo\'.'.format(len(df['tempo'].unique())))

for horas, qtde in df['tempo'].value_counts().iteritems():
    print('\n{} horas aparece {} vezes.'.format(horas, qtde))

Temos 3 valores únicos na coluna 'tempo'.

48 horas aparece 8250 vezes.

72 horas aparece 7792 vezes.

24 horas aparece 7772 vezes.


**Graficamente:**

In [13]:
b = df['tempo'].value_counts().reset_index()

fig = go.Figure(go.Bar(x = b['index'],
                       y = b.tempo,
                       marker = {'color': [1, 2, 3],                       
                                 'colorscale': 'bluered'}))

fig.update_layout(
    title_text = 'Quantidade de Drogas por Período de Tempo',
    title_font_size = 20,
    template = 'seaborn',
    autosize = False,
    width = 600,
    height = 500,
    bargap = 0.2,
    hoverlabel = dict(bgcolor = "white", font_size = 16)
    )

fig.update_xaxes(type = 'category', title = 'Horas')
fig.update_yaxes(title = 'Quantidade', dtick = 2000)


fig.show()

**Quais e quantos valores temos na coluna "dose"?**

In [14]:
print('\nTemos {} valores únicos na coluna \'dose\'.'.format(len(df['dose'].unique())))
print('\nDestes, {} são do tipo \'{}\' e {} são do tipo \'{}\'.'.format(df['dose'].value_counts()[0], 
                                                                        df['dose'].unique()[0], 
                                                                        df['dose'].value_counts()[1], 
                                                                        df['dose'].unique()[1]))
print('\nIsso representa, respectivamente, {0:.2f}% e {1:.2f}% do total.'.format(df['dose'].value_counts(normalize=True)[0] * 100, 
                                                                                 df['dose'].value_counts(normalize=True)[1] * 100))


Temos 2 valores únicos na coluna 'dose'.

Destes, 12147 são do tipo 'D1' e 11667 são do tipo 'D2'.

Isso representa, respectivamente, 51.01% e 48.99% do total.


**Graficamente:**

In [15]:
c = [df['dose'].value_counts(normalize=True)['D1'], df['dose'].value_counts(normalize=True)['D2']]

fig = go.Figure(go.Bar(x = ['Primeira', 'Segunda'],
                       y = c,
                       marker = {'color': [1, 2],
                                 'colorscale': 'aggrnyl'}))

fig.update_layout(
    title_text = 'Porcentagem de Tratamento por Dose',
    title_font_size = 20,
    template = 'seaborn',
    autosize = False,
    width = 600,
    height = 500,
    bargap = 0.3,
    yaxis_tickformat = '%',
    hoverlabel = dict(bgcolor = "white", font_size = 16)
    )

fig.update_xaxes(title = 'Dose')
fig.update_yaxes(title = 'Porcentagem')

fig.show()

**Quantos valores temos na coluna "composto"?**

In [16]:
print('\nTemos {} valores únicos na coluna \'composto\'.'.format(len(df['composto'].unique())))


Temos 3289 valores únicos na coluna 'composto'.


Com essas análises, é imediato ver que a coluna ```'tratamento'``` está bastante desbalanceada, enquanto que as colunas ```'tempo'``` e ```'dose'``` estão bem balanceadas.

# Descrição das Colunas


In [17]:
# quantas colunas começam com 'g'?
g = df.columns.str[0] == 'g'
print('{} colunas começam com \'g\'.'.format(np.count_nonzero(g == 1)))

#qauntas colunas começam com 'c'?
c = df.columns.str[0] == 'c'
print('{} colunas começam com \'c\'.'.format(np.count_nonzero(c == 1) - 1))
# o "- 1" acima é para não contabilizar a coluna "composto" na contagem

772 colunas começam com 'g'.
100 colunas começam com 'c'.


Com toda a análise acima podemos descrever as colunas:

* **id**: identificador único para cada experimento, um para cada um dos $23814$ experimentos;
* **tratamento**: se o tratamento foi feito "com droga" ou "com controle" (ou seja, sem droga);
* **tempo**: quantidade de horas do tratamento, podendo ser $24$hrs, $48$hrs ou $72$hrs;
* **dose**: qual dose foi aplicada, "D1" para dose $1$ e "D2" para dose $2$;
* **composto**: qual composto (droga) foi administrado no tratamento, nesse caso temos $3289$ tipos diferentes;
* **g-0** até **g-771**: a letra "g" da coluna remete à palavra gene, ou seja, esses números nos dizem a expressão de cada gene frente as drogas ou a exposição.
* **c-0** até **c-99**: a letra "c" da coluna remete à palavra célula e, nesse caso, temos que essas colunas representam os "tipos celulares".

# Análise da Coluna "tratamento"

Ao analisarmos a porcentagem dos valores da coluna "tratamento", notamos que a classe "com droga" representa $92,16\%$ dos experimentos, contra $7,84\%$ da classe "com controle", mostrando que existe um grande desbalanceamento nessa classe de dados.

Em um experimento científico, o grupo controle é grupo que não recebeu nenhum dos tratamentos. _"O grupo controle fornece um padrão, ou referência, que permite avaliar se o tratamento tem um efeito."_ [[3]](https://pt.khanacademy.org/science/biology/intro-to-biology/science-of-biology/a/experiments-and-observations/)

Uma possível explicação para esse desbalanceamento é o fato de existirem, nesse experimento, $3289$ drogas diferentes. Não é necessário termos um grupo controle para cada uma delas, apenas um grupo controle para o experimento como um todo. Já a classe "com droga" contém todos os experimentos de todas as drogas existentes no dataset.

Podemos analisar qual tipo de droga foi utilizada em cada classe "com droga" da coluna "tratamento" e vermos se esse experimento está seguindo a recomendação de que a quantidade de experimentos no grupo controle deve ser maior do que ou igual a quantidade de cada um dos grupos individuais "com droga" (grupo experimental). [[4]](https://link.springer.com/chapter/10.1007/164_2019_280)

In [18]:
# novo dataset contendo apenas as linhas onde o tratamento foi feito com droga
df_com_droga = df[df['tratamento'] == 'com_droga'].copy()

In [19]:
# conta quantos experimentos foram feitos com cada droga e ordena as quantidades descrescentemente
df_com_droga['composto'].value_counts().sort_values(ascending=False)

87d714366    718
9f80f3f77    246
8b87a7a83    203
5628cb3ee    202
d08af5d4b    196
            ... 
0dedfb162      1
98c94f9b9      1
bef38f2fd      1
0e6ee26ff      1
dd4a96d16      1
Name: composto, Length: 3288, dtype: int64

Contando os valores de cada droga utilizada no grupo experimental ("com_droga"), vemos que a quantidade de experimentos com cada droga específica é menor do que a quantidade de experimentos do grupo controle ($1866$ experimentos encontrados utilizando ```df['tratamento'].value_counts()``` ). Por exemplo, a droga com maior número de experimentos é ```"87d714366"``` com $718$ experimentos. Ou seja, esse dataset como um todo segue as recomendações de termos a quantidade de experimentos no grupo controle maior do que ou igual a quantidade de cada um dos grupos "com droga" (grupo experimental). [[4]](https://link.springer.com/chapter/10.1007/164_2019_280)

Caso formos utilizar essa variável "tratamento" em algum modelo de Machine Learning devemos tratar melhor esse desbalanceamento. Por enquanto, aqui na Análise Exploratória dos Dados, iremos deixar a coluna como está.

Vamos agora observar a classe ```'com_controle'```.

In [20]:
# novo dataset contendo apenas as linhas onde o tratamento foi feito sem droga (com controle)
df_com_controle = df[df['tratamento'] == 'com_controle'].copy()

In [21]:
# conferir quais compostos são utilizados nesse grupo
df_com_controle['composto'].unique()

array(['cacb2b860'], dtype=object)

Com essa análise, vemos que no grupo controle foi utilizada apenas uma droga com código ```'cacb2b860'```. Esse, provavelmente, é o código do placebo utilizado. Placebo é uma _"substância que não contém ingredientes ativos, feito para ter gosto e aparência idêntica da droga real a ser estudada."_ [[5]](https://www.inca.gov.br/perguntas-frequentes/o-que-e-placebo) A utilização de um placebo em um experimento é necessária para que ele sirva como base de comparação para testar a eficácia das drogas e tratamentos. [[6]](https://www.uol.com.br/vivabem/reportagens-especiais/especial-placebo/#page3)

# Análise dos Genes

Neste dataset temos $772$ genes, correspondendo às colunas **g-0** até **g-771**. Esse é um valor bastante elevado para analisarmos um a um individualmente (poderíamos analisar todos ao mesmo tempo utilizando um loop ```for```, mas mesmo assim a análise ficaria comprometida e rasa dada a quantidade de variáveis). Então, nesse caso, escolheremos aleatoriamente apenas alguns genes para analisar individualmente e mais detalhadamente.

In [22]:
# garante que os números aleatórios gerados não mudem de uma execução para outra do notebook
np.random.seed(23)

# gera 5 números aleatórios no intervalo [0, 771] e guarda numa lista 'gene_ale' em ordem crescente
gene_ale = np.sort( np.random.randint(0, high=772, size=4) )

# exibe 'gene_ale' (que está ordenado crescentemente)
gene_ale

array([ 40, 488, 595, 742])

Para haver mais clareza, os genes foram escolhidos aleatoriamente de acordo com o código acima.

Genes escolhidos para análise e comparação:
* **g-40**
* **g-488**
* **g-595**
* **g-742**

In [23]:
for num in gene_ale:
    print('\n\tGene: \'g-{}\''.format(num))
    print('\tQuantidade de Valores Únicos: {}'.format(len(df['g' + str(num)].unique())))
    print('\tValor Mínimo: {0:.2f}'.format(df['g' + str(num)].min()))
    print('\tValor Máximo: {0:.2f}'.format(df['g' + str(num)].max()))


	Gene: 'g-40'
	Quantidade de Valores Únicos: 13153
	Valor Mínimo: -10.00
	Valor Máximo: 4.20

	Gene: 'g-488'
	Quantidade de Valores Únicos: 13439
	Valor Mínimo: -5.15
	Valor Máximo: 7.88

	Gene: 'g-595'
	Quantidade de Valores Únicos: 14249
	Valor Mínimo: -10.00
	Valor Máximo: 5.70

	Gene: 'g-742'
	Quantidade de Valores Únicos: 14154
	Valor Mínimo: -10.00
	Valor Máximo: 3.50


**Graficamente:**

In [24]:
fig = make_subplots(rows = 2,
                    cols = 2,
                    shared_xaxes=True,
                    shared_yaxes=True,
                    subplot_titles = ['Gene g-40', 'Gene g-488', 'Gene g-595', 'Gene g-742'],
                    x_title = 'Valor',
                    y_title = 'Quantidade de Experimentos',
                    vertical_spacing = 0.1)

cores = ['#2463F2', '#2DE6DF', '#26FCA1', '#26B5FC']

fig.add_trace(go.Histogram(x = df['g40'],
                           nbinsx = 100, 
                           marker=dict(color=cores[0]),
                           name='g-40'),
              row=1, col=1)

fig.add_trace(go.Histogram(x = df['g488'],
                           nbinsx = 100,
                           marker=dict(color=cores[1]),
                           name='g-488'),
              row=1, col=2)

fig.add_trace(go.Histogram(x = df['g595'],
                           nbinsx = 100,
                           marker=dict(color=cores[2]),
                           name='g-595'),
              row=2, col=1)

fig.add_trace(go.Histogram(x = df['g742'],
                           nbinsx = 100,
                           marker=dict(color=cores[3]),
                           name='g-742'),
              row=2, col=2)


fig.update_layout(height = 800,
                  width = 800,
                  title_text = 'Distribuição dos Valores de Experimentos por Gene',
                  template = 'seaborn',
                  hoverlabel = dict(bgcolor = 'white', font_size = 16),
                  title_font_size = 20)   


fig.show()

Com esses histogramas (que compartilham os mesmos eixos $x$ e $y$ para facilitar a análise) é possível ver que há pouca variação na quantidade de experimentos realizados ao redor do valor $0$, o gene **g-595** é o que possui maior quantidade de experimentos concentrados na origem $(0, 0)$, e também é o gene que possui mais experimentos ao todo, conferido com ```len(df['g595'].unique())``` que vimos anteriormente.

Isso se explica pelo fato de que, como foi visto nas aulas, os dados dessas colunas foram normalizados e estão num range de valores entre $-10$ e $10$.

# Análise dos Tipos Celulares

Analogamente ao que fizemos com os genes, iremos escolher alguns tipos celulares para fazer análise ao invés de tentarmos analisar todos os $100$ de uma vez só.

In [25]:
# garante que os números aleatórios gerados não mudem de uma execução para outra do notebook
np.random.seed(11)

# gera 5 números aleatórios no intervalo [0, 99] e guarda numa lista 'cell_rand' em ordem crescente
cell_rand = np.sort( np.random.randint(0, high=100, size=4) )

# exibe 'cell_rand' (que está ordenado crescentemente)
cell_rand

array([25, 63, 80, 91])

Para haver mais clareza, os tipos celulares foram escolhidos aleatoriamente de acordo com o código acima.

Genes escolhidos para análise e comparação:
* **c-25**
* **c-63**
* **c-80**
* **c-91**

In [26]:
for num in cell_rand:
    print('\n\tTipo Celular: \'c-{}\''.format(num))
    print('\tQuantidade de Valores Únicos: {}'.format(len(df['c' + str(num)].unique())))
    print('\tValor Mínimo: {0:.2f}'.format(df['c' + str(num)].min()))
    print('\tValor Máximo: {0:.2f}'.format(df['c' + str(num)].max()))


	Tipo Celular: 'c-25'
	Quantidade de Valores Únicos: 14701
	Valor Mínimo: -10.00
	Valor Máximo: 3.06

	Tipo Celular: 'c-63'
	Quantidade de Valores Únicos: 14608
	Valor Mínimo: -10.00
	Valor Máximo: 3.55

	Tipo Celular: 'c-80'
	Quantidade de Valores Únicos: 14465
	Valor Mínimo: -10.00
	Valor Máximo: 4.53

	Tipo Celular: 'c-91'
	Quantidade de Valores Únicos: 14370
	Valor Mínimo: -10.00
	Valor Máximo: 3.96


**Graficamente:**

In [27]:
fig = make_subplots(rows = 2,
                    cols = 2,
                    shared_xaxes=True,
                    shared_yaxes=True,
                    subplot_titles = ['c-25', 'c-63', 'c-80', 'c-91'],
                    x_title = 'Valor',
                    y_title = 'Quantidade de Experimentos',
                    vertical_spacing = 0.1)

cores = ['blue', 'gold', 'black', 'green']

fig.add_trace(go.Histogram(x = df['c25'],
                           nbinsx = 100, 
                           marker=dict(color=cores[0]),
                           name='c-25'),
              row=1, col=1)

fig.add_trace(go.Histogram(x = df['c63'],
                           nbinsx = 100,
                           marker=dict(color=cores[1]),
                           name='c-63'),
              row=1, col=2)

fig.add_trace(go.Histogram(x = df['c80'],
                           nbinsx = 100,
                           marker=dict(color=cores[2]),
                           name='c-80'),
              row=2, col=1)

fig.add_trace(go.Histogram(x = df['c91'],
                           nbinsx = 100,
                           marker=dict(color=cores[3]),
                           name='c-91'),
              row=2, col=2)

fig.update_layout(height = 800,
                  width = 800,
                  title_text = 'Distribuição dos Valores de Experimentos por Tipo Celular',
                  template = 'seaborn',
                  hoverlabel = dict(bgcolor = 'white', 
                                    font_size = 16),
                  title_font_size = 20)   
fig.show()

Com esses histogramas (que compartilham os mesmos eixos $x$ e $y$ para facilitar a análise) é possível ver que há pouca variação na quantidade de experimentos realizados ao redor do valor $0$, o tipo celular **c-25** é o que possui maior quantidade de experimentos concentrados na origem $(0, 0)$, e também é o tipo celular que possui mais experimentos ao todo, conferido com ```len(df['c25'].unique())``` que vimos anteriormente.

Também é possível observar um pico de experimentos ao redor do valor $-10$, e esse pico é maior nos tipos celulares **c-63**, **c-80** e **c-91**.

Essas colunas também foram normalizadas para um range de valores entre $-10$ e $10$, e isso pode explicar o motivo de termos um pico de valores em $-10$.

# Análise do Dataset "Resultados"

In [28]:
# observar as primeiras linhas do dataset
results.head()

Unnamed: 0,id,5-alpha_reductase_inhibitor,11-beta-hsd1_inhibitor,acat_inhibitor,acetylcholine_receptor_agonist,acetylcholine_receptor_antagonist,acetylcholinesterase_inhibitor,adenosine_receptor_agonist,adenosine_receptor_antagonist,adenylyl_cyclase_activator,...,tropomyosin_receptor_kinase_inhibitor,trpv_agonist,trpv_antagonist,tubulin_inhibitor,tyrosine_kinase_inhibitor,ubiquitin_specific_protease_inhibitor,vegfr_inhibitor,vitamin_b,vitamin_d_receptor_agonist,wnt_inhibitor
0,id_000644bb2,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,id_000779bfc,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,id_000a6266a,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,id_0015fd391,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,id_001626bd3,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [29]:
# observar as últimas linhas do dataset
results.tail()

Unnamed: 0,id,5-alpha_reductase_inhibitor,11-beta-hsd1_inhibitor,acat_inhibitor,acetylcholine_receptor_agonist,acetylcholine_receptor_antagonist,acetylcholinesterase_inhibitor,adenosine_receptor_agonist,adenosine_receptor_antagonist,adenylyl_cyclase_activator,...,tropomyosin_receptor_kinase_inhibitor,trpv_agonist,trpv_antagonist,tubulin_inhibitor,tyrosine_kinase_inhibitor,ubiquitin_specific_protease_inhibitor,vegfr_inhibitor,vitamin_b,vitamin_d_receptor_agonist,wnt_inhibitor
23809,id_fffb1ceed,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
23810,id_fffb70c0c,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
23811,id_fffc1c3f4,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
23812,id_fffcb9e7c,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
23813,id_ffffdd77b,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [30]:
# observar 3 linhas aleatórias do dataser
results.sample(3)

Unnamed: 0,id,5-alpha_reductase_inhibitor,11-beta-hsd1_inhibitor,acat_inhibitor,acetylcholine_receptor_agonist,acetylcholine_receptor_antagonist,acetylcholinesterase_inhibitor,adenosine_receptor_agonist,adenosine_receptor_antagonist,adenylyl_cyclase_activator,...,tropomyosin_receptor_kinase_inhibitor,trpv_agonist,trpv_antagonist,tubulin_inhibitor,tyrosine_kinase_inhibitor,ubiquitin_specific_protease_inhibitor,vegfr_inhibitor,vitamin_b,vitamin_d_receptor_agonist,wnt_inhibitor
4772,id_33860c567,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3899,id_299facef7,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
13113,id_8d318aacb,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [31]:
print("\nQuantidade de Linhas no Dataset Resultados: {}".format(results.shape[0]))
print("\nQuantidade de Colunas no Dataset Resultados: {}".format(results.shape[1]))


Quantidade de Linhas no Dataset Resultados: 23814

Quantidade de Colunas no Dataset Resultados: 207


# Descrição das Colunas

Nesse dataset temos, como o nome já nos diz, os resultados dos experimentos realizados no dataset inicial. Esses resultados são, novamente, identificados pelo id único de cada experimento.

Em cada coluna temos um efeito que pode ter ou não ocorrido em cada experimento realizado. Um valor $0$ indica que aquele efeito não foi ativado no experimento de id correspondente e o valor $1$ indica que o efeito foi ativado.

Dentre esses efeitos podemos ter:
* **inhibitor** (inibidor)
* **agonist** (agonista)
* **antagonist** (antagonista)
* **activator** (ativador)
* **agent** (agente)
* **blocker** (bloqueador)

e outros que não se encaixam em nenhuma categoria acima.

Podemos ver a quantidade de vezes que cada uma desses efeitos aparece com o código abaixo:

In [32]:
# separa o nome das colunas por '_' e pega a última palavra
contagem_dos_agentes = pd.DataFrame(results.drop('id', axis=1).columns.str.split('_').str[-1].value_counts()).reset_index()

# renomeia as colunas
contagem_dos_agentes.columns = ['categoria', 'quantidade']

contagem_dos_agentes = contagem_dos_agentes.sort_values(by = ['quantidade'], ascending = False)

contagem_dos_agentes.head(6)

Unnamed: 0,categoria,quantidade
0,inhibitor,112
1,antagonist,32
2,agonist,28
3,activator,5
4,agent,3
5,blocker,2


Daí, temos:
* $112$ inibididores
* $32$ antagonistas
* $28$ agonistas
* $5$ ativadores
* $3$ agentes
* $2$ bloquedores

e outros $24$ agentes que aparecem apenas uma vez.

**Graficamente:**

In [33]:
contagem_dos_agentes = contagem_dos_agentes.sort_values(by = ['quantidade'], ascending = True)

fig = go.Figure(go.Bar(x = contagem_dos_agentes.quantidade.sort_values(ascending=True),
                       y = contagem_dos_agentes['categoria'],
                       orientation = 'h',
                       marker = {'color': np.arange(0, len(contagem_dos_agentes['categoria'])+1),
                                 'colorscale': 'solar'} ) )

fig.update_layout(
    title_text = 'Tipos de Classes Ativadas',
    title_font_size = 20,
    template = 'none',
    height = 700,
    width = 700,
    bargap = 0.3)

fig.update_xaxes(title = 'Quantidade', dtick = 20, tick0 = 0)
fig.update_yaxes(type = 'category', title = '', dtick = 1)


fig.show()

Agora vamos analisar quantas classes cada experimento aciona por vez. Para isso iremos contabilizar, para cada linha, a quantidade de "$1$" que aparece e colocar esse valor em uma nova coluna chamada ```"qtde_classes_ativadas"```.

In [34]:
# faz uma cópia do dataset para mantermos o original
results_soma = results.copy()

# soma quantas classes foram ativadas por linha e salva esse valor em uma nova coluna
results_soma['qtde_classes_ativadas'] = results_soma.sum(axis=1)

results_soma['qtde_classes_ativadas'].head()


Dropping of nuisance columns in DataFrame reductions (with 'numeric_only=None') is deprecated; in a future version this will raise TypeError.  Select only valid columns before calling the reduction.



0    1
1    0
2    3
3    0
4    1
Name: qtde_classes_ativadas, dtype: int64

In [35]:
# novo dataframe apenas com a contagem de classes ativados por valor e sua porcentagem do total
contagem = pd.DataFrame(results_soma['qtde_classes_ativadas'].value_counts()).reset_index()
contagem['porcentagem'] = (contagem['qtde_classes_ativadas'] / contagem['qtde_classes_ativadas'].sum())

contagem

Unnamed: 0,index,qtde_classes_ativadas,porcentagem
0,1,12532,0.526245
1,0,9367,0.39334
2,2,1538,0.064584
3,3,303,0.012724
4,4,55,0.00231
5,5,13,0.000546
6,7,6,0.000252


Esses dados obtidos mostram que $39,33\%$ dos experimentos não ativam nenhuma classe. Considerando que $7,84\%$ desses experimentos são do grupo controle, então temos que $31,49\%$ dos experimentos que não ativam nenhuma classe estão na categoria ```"com_droga"```.

Novamente observando os dados, $52,62\%$ dos experimentos ativam exatamente uma classe.

Esses valores são bastante desbalanceados também, por exemplo, $12532$ compostos ativam uma só classe enquanto que apenas $6$ compostos ativam $7$ classes diferentes.

**Graficamente:**

In [36]:
fig = go.Figure(go.Bar(x = contagem['index'],
                       y = contagem['porcentagem'],
                       marker = {'color': np.arange(0, len(contagem['index'])+1),
                                 'colorscale': 'tropic'}))

fig.update_layout(
    title_text = 'Porcentagem de Classes Ativadas por Experimento',
    title_font_size = 20,
    template = 'none',
    autosize = False,
    width = 600,
    height = 500,
    bargap = 0.2,
    hoverlabel = dict(bgcolor = "white", font_size = 16),
    yaxis_tickformat = '%'
    )

fig.update_xaxes(title = 'Quantidade de Classes Ativadas', dtick = 1)
# fig.update_yaxes(title = 'Porcentagem do Total de Experimentos')



fig.show()

# Tipos de Mecanismos de Ação

Agora, podemos olhar também para cada mecanismo individualmente e observar quais mais aparecem nos experimentos.

In [37]:
# vamos ver quais os tipos existentes de dados no dataset
results.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 23814 entries, 0 to 23813
Columns: 207 entries, id to wnt_inhibitor
dtypes: int64(206), object(1)
memory usage: 37.6+ MB


Ou seja, temos $207$ colunas e destas, uma coluna é do tipo ```object```, que e'a coluna ```id```, e as outras $206$ colunas são de números inteiros ```int64```.

In [38]:
# selecionar apenas os tipos de números inteiros e ordená-los
results.select_dtypes('int64').sum().sort_values(ascending = False)

nfkb_inhibitor                                832
proteasome_inhibitor                          726
cyclooxygenase_inhibitor                      435
dopamine_receptor_antagonist                  424
serotonin_receptor_antagonist                 404
                                             ... 
elastase_inhibitor                              6
steroid                                         6
atm_kinase_inhibitor                            6
erbb2_inhibitor                                 1
atp-sensitive_potassium_channel_antagonist      1
Length: 206, dtype: int64

Com isso vemos que existem $206$ mecanismos de ação e a contagem de vezes que cada um aparece. Por exemplo, ```nfkb_inhibitor``` é ativado $832$ vezes nos experimentos.

Podemos também analisar a contagem atráves dos tipos existentes, como inibidor, antagonista, etc. Para isso vamos criar um novo dataset ```results_tipo``` e renomear as colunas para mostrar apenas o tipo.

In [39]:
results_tipo = results.copy()

results_tipo.columns = results.columns.str.split('_').str[-1]

results_tipo.head()

Unnamed: 0,id,inhibitor,inhibitor.1,inhibitor.2,agonist,antagonist,inhibitor.3,agonist.1,antagonist.1,activator,...,inhibitor.4,agonist.2,antagonist.2,inhibitor.5,inhibitor.6,inhibitor.7,inhibitor.8,b,agonist.3,inhibitor.9
0,id_000644bb2,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,id_000779bfc,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,id_000a6266a,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,id_0015fd391,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,id_001626bd3,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


Agora fazemos novamente a soma:

In [40]:
# soma as colunas que possuem o mesmo nome em uma só para cada tipo
results_tipo = results_tipo.drop('id', axis = 1).groupby(level = 0, axis = 1).sum()

In [41]:
# soma quantas vezes cada tipo aparece nos experimentos
results_tipo.sum().sort_values(ascending = False)

inhibitor            9693
antagonist           3449
agonist              2330
blocker               323
agent                 150
activator             115
local                  80
antioxidant            73
anti-inflammatory      73
immunosuppressant      73
medium                 56
sensitizer             51
stimulant              49
antibiotic             43
antiprotozoal          36
antifolate             36
secretagogue           30
b                      26
donor                  26
antiviral              23
scavenger              18
antimalarial           18
antifungal             13
antihistamine          12
analgesic              12
anticonvulsant         12
laxative                6
diuretic                6
antiarrhythmic          6
steroid                 6
dtype: int64

Com isso, é imediato ver que a classe de inibidores aparece mais vezes em cada experimento, seguida pela classe de antagonistas e agonistas.

# Machine Learning

As técnicas de Machine Learning, ou aprendizado de máquina, são ferramentas poderosas quando bem utilizadas.

No nosso caso, podemos formular diversas perguntas e tentar respondê-las com Machine Learning: "quantos mecanismos de ação foram ativados em cada experimentos?", "podemos separar os experimentos em clusters de similaridade?", "o tratamento durou $24$, $48$ ou $72$ horas?", entre outras.

Após fazermos a análise das colunas e notarmos que ```"tempo"``` e ```"dose"```estão bem balanceadas, surgiu a pergunta: será que podemos prever quantas doses (se uma ou duas) foram aplicadas em cada tratamento utilizando técnicas de Machine Learning? É o que tentaremos responder abaixo.

Outra vantagem da escolha da coluna ```"dose"``` para esse estudo é que temos apenas dois valores, que podem ser convertidos para ```True``` or ```False```, nos dando um problema de classificação binária, algo mais direto de ser atacado.

Ao final desta seção, temos um breve explicação das tentativas erradas de se aplicar Machine Learning nesse problema, antes de chegarmos na tentativa correta.

Vamos lá!

# Tratamento dos Dados

Antes de partirmos para o modelo, vamos fazer um tratamento nos dados e juntar (merge) os nossos dois datasets: ```experimentos``` e ```resultados```.

Para isso vamos criar duas colunas extras no dataset ```resultados```: ```n_ativos``` e ```eh_ativado```. A primeira representa a quantidade de agentes ativos em cada experimento e a segunda diz se pelo menos um elemento foi ativo (True ou False).

In [42]:
# faz uma cópia do dataframe resultados
resultados = results.copy()

# cria a coluna 'n_ativos' contando quantos mecanismos foram ativos em cada linha
resultados['n_ativos'] = resultados.drop('id', axis = 1).sum(axis = 1)

# mostra o início do dataset
resultados.head()

Unnamed: 0,id,5-alpha_reductase_inhibitor,11-beta-hsd1_inhibitor,acat_inhibitor,acetylcholine_receptor_agonist,acetylcholine_receptor_antagonist,acetylcholinesterase_inhibitor,adenosine_receptor_agonist,adenosine_receptor_antagonist,adenylyl_cyclase_activator,...,trpv_agonist,trpv_antagonist,tubulin_inhibitor,tyrosine_kinase_inhibitor,ubiquitin_specific_protease_inhibitor,vegfr_inhibitor,vitamin_b,vitamin_d_receptor_agonist,wnt_inhibitor,n_ativos
0,id_000644bb2,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,1
1,id_000779bfc,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,id_000a6266a,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,3
3,id_0015fd391,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,id_001626bd3,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,1


In [43]:
# cria a coluna 'eh_ativado' colocando True caso algum seja ativado e False caso nenhum
resultados['eh_ativado'] = (resultados['n_ativos'] != 0)

# mostra o início do dataset
resultados['eh_ativado'].head()

0     True
1    False
2     True
3    False
4     True
Name: eh_ativado, dtype: bool

In [44]:
# adiciona as colunas 'n_ativos' e 'eh_ativado' ao dataset de experimentos
dados_combinados = pd.merge(df, resultados[['id', 'n_ativos', 'eh_ativado']], on = 'id')

# mostra o início do novo dataset 'dados_combinados'
dados_combinados.head()

Unnamed: 0,id,tratamento,tempo,dose,composto,g0,g1,g2,g3,g4,...,c92,c93,c94,c95,c96,c97,c98,c99,n_ativos,eh_ativado
0,id_000644bb2,com_droga,24,D1,b68db1d53,1.062,0.5577,-0.2479,-0.6208,-0.1944,...,0.8076,0.5523,-0.1912,0.6584,-0.3981,0.2139,0.3801,0.4176,1,True
1,id_000779bfc,com_droga,72,D1,df89a8e5a,0.0743,0.4087,0.2991,0.0604,1.019,...,0.4708,0.023,0.2957,0.4899,0.1522,0.1241,0.6077,0.7371,0,False
2,id_000a6266a,com_droga,48,D1,18bb41b2c,0.628,0.5817,1.554,-0.0764,-0.0323,...,0.6103,0.0223,-1.324,-0.3174,-0.6417,-0.2187,-1.408,0.6931,3,True
3,id_0015fd391,com_droga,48,D1,8c7f86626,-0.5138,-0.2491,-0.2656,0.5288,4.062,...,-5.63,-1.378,-0.8632,-1.288,-1.621,-0.8784,-0.3876,-0.8154,0,False
4,id_001626bd3,com_droga,72,D2,7cbed3131,-0.3254,-0.4009,0.97,0.6919,1.418,...,0.667,1.069,0.5523,-0.3031,0.1094,0.2885,-0.3786,0.7125,1,True


Vamos conferir se os experimentos do grupo controle não ativam nenhum mecanismo, como é de se esperar.

In [45]:
dados_combinados.query('tratamento == "com_controle"')['eh_ativado'].value_counts()

False    1866
Name: eh_ativado, dtype: int64

In [46]:
dados_combinados.query('tratamento == "com_droga"')['eh_ativado'].value_counts()

True     14447
False     7501
Name: eh_ativado, dtype: int64

Com os códigos acima, confirmamos que a classe "com controle" não ativa nenhum mecanismo. Também temos que na classe "com_droga", $7501$ experimentos não ativaram nenhum mecanismo de ação, aproximadamente um terço deles.  

# Problema a ser Resolvido

Vamos supor que recebemos um novo dataset no mesmo modelo dos datasets utilizados nessa análise, mas sem a coluna "dose" e queremos construir um modelo que tente prever qual dose foi utilizada em cada experimento, se a dose 1 ou a dose 2, utilizando todos os outros dados presentes. Será que conseguimos realizar essa tarefa com uma acurária maior do que 0,7000?

Como a variável "dose" que queremos só possui dois valores possíveis, "D1" e "D2", vamos transformá-los em True ou False e aplicar um modelo de classificação poderoso, o [RandomForestClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html) da biblioteca ```sklearn```.

Antes de aplicarmos o modelo, vamos separar as variáveis do dataset ```dados_combinados``` em $X$ e $y$ para usarmos no nosso modelo de Machine Learning. Também foi escolhida essa coluna para prever pois ela é uma das mais balanceadas do nosso dataset, quase metade dos experimentos receberam uma dose e quase metade receberam duas doses. Isso facilita muito na hora de resolver o problema!

As variáveis $X$ são as _features_ do problema e a variável $y$ é o que queremos prever, nesse caso a dose.

In [47]:
# substitui "D1" por False e "D2" por True na coluna "dose"
dados_combinados['dose'].replace(('D1', 'D2'), (False, True), inplace=True)
dados_combinados.head()

Unnamed: 0,id,tratamento,tempo,dose,composto,g0,g1,g2,g3,g4,...,c92,c93,c94,c95,c96,c97,c98,c99,n_ativos,eh_ativado
0,id_000644bb2,com_droga,24,False,b68db1d53,1.062,0.5577,-0.2479,-0.6208,-0.1944,...,0.8076,0.5523,-0.1912,0.6584,-0.3981,0.2139,0.3801,0.4176,1,True
1,id_000779bfc,com_droga,72,False,df89a8e5a,0.0743,0.4087,0.2991,0.0604,1.019,...,0.4708,0.023,0.2957,0.4899,0.1522,0.1241,0.6077,0.7371,0,False
2,id_000a6266a,com_droga,48,False,18bb41b2c,0.628,0.5817,1.554,-0.0764,-0.0323,...,0.6103,0.0223,-1.324,-0.3174,-0.6417,-0.2187,-1.408,0.6931,3,True
3,id_0015fd391,com_droga,48,False,8c7f86626,-0.5138,-0.2491,-0.2656,0.5288,4.062,...,-5.63,-1.378,-0.8632,-1.288,-1.621,-0.8784,-0.3876,-0.8154,0,False
4,id_001626bd3,com_droga,72,True,7cbed3131,-0.3254,-0.4009,0.97,0.6919,1.418,...,0.667,1.069,0.5523,-0.3031,0.1094,0.2885,-0.3786,0.7125,1,True


In [48]:
# separa o dataset em X e y
# em X removemos as colunas 'id', 'dose' e 'composto'
X = dados_combinados.drop(['id', 'dose', 'composto'], axis=1)

# y é a dose que queremos prever
y = dados_combinados['dose']

In [49]:
# transforma as colunas "tratamento" e "tempo" em colunas booleanas no dataset X
X = pd.get_dummies(X, columns=['tratamento', 'tempo'])

In [50]:
# vamos conferir como ficou X
X.head()

Unnamed: 0,g0,g1,g2,g3,g4,g5,g6,g7,g8,g9,...,c97,c98,c99,n_ativos,eh_ativado,tratamento_com_controle,tratamento_com_droga,tempo_24,tempo_48,tempo_72
0,1.062,0.5577,-0.2479,-0.6208,-0.1944,-1.012,-1.022,-0.0326,0.5548,-0.0921,...,0.2139,0.3801,0.4176,1,True,0,1,1,0,0
1,0.0743,0.4087,0.2991,0.0604,1.019,0.5207,0.2341,0.3372,-0.4047,0.8507,...,0.1241,0.6077,0.7371,0,False,0,1,0,0,1
2,0.628,0.5817,1.554,-0.0764,-0.0323,1.239,0.1715,0.2155,0.0065,1.23,...,-0.2187,-1.408,0.6931,3,True,0,1,0,1,0
3,-0.5138,-0.2491,-0.2656,0.5288,4.062,-0.8095,-1.959,0.1792,-0.1321,-1.06,...,-0.8784,-0.3876,-0.8154,0,False,0,1,0,1,0
4,-0.3254,-0.4009,0.97,0.6919,1.418,-0.8244,-0.28,-0.1498,-0.8789,0.863,...,0.2885,-0.3786,0.7125,1,True,0,1,0,0,1


Agora temos um dataset $X$ bem organizado com as informações que necessitamos para aplicar no modelo de Machine Learning. E um dataset $y$ com os valores das doses que queremos prever.

Vamos separar agora esses datasets em valores de treino e de teste para o nosso modelo. Isso é necessário pois não podemos medir a acurácia do nosso modelo no próprio conjunto de dados que ele utilizou para treinar o modelo, pois a chance de acertar em dados já vistos é muito maior. Precisamos aplicar o modelo em novos dados para termos uma real noção de como ele está se saindo.

Para isso vamos usar a função ```'train_test_split'``` da biblioteca ```sklearn```.

In [51]:
# separa os valores de treino e de teste
X_treino, X_teste, y_treino, y_teste = train_test_split(X, y, random_state = 1)

Antes de aplicarmos nosso modelo de fato, testaremos um modelo "dummy" para termos uma métrica para nos basearmos no nosso modelo real. Esse modelo pega o valor mais frequente que aparece na coluna "dose" e prevê esse valor para todos os experimentos.

O score contabiliza quantos acertos ocorreram com esse modelo ingênuo.

In [52]:
# inicializa uma instância do modelo dummy pegando o valor mais frequente
dummy_classifier = DummyClassifier(strategy='most_frequent')

# treina o modelo com os dados de treino
dummy_classifier.fit(X_treino, y_treino)

# mostra a acurácia desse modelo nos dados de teste
print('A acurária do modelo \'dummy\' foi de {}.'.format(dummy_classifier.score(X_teste, y_teste)))

A acurária do modelo 'dummy' foi de 0.5157877057440377.


Agora vamos finalmente aplicar nosso modelo de classificação com Random Forest para prever qual dose foi aplicada. Iremos usar os parâmetros padrões do modelo, definindo apenas o ```random_state``` para garantir que o resultado seja o mesmo em toda execução do notebook.

In [53]:
# inicializa uma instância do modelo
rfc = RandomForestClassifier(random_state=0)

# treina o modelo com os dados de treino
rfc.fit(X_treino, y_treino)

# mostra a acurácia desse modelo nos dados de teste
print('A acurácia do \'RandomForestClassifier\' foi de {}.'.format(rfc.score(X_teste, y_teste)))

A acurácia do 'RandomForestClassifier' foi de 0.9781659388646288.


Considerando que o modelo mais simples acerta aproximadamente metade das vezes, esse nosso modelo do RandomForestClassifier com os parâmetros padrões se saiu muito bem. Uma explicação provável pra isso é que os dados utilizados devem ter algum padrão que diferencia facilmente os que receberam só uma dose dos que receberam duas doses. Esse padrão pode ser muito difícil, ou até mesmo impossível, de ser encontrado por um ser humano, devido ao número elevado de variáveis. E é aí que a aprendizagem de máquina brilha!

Mas para chegarmos nesse problema, foram testados, antes, alguns outros modelos em outros problemas. Inicialmente, tentei classificar os experimentos de acordo com quantos mecanismos foram ativados. Como essa variável é uma das mais desbalanceadas do dataset, tentei aplicar técnicas para balanceá-la, como a técnica [SMOTE](https://machinelearningmastery.com/smote-oversampling-for-imbalanced-classification/) (_Synthetic Minority Oversampling Technique_), que aumenta os valores das classes com menos elementos para se igualarem com o valor da classe que tem mais elementos. Essa parte funcionou, mas ao tentar aplicar algum modelo para classificação de multiclasses, seguindo as recomendações [desse chart](https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html), não consegui fazer nenhum modelo convergir, mesmo mudando vários hiperparâmetros dos mesmos.

Depois, tentei clusterizar os compostos por similaridade, mas também sem sucesso. Devido ao elevado número de variáveis, até mesmo visualizar graficamente algum tipo de separação ficava inviável.

Finalmente, partimos para um problema mais simples, o que mostrei nesse notebook, da classificação binária. E pelo visto funcionou muito bem.

<a name="conclusion"></a>
# 4 Conclusões

Após realizarmos a Análise Exploratória de Dados, concluímos que, no dataset "experimentos", temos uma grande quantidade de colunas, grande parte delas com valores de diversos genes e tipos celulares. As colunas "dose" e "tempo" estão bem balanceadas. Em contrapartida, a coluna "tratamento" está fortemente desbalanceada e foi apresentada uma explicação para esse fato.

Já no dataset "resultados", há um grande desbalanceamento das variáveis se contarmos quantos mecanismos foram ativados por cada linha (ou seja, por cada experimento). Isso dificulta aplicar algum modelo de Machine Learning nesses dados assim como estão.

Após a aplicação do modelo de Machine Learning para a resolução do nosso problema de classificar qual dose foi utilizada, notamos que há um forte padrão nas variáveis que receberam uma dose e nas que receberam duas doses, e isso facilitou extremamente que nosso modelo conseguisse uma alta acurácia. Esse padrão pode parecer bem direto para o computador, mas muito difícil para um humano, devido ao grande número de variáveis.