<a href="https://colab.research.google.com/github/eduardo-correa/imersao_dados_alura/blob/master/Aula_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Imersão Dados - **Alura**
Primeira aula da 3ª Imersão de Dados Alura - 03/05/2021

Github da imersão [aqui](https://github.com/alura-cursos/imersaodados3).

## Importação de Bibliotecas

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

## Importação dos Dados

In [None]:
url_dados = 'https://github.com/alura-cursos/imersaodados3/blob/main/dados/dados_experimentos.zip?raw=true'
dados = pd.read_csv(url_dados, compression = 'zip')
dados.head()

##Análise exploratória dos dados

####Tamanho do dataframe

In [None]:
dados.shape

####A coluna "tratamento"

Se refere aos dois grupos: com_droga (que fez uso da droga) e com_controle (que não fez uso da droga)

In [None]:
dados['tratamento'].unique()

In [None]:
dados['tratamento'].value_counts()

In [None]:
dados['tratamento'].value_counts(normalize = True)

In [None]:
dados['tratamento'].value_counts().plot.pie()

####A coluna "tempo"

Se refere à quantidade horas passadas da aplicação do medicamento.

In [None]:
dados['tempo'].unique()

In [None]:
dados['tempo'].value_counts()

In [None]:
dados['tempo'].value_counts(normalize = True)

In [None]:
dados['tempo'].value_counts().plot.bar()

####A coluna "dose"

In [None]:
dados['dose'].unique()

In [None]:
dados['dose'].value_counts()

In [None]:
dados['dose'].value_counts(normalize = True)

In [None]:
dados['dose'].value_counts().plot.bar()

####A coluna "droga"

Traz uma identificação anonimizada da droga utilizada

In [None]:
dados['droga'].unique()

In [None]:
dados['droga'].value_counts()

####A coluna "g-X"


 Onde X é um número, representa uma expressão de um gene.

##Desafios

###Desafio 01: Investigar por que a classe tratamento é tão desbalanceada?

Como visto na análise exploratória de dados, cerca de 92% dos experimentos utilizaram drogas, enquanto que cerca de 8% não as empregou, visto ser o grupo controle.

In [None]:
dados['tratamento'].value_counts(normalize = True).mul(100).round(1).astype(str) + '%'

Foram utilizadas diversas drogas diferentes no grupo "com_droga"

In [None]:
dados.query('tratamento == "com_droga"')['droga'].nunique()

E apenas uma 1 no grupo "com_controle", aqui cabe uma suposição que se trate de um placebo.

In [None]:
dados.query('tratamento == "com_controle"')['droga'].nunique()

Verificamos qual droga foi utilizada no grupo controle

In [None]:
dados.query('tratamento == "com_controle"')['droga'].value_counts()

Verificamos se esta droga também foi utilizada no grupo "com_droga"

In [None]:
dados.query('tratamento == "com_droga" & droga == "cacb2b860"')['droga'].value_counts()

Como esta droga (*cacb2b860*), foi utilizada apenas com o grupo controle, podemos compará-la com as demais drogas.

In [None]:
dados['droga'].value_counts().sort_values().tail(7).plot.bar()

Deste modo, como a quantidade de uso do grupo controle é muito superior ao uso das demais drogas, percebe-se que este grupo foi utilizado como comparação com mais, senão todos, outros grupos de drogas aplicadas. Mas isso necessita de mais informações sobre os procedimentos adotados para se ter uma afirmação mais definitiva.

###Desafio 02: Plotar as 5 últimas linhas da tabela

In [None]:
dados.tail()

###Desafio 03: Proporção da classe tratamento

In [None]:
dados['tratamento'].value_counts(normalize = True).mul(100).round(1).astype(str) + '%'

###Desafio 04: Quantos tipos de drogas forma investigados

In [None]:
dados.query('tratamento == "com_droga"')['droga'].nunique()

###Desafio 05: Procurar na documentação o método "query" (pandas)

O método foi estudado e aplicado nos desafios.

A documentação pode ser encontrada [aqui](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.query.html).

###Desafio 06: Renomear as colunas tirando o hífen

In [None]:
dados.columns = dados.columns.str.replace('-', '')
dados.columns

###Desafio 07: Deixar os gráficos bonitos (Matplotlib.pyplot)

####Tratamento

In [None]:
plt.style.use('seaborn-pastel')
dados['tratamento'].value_counts().sort_values().plot.bar()
plt.title('Tratamento aplicado')
plt.xlabel('Grupo de tratamento')
plt.ylabel('Experimentos')

####Tempo

In [None]:
plt.style.use('seaborn-pastel')
dados['tempo'].value_counts().sort_values().plot.bar()
plt.title('Quantidade de horas passadas após a aplicação da droga')
plt.xlabel('Tempo (em horas)')
plt.ylabel('Quantidade de experimentos')

####Dose

In [None]:
plt.style.use('seaborn-pastel')
dados['dose'].value_counts().sort_values().plot.bar()
plt.title('Quantidade de doses aplicadas')
plt.xlabel('Tipo da dose')
plt.ylabel('Aplicações')

###Desafio 08: Resumo do que foi aprendido com os dados

Existem 2 grupos para os tratamentos, os que receberam drogas e o grupo controle. Foram aplicadas 3.288 tipos de drogas e 1 tipo no grupo controle, provavelmente placebo. Aproximadamente 92% dos experimentos recebeu algum tipo de droga e 8% não.