# 3ª Imersão Dados Alura

Este projeto utiliza o notebook do Google Colab para realizar as análises e resultados dos desafios referente a primeira aula da imersão. #imersaodados #alura

**Importando os dados do GitHub**

In [None]:
import pandas as pd
url_dados = 'https://github.com/alura-cursos/imersaodados3/blob/main/dados/dados_experimentos.zip?raw=true'
dados = pd.read_csv(url_dados, compression = 'zip')
dados 

**Análise inicial e tratamento dos dados**

In [None]:
#Esta função é utilizada para ler apenas as 5 primeiras linhas da nossa tabela
dados.head()

In [None]:
#A função shape realiza a contagem de linhas e colunas da nossa tabela
dados.shape

In [None]:
#Utilizando [] conseguimos selecionar apenas uma coluna para visualizarmos
dados['tratamento']

In [None]:
#Utilizando .unique conseguimos ver os valores unicos (variáveis) dentro da coluna
dados['tratamento'].unique()

In [None]:
dados['tempo'].unique()

In [None]:
dados['dose'].unique()

In [None]:
dados['droga'].unique()

In [None]:
dados['g-0'].unique()

In [None]:
#A função value_counts() faz a contagem de classes dentro da coluna
dados['tratamento'].value_counts()

In [None]:
dados['dose'].value_counts()

In [None]:
#Plotando(imprimindo) Gráfico de Pizza
dados['tratamento'].value_counts().plot.pie()

In [None]:
dados['tempo'].value_counts().plot.pie()

In [None]:
#Plotando(imprimindo) Gráfico de Barras
dados['tempo'].value_counts().plot.bar()

## **Desafios**

***Desafio 01: Investigar por que a classe tratamento é tão desbalanceada?***

In [None]:
dados['tratamento'].value_counts(normalize=True)

In [None]:
dados['tratamento'].value_counts()

Quando realizamos a análise fica evidente a discrepância de valores entre os dois grupos, acredita-se que essa discrepância é devido ao grupo de controle não receber nenhum tipo de droga, ou seja, o paciente recebeu um placebo.

***Desafio 02: Plotar as 5 últimas linhas da tabela.***

In [None]:
#A função tail faz a contagem de linhas de baixo para cima em uma tabela
dados.tail(5)

***Desafio 03: Calcular a proporção das classes tratamento.***

In [None]:
dados['tratamento'].value_counts(normalize = True)

***Desafio 04: Qauntos tipos de droga foram investigados?***

In [None]:
#A função nunique faz a a somatoria da quantidade de dados
dados['droga'].nunique()

In [None]:
#Outra forma de obtermos o resultado é utilizando a função describe, visualizamos a resposta na informação unique
dados['droga'].describe()

In [None]:
#Também podemos utilizar a função value_counts, o resultado será informado em length
dados['droga'].value_counts()

***Desafio 05: Procurar na documentação o método query(pandas)***

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.query.html#pandas.DataFrame.query

https://pandas.pydata.org/docs/user_guide/indexing.html#indexing-query

Exemplo da aplicação do método query

In [None]:
#Utilizamos a função query para selecionar as informações de hora dentro da coluna tempo 
t24 = dados.query('tempo == 24')
t48 = dados.query('tempo == 48')
t72 = dados.query('tempo == 72')

In [None]:
t24.shape

In [None]:
t48.shape

In [None]:
t72.shape

***Desafio 06: Renomear as colunas tirando o hífen.***

In [None]:
#Para renomear/substituir iremos utilizar a função replace('remover','substituir')
#A função str significa string, que é texto ou caracter em Phyton
dados.columns = dados.columns.str.replace('-','')
dados.columns

Veja abaixo a importância de remover o hífen:

In [None]:
#Permite filtrar apenas os resultados positivos de um gene
dados.query('g0 > 0')

***Desafio 07: Deixar os gráficos bonitões(colocar título e label - Matplotlib.pyplt).***

In [None]:
#Iportando o matplotlib para manipular os dados do gráfico
import matplotlib.pyplot as plt

In [None]:
#Plotando o Gráfico na Vertical, alterando a paleta de cores, colocando título e label
cores = ['teal','brown']
dados['tratamento'].value_counts().plot.bar(color = cores)
plt.title('Qntd x Tipo Tratamento')
plt.xlabel('Tipos de tratamento')
plt.ylabel('Qntd experimentos')

In [None]:
#Plotando o Gráfico na Vertical, alterando a paleta de cores, colocando título e label
cores = ['gold','magenta','grey']
dados['tempo'].value_counts().plot.barh(color = cores)
plt.title('Tempo x Qntd')
plt.xlabel('Qntd experimentos')
plt.ylabel('Tempo (em horas)')

In [None]:
#Plotando o Gráfico de Pizza, alterando a paleta de cores, colocando título e label
labels1 = 'Com droga', 'Com controle'
cores = ['red','green']
fig1, ax1 = plt.subplots()
trat_plot = dados['tratamento'].value_counts().unique()
ax1.pie(trat_plot, labels=labels1, autopct='%1.1f%%', shadow=True, startangle=90, explode=(0.2, 0.1), colors = cores)
ax1.axis('equal')
ax1.set_title('Proporção (em %) de Droga e Controle')
plt.show()

In [None]:
#Plotando o Gráfico de Pizza, alterando a paleta de cores, colocando título e label
labels1 = 'D1', 'D2'
cores = ['blue','silver']
fig1, ax1 = plt.subplots()
trat_plot = dados['dose'].value_counts().unique()
ax1.pie(trat_plot, labels=labels1, autopct='%1.1f%%', shadow=True, startangle=90, explode=(0.2, 0.1), colors = cores)
ax1.axis('equal')
ax1.set_title('Proporção (em %) de Doses')
plt.show()

***Desafio 08: Resumo do que você aprendeu com os dados.***

Ao realizar as análises concluiu-se que:

*   Se faz necessario ter um grupo de controle nos experimentos;
*   Experimentos relacionados a drogas possuem diversas variáveis que devem ser testadas;
*   É evidente o quanto a tecnologia é importante para realizar as análises de forma descomplicada;
*   Com a ajuda do pandas foi possível realizar  a manipulação dos dados;
*   Com o matplotlib foi possível expressar os resultados em forma de gráfico.

