In [None]:
!pip install -q -U watermark

In [None]:
# Imports
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import scipy.stats as st
import warnings
warnings.filterwarnings('ignore')

In [None]:
%reload_ext watermark
%watermark -a "Data Science Academy"

In [None]:
# Carrega o dataset
df_dsa = pd.read_csv("dataset.csv")

In [None]:
# Shape
df_dsa.shape

In [None]:
# Visualiza as 5 primeiras linhas
df_dsa.head()

In [None]:
# Info
df_dsa.info()

In [None]:
# Nomes das colunas
df_dsa.columns

In [None]:
# Valores únicos para id do mouse
df_dsa["ID Mouse"].nunique()

In [None]:
# Verifica valores ausentes
df_dsa.isna().any()

In [None]:
# Extrai duplicatas na combinação "ID Mouse" e "Timepoint" (se houver)
duplicate_ID = df_dsa.loc[df_dsa.duplicated(subset = ["ID Mouse", "Timepoint"]), "ID Mouse"].unique()

In [None]:
# Se houver duplicata, removemos
df_dsa_final = df_dsa[df_dsa["ID Mouse"].isin(duplicate_ID) == False]

In [None]:
# Shape
df_dsa.shape

In [None]:
# Visualiza as 5 primeiras linhas
df_dsa_final.head()

In [None]:
# Nomes das colunas
df_dsa_final.columns

In [None]:
# Agrupamento pelo Medicamento e filtro pela variável "Tumor Volume (mm3)"
df_dsa_final_agrupado = df_dsa_final.groupby("Medicamento")["Tumor Volume (mm3)"]

In [None]:
# Agora calculamos as estatísticas da variável "Tumor Volume (mm3)"
media = df_dsa_final_agrupado.mean()
mediana = df_dsa_final_agrupado.median()
variancia = df_dsa_final_agrupado.var()
desvio_padrao = df_dsa_final_agrupado.std()
sem = df_dsa_final_agrupado.sem()

In [None]:
# Cria o dataframe de sumário
df_sumario_estatistico = pd.DataFrame({'Média': media, 
                                       'Mediana': mediana, 
                                       'Variância': variancia, 
                                       'Desvio Padrão': desvio_padrao,
                                       'SEM': sem})

In [None]:
df_sumario_estatistico

In [None]:
# Esta seria uma alternativa para agrupamento e cálculo das estatísticas
sumario_agregado = df_dsa_final_agrupado.agg(["mean", "median", "var", "std", "sem"])

As funções usadas aqui são:

- mean: Calcula a média aritmética dos dados.
- median: Determina o valor mediano dos dados.
- var: Calcula a variância dos dados, uma medida de dispersão que mostra quão distantes os valores estão da média.
- std: Determina o desvio padrão, que é a raiz quadrada da variância e fornece uma medida de quão espalhados estão os valores em relação à média.
- sem: Calcula o erro padrão da média (standard error of the mean), que indica a precisão da média como uma estimativa da média populacional.

In [None]:
sumario_agregado

## Análise Exploratória

In [None]:
# Nomes das colunas
df_dsa_final.columns

In [None]:
# Registros por medicamento
df_dsa_final["Medicamento"].value_counts()

In [None]:
# Número de Testes Por Medicamento

# Plot
plt.figure(figsize = (12, 5)) 
x_axis = df_dsa_final["Medicamento"].value_counts().index.values
y_axis = df_dsa_final["Medicamento"].value_counts().values
plt.bar(x_axis, y_axis, color = "green")
plt.title("Número de Testes Por Medicamento")
plt.xlabel("Medicamento")
plt.ylabel("Número de Testes")
plt.grid(alpha = 0.4)
plt.xticks(rotation = 45)
plt.show()

In [None]:
# Média do Volume do Tumor por Faixa Etária

# Definindo faixas etárias
bins = [0, 6, 12, 18, 24, 30]  
labels = ['0-6 meses', '6-12 meses', '12-18 meses', '18-24 meses', '24 meses ou mais']

# Divide as faixas
df_dsa_final['faixa_etaria'] = pd.cut(df_dsa_final['Idade_Meses'], 
                                      bins = bins, 
                                      labels = labels, 
                                      right = False)

# Agrupando por 'faixa_etaria' e calculando a média do 'Tumor Volume (mm3)'
media_tumor = df_dsa_final.groupby('faixa_etaria')['Tumor Volume (mm3)'].mean().reset_index()

# Criando o gráfico
import seaborn as sns
plt.figure(figsize = (12, 5)) 
sns.barplot(x = 'faixa_etaria', y = 'Tumor Volume (mm3)', data = media_tumor)
plt.title('Média do Volume do Tumor por Faixa Etária')
plt.xlabel('\nFaixa Etária')
plt.ylabel('Média do Volume do Tumor (mm3)')
plt.show()

## Quartis, Outliers e Boxplots

Quartis são valores que dividem um conjunto de dados em quatro partes iguais. O primeiro quartil (Q1) é o valor que separa os 25% menores dados dos demais, o segundo quartil (Q2) ou mediana divide os dados ao meio, e o terceiro quartil (Q3) separa os 75% menores dados dos 25% maiores.
<!-- Projeto Desenvolvido na Data Science Academy - www.datascienceacademy.com.br -->
Outliers ou valores atípicos são observações que se distanciam significativamente dos outros dados do conjunto. Eles podem ser resultado de variabilidade nos dados ou de erros de medição. São importantes porque podem distorcer estatísticas e proporcionar insights sobre anomalias.

Um boxplot é um método gráfico para representar a distribuição de dados numéricos por meio de quartis. Ele mostra o mínimo, o primeiro quartil (Q1), a mediana (Q2), o terceiro quartil (Q3) e o máximo, com linhas (chamadas de "bigodes" ou whiskers) que se estendem para mostrar a variabilidade fora dos quartis. Outliers são frequentemente indicados como pontos individuais que ficam fora dos "bigodes".

In [None]:
# Nomes das colunas
df_dsa_final.columns

In [None]:
# Filtra os dados por medicamento
Capomulin_df = df_dsa_final.loc[df_dsa_final["Medicamento"] == "Capomulin",:]
Ramicane_df = df_dsa_final.loc[df_dsa_final["Medicamento"] == "Ramicane", :]
Infubinol_df = df_dsa_final.loc[df_dsa_final["Medicamento"] == "Infubinol", :]
Ceftamin_df = df_dsa_final.loc[df_dsa_final["Medicamento"] == "Ceftamin", :]

In [None]:
Capomulin_df.head()

In [None]:
# Agrupa pelo 'ID Mouse' e obtém o maior valor (o último tratamento de cada cobaia), filtrando o 'Timepoint'
Capomulin_last = Capomulin_df.groupby('ID Mouse').max()['Timepoint']

In [None]:
Capomulin_last

In [None]:
# Converte em dataframe
Capomulin_volume = pd.DataFrame(Capomulin_last)

In [None]:
# Merge com o dataframe original (queremos somente o último timepoint)
Capomulin_merge = pd.merge(Capomulin_volume, Capomulin_df, on = ("ID Mouse", "Timepoint"), how = "left")

In [None]:
Capomulin_merge.head()

In [None]:
# Extrai os tumores
Capomulin_tumors = Capomulin_merge["Tumor Volume (mm3)"]

In [None]:
# Extrai os quartis
Cap_quartiles = Capomulin_tumors.quantile([0.25, 0.5, 0.75])

In [None]:
# Separa o primeiro e o terceiro quartil
Cap_lowerq = Cap_quartiles[0.25]
Cap_upperq = Cap_quartiles[0.75]

In [None]:
# Calcula o IQR (Intervalo Interquartil)
Cap_iqr = Cap_upperq - Cap_lowerq

In [None]:
# Define limites inferior e superior
Cap_lowerbound = Cap_lowerq - (Cap_iqr * 1.5)
Cap_upperbound = Cap_upperq + (Cap_iqr * 1.5)

In [None]:
print(f"Primeiro Quartil da Medida do Tumor com Capomulin: {Cap_lowerq}")
print(f"Terceiro Quartil da Medida do Tumor com Capomulin: {Cap_upperq}")
print(f"Intervalo Interquartil (IQR): {Cap_iqr}")
print(f"Valores Abaixo de {Cap_lowerbound} podem ser outliers")
print(f"Valores Acima de {Cap_upperbound} podem ser outliers")

> Vamos agora reproduzir isso para cada medicamento.

In [None]:
# Extrai o último timepoint para cada cobaia
last_timepoint = pd.DataFrame(df_dsa_final.groupby('ID Mouse')['Timepoint'].max().sort_values()) \
                    .reset_index().rename(columns = {'Timepoint': 'max_timepoint'})

In [None]:
last_timepoint.head()

In [None]:
# Adiciona o último timepoint como uma coluna no dataframe original
merged_df = pd.merge(df_dsa_final, last_timepoint, on = "ID Mouse")

In [None]:
merged_df.shape

In [None]:
merged_df.head()

In [None]:
# Nomes das colunas
df_dsa_final.columns

In [None]:
# Lista para o volume do tumor
tumor_volume = []

In [None]:
# Lista de tratamentos
lista_medicamentos = ["Capomulin", "Ramicane", "Infubinol", "Placebo"]

<!-- Projeto Desenvolvido na Data Science Academy - www.datascienceacademy.com.br -->
### Pergunta 1 - Há Outliers em Cada Tratamento?

In [None]:
print(f"\nRelatório Estatístico de Outliers")

# Loop através de cada medicamento na lista de tratamentos
for medicamento in lista_medicamentos:

    # Filtra o DataFrame para obter dados apenas do medicamento atual na iteração
    dsa_dados = merged_df.loc[merged_df["Medicamento"] == medicamento]
    
    # Localiza os dados do volume final do tumor no último ponto de tempo registrado para o medicamento
    final_volume = dsa_dados.loc[dsa_dados["Timepoint"] == dsa_dados["max_timepoint"]]
    
    # Seleciona a coluna de volume do tumor dos dados filtrados
    final_volumes = final_volume["Tumor Volume (mm3)"]
    
    # Adiciona os volumes finais de tumor à lista de volumes de tumor
    tumor_volume.append(final_volumes)
        
    # Calcula os quartis para os volumes finais do tumor
    quartiles = final_volumes.quantile([0.25,.5,0.75])

    # Atribui o primeiro quartil à variável lowerq
    lowerq = quartiles[0.25]
    
    # Atribui o terceiro quartil à variável upperq
    upperq = quartiles[0.75]
    
    # Calcula o intervalo interquartil (IQR)
    iqr = upperq - lowerq
    
    # Calcula o limite inferior para detecção de outliers
    lower_bound =  lowerq - (1.5 * iqr)
    
    # Calcula o limite superior para detecção de outliers
    upper_bound = upperq +(1.5 * iqr)
    
    # Conta os outliers com base nos limites definidos
    outliers = final_volumes[(final_volume["Tumor Volume (mm3)"] <= lower_bound) | \
                             (final_volume["Tumor Volume (mm3)"] >= upper_bound)].count()

    # Imprime o resumo estatístico dos outliers para cada medicamento
    print(f"\nIQR Para {medicamento}: {iqr}")
    print(f"Limite Inferior Para {medicamento}: {lower_bound}")
    print(f"Limite Superior Para {medicamento}: {upper_bound}")
    print(f"Medicamento: {medicamento} -> Número de outliers: {outliers}")

In [None]:
# Boxplot
format = dict(marker = "o")
plt.boxplot(tumor_volume, flierprops = format, showmeans = True)
plt.title("Volume Final do Tumor Por Medicamento")
plt.ylabel("Tumor Volume (mm3)")
plt.xticks([1,2,3,4], ["Capomulin", "Ramicane", "Infubinol", "Placebo"])
plt.show()

In [None]:
df_dsa_final.head()

<!-- Projeto Desenvolvido na Data Science Academy - www.datascienceacademy.com.br -->
### Pergunta 2 - Com o Uso de Medicamentos Há Efeito no Volume do Tumor ao Longo do Tempo?

In [None]:
# Extrai os dados de uma cobaia
tratamento_mouse = df_dsa_final.loc[df_dsa_final["ID Mouse"] == "m000"]

In [None]:
# Plot
plt.plot(tratamento_mouse['Timepoint'], tratamento_mouse["Tumor Volume (mm3)"], marker = "o")
plt.xlabel("\nTempo (dias)")
plt.ylabel("Tumor Volume (mm3)")
plt.title("Tratamento Para o Mouse m000")
plt.show()

<!-- Projeto Desenvolvido na Data Science Academy - www.datascienceacademy.com.br -->
### Pergunta 3 - Para Um dos Medicamentos Qual a Relação Entre Peso da Cobaia e Tamanho do Tumor?

In [None]:
# Filtra os dados
capomulin_treatment = df_dsa_final.loc[df_dsa_final["Medicamento"] == "Capomulin"]

In [None]:
capomulin_treatment.head()

In [None]:
capomulin_treatment.info()

In [None]:
# Ao calcular a média, especificamos apenas as colunas numéricas
avg_tumor_volume = capomulin_treatment.groupby('ID Mouse')[['Idade_Meses', 
                                                            'Peso (g)', 
                                                            'Timepoint', 
                                                            'Tumor Volume (mm3)', 
                                                            'Sitios Metastáticos']].mean()

In [None]:
avg_tumor_volume.head()

In [None]:
# Scatter Plot
x_values = avg_tumor_volume["Peso (g)"]
y_values = avg_tumor_volume["Tumor Volume (mm3)"]
plt.scatter(x_values, y_values)
plt.title("Peso (g) do Mouse x Média Tumor Volume(mm3)")
plt.xlabel("\nPeso(g)")
plt.ylabel("Média de Tumor Volume (mm3)")
plt.show()

In [None]:
# Calcula a correlação
correlation_model = st.pearsonr(avg_tumor_volume["Peso (g)"], avg_tumor_volume["Tumor Volume (mm3)"])
print(f"A correlação entre Peso (g) e Tumor Volume (mm3) é de {round(correlation_model[0],2)}")

## Quantificando e Prevendo a Relação Através de Regressão Linear

Regressão Linear é um método estatístico usado para modelar a relação entre uma variável dependente e uma ou mais variáveis independentes. O objetivo é encontrar uma linha reta que melhor se ajuste aos dados, minimizando a soma dos quadrados das diferenças entre os valores observados e os valores previstos pela linha de regressão. Em outras palavras, busca-se descrever como a variável de interesse responde à mudança das outras variáveis.
<!-- Projeto Desenvolvido na Data Science Academy - www.datascienceacademy.com.br -->
https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.linregress.html

In [None]:
# Cria o modelo de regressão
modelo = st.linregress(avg_tumor_volume["Peso (g)"], avg_tumor_volume["Tumor Volume (mm3)"])

In [None]:
modelo.intercept

In [None]:
modelo.slope

Fórmula da Regressão Linear Simples

y = β0 + β1x

- y é a variável dependente que estamos tentando prever ou explicar.
- x é a variável independente usada para prever y.
- 𝛽0 é o intercepto da reta, representando o valor esperado de 𝑦 quando x é igual a zero.
- 𝛽1 é o coeficiente da variável independente (também chamado slope), indicando a mudança esperada em y para um aumento de uma unidade em x.
<!-- Projeto Desenvolvido na Data Science Academy - www.datascienceacademy.com.br -->

In [None]:
# Cria a fórmula de regressão com os coeficientes encontrados
modelo_dsa = modelo.intercept + modelo.slope * avg_tumor_volume["Peso (g)"]

In [None]:
# Calcula a linha de regressão
line_equation = f"y={round(modelo.slope, 2)}x + {round(modelo.intercept, 2)}"

In [None]:
# Plot
plt.scatter(avg_tumor_volume["Peso (g)"], avg_tumor_volume["Tumor Volume (mm3)"], color = "r")
plt.plot(avg_tumor_volume["Peso (g)"], modelo_dsa, color = "blue")
plt.xlabel("\nPeso (g)")
plt.ylabel("Tumor Volume (mm3)")
plt.title("Peso(g) Vs Tumor Volume(mm3) Para Capomulin")
plt.annotate(line_equation, (20,36))
plt.show();

Há uma relação negativa entre as variáveis. Isso significa que à medida que o volume do tumor diminui, aumenta o peso da cobaia (mouse). Ou seja, quanto menor o tumor, maior o potencial de ganho de peso da cobaia, possivelmente devido à melhora da saúde ou outras condições relacionadas.

Como será que o ChatGPT se comporta ao fazer uma análise como esta que fizemos neste projeto? 

É o que iremos descobrir no próximo capítulo. Até lá.

In [None]:
%watermark -a "Data Science Academy"

In [None]:
#%watermark -v -m

In [None]:
#%watermark --iversions

# Fim