In [1]:
import pandas as pd

## Esse notebook tem como objetivo observar a utilização da estatística para validar a eficácia da utilização de "stents" para evitar derrames;

## *O nosso processo geral de investigação está definido em 4 etapas:*
* #### Definir com clareza o problema que queremos solucionar/pergunta que queremos responder;
* #### Coletar os dados relevantes para respondermos nossa pergunta central da investigação;
* #### Analisar os dados;
* #### Fazer nossa conclusão;

## Para o nosso estudo, a pergunta principal que gostaríamos de responder é a seguinte:
* ### O uso de "stents" reduz o risco de acidente vascular cerebral? 

### Após termos definido a nossa pergunta central, vamos utilizar uma fonte de dados adequada e que contenha dados contextualizados com a nossa pergunta central;

In [6]:
stent30 = pd.read_csv("datasets/stent30.csv")
stent365 = pd.read_csv("datasets/stent365.csv")

In [5]:
stent30.head()

Unnamed: 0,group,outcome
0,treatment,stroke
1,treatment,stroke
2,treatment,stroke
3,treatment,stroke
4,treatment,stroke


In [8]:
stent365.head()

Unnamed: 0,group,outcome
0,treatment,stroke
1,treatment,stroke
2,treatment,stroke
3,treatment,stroke
4,treatment,stroke


### Estamos utilizando como fontes de dados um experimento que estuda a eficácia de stents no tratamento de pacientes com risco de AVC.
* ### stent30 representa os resultados de 30 dias após o AVC;
* ### stent365 representa os resultados de 365 dias após o AVC;

In [97]:
stent30_statistic_resume = stent30.value_counts().unstack()
stent30_statistic_resume

outcome,no event,stroke
group,Unnamed: 1_level_1,Unnamed: 2_level_1
control,214,13
treatment,191,33


In [98]:
stent365_statistic_resume = stent365.value_counts().unstack()
stent365_statistic_resume

outcome,no event,stroke
group,Unnamed: 1_level_1,Unnamed: 2_level_1
control,199,28
treatment,179,45


In [100]:
df_statistic_resume = stent30_statistic_resume.join(
    stent365_statistic_resume, 
    lsuffix = "_30_days", 
    rsuffix = "_365_days"
)

df_statistic_resume

outcome,no event_30_days,stroke_30_days,no event_365_days,stroke_365_days
group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
control,214,13,199,28
treatment,191,33,179,45


In [126]:
df_statistic_resume.info()

<class 'pandas.core.frame.DataFrame'>
Index: 2 entries, control to treatment
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype
---  ------             --------------  -----
 0   no event_30_days   2 non-null      int64
 1   stroke_30_days     2 non-null      int64
 2   no event_365_days  2 non-null      int64
 3   stroke_365_days    2 non-null      int64
dtypes: int64(4)
memory usage: 188.0+ bytes


### Com os blocos de código acima, fomos capazes de resumir os dados referentes aos resultados do experimento para tornar nossa capacidade analítica mais eficiente, e resumimos os dados verificando o total de cada evento ocorrido para cada grupo amostral;

### Agora, devemos ser capazes de fazermos as perguntas corretas para nossos dados afim de ficarmos mais perto de resolvermos nosso problema central;

## Dito isso, vamos analisar a proporção de pacientes que tiveram AVC no primeiro ano

### Qual a proporção de pacientes do grupo de tratamento que teve derrame no primeiro ano?

In [113]:
total_pacientes_grupo_tratamento_365 = df_statistic_resume.loc["treatment"].iloc[2:].sum()
avc_grupo_tratamento_365 = df_statistic_resume.loc["treatment"].iloc[2:].loc["stroke_365_days"]
result_avc_tratamento_365 = round(avc_grupo_tratamento_365 / total_pacientes_grupo_tratamento_365, 2)

print(f"A proporção de pacientes com AVC no primeiro ano do grupo de tratamento é de: {result_avc_tratamento_365}")

A proporção de pacientes com AVC no primeiro ano do grupo de tratamento é de: 0.2


### Qual a proporção de pacientes do grupo de controle que teve derrame no primeiro ano?

In [115]:
total_pacientes_grupo_controle_365 = df_statistic_resume.loc["control"].iloc[2:].sum()
avc_grupo_controle_365 = df_statistic_resume.loc["control"].iloc[2:].loc["stroke_365_days"]
result_avc_controle_365 = round(avc_grupo_controle_365 / total_pacientes_grupo_controle_365, 2)

print(f"A proporção de pacientes com AVC no primeiro ano do grupo de controle é de: {result_avc_controle_365}")

A proporção de pacientes com AVC no primeiro ano do grupo de controle é de: 0.12


### Qual a porcentagem de derrames que o grupo de tratamente teve a mais que o grupo de controle?

In [125]:
diferenca = round(result_avc_tratamento_365 - result_avc_controle_365, 2) * 100
print(f"A diferença entre os grupos é de {diferenca}%.")

A diferença entre os grupos é de 8.0%.


### Observações:
* Podemos calcular estatísticas atráves de tabelas;
* Uma estatística nada mais é do que um número/medida que resume um conjunto de dados;
* Por exemplo, esse estudo de caso pode ser resumido por meio das estatísticas que calculamos para os resultados dos nossos grupos amostrais;
* As duas estatísticas que calculamos são úteis para procurarmos diferenças nos grupos;
    * Qual a porcentagem de derrames que o grupo de tratamento teve a mais que o grupo de controle?
    * #### Resposta: 8%*

## Conclusões e questionamentos:
* A diferença de 8% que encontramos é realmente relevante? Ou seja, a diferença é tão grande que devemos rejeitar a noção de que isso se deve ao **acaso**?;
* Mas dado que não é o escopo dessa análise estatística se aprofundar no questionamento acima, podemos dizer que de acordo com nossas análises, encontramos evidências convincentes de danos por *stents* neste estudo;
* Mas não podemos generalizar os resultados deste estudo para todos os pacientes e todos os *stents* do mundo!;
* Os pacientes analisados podem não representar todas as caracteristicas de pacientes com AVC;
* Existem muitos tipos de *stents*, e esse estudo considera apenas um tipo;

### Então qual é a resposta final da nossa análise para a seguinte pergunta: O uso de "stents" reduz o risco de acidente vascular cerebral? 
* #### De acordo com nossas análises, para esse estudo, encontramos evidências convincentes de que o uso de "stents" não reduz o risco de acidente vascular cerebral, mas pode ser a causa de aumento de risco do mesmo;