# Documentação da Análise

Esta análise tem como objetivo explorar e processar os dados descritos no arquivo README.md deste repositório. A seguir, detalhamos os principais passos que serão realizados:

1. **Carregamento dos Dados**: Importaremos os dados brutos para o ambiente de análise, garantindo que estejam no formato adequado para processamento.

2. **Limpeza e Pré-processamento**: Realizaremos a limpeza dos dados, tratando valores ausentes, duplicados e inconsistências.

3. **Análise Exploratória**: Aplicaremos técnicas de análise exploratória para identificar padrões, tendências e possíveis insights nos dados.

4. **Visualização de Dados**: Geraremos gráficos e visualizações para facilitar a interpretação dos resultados.

5. **Modelagem (se aplicável)**: Caso necessário, aplicaremos modelos estatísticos ou de machine learning para aprofundar a análise.

6. **Conclusões e Próximos Passos**: Documentaremos as principais conclusões obtidas e sugeriremos próximos passos com base nos resultados.

## Sobre o Estudo e a Metodologia RDD

O estudo utiliza a metodologia de **Regression Discontinuity Design (RDD)**, uma abordagem estatística amplamente empregada para avaliar causalidade em situações onde há um ponto de corte que determina a atribuição de um tratamento. Essa metodologia explora a descontinuidade no comportamento dos dados ao redor do ponto de corte para inferir o impacto causal do tratamento. 

O RDD é particularmente útil em contextos onde experimentos randomizados não são viáveis, mas há uma regra clara que define quem recebe o tratamento. A análise será conduzida com base nessa metodologia, garantindo rigor estatístico e alinhamento com os objetivos do projeto.

Certifique-se de seguir as instruções e objetivos descritos no README.md para alinhar a análise com os requisitos do projeto.

### Bibliotecas

In [3]:
import pandas as pd
import numpy as np
import statsmodels.formula.api as smf
from plotnine import *
import patchworklib as pwk
import warnings
import os
warnings.filterwarnings('ignore')

### Importando dataset

In [16]:
BASE_DIR = os.path.abspath(os.path.join(os.path.dirname("__file__"), "../"))
DATA_DIR = os.path.join(BASE_DIR, 'data')

data = pd.read_csv(os.path.join(DATA_DIR, 'carpenter_dobkin.csv'), usecols = lambda x: x != 'Unnamed: 0', encoding = "Latin1")
data

Unnamed: 0,agecell,all,allfitted,internal,internalfitted,external,externalfitted,alcohol,alcoholfitted,homicide,homicidefitted,suicide,suicidefitted,mva,mvafitted,drugs,drugsfitted,externalother,externalotherfitted
0,19.068493,92.825401,91.706146,16.61759,16.738131,76.207817,74.96801,0.639138,0.794344,16.316818,16.284573,11.203714,11.5921,35.829327,34.81778,3.872425,3.448835,8.534373,8.388236
1,19.150684,95.100739,91.88372,18.327684,16.920654,76.773056,74.963066,0.677409,0.837575,16.859964,16.270697,12.193368,11.593611,35.639256,34.633888,3.236511,3.470022,8.655786,8.530174
2,19.232876,92.144295,92.049065,18.911053,17.098843,73.233238,74.950226,0.866443,0.877835,15.219254,16.262882,11.715812,11.595129,34.20565,34.446735,3.202071,3.492069,8.513741,8.662681
3,19.315069,88.427757,92.202141,16.10177,17.27268,72.325981,74.929466,0.867308,0.915115,16.742825,16.261148,11.27501,11.596655,32.278957,34.256302,3.280689,3.51498,8.258285,8.785728
4,19.397261,88.704941,92.342918,17.36352,17.442156,71.341415,74.900757,1.019163,0.949407,14.947726,16.265511,10.984314,11.598189,32.650967,34.062588,3.548198,3.538755,8.417533,8.899288
5,19.479452,90.191788,92.471344,17.872105,17.607254,72.319679,74.86409,1.171322,0.980701,15.642815,16.27599,12.166634,11.599731,32.721443,33.865582,3.211689,3.563399,7.972546,9.003332
6,19.561644,96.220306,92.587387,16.414942,17.767965,79.805367,74.81942,0.869916,1.008988,16.263653,16.292604,12.405763,11.601281,36.385197,33.665272,3.85789,3.588913,10.287705,9.097831
7,19.643835,89.615555,92.691017,15.977087,17.924273,73.638466,74.766747,1.097951,1.034261,15.825645,16.315371,10.979514,11.602839,34.187935,33.461647,3.483156,3.6153,8.670031,9.182756
8,19.726027,93.381699,92.782196,17.433271,18.076166,75.948425,74.706024,1.174851,1.056508,16.789,16.344309,11.900103,11.604405,31.910467,33.254696,4.05513,3.642563,10.76315,9.25808
9,19.80822,90.857956,92.86087,18.2854,18.223631,72.572556,74.637245,0.948413,1.075722,16.616194,16.379436,11.570638,11.60598,30.576832,33.044415,3.566033,3.670704,9.863494,9.323772


In [17]:
data.columns

Index(['agecell', 'all', 'allfitted', 'internal', 'internalfitted', 'external',
       'externalfitted', 'alcohol', 'alcoholfitted', 'homicide',
       'homicidefitted', 'suicide', 'suicidefitted', 'mva', 'mvafitted',
       'drugs', 'drugsfitted', 'externalother', 'externalotherfitted'],
      dtype='object')

Com o dataset importado, vamos veriicar a presença de valores nulos e corrigi-los se for o caso

In [18]:
print(data.isnull().sum())
print(data.shape)

agecell                0
all                    2
allfitted              0
internal               2
internalfitted         0
external               2
externalfitted         0
alcohol                2
alcoholfitted          0
homicide               2
homicidefitted         0
suicide                2
suicidefitted          0
mva                    2
mvafitted              0
drugs                  2
drugsfitted            0
externalother          2
externalotherfitted    0
dtype: int64
(50, 19)


Existe valore nulos. Aplicando correções

In [31]:
data = data.dropna()
print(data.isnull().sum())
print(data.dtypes) #verify data types
data.describe() #verify summary statistics

agecell                0
all                    0
allfitted              0
internal               0
internalfitted         0
external               0
externalfitted         0
alcohol                0
alcoholfitted          0
homicide               0
homicidefitted         0
suicide                0
suicidefitted          0
mva                    0
mvafitted              0
drugs                  0
drugsfitted            0
externalother          0
externalotherfitted    0
dtype: int64
agecell                float64
all                    float64
allfitted              float64
internal               float64
internalfitted         float64
external               float64
externalfitted         float64
alcohol                float64
alcoholfitted          float64
homicide               float64
homicidefitted         float64
suicide                float64
suicidefitted          float64
mva                    float64
mvafitted              float64
drugs                  float64
drugsfitted     

Unnamed: 0,agecell,all,allfitted,internal,internalfitted,external,externalfitted,alcohol,alcoholfitted,homicide,homicidefitted,suicide,suicidefitted,mva,mvafitted,drugs,drugsfitted,externalother,externalotherfitted
count,48.0,48.0,48.0,48.0,48.0,48.0,48.0,48.0,48.0,48.0,48.0,48.0,48.0,48.0,48.0,48.0,48.0,48.0,48.0
mean,21.0,95.672724,95.710748,20.285291,20.270427,75.387433,75.440321,1.257337,1.261252,16.912068,16.920716,12.35198,12.352,31.622984,31.654261,4.24966,4.252506,9.598514,9.602549
std,1.150685,3.831062,3.167136,2.253907,2.032591,2.986008,2.100497,0.350312,0.250143,0.729982,0.433013,1.063468,0.749959,2.384977,1.975321,0.615579,0.531661,0.748369,0.459061
min,19.068493,88.427757,91.706146,15.977087,16.738131,71.341415,73.231209,0.639138,0.794344,14.947726,16.261148,10.889364,11.5921,26.855064,27.868282,3.202071,3.448835,7.972546,8.388236
25%,20.034246,92.785929,93.011339,18.597654,18.605792,73.042023,74.074011,0.996152,1.074608,16.611996,16.508697,11.609375,11.610351,30.116604,30.183348,3.754717,3.752728,9.14884,9.368922
50%,21.0,95.686272,95.178303,20.288866,20.513326,74.813251,74.736385,1.211941,1.247127,16.985353,16.980202,12.201629,12.251134,31.641135,31.732578,4.314018,4.315965,9.560833,9.690198
75%,21.965754,98.025751,97.687096,21.976349,21.718088,77.24235,75.890547,1.470119,1.444973,17.288067,17.210073,12.818972,13.020548,33.096747,33.301501,4.756345,4.693542,10.122497,9.929438
max,22.931507,105.268349,102.589081,24.37291,24.043783,83.330986,81.484543,2.519309,1.788588,18.410973,17.72146,14.83189,13.520511,36.385197,34.81778,5.564563,5.130238,11.482519,10.321973


É possível ver várias colunas, conforme visualização acima. Mas para esta análise precisamos apenas de algumas. 
Vamos então selecionar as colunas de interesse.

Além disso, vamos também transformar a coluna de idade para retirar quem tem 21 anos, criar uma coluna de dummies (`over_21`), onde quem tem mais que 21 anos recebe a chave zero, do contrário, chave 1, e mais uma coluna que contem outras causas externas (`other_external_causes`) que simplesmente retira da coluna `external` as colunas de homicíio, suicídio e mva.

In [35]:
data = (data[['agecell', "external", "homicide", "suicide", "mva", "all", "internal", "alcohol", "drugs"]])
data = data.assign(age = lambda x: x['agecell'] - 21, # idade de corte
                   over_21 = lambda x: (x['agecell'] >= 21).astype(int), # dummy para idade maior ou igual que 21
                   other_external_causes = lambda x: x['external'] - x['homicide'] - x['suicide'] - x['mva']) # outras causas externas



data.head()

Unnamed: 0,agecell,external,homicide,suicide,mva,all,internal,alcohol,drugs,age,over_21,other_external_causes
0,19.068493,76.207817,16.316818,11.203714,35.829327,92.825401,16.61759,0.639138,3.872425,-1.931507,0,12.857958
1,19.150684,76.773056,16.859964,12.193368,35.639256,95.100739,18.327684,0.677409,3.236511,-1.849316,0,12.080468
2,19.232876,73.233238,15.219254,11.715812,34.20565,92.144295,18.911053,0.866443,3.202071,-1.767124,0,12.092523
3,19.315069,72.325981,16.742825,11.27501,32.278957,88.427757,16.10177,0.867308,3.280689,-1.684931,0,12.029189
4,19.397261,71.341415,14.947726,10.984314,32.650967,88.704941,17.36352,1.019163,3.548198,-1.602739,0,12.758409


### Data Visualization


Agora vamos visualizar nossos dados para ter uma análise mais visual a respeito de correlações entre as variáveis.

Um diagrama abaixo resume a função que utilizamos para reeordenar o dataframe num _long format_ antes de aplicar a visualização de 

![Gráfico de Análise](../image/pd_melt_data_long_design.png)

In [36]:
# Visualização longa do dataset (transformação de matriz)
data_long = (pd.melt(data, id_vars= ['agecell', 'age', 'over_21'],
                     var_name= 'causes',
                     value_name= 'index')).reset_index(drop= True)

data_long

Unnamed: 0,agecell,age,over_21,causes,index
0,19.068493,-1.931507,0,external,76.207817
1,19.150684,-1.849316,0,external,76.773056
2,19.232876,-1.767124,0,external,73.233238
3,19.315069,-1.684931,0,external,72.325981
4,19.397261,-1.602739,0,external,71.341415
...,...,...,...,...,...
427,22.602739,1.602739,1,other_external_causes,15.318857
428,22.684931,1.684931,1,other_external_causes,16.029898
429,22.767124,1.767124,1,other_external_causes,15.737327
430,22.849316,1.849316,1,other_external_causes,15.483999


Interessante notar que na coluna age está normalizada com média 21. Isto é, valores acima de 21 serão maiores do que zero, enquanto que valores abaixo de 21 serão menores do que zero.