Este estudo foi realizado com o objetivo de construir um intervalo de confiança para a proporção de acidentes ocorridos no Estado de São Paulo aos finais de semana e que possuem como causa a ingestão de bebidas alcoólicas.
Desta forma, utilizei como amostra um dataset de acidentes de trânsito no ano de 2020, obtido na plataforma Kaggle.
site: https://www.kaggle.com/

In [3]:
pip install pandas

Note: you may need to restart the kernel to use updated packages.


In [2]:
#Após instalação da biblioteca Pandas, realizei a importação da plataforma para o script, assim como, a importação da biblioteca
#statsmodels, da qual utilizarei as funções de Estatística Inferencial.

#Além disso, importei para o script o arquivo em excel com os dados de acidentes no ano de 2020 em todo o país.

#Algumas alterações foram realizadas no arquivo a fim de facilitar seu manuseio:

#Os dias da semana foram codificados com os números de 1 a 7, sendo 1 o dia de domingo e 7 dia de sábado.

#As causas de acidentes foram reclassificadas, sendo os acidentes causados pela ingestão de alcoól do motorista classificados 
#como Alcool e o restante das causas classificadas como Outros.

#O dataset apresentava outras colunas, porém utilizei somente as colunas necessárias para este estudo, com o objetivo de facilitar
#o uso destas informações.


import pandas as pd
import statsmodels.api as sm
acidentes = pd.read_excel(r"e:/Desktop/ECaso3/acidentes_2020.xlsx")
acidentes.head()

Unnamed: 0,dia_semana,causa,uf
0,4,Outros,TO
1,4,Outros,RJ
2,4,Alcool,SC
3,4,Outros,RO
4,4,Alcool,PR


In [4]:
#Visto que o estudo tem como objetivo analisar somente os acidentes no estado de São Paulo, precisei fazer um filtro no dataset
#importado para estrair essas informações que nos interessam.

#E ainda, para obtermos a proporção na amostra de acidentes ocorridos aos finais de semana causados pela ingestão de álcool,
#filtramos ainda um subset com os registros que atendem a estas condições.

#Como observação, considerei como final de semana para este estudo os dias Sexta-feira, Sábado e Domingo.

valores = [1,6,7,"Alcool","SP"]
acidentes_2 = acidentes[acidentes.causa.isin(valores) & acidentes.uf.isin(valores)]

acidentes_3 = acidentes[acidentes.dia_semana.isin(valores) & acidentes.causa.isin(valores) & acidentes.uf.isin(valores)]

In [6]:
#Com esses subsets definidos, podemos então calcular a proporção desses acidentes em nossa amostra.

n = len(acidentes_2)
p = len(acidentes_3)/len(acidentes_2)
p

0.6885245901639344

In [7]:
#Calculada a proporção, podemos encontrar agora o intervalo com 95% de confiança da proporção de acidentes causados pela ingestão 
#de álcool e aos finais de semana.

#Como argumento desta função, utilizamos a contagem de observações que atendem as condições que buscamos (n*p) e a quantidade total
#de observações(n).

#Esta função tem como padrão um alpha ou nível de confiança de 0,05, caso seja necessário utilizar um outro valor, ele pode ser
#inserido como argumento da função.

sm.stats.proportion_confint(n * p, n)


(0.6304180805734484, 0.7466310997544204)

In [None]:
#Com isso, podemos observar que a proporção encontrada na amostra utilizada, se encontra no intervalo calculado com 95% de confiança.