In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Importando a base

In [3]:
df = pd.read_csv('../data/raw/Base US Accidents.txt', sep='\t')

# Conhecendo a base

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2845342 entries, 0 to 2845341
Data columns (total 22 columns):
 #   Column             Dtype  
---  ------             -----  
 0   Severity           int64  
 1   Start_Time         object 
 2   End_Time           object 
 3   Number             float64
 4   Street             object 
 5   Side               object 
 6   City               object 
 7   County             object 
 8   State              object 
 9   Temperature(F)     float64
 10  Weather_Condition  object 
 11  Crossing           bool   
 12  Give_Way           bool   
 13  Junction           bool   
 14  No_Exit            bool   
 15  Railway            bool   
 16  Roundabout         bool   
 17  Station            bool   
 18  Stop               bool   
 19  Traffic_Calming    bool   
 20  Traffic_Signal     bool   
 21  Sunrise_Sunset     object 
dtypes: bool(10), float64(2), int64(1), object(9)
memory usage: 287.6+ MB


In [5]:
df["Severity"].unique()

array([2, 4, 3, 1])

In [6]:
df["State"].unique()

array(['CA', 'IL', 'ND', 'WV', 'MT', 'MN', 'NE', 'PA', 'MO', 'AR', 'DC',
       'VA', 'WY', 'MD', 'NC', 'SD', 'KY', 'KS', 'IA', 'AZ', 'TX', 'FL',
       'MI', 'WA', 'SC', 'OK', 'OR', 'NY', 'CO', 'IN', 'AL', 'GA', 'UT',
       'LA', 'NV', 'CT', 'DE', 'NJ', 'MS', 'TN', 'ID', 'OH', 'MA', 'RI',
       'NM', 'WI', 'NH', 'ME', 'VT'], dtype=object)

In [8]:
df["State"].nunique()

49

In [11]:
df["Weather_Condition"].unique()

array(['Fair', 'Cloudy', 'Mostly Cloudy', 'Partly Cloudy', 'Light Rain',
       'Fog', 'Thunder', 'N/A Precipitation', 'Fair / Windy',
       'Light Snow', 'Haze', 'Light Drizzle', 'Light Rain with Thunder',
       'Rain', 'Thunder in the Vicinity', 'Heavy Snow', 'T-Storm',
       'Heavy Rain', 'Partly Cloudy / Windy', 'Snow', 'Mist',
       'Shallow Fog', 'Heavy T-Storm', nan, 'Light Rain / Windy',
       'Drizzle', 'Light Snow / Windy', 'Fog / Windy', 'Cloudy / Windy',
       'Wintry Mix', 'Mostly Cloudy / Windy', 'Heavy T-Storm / Windy',
       'Smoke', 'Heavy Rain / Windy', 'Thunder / Wintry Mix',
       'Light Freezing Rain', 'Rain / Windy', 'Haze / Windy',
       'Patches of Fog', 'Blowing Dust / Windy', 'Light Sleet',
       'Heavy Snow / Windy', 'Drizzle and Fog', 'Showers in the Vicinity',
       'Snow / Windy', 'Wintry Mix / Windy', 'Light Rain Shower',
       'Heavy Drizzle', 'Light Drizzle / Windy', 'Drizzle / Windy',
       'Rain Shower', 'T-Storm / Windy', 'Thunder / Wind

In [12]:
df["Weather_Condition"].nunique()

127

In [13]:
df["Sunrise_Sunset"].unique()

array(['Day', 'Night', nan], dtype=object)

# Segmentando a variável Severity (Severidade)

In [5]:
def categorias_severidade(valor):
    if valor == 1:
        return "Baixa"
    elif valor == 2:
        return "Média-Baixa"
    elif valor == 3:
        return "Média"
    else:
        return "Alta"
df["Severidade"] = df["Severity"].apply(categorias_severidade)

# Verificando os estados top 3 em acidentes

In [None]:
# Estados com mais acidentes

top_estados_df = df["State"].value_counts().reset_index().head(3)
top_estados_df.columns = ["Estado", "Quantidade de Acidentes"]
print(top_estados_df)

  Estado  Quantidade de Acidentes
0     CA                   795868
1     FL                   401388
2     TX                   149037


# Entendendo a frequência de acidentes no top 3, por condição

In [24]:
# Tabela de frequência para horário de acidentes na California

# Filtrando a base pela California
df_ca = df[df["State"] == "CA"]

# Gerando a tabela de frequência
tab_freq_dt_ca = df_ca['Sunrise_Sunset'].value_counts().reset_index()
tab_freq_dt_ca.columns = ['Hora_do_Dia', 'Freq. Absoluta']

tab_freq_dt_ca['Freq. Relativa'] = 100*(tab_freq_dt_ca['Freq. Absoluta'] / tab_freq_dt_ca['Freq. Absoluta'].sum()).round(4)

tab_freq_dt_ca['Freq. Acumulada'] = tab_freq_dt_ca['Freq. Relativa'].cumsum()
tab_freq_dt_ca

Unnamed: 0,Hora_do_Dia,Freq. Absoluta,Freq. Relativa,Freq. Acumulada
0,Day,493653,62.04,62.04
1,Night,302108,37.96,100.0


In [25]:
# Tabela de frequência para horário de acidentes na Florida

# Filtrando a base pela Florida
df_fl = df[df["State"] == "FL"]

# Gerando a tabela de frequência
tab_freq_dt_fl = df_fl['Sunrise_Sunset'].value_counts().reset_index()
tab_freq_dt_fl.columns = ['Hora_do_Dia', 'Freq. Absoluta']

tab_freq_dt_fl['Freq. Relativa'] = 100*(tab_freq_dt_fl['Freq. Absoluta'] / tab_freq_dt_fl['Freq. Absoluta'].sum()).round(4)

tab_freq_dt_fl['Freq. Acumulada'] = tab_freq_dt_fl['Freq. Relativa'].cumsum()
tab_freq_dt_fl

Unnamed: 0,Hora_do_Dia,Freq. Absoluta,Freq. Relativa,Freq. Acumulada
0,Day,274622,68.43,68.43
1,Night,126717,31.57,100.0


In [26]:
# Tabela de frequência para horário de acidentes no Texas

# Filtrando a base pelo Texas
df_tx = df[df["State"] == "TX"]

# Gerando a tabela de frequência
tab_freq_dt_tx = df_tx['Sunrise_Sunset'].value_counts().reset_index()
tab_freq_dt_tx.columns = ['Hora_do_Dia', 'Freq. Absoluta']

tab_freq_dt_tx['Freq. Relativa'] = 100*(tab_freq_dt_tx['Freq. Absoluta'] / tab_freq_dt_tx['Freq. Absoluta'].sum()).round(4)

tab_freq_dt_tx['Freq. Acumulada'] = tab_freq_dt_tx['Freq. Relativa'].cumsum()
tab_freq_dt_tx

Unnamed: 0,Hora_do_Dia,Freq. Absoluta,Freq. Relativa,Freq. Acumulada
0,Day,94009,63.09,63.09
1,Night,54989,36.91,100.0


# Verificando as severidades nos top 3 estados

In [22]:
# Passo 1: Agrupar por severidade e estado, contando acidentes
tipo_severidade_ca = df.groupby(["Severity", "State"]).size().reset_index(name="contagem_acidentes")

# Passo 2: Criar a coluna de categoria da severidade
tipo_severidade_ca["categoria_severidade"] = tipo_severidade_ca["Severity"].apply(categorias_severidade)

# Passo 3: Filtrar apenas o estado da Califórnia (CA)
tipo_severidade_ca = tipo_severidade_ca[tipo_severidade_ca["State"] == "CA"]

# Passo 4: Calcular o total de acidentes da Califórnia (CA)
total_acidentes_ca = tipo_severidade_ca["contagem_acidentes"].sum()

# Passo 5: Calcular a frequência relativa
tipo_severidade_ca["frequencia_relativa"] = tipo_severidade_ca["contagem_acidentes"] / total_acidentes_ca

# Passo 6: Calcular a frequência acumulada
tipo_severidade_ca = tipo_severidade_ca.sort_values(by="contagem_acidentes", ascending=False)
tipo_severidade_ca["frequencia_acumulada"] = tipo_severidade_ca["frequencia_relativa"].cumsum()

# Exibir as colunas desejadas para CA
tipo_severidade_ca = tipo_severidade_ca[["State", "categoria_severidade", "contagem_acidentes",  "frequencia_relativa", "frequencia_acumulada"]]
tipo_severidade_ca

Unnamed: 0,State,categoria_severidade,contagem_acidentes,frequencia_relativa,frequencia_acumulada
45,CA,Média-Baixa,761462,0.956769,0.956769
94,CA,Média,20213,0.025397,0.982167
143,CA,Alta,9135,0.011478,0.993645
3,CA,Baixa,5058,0.006355,1.0


In [23]:
# Passo 1: Agrupar por severidade e estado, contando acidentes
tipo_severidade_fl = df.groupby(["Severity", "State"]).size().reset_index(name="contagem_acidentes")

# Passo 2: Criar a coluna de categoria da severidade
tipo_severidade_fl["categoria_severidade"] = tipo_severidade_fl["Severity"].apply(categorias_severidade)

# Passo 3: Filtrar apenas o estado da Flórida (FL)
tipo_severidade_fl = tipo_severidade_fl[tipo_severidade_fl["State"] == "FL"]

# Passo 4: Calcular o total de acidentes da Flórida (FL)
total_acidentes_fl = tipo_severidade_fl["contagem_acidentes"].sum()

# Passo 5: Calcular a frequência relativa
tipo_severidade_fl["frequencia_relativa"] = tipo_severidade_fl["contagem_acidentes"] / total_acidentes_fl

# Passo 6: Calcular a frequência acumulada
tipo_severidade_fl = tipo_severidade_fl.sort_values(by="contagem_acidentes", ascending=False)
tipo_severidade_fl["frequencia_acumulada"] = tipo_severidade_fl["frequencia_relativa"].cumsum()

# Exibir as colunas desejadas para FL
tipo_severidade_fl = tipo_severidade_fl[["State", "categoria_severidade", "contagem_acidentes",  "frequencia_relativa", "frequencia_acumulada"]]
tipo_severidade_fl

Unnamed: 0,State,categoria_severidade,contagem_acidentes,frequencia_relativa,frequencia_acumulada
50,FL,Média-Baixa,377529,0.940559,0.940559
99,FL,Média,11478,0.028596,0.969155
148,FL,Alta,9581,0.02387,0.993024
8,FL,Baixa,2800,0.006976,1.0


In [24]:
# Passo 1: Agrupar por severidade e estado, contando acidentes
tipo_severidade_tx = df.groupby(["Severity", "State"]).size().reset_index(name="contagem_acidentes")

# Passo 2: Criar a coluna de categoria da severidade
tipo_severidade_tx["categoria_severidade"] = tipo_severidade_tx["Severity"].apply(categorias_severidade)

# Passo 3: Filtrar apenas o estado do Texas (TX)
tipo_severidade_tx = tipo_severidade_tx[tipo_severidade_tx["State"] == "TX"]

# Passo 4: Calcular o total de acidentes do Texas (TX)
total_acidentes_tx = tipo_severidade_tx["contagem_acidentes"].sum()

# Passo 5: Calcular a frequência relativa
tipo_severidade_tx["frequencia_relativa"] = tipo_severidade_tx["contagem_acidentes"] / total_acidentes_tx

# Passo 6: Calcular a frequência acumulada
tipo_severidade_tx = tipo_severidade_tx.sort_values(by="contagem_acidentes", ascending=False)
tipo_severidade_tx["frequencia_acumulada"] = tipo_severidade_tx["frequencia_relativa"].cumsum()

# Exibir as colunas desejadas para TX
tipo_severidade_tx = tipo_severidade_tx[["State", "categoria_severidade", "contagem_acidentes",  "frequencia_relativa", "frequencia_acumulada"]]
tipo_severidade_tx

Unnamed: 0,State,categoria_severidade,contagem_acidentes,frequencia_relativa,frequencia_acumulada
83,TX,Média-Baixa,124059,0.832404,0.832404
132,TX,Média,19570,0.13131,0.963714
181,TX,Alta,4467,0.029972,0.993686
36,TX,Baixa,941,0.006314,1.0


Essa análise continuará em outro notebook...