# Data analysis of accidents on São Paulo state roads, Brazil

Using data from DER/SP (São Paulo Roads Department), I aim to answer some questions about the patterns in road accidents across the state.

In [None]:
import pandas as pd

In [2]:
df = pd.read_csv('sp_state_accidents.csv')

In [3]:
df.head()

Unnamed: 0,_id,NOME_CONC,RODOVIA,MARCO_QM,SENTIDO,DATA,HR_ACID,CLASS_ACID,TIPO_ACID,CAUSA,...,QTD_VIT_MODERADA,QTD_VIT_SEM_INFO,TIPO_PISTA,DENOMINACAO,MUNICIPIO,REGIONAL_DER,JURISDICAO,REG_ADM_SP,LATITUDE,LONGITUDE
0,1,COLINAS,SP075,46.78,SUL,2025-01-01,00:04,ATROPELAMENTO DE ANIMAL,ATROP. ANIMAL,ANIMAL NA RODOVIA,...,0,0,DUPLA,ENG. ERMÊNIO DE OLIVEIRA PENTEADO,INDAIATUBA,CAMPINAS,ESTADUAL,CAMPINAS,-23.149664,-47.254411
1,2,VIAOESTE,SP270,108.63,LESTE,2025-01-01,00:14,ATROPELAMENTO DE ANIMAL,ATROP. ANIMAL,ANIMAL NA RODOVIA,...,0,0,DUPLA,RAPOSO TAVARES,SOROCABA,ITAPETININGA,ESTADUAL,SOROCABA,-23.519805,-47.533992
2,3,SPVIAS,SP255,259.9,NORTE,2025-01-01,00:16,ATROPELAMENTO DE ANIMAL,ATROP. ANIMAL,ANIMAL NA RODOVIA,...,0,0,DUPLA,JOÃO MELLÃO,AVARÉ,ITAPETININGA,ESTADUAL,SOROCABA,-23.115401,-48.940301
3,4,RENOVIAS,SP342,173.5,OESTE,2025-01-01,00:20,ATROPELAMENTO DE PEDESTRE,ATROP. PEDESTRE-OUTROS,IMPRUD. PEDESTRE-MORADOR,...,0,0,DUPLA,GOV. DR. ADHEMAR PEREIRA DE BARROS (SP 342),MOGI GUAÇU,RIO CLARO,ESTADUAL,CAMPINAS,-22.3405,-46.9436
4,5,VIAPAULISTA,SP345,35.0,OESTE,2025-01-01,00:31,ATROPELAMENTO DE PEDESTRE,ATROP. PEDESTRE-MORADOR/TRABALHADOR/ESTUDANTE,IMPRUD. PEDESTRE-USUÁRIO,...,1,0,DUPLA,ENG. RONAN ROCHA,FRANCA,RIBEIRÃO PRETO,ESTADUAL,FRANCA,-20.566678,-47.40791


In [40]:
df.tail()

Unnamed: 0,_id,NOME_CONC,RODOVIA,MARCO_QM,SENTIDO,DATA,HR_ACID,CLASS_ACID,TIPO_ACID,CAUSA,...,QTD_VIT_SEM_INFO,TIPO_PISTA,DENOMINACAO,MUNICIPIO,REGIONAL_DER,JURISDICAO,REG_ADM_SP,LATITUDE,LONGITUDE,day_week
17109,17110,NOVO LITORAL,SP055,366.3,LESTE,2025-05-26,13:21,COLISÃO TRASEIRA,COLISÃO-TRASEIRA,IMPRUD. CONDUTOR,...,0,SEM INFO/NULO/0,,,,,,-24.291618,-47.162927,Monday
17110,17111,INTERVIAS,SP330,199.0,NORTE,2025-05-26,03:09,CHOQUE,CHOQUE-OBJETO NA PISTA,OBJETO NA PISTA,...,0,DUPLA,ANHANGUERA,SANTA CRUZ DA CONCEIÇÃO,RIO CLARO,ESTADUAL,CAMPINAS,-22.096325,-47.416431,Monday
17111,17112,SPMAR,SP021,118.0,INTERNO,2025-05-26,14:05,CHOQUE,CHOQUE-BARREIRA DE CONCRETO,SEM INFORMAÇÃO,...,0,DUPLA,RODOANEL METROPOLITANO MÁRIO COVAS,ITAQUAQUECETUBA,SÃO PAULO,ESTADUAL,REG. METROPOLITANA SÃO PAULO,-23.492907,-46.336704,Monday
17112,17113,SPMAR,SP021,85.0,EXTERNO,2025-05-26,14:55,COLISÃO TRASEIRA,COLISÃO-TRASEIRA,SEM INFORMAÇÃO,...,0,DUPLA,RODOANEL METROPOLITANO MÁRIO COVAS,SANTO ANDRÉ,SÃO PAULO,ESTADUAL,REG. METROPOLITANA SÃO PAULO,-23.721293,-46.482625,Monday
17113,17114,RAPOSO CASTELLO,SP280,18.0,OESTE,2025-05-26,14:55,SEM INFO/NULO/0,COLISÃO-TRASEIRA,IMPRUD. CONDUTOR,...,0,DUPLA,CASTELLO BRANCO,OSASCO,SÃO PAULO,ESTADUAL,REG. METROPOLITANA SÃO PAULO,-23.514452,-46.795773,Monday


In [4]:
df.columns

Index(['_id', 'NOME_CONC', 'RODOVIA', 'MARCO_QM', 'SENTIDO', 'DATA', 'HR_ACID',
       'CLASS_ACID', 'TIPO_ACID', 'CAUSA', 'METEORO', 'VISIB', 'VEIC',
       'QTD_VIT_ILESA', 'QTD_VIT_FATAL', 'QTD_VIT_GRAVE', 'QTD_VIT_LEVE',
       'QTD_VIT_MODERADA', 'QTD_VIT_SEM_INFO', 'TIPO_PISTA', 'DENOMINACAO',
       'MUNICIPIO', 'REGIONAL_DER', 'JURISDICAO', 'REG_ADM_SP', 'LATITUDE',
       'LONGITUDE'],
      dtype='object')

In [5]:
df.shape

(17114, 27)

In [6]:
df['DATA'].isnull().sum()

np.int64(0)

In [None]:
df.value_counts('DATA')

# Now we know which dates have had the most accidents so far in 2025. But apparently, there’s nothing special about those days.

DATA
2025-04-04    181
2025-04-03    177
2025-05-09    172
2025-05-23    170
2025-04-25    170
             ... 
2025-03-09     88
2025-03-05     85
2025-02-05     80
2025-05-26     78
2025-01-05     67
Name: count, Length: 146, dtype: int64

In [None]:
# The top day is a Wednesday. So I will investigate whether there is a pattern there. 
# To do that, I will check the data type of DATA (which means 'date' in portuguese), convert it if necessary and create a new column for the weekdays

type('DATA')

str

In [9]:
df['DATA'] = pd.to_datetime(df['DATA'])

In [10]:
print(df.dtypes)

_id                          int64
NOME_CONC                   object
RODOVIA                     object
MARCO_QM                   float64
SENTIDO                     object
DATA                datetime64[ns]
HR_ACID                     object
CLASS_ACID                  object
TIPO_ACID                   object
CAUSA                       object
METEORO                     object
VISIB                       object
VEIC                        object
QTD_VIT_ILESA                int64
QTD_VIT_FATAL                int64
QTD_VIT_GRAVE                int64
QTD_VIT_LEVE                 int64
QTD_VIT_MODERADA             int64
QTD_VIT_SEM_INFO             int64
TIPO_PISTA                  object
DENOMINACAO                 object
MUNICIPIO                   object
REGIONAL_DER                object
JURISDICAO                  object
REG_ADM_SP                  object
LATITUDE                   float64
LONGITUDE                  float64
dtype: object


In [11]:
df['day_week'] = df['DATA'].dt.day_name()

In [12]:
df.tail()

Unnamed: 0,_id,NOME_CONC,RODOVIA,MARCO_QM,SENTIDO,DATA,HR_ACID,CLASS_ACID,TIPO_ACID,CAUSA,...,QTD_VIT_SEM_INFO,TIPO_PISTA,DENOMINACAO,MUNICIPIO,REGIONAL_DER,JURISDICAO,REG_ADM_SP,LATITUDE,LONGITUDE,day_week
17109,17110,NOVO LITORAL,SP055,366.3,LESTE,2025-05-26,13:21,COLISÃO TRASEIRA,COLISÃO-TRASEIRA,IMPRUD. CONDUTOR,...,0,SEM INFO/NULO/0,,,,,,-24.291618,-47.162927,Monday
17110,17111,INTERVIAS,SP330,199.0,NORTE,2025-05-26,03:09,CHOQUE,CHOQUE-OBJETO NA PISTA,OBJETO NA PISTA,...,0,DUPLA,ANHANGUERA,SANTA CRUZ DA CONCEIÇÃO,RIO CLARO,ESTADUAL,CAMPINAS,-22.096325,-47.416431,Monday
17111,17112,SPMAR,SP021,118.0,INTERNO,2025-05-26,14:05,CHOQUE,CHOQUE-BARREIRA DE CONCRETO,SEM INFORMAÇÃO,...,0,DUPLA,RODOANEL METROPOLITANO MÁRIO COVAS,ITAQUAQUECETUBA,SÃO PAULO,ESTADUAL,REG. METROPOLITANA SÃO PAULO,-23.492907,-46.336704,Monday
17112,17113,SPMAR,SP021,85.0,EXTERNO,2025-05-26,14:55,COLISÃO TRASEIRA,COLISÃO-TRASEIRA,SEM INFORMAÇÃO,...,0,DUPLA,RODOANEL METROPOLITANO MÁRIO COVAS,SANTO ANDRÉ,SÃO PAULO,ESTADUAL,REG. METROPOLITANA SÃO PAULO,-23.721293,-46.482625,Monday
17113,17114,RAPOSO CASTELLO,SP280,18.0,OESTE,2025-05-26,14:55,SEM INFO/NULO/0,COLISÃO-TRASEIRA,IMPRUD. CONDUTOR,...,0,DUPLA,CASTELLO BRANCO,OSASCO,SÃO PAULO,ESTADUAL,REG. METROPOLITANA SÃO PAULO,-23.514452,-46.795773,Monday


In [13]:
df['day_week'].info()

<class 'pandas.core.series.Series'>
RangeIndex: 17114 entries, 0 to 17113
Series name: day_week
Non-Null Count  Dtype 
--------------  ----- 
17114 non-null  object
dtypes: object(1)
memory usage: 133.8+ KB


In [None]:
# Checking if this column is clean enough for analysis
df['day_week'].unique()

array(['Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday', 'Monday',
       'Tuesday'], dtype=object)

In [15]:
df['day_week'].value_counts().sort_values(ascending=False).to_frame()

Unnamed: 0_level_0,count
day_week,Unnamed: 1_level_1
Friday,2942
Thursday,2561
Monday,2410
Wednesday,2406
Saturday,2357
Sunday,2235
Tuesday,2203


In [59]:
map_day_week_acc = df['day_week'].value_counts().sort_values(ascending=False)
map_day_week_acc.to_clipboard()

In [42]:
df['day_week'].value_counts(normalize=True).sort_values(ascending=False).to_frame()*100

Unnamed: 0_level_0,proportion
day_week,Unnamed: 1_level_1
Friday,17.190604
Thursday,14.964357
Monday,14.082038
Wednesday,14.058665
Saturday,13.77235
Sunday,13.059483
Tuesday,12.872502


In [None]:
# Copying to clipboard to use in Datawrapper
map_day_week_acc_propor = df['day_week'].value_counts(normalize=True).sort_values(ascending=False).to_frame()*100
map_day_week_acc_propor.to_clipboard()

In [51]:
df.groupby('day_week')['QTD_VIT_FATAL'].sum().sort_values(ascending=False)

day_week
Friday       82
Sunday       81
Saturday     79
Thursday     66
Wednesday    57
Monday       55
Tuesday      52
Name: QTD_VIT_FATAL, dtype: int64

In [None]:
# From clipboard to Datawrapper
map_deaths_day_week = df.groupby('day_week')['QTD_VIT_FATAL'].sum().sort_values(ascending=False)
map_deaths_day_week.to_clipboard()

In [55]:
(df.groupby('day_week')['QTD_VIT_FATAL'].sum()/df['QTD_VIT_FATAL'].sum()).sort_values(ascending=False)*100

day_week
Friday       17.372881
Sunday       17.161017
Saturday     16.737288
Thursday     13.983051
Wednesday    12.076271
Monday       11.652542
Tuesday      11.016949
Name: QTD_VIT_FATAL, dtype: float64

In [56]:
map_day_week_death_percn = (df.groupby('day_week')['QTD_VIT_FATAL'].sum()/df['QTD_VIT_FATAL'].sum()).sort_values(ascending=False)*100
map_day_week_death_percn.to_clipboard()

In [None]:
# 'QTD_VIT_FATAL' refers to the number of fatal victims
# It's not by much, but we can see that most accidents happen over the week 
# There is also a concentration at the end of the week, Thursday and especially Friday
# We also know that fatalities are higher on Fridays and weekends

In [18]:
df['TIPO_ACID'].describe()

count                17114
unique                  74
top       COLISÃO-TRASEIRA
freq                  4197
Name: TIPO_ACID, dtype: object

In [None]:
df['TIPO_ACID'].value_counts().sort_values(ascending=False).head(20).to_frame()

# 'TIPO_ACID' refers to the types of accidents that happen on SP highways. 
# For Brazilian Portuguese speakers, 'choque-defensa, barreira ou submarino' might sound like an odd group of words.
# But 'choque-defensa, barreira' means a collision with metallic barriers on the sides of highways sides that serve as protective structures
# These metal barriers absorb the energy of a collision and help redirect the car back onto the road.
# Most accidents are rear-end or side collisions.

Unnamed: 0_level_0,count
TIPO_ACID,Unnamed: 1_level_1
COLISÃO-TRASEIRA,4197
COLISÃO-LATERAL,2178
TOMBAMENTO,1384
"CHOQUE-DEFENSA, BARREIRA OU SUBMARINO",1357
ENGAVETAMENTO,854
CHOQUE-ELEMENTO DE DRENAGEM,618
ATROP. ANIMAL,557
CHOQUE-BARREIRA DE CONCRETO,551
CAPOTAMENTO,536
QUEDA-MOTO,505


In [20]:
df['TIPO_ACID'].value_counts().sort_values(ascending=False).tail(20).to_frame()

Unnamed: 0_level_0,count
TIPO_ACID,Unnamed: 1_level_1
CHOQUE-PRAÇA AVI-(ENTRE VEÍCULOS),6
CHOQUE-BURACO,6
CHOQUE-DISPOSITIVO DE CONTENÇÃO,5
CHOQUE-CAIXA DE CAPTAÇÃO/FIBRA,5
CHOQUE-CALÇAMENTO,5
CHOQUE-EDIFICAÇÃO,4
CHOQUE-PILAR,4
CHOQUE-PRAÇA MANUAL-(ENTRE VEÍCULOS),3
CHOQUE-ATENUADOR DE IMPACTO,3
QUEDA-OAE (PONTES/VIADUTOS),3


In [None]:
# Checking the vehicles involved in the accidents
df['VEIC'].value_counts().sort_values(ascending=False).head(10)

VEIC
AUTOMÓVEL=1                 4102
MOTO=1                      2047
AUTOMÓVEL=2                 1373
AUTOMÓVEL=1|MOTO=1          1306
UTILITÁRIO=1                 710
CAMINHÃO=1                   526
AUTOMÓVEL=1|CAMINHÃO=1       510
AUTOMÓVEL=1|CARRETA=1        502
CARRETA=1                    501
AUTOMÓVEL=1|UTILITÁRIO=1     457
Name: count, dtype: int64

In [22]:
df.groupby('TIPO_ACID')['VEIC'].value_counts().sort_values(ascending=False).head(20)

TIPO_ACID                              VEIC                       
TOMBAMENTO                             MOTO=1                         897
CHOQUE-DEFENSA, BARREIRA OU SUBMARINO  AUTOMÓVEL=1                    833
COLISÃO-TRASEIRA                       AUTOMÓVEL=2                    831
                                       AUTOMÓVEL=1|MOTO=1             598
COLISÃO-LATERAL                        AUTOMÓVEL=1|MOTO=1             495
CHOQUE-ELEMENTO DE DRENAGEM            AUTOMÓVEL=1                    416
CAPOTAMENTO                            AUTOMÓVEL=1                    409
QUEDA-MOTO                             MOTO=1                         378
CHOQUE-BARREIRA DE CONCRETO            AUTOMÓVEL=1                    361
TOMBAMENTO-MOTO                        MOTO=1                         345
ATROP. ANIMAL                          AUTOMÓVEL=1                    335
CHOQUE-OBJETO NA PISTA                 AUTOMÓVEL=1                    296
COLISÃO-TRASEIRA                       AUTOMÓ

In [None]:
# Now I want to check the visibility and weather conditions during the accidents. 
# 'BOA' means good
df.groupby('TIPO_ACID')['VISIB'].value_counts().sort_values(ascending=False).head(20)

TIPO_ACID                              VISIB          
COLISÃO-TRASEIRA                       BOA                3129
COLISÃO-LATERAL                        BOA                1687
TOMBAMENTO                             BOA                1012
CHOQUE-DEFENSA, BARREIRA OU SUBMARINO  BOA                 857
ENGAVETAMENTO                          BOA                 641
COLISÃO-TRASEIRA                       PARCIAL             523
CHOQUE-ELEMENTO DE DRENAGEM            BOA                 418
QUEDA-MOTO                             BOA                 418
CHOQUE-BARREIRA DE CONCRETO            BOA                 390
COLISÃO-TRASEIRA                       SEM INFO/NULO/0     382
CAPOTAMENTO                            BOA                 370
CHOQUE-DEFENSA, BARREIRA OU SUBMARINO  PARCIAL             337
CHOQUE-OBJETO NA PISTA                 BOA                 336
TOMBAMENTO-MOTO                        BOA                 275
COLISÃO-TRANSVERSAL                    BOA                 269


In [24]:
df['VISIB'].value_counts(normalize=True)

VISIB
BOA                0.717074
PARCIAL            0.146780
SEM INFO/NULO/0    0.091679
1 BOA              0.024015
REGULAR            0.013790
RUIM               0.004908
2 PARCIAL          0.001753
Name: proportion, dtype: float64

In [None]:
# ‘METEORO’ refers to meteorology.
df['METEORO'].value_counts(normalize=True)

METEORO
BOA                 0.746231
SEM INFO/NULO/0     0.080694
CHUVA               0.069884
NUBLADO             0.046745
1 BOM               0.023782
GAROA               0.021912
NÃO INFORMADA       0.002980
NEBLINA             0.002337
GRANIZO             0.002279
2 CHUVA             0.001344
NEBLINA/NEVOEIRO    0.001052
4 GAROA             0.000643
VENTO FORTE         0.000058
ANIZO               0.000058
Name: proportion, dtype: float64

In [None]:
# 'CHUVA' means rain.
df[df['METEORO'] == 'CHUVA']['TIPO_ACID'].value_counts().sort_values(ascending=False)

TIPO_ACID
CHOQUE-DEFENSA, BARREIRA OU SUBMARINO            211
COLISÃO-TRASEIRA                                 181
COLISÃO-LATERAL                                  109
CHOQUE-ELEMENTO DE DRENAGEM                       97
TOMBAMENTO                                        97
CHOQUE-BARREIRA DE CONCRETO                       95
CAPOTAMENTO                                       57
CHOQUE-TALUDE OU BARRANCO                         55
ENGAVETAMENTO                                     40
CHOQUE-SINALIZAÇÃO                                35
QUEDA-MOTO                                        23
CHOQUE-VEÍCULO PARADO NA PISTA                    21
CHOQUE-DEFENSA METÁLICA                           19
CHOQUE-OBJETO NA PISTA                            17
ATROP. ANIMAL                                     16
CHOQUE-OUTROS                                     13
COLISÃO-TRANSVERSAL                               13
TOMBAMENTO-MOTO                                   12
CHOQUE-MEIO FIO/CALÇAMENTO          

In [None]:
# So most accidents occur in good visibility conditions on SP highways, which is somewhat surprising.

In [None]:
# Checking if certain types of accidents usually happen in bad weather
# Unfortunately, this normalization doesn’t seem to provide much insight, as higher values are associated with accident types that are not very common
df.groupby('TIPO_ACID')['VISIB'].value_counts(normalize=True).sort_values(ascending=False).head(60)

TIPO_ACID                              VISIB          
ATROP. PEDESTRE-ROMEIRO                PARCIAL            1.000000
ATROP. PEDESTRE-ESPORTISTA             1 BOA              1.000000
CHOQUE-CALÇAMENTO                      BOA                1.000000
QUEDA-OAE (PONTES/VIADUTOS)            BOA                1.000000
ATROP. ANIMAL-SILVESTRE MÉDIO PORTE    BOA                1.000000
CHOQUE-ILHA                            BOA                1.000000
TOMBAMENTO-BICICLETA                   BOA                1.000000
CHOQUE-OBJETO FIXO                     BOA                1.000000
OUTROS                                 SEM INFO/NULO/0    1.000000
ATROP. PEDESTRE-CICLISTA DESMONTADO    PARCIAL            1.000000
ATROP. PEDESTRE-ESTUDANTE              BOA                1.000000
ATROP. PEDESTRE-MORADOR                BOA                1.000000
ATROP. PEDESTRE-TRABALHADOR            BOA                1.000000
CHOQUE-PRAÇA MANUAL-(ENTRE VEÍCULOS)   BOA                1.000000
ATROP. 

In [None]:
# 'ATROP. ANIMAL' means an animal hit by a car
df.groupby([df['TIPO_ACID'] == 'ATROP. ANIMAL'])['VISIB'].value_counts(normalize=True)

TIPO_ACID  VISIB          
False      BOA                0.725011
           PARCIAL            0.138431
           SEM INFO/NULO/0    0.091562
           1 BOA              0.023978
           REGULAR            0.014254
           RUIM               0.004953
           2 PARCIAL          0.001812
True       BOA                0.481149
           PARCIAL            0.394973
           SEM INFO/NULO/0    0.095153
           1 BOA              0.025135
           RUIM               0.003591
Name: proportion, dtype: float64

In [29]:
df.groupby([df['TIPO_ACID'] == 'ATROP. ANIMAL'])['METEORO'].value_counts()

TIPO_ACID  METEORO         
False      BOA                 12309
           SEM INFO/NULO/0      1355
           CHUVA                1180
           NUBLADO               775
           1 BOM                 393
           GAROA                 370
           NÃO INFORMADA          50
           GRANIZO                39
           NEBLINA                34
           2 CHUVA                23
           NEBLINA/NEVOEIRO       16
           4 GAROA                11
           ANIZO                   1
           VENTO FORTE             1
True       BOA                   462
           SEM INFO/NULO/0        26
           NUBLADO                25
           CHUVA                  16
           1 BOM                  14
           NEBLINA                 6
           GAROA                   5
           NEBLINA/NEVOEIRO        2
           NÃO INFORMADA           1
Name: count, dtype: int64

In [None]:
# Although it’s not the majority, there is a similar number of accidents involving animals when visibility on the road is poor.
# On the other hand, this doesn’t seem connected to meteorological conditions like rain, fog, or anything similar.

In [31]:
df.groupby([df['TIPO_ACID'] == 'ATROP. ANIMAL-SILVESTRE GRANDE PORTE'])['VISIB'].value_counts()

TIPO_ACID  VISIB          
False      BOA                12266
           PARCIAL             2512
           SEM INFO/NULO/0     1569
           1 BOA                411
           REGULAR              208
           RUIM                  83
           2 PARCIAL             30
True       REGULAR               28
           BOA                    6
           RUIM                   1
Name: count, dtype: int64

In [33]:
df.groupby('TIPO_ACID')['METEORO'].value_counts().sort_values(ascending=False).head(20).to_frame()

Unnamed: 0_level_0,Unnamed: 1_level_0,count
TIPO_ACID,METEORO,Unnamed: 2_level_1
COLISÃO-TRASEIRA,BOA,3285
COLISÃO-LATERAL,BOA,1665
TOMBAMENTO,BOA,1070
"CHOQUE-DEFENSA, BARREIRA OU SUBMARINO",BOA,886
ENGAVETAMENTO,BOA,621
ATROP. ANIMAL,BOA,462
CHOQUE-ELEMENTO DE DRENAGEM,BOA,434
CHOQUE-OBJETO NA PISTA,BOA,425
QUEDA-MOTO,BOA,387
CAPOTAMENTO,BOA,375


In [None]:
# Let’s see what kinds of accidents occur under poor visibility conditions

In [35]:
df['VISIB'].value_counts()

VISIB
BOA                12272
PARCIAL             2512
SEM INFO/NULO/0     1569
1 BOA                411
REGULAR              236
RUIM                  84
2 PARCIAL             30
Name: count, dtype: int64

In [None]:
# Just like in good weather conditions, rear-end collisions top the ranking.
df[df['VISIB'] == 'PARCIAL']['TIPO_ACID'].value_counts().to_frame()

Unnamed: 0_level_0,count
TIPO_ACID,Unnamed: 1_level_1
COLISÃO-TRASEIRA,523
"CHOQUE-DEFENSA, BARREIRA OU SUBMARINO",337
TOMBAMENTO,245
COLISÃO-LATERAL,243
ATROP. ANIMAL,220
CHOQUE-ELEMENTO DE DRENAGEM,129
CAPOTAMENTO,94
CHOQUE-OBJETO NA PISTA,88
CHOQUE-BARREIRA DE CONCRETO,82
ENGAVETAMENTO,81


In [63]:
df[df['VISIB'] == 'SEM INFO/NULO/0']['TIPO_ACID'].value_counts().to_frame()

Unnamed: 0_level_0,count
TIPO_ACID,Unnamed: 1_level_1
COLISÃO-TRASEIRA,382
COLISÃO-LATERAL,198
SEM INFORMAÇÃO,128
"CHOQUE-DEFENSA, BARREIRA OU SUBMARINO",104
ENGAVETAMENTO,101
TOMBAMENTO,88
TOMBAMENTO-MOTO,81
CHOQUE-BARREIRA DE CONCRETO,55
ATROP. ANIMAL,53
CAPOTAMENTO,50


In [37]:
df['HR_ACID'].unique()

array(['00:04', '00:14', '00:16', ..., '02:19', '02:51', '02:36'],
      shape=(1439,), dtype=object)

In [38]:
df['HR_ACID'].describe()

count               17114
unique               1439
top       SEM INFO/NULO/0
freq                  555
Name: HR_ACID, dtype: object

In [None]:
df['HR_ACID'].value_counts().sort_values(ascending=False).head(30)

# There doesn’t seem to be a clear connection between accidents and the time of day.
# But there is a lot of missing (Null) data, and the high number of records at 00:00 could indicate that people are just entering placeholder times when the exact hour is unknown.


HR_ACID
SEM INFO/NULO/0    555
00:00              550
17:50               32
19:31               30
07:26               29
17:22               29
07:55               29
07:45               28
07:47               28
19:45               28
18:40               27
07:35               27
08:02               26
18:00               26
16:15               26
07:58               25
07:10               25
17:05               25
18:05               25
18:45               25
08:00               25
07:00               24
07:51               24
07:18               24
17:48               24
08:20               24
19:01               24
08:09               24
17:47               23
17:45               23
Name: count, dtype: int64

In [188]:
df['HR_ACID'].describe()

count               17114
unique               1439
top       SEM INFO/NULO/0
freq                  555
Name: HR_ACID, dtype: object

In [None]:
# Let’s see how many people died in these accidents, as well as other outcomes, such as serious injuries or no injuries at all.
df['QTD_VIT_FATAL'].sum()

np.int64(472)

In [199]:
df['QTD_VIT_FATAL'].max()

np.int64(4)

In [200]:
df['QTD_VIT_ILESA'].sum()

np.int64(22372)

In [201]:
df['QTD_VIT_GRAVE'].sum()

np.int64(671)

In [203]:
df['QTD_VIT_SEM_INFO'].sum()

np.int64(10)

In [215]:
df.groupby('TIPO_ACID')['QTD_VIT_FATAL'].sum().sort_values(ascending=False)

TIPO_ACID
COLISÃO-TRASEIRA                         118
COLISÃO-FRONTAL                           56
ATROP. PEDESTRE-ANDARILHO                 45
COLISÃO-LATERAL                           24
CHOQUE-DEFENSA, BARREIRA OU SUBMARINO     23
                                        ... 
CHOQUE-MEIO FIO/CALÇAMENTO                 0
CHOQUE-OAE (PILARES/TABULEIRO)             0
CHOQUE-OBJETO FIXO                         0
CHOQUE-OBJETO NÃO IDENTIFICADO             0
TOMBAMENTO-VEÍCULOS PESADOS                0
Name: QTD_VIT_FATAL, Length: 74, dtype: int64

In [228]:
df['MUNICIPIO'].nunique()

317

In [None]:
# Now, let’s see which cities account for the majority of accidents.

df['MUNICIPIO'].value_counts().head(10).to_frame()

Unnamed: 0_level_0,count
MUNICIPIO,Unnamed: 1_level_1
SÃO PAULO,714
CAMPINAS,686
SÃO BERNARDO DO CAMPO,668
JUNDIAÍ,499
CUBATÃO,460
RIBEIRÃO PRETO,446
GUARULHOS,298
ITU,296
BARUERI,284
SOROCABA,244


In [None]:
# Creating a csv to use in DataWrapper
map_cities = df['MUNICIPIO'].value_counts()
map_cities.to_csv('map-cities.csv')

In [229]:
df['DENOMINACAO'].nunique()

189

In [None]:
# Checking which highways have the highest concentration of accidents.

df['DENOMINACAO'].value_counts().head(10).to_frame()

Unnamed: 0_level_0,count
DENOMINACAO,Unnamed: 1_level_1
ANHANGUERA,1625
WASHINGTON LUÍS,1041
RODOANEL METROPOLITANO MÁRIO COVAS,976
CASTELLO BRANCO,969
MARECHAL RONDON,800
BANDEIRANTES,769
CMDT. JOÃO RIBEIRO DE BARROS,666
RAPOSO TAVARES,621
ANCHIETA,597
AYRTON SENNA DA SILVA,535


In [None]:
# But accidents don’t necessarily result in deaths.
# So let’s look at the fatality rate and identify the places with the most fatal accidents.


df.groupby('MUNICIPIO')['QTD_VIT_FATAL'].sum().sort_values(ascending=False)

MUNICIPIO
SÃO BERNARDO DO CAMPO    23
SÃO PAULO                17
SOROCABA                 13
JUNDIAÍ                  12
CAMPINAS                 11
                         ..
JAÚ                       0
JOÃO RAMALHO              0
JUMIRIM                   0
JÚLIO MESQUITA            0
ÁLVARES MACHADO           0
Name: QTD_VIT_FATAL, Length: 317, dtype: int64

In [245]:
(df.groupby('MUNICIPIO')['QTD_VIT_FATAL'].sum()/df['QTD_VIT_FATAL'].sum()).sort_values(ascending=False)*100

MUNICIPIO
SÃO BERNARDO DO CAMPO    4.872881
SÃO PAULO                3.601695
SOROCABA                 2.754237
JUNDIAÍ                  2.542373
CAMPINAS                 2.330508
                           ...   
JAÚ                      0.000000
JOÃO RAMALHO             0.000000
JUMIRIM                  0.000000
JÚLIO MESQUITA           0.000000
ÁLVARES MACHADO          0.000000
Name: QTD_VIT_FATAL, Length: 317, dtype: float64

In [41]:
map_vit_fatal = (df.groupby('MUNICIPIO')['QTD_VIT_FATAL'].sum()/df['QTD_VIT_FATAL'].sum()).sort_values(ascending=False)*100
map_vit_fatal.to_clipboard()

In [255]:
df[df['MUNICIPIO'] == 'SÃO BERNARDO DO CAMPO'].info()

<class 'pandas.core.frame.DataFrame'>
Index: 668 entries, 29 to 17108
Data columns (total 28 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   _id               668 non-null    int64         
 1   NOME_CONC         668 non-null    object        
 2   RODOVIA           668 non-null    object        
 3   MARCO_QM          668 non-null    float64       
 4   SENTIDO           668 non-null    object        
 5   DATA              668 non-null    datetime64[ns]
 6   HR_ACID           668 non-null    object        
 7   CLASS_ACID        668 non-null    object        
 8   TIPO_ACID         668 non-null    object        
 9   CAUSA             668 non-null    object        
 10  METEORO           668 non-null    object        
 11  VISIB             668 non-null    object        
 12  VEIC              668 non-null    object        
 13  QTD_VIT_ILESA     668 non-null    int64         
 14  QTD_VIT_FATAL     668 non-nu

In [259]:
df[df['MUNICIPIO'] == 'SÃO BERNARDO DO CAMPO']['TIPO_ACID'].value_counts()

TIPO_ACID
COLISÃO-TRASEIRA                                 209
COLISÃO-LATERAL                                  108
QUEDA-MOTO                                        52
TOMBAMENTO                                        47
CHOQUE-BARREIRA DE CONCRETO                       39
CHOQUE-DEFENSA, BARREIRA OU SUBMARINO             25
CHOQUE-DEFENSA METÁLICA                           24
CHOQUE-VEÍCULO PARADO NA PISTA                    20
CHOQUE-DEFENSA, BARREIRA OU MEIO FIO              19
SEM INFORMAÇÃO                                    18
CAPOTAMENTO                                       14
ENGAVETAMENTO                                     13
CHOQUE-TALUDE OU BARRANCO                         11
CHOQUE-VEÍCULO PARADO NO ACOSTAMENTO              11
CHOQUE-SINALIZAÇÃO                                10
ATROP. PEDESTRE-PEDESTRE                           6
CHOQUE-ELEMENTO DE DRENAGEM                        6
CHOQUE-OBJETO NA PISTA                             6
ATROP. PEDESTRE-ANDARILHO           

In [258]:
# To make sure that we have all accidents for Sao Bernardo do Campo
df[df['MUNICIPIO'] == 'SÃO BERNARDO DO CAMPO']['TIPO_ACID'].value_counts().sum()

np.int64(668)

In [None]:
# And let’s see which cities have the most cases of pedestrians being hit by cars.

df[df['TIPO_ACID'].str.startswith('ATROP. PEDESTRE')]['MUNICIPIO'].value_counts().sort_values(ascending=False).head(10)

MUNICIPIO
SÃO PAULO                21
CAMPINAS                 15
SÃO BERNARDO DO CAMPO    13
RIBEIRÃO PRETO            7
PIRACICABA                7
SOROCABA                  7
JUNDIAÍ                   7
MOGI GUAÇU                6
LIMEIRA                   6
CAIEIRAS                  6
Name: count, dtype: int64

In [None]:
# Let’s export a CSV to create a map of the accidents. To do that, I’ll drop some columns I don’t need.

df_map = df.drop(columns=[
    'NOME_CONC', 'SENTIDO','TIPO_ACID', 'HR_ACID', 
    'QTD_VIT_SEM_INFO','QTD_VIT_SEM_INFO','QTD_VIT_FATAL', 'QTD_VIT_GRAVE', 'QTD_VIT_ILESA', 'QTD_VIT_MODERADA', 'QTD_VIT_LEVE',
    'CAUSA', 'METEORO', 'VISIB', 'VEIC','REGIONAL_DER', 'JURISDICAO', 'REG_ADM_SP',
    '_id', 'RODOVIA', 'MARCO_QM','DATA','CLASS_ACID', 'TIPO_PISTA','DENOMINACAO','day_week'])

In [372]:
df_map.head()

Unnamed: 0,MUNICIPIO,LATITUDE,LONGITUDE
0,INDAIATUBA,-23.149664,-47.254411
1,SOROCABA,-23.519805,-47.533992
2,AVARÉ,-23.115401,-48.940301
3,MOGI GUAÇU,-22.3405,-46.9436
4,FRANCA,-20.566678,-47.40791


In [354]:
df_map.to_csv('data-map.csv', index=False)

In [None]:
# And finally, I’ll check the main causes of accidents — something I probably should have done earlier.

df['CAUSA'].value_counts().sort_values(ascending=False).head(10)

CAUSA
SEM INFORMAÇÃO                                   2736
IMPRUD. CONDUTOR-PERDA DE CONTROLE               2610
IMPRUD. CONDUTOR                                 2371
NÃO INFORMADO                                    1073
IMPRUD. CONDUTOR-DIST. INADEQUADA ENTRE VEÍC.    1044
IMPRUD. CONDUTOR-MUDANÇA DE FAIXA                 750
ANIMAL NA RODOVIA                                 746
ESTOURO/FURO DE PNEU                              646
IMPRUD. CONDUTOR-LEVOU FECHADA                    599
IMPRUD. CONDUTOR-FALTA DE ATENÇÃO                 592
Name: count, dtype: int64

In [382]:
cause_acci = df['CAUSA'].value_counts().sort_values(ascending=False).head(10)

In [383]:
cause_acci.to_csv('cause-accid.csv')