# Projeto Ciência de Dados e Inteligência Artificial | Fase 1 #
## Introdução ##
Esta breve análise exploratória busca a responder algumas das questões feitas na Fase 1 do Projeto de Dados da disciplina de Ciência de Dados e Inteligência Artificial.

### Professores ###
- Prof. **Michael da Costa Móra**
- Prof. **Duncan Dubugras A. Ruiz**

Abaixo, seguem o enunciado e as análises feitas a fim de obter as respostas para as questões solicitadas.

## Sobre o conjunto de dados escolhido: ##
### 1. Qual a finalidade do conjunto de dados? ###
De maneira prática, o conjutno de dados busca a identificar e a qualificar os acidentes de trânsito ocorridos no Município de Porto Alegre. Em termos de oportunidades de aplicação, no entanto, há uma multiplicidade de possibilidades com objetivos analíticos, sociais e administrativos, entre as quais podem ser citadas:

1. **Análise de segurança de trânsito**
    - Nesse caso, pode-se identificar áreas de alto risco e padrões de acidentes para direcionar medidas de prevenção e melhorias nas segurança.
    - Avaliar a eficácia de leis de trânsito, sinalizações e outras intervenções de segurança.
2. **Planejamento urbano e de infraestrutura**
    - Identificar, por exemplo, trechos e regiões com alto índice de acidentes a fim de definir a localização de sinais de trânsito e a implementação de passagens para pedestres.
    - Planejar obras de expansão ou de ajustes na infraestrutura viária para reduzir a incidência de acidentes.
3. **Alocação de recursos para emergências**
    - Baseado na hipótese de padrões de acidentes - no sentido geográfico-temporal -, definir a prontidão de recursos emergenciais, como ambulâncias e policiais.
    - Coordenar a prontidão de serviços hospitalares com a ocorrência de acidentes no caso de padrões de acidentes.

### 2. Quantas linhas e quantas colunas o conjunto de dados tem? ###
Abaixo, inicia-se a a análise exploratória a fim de responder as perguntas solicitadas.


In [2]:
# Importar pacotes e bibliotecas.
import os
import pandas as pd
import numpy as  np

In [3]:
# Definir o número máximo de colunas como 'None' para que todas as colunas sejam exibidas.
pd.set_option("display.max_columns", None)

In [4]:
# Obter diretório raiz do projeto.
dirname = os.path.dirname(os.path.abspath(""))

# Obter diretório de dados do projeto.
data_dir = os.path.join(dirname, "data")

# Obter diretório de dados de entrada do projeto.
raw_data = os.path.join(data_dir, "raw/")

In [5]:
# Ler os dados de entrada.
acidentes_poa = pd.read_csv(raw_data + "cat_acidentes.csv", sep=";", encoding="utf-8")

In [6]:
# Identificar o número de colunas e linhas do DataFrame.
acidentes_poa.shape

(66210, 34)

### **Resposta** 
O conjunto de dados apresenta:
- **34** colunas
- **66210** linhas

### 3. Qual o formato que ele é disponibilizado? ###
Conforme visto na importação, o arquivo está disponível em formato `.csv`, com separador por **ponto-e-vírgula** (`;`).

### Escolher pelo menos 10 colunas totalmente preenchidas (as mais importantes)  ###
O aluno, em função da oportunidade apresentada por colunas parcialmente preenchidas (com alguma proporção de valores faltantes), optou por selecionar colunas preenchidas e manter algumas que contivessem um baixo percentual de valores faltantes. Para tanto, calcula-se abaixo esse percentual para cada variável.


### 4. Identificar colunas totalmente preenchidas.

In [7]:
acidentes_poa.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 66210 entries, 0 to 66209
Data columns (total 34 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   data_extracao  66210 non-null  object 
 1   predial1       63427 non-null  float64
 2   queda_arr      66210 non-null  float64
 3   data           66210 non-null  object 
 4   feridos        66210 non-null  int64  
 5   feridos_gr     66210 non-null  int64  
 6   mortes         66210 non-null  int64  
 7   morte_post     66210 non-null  int64  
 8   fatais         66210 non-null  int64  
 9   auto           66210 non-null  int64  
 10  taxi           66210 non-null  int64  
 11  lotacao        66210 non-null  int64  
 12  onibus_urb     66210 non-null  int64  
 13  onibus_met     66210 non-null  int64  
 14  onibus_int     66210 non-null  int64  
 15  caminhao       66210 non-null  int64  
 16  moto           66210 non-null  int64  
 17  carroca        66210 non-null  int64  
 18  bicicl

In [8]:
# Calcular o número de valores ausentes para cada coluna.
non_null_count = acidentes_poa.count()

null_count = acidentes_poa.isnull().sum()

# Calcular o percentual de valores ausentes para cada coluna.
null_percentage = acidentes_poa.isnull().mean() * 100

# Create a new dataframe to hold the results
df_info = pd.DataFrame(
    {
        "freq_nao_nulos": non_null_count,
        "freq_nulos": null_count,
        "perc_nulos": null_percentage,
    }
)

# Format the 'Null Percentage (%)' column to have two decimal places
df_info["perc_nulos"] = df_info["perc_nulos"].round(2)

df_info

Unnamed: 0,freq_nao_nulos,freq_nulos,perc_nulos
data_extracao,66210,0,0.0
predial1,63427,2783,4.2
queda_arr,66210,0,0.0
data,66210,0,0.0
feridos,66210,0,0.0
feridos_gr,66210,0,0.0
mortes,66210,0,0.0
morte_post,66210,0,0.0
fatais,66210,0,0.0
auto,66210,0,0.0


Como pode-se observar, algumas variáveis, como `regiao`,  `log1`, `hora`, `longitude` e `latitude` apresentam incompletude. As três primeiras contêm percentuais muito baixos de observações nulas ou faltantes, enquanto as duas últimas já mostram proporção mais significativa. Ainda assim, em razão do potencial dessas variáveis para o projeto, o aluno tomou posição pragmática, apresentando mais de dez colunas totalmente completas em conjunto com essas incompletas, informando o percentual de incompletude.

In [9]:
# Retornar apenas colunas em que não haja valores ausentes.
df_info[df_info["freq_nulos"] == 0].index

Index(['data_extracao', 'queda_arr', 'data', 'feridos', 'feridos_gr', 'mortes',
       'morte_post', 'fatais', 'auto', 'taxi', 'lotacao', 'onibus_urb',
       'onibus_met', 'onibus_int', 'caminhao', 'moto', 'carroca', 'bicicleta',
       'outro', 'cont_vit', 'ups', 'patinete', 'idacidente', 'tipo_acid',
       'dia_sem', 'noite_dia'],
      dtype='object')

In [12]:
# colunas selecionadas para análise - não devem conter valores ausentes.
acidentes_poa_cut = acidentes_poa[['data', 'feridos', 'feridos_gr', 'mortes',
       'morte_post', 'fatais', 'auto', 'taxi', 'lotacao', 'onibus_urb',
       'onibus_met', 'onibus_int', 'caminhao', 'moto', 'bicicleta',
       'outro', 'cont_vit', 'ups', 'idacidente', 'tipo_acid',
       'dia_sem', 'noite_dia', 'regiao', 'log1', 'longitude', 'latitude']]


In [13]:
acidentes_poa_cut

Unnamed: 0,data,feridos,feridos_gr,mortes,morte_post,fatais,auto,taxi,lotacao,onibus_urb,onibus_met,onibus_int,caminhao,moto,bicicleta,outro,cont_vit,ups,idacidente,tipo_acid,dia_sem,noite_dia,regiao,log1,longitude,latitude
0,2020-10-17 00:00:00,1,0,0,0,0,3,0,0,0,0,0,0,1,0,0,1,5,190816,ABALROAMENTO,SÁBADO,NOITE,NORTE,R MARCOS MOREIRA,0.000000e+00,0.000000e+00
1,2019-01-01 00:00:00,1,0,0,0,0,3,0,0,0,0,0,0,0,0,0,1,5,655726,ABALROAMENTO,TERÇA-FEIRA,NOITE,NORTE,AV ASSIS BRASIL,-8.178406e+08,1.295680e+09
2,2019-01-01 00:00:00,1,0,0,0,0,2,0,0,0,0,0,0,0,0,0,1,5,655729,ABALROAMENTO,TERÇA-FEIRA,DIA,CENTRO,R DR BARROS CASSAL,-8.267608e+08,1.292030e+09
3,2019-01-01 00:00:00,4,2,0,0,0,1,0,0,0,0,0,0,0,0,0,1,5,655732,CHOQUE,TERÇA-FEIRA,DIA,SUL,AV FABIO ARAUJO SANTOS,-8.272275e+08,1.285404e+09
4,2019-01-01 00:00:00,5,0,0,0,0,3,0,0,0,0,0,0,0,0,0,1,5,655735,COLISÃO,TERÇA-FEIRA,NOITE,LESTE,AV IPIRANGA,-8.201465e+08,1.288712e+09
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
66205,2024-02-28 00:00:00,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,1,742397,ATROPELAMENTO,QUARTA-FEIRA,NOITE,NORTE,R UNIAO,-5.113069e+01,-2.997849e+01
66206,2024-02-28 00:00:00,1,0,0,0,0,1,0,0,1,0,0,0,0,0,0,1,5,742398,NAO CADASTRADO,QUARTA-FEIRA,NOITE,SUL,R CRUZEIRO DO SUL,,
66207,2024-02-28 00:00:00,2,0,0,0,0,1,0,0,0,0,0,0,1,0,0,1,5,742399,NAO CADASTRADO,QUARTA-FEIRA,NOITE,NORTE,R VARZEA,-5.116411e+01,-3.000224e+01
66208,2024-02-28 00:00:00,1,0,0,0,0,1,0,0,0,0,0,0,1,0,0,1,5,742400,COLISÃO,QUARTA-FEIRA,DIA,SUL,R ORFANOTROFIO,-5.121902e+01,-3.008019e+01


### 5. Identificar o tipo de dados de cada coluna. ###


In [14]:
# identificar o tipo de dados de cada coluna.
acidentes_poa_cut.dtypes

data           object
feridos         int64
feridos_gr      int64
mortes          int64
morte_post      int64
fatais          int64
auto            int64
taxi            int64
lotacao         int64
onibus_urb      int64
onibus_met      int64
onibus_int      int64
caminhao        int64
moto            int64
bicicleta       int64
outro           int64
cont_vit        int64
ups             int64
idacidente      int64
tipo_acid      object
dia_sem        object
noite_dia      object
regiao         object
log1           object
longitude     float64
latitude      float64
dtype: object

In [21]:
acidentes_poa_cut["lotacao"].value_counts()

lotacao
0    65653
1      554
2        3
Name: count, dtype: int64

Embora o notebook não vise a etapas de transformação e tratamento de dados, alguma inferência será feita a partir tanto do dicionário de dados fornecido em conjunto com o conjunto de dados. Para consulta, acesse o dicionário em `references/dd-cat-acidentes.pdf`. Nesse sentido, a apresentação em Excel (também armazenada no mesmo diretório anteriormente mencionado) considera que campos tais como `data`, embora armazenados e interpretados pelo `pandas` como `object` será definido como data.

In [44]:
# Converter data para datetime
acidentes_poa_cut.loc[:, 'data'] = pd.to_datetime(acidentes_poa_cut['data']).dt.date
acidentes_poa_cut.dtypes

data          datetime64[ns]
feridos                int64
feridos_gr             int64
mortes                 int64
morte_post             int64
fatais                 int64
auto                   int64
taxi                   int64
lotacao                int64
onibus_urb             int64
onibus_met             int64
onibus_int             int64
caminhao               int64
moto                   int64
carroca                int64
bicicleta              int64
outro                  int64
cont_vit               int64
ups                    int64
idacidente             int64
tipo_acid             object
dia_sem               object
noite_dia             object
dtype: object

### 6. Obter a quantidade de valores distintos por campo ###

In [25]:
# calcular a quantidade de valores distintos para cada coluna.
valores_distintos = acidentes_poa_cut.nunique()

valores_distintos

data           1900
feridos          12
feridos_gr        6
mortes            4
morte_post        3
fatais            5
auto             11
taxi              3
lotacao           3
onibus_urb        3
onibus_met        3
onibus_int        3
caminhao          4
moto              5
bicicleta         3
outro             3
cont_vit          2
ups               3
idacidente    66210
tipo_acid        10
dia_sem           7
noite_dia         2
regiao            4
log1           4091
longitude     40030
latitude      41258
dtype: int64

### 7. Obter estatísticas descritivas básicas para campos numéricos ###

In [24]:
acidentes_poa_cut.describe(include="number")

Unnamed: 0,feridos,feridos_gr,mortes,morte_post,fatais,auto,taxi,lotacao,onibus_urb,onibus_met,onibus_int,caminhao,moto,bicicleta,outro,cont_vit,ups,idacidente,longitude,latitude
count,66210.0,66210.0,66210.0,66210.0,66210.0,66210.0,66210.0,66210.0,66210.0,66210.0,66210.0,66210.0,66210.0,66210.0,66210.0,66210.0,66210.0,66210.0,56656.0,56656.0
mean,0.45,0.08,0.0,0.0,0.01,1.44,0.02,0.01,0.04,0.01,0.01,0.08,0.31,0.02,0.0,0.38,2.58,694123.47,-131930684.14,207335607.05
std,0.67,0.29,0.06,0.05,0.08,0.77,0.14,0.09,0.19,0.08,0.09,0.29,0.49,0.14,0.04,0.49,2.09,26217.97,293090433.6,479780906.48
min,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,190816.0,-831414582.0,-301861333.0
25%,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,672634.25,-51.23,-30.06
50%,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,689321.5,-51.2,-30.03
75%,1.0,0.0,0.0,0.0,0.0,2.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,5.0,715868.75,-51.16,-30.0
max,34.0,5.0,3.0,2.0,4.0,10.0,2.0,2.0,2.0,2.0,2.0,3.0,4.0,2.0,2.0,1.0,13.0,742401.0,0.0,1298214440.0


In [23]:
# Definir o formato de exibição dos números para duas casas decimais.
pd.set_option('display.float_format', '{:.2f}'.format)

numeric_columns = acidentes_poa_cut.select_dtypes(include=[np.number])

# Calcular as estatísticas descritivas para as colunas numéricas.
min_values = numeric_columns.min()
max_values = numeric_columns.max()
mode_values = numeric_columns.mode().iloc[0]  # Retornar a primeira moda
mean_values = numeric_columns.mean()
median_values = numeric_columns.median()
std_values = numeric_columns.std()

# Criar um DataFrame para armazenar as estatísticas descritivas.
stats_df = pd.DataFrame({
    'Min': min_values,
    'Max': max_values,
    'Mode': mode_values,
    'Mean': mean_values,
    'Median': median_values,
    'Std': std_values
})

stats_df

Unnamed: 0,Min,Max,Mode,Mean,Median,Std
feridos,0.0,34.0,0.0,0.45,0.0,0.67
feridos_gr,0.0,5.0,0.0,0.08,0.0,0.29
mortes,0.0,3.0,0.0,0.0,0.0,0.06
morte_post,0.0,2.0,0.0,0.0,0.0,0.05
fatais,0.0,4.0,0.0,0.01,0.0,0.08
auto,0.0,10.0,2.0,1.44,1.0,0.77
taxi,0.0,2.0,0.0,0.02,0.0,0.14
lotacao,0.0,2.0,0.0,0.01,0.0,0.09
onibus_urb,0.0,2.0,0.0,0.04,0.0,0.19
onibus_met,0.0,2.0,0.0,0.01,0.0,0.08


In [22]:
# Selecionar as colunas categóricas.
categorical_columns = acidentes_poa_cut.select_dtypes(include=[object])

# Calcular as estatísticas para as colunas categóricas.
count_values = categorical_columns.count()
unique_values = categorical_columns.nunique()
top_values = categorical_columns.mode().iloc[0]  # Get the most frequent value
freq_values = categorical_columns.apply(lambda x: x.value_counts().iloc[0])

# Criar um DataFrame para armazenar as estatísticas das colunas categóricas.
stats_df = pd.DataFrame({
    'Count': count_values,
    'Unique': unique_values,
    'Top': top_values,
    'Freq': freq_values
})

stats_df

Unnamed: 0,Count,Unique,Top,Freq
data,66210,1900,2023-08-11 00:00:00,73
tipo_acid,66210,10,ABALROAMENTO,30208
dia_sem,66210,7,SEXTA-FEIRA,11276
noite_dia,66210,2,DIA,46991
regiao,66209,4,LESTE,20669
log1,66163,4091,AV PROTASIO ALVES,1848


## Conclusão
Neste notebook, fizemos breve análise descritiva do conjunto de dados para nosso projeto. Não se buscou:
- Identificar duplicatas.
- Observar correlações.
- Identificar erros de inserção e valores indesejados.
- Tomar decisões acerca de valores faltantes.
- Executar transformações ou imputações a fim de lidar com erros ou valores faltantes.

Para uma análise exploratória mais pormenorizada, favor consultar outros notebooks (em andamento) no mesmo diretório.

Para quaisquer dúvidas, contatar:

**email**: felipe.sebben@edu.pucrs.br

----