# Exploração dos Dados da Tabela FT_OCORRENCIAS

## Descrição
Este notebook realiza uma análise exploratória da tabela **FT_OCORRENCIAS**, que contém informações sobre ocorrências registradas. O objetivo é visualizar as ocorrências ao longo do tempo, identificar a distribuição das descrições das ocorrências e entender melhor os dados contidos na tabela.

## Estrutura do Notebook

### 1. Importação de Bibliotecas
As bibliotecas necessárias para a análise são importadas. Incluímos bibliotecas como `pandas`, `matplotlib`, e `seaborn` para manipulação de dados e visualização.

### 2. Carregamento dos Dados
Os dados da tabela **FT_OCORRENCIAS** são carregados em um DataFrame do pandas.


### Análise Exploratória
Os dados já carregados são analisados para retirar informações do dataset.


In [None]:
import pandas as pd
import numpy as np
import chardet
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.preprocessing import LabelEncoder

In [None]:
file_path = "TABELA_BIG_DATA_FT_OCORRENCIAS.csv"

with open(file_path, 'rb') as f:
    result = chardet.detect(f.read())
    encoding = result['encoding']
    print(encoding)

In [None]:
df = pd.read_csv(file_path, sep = ',', encoding = encoding, low_memory = False)
display(df)

O `df.info()` serve para ter uma visão macro de como o banco de dados está distribuído, mostrando quantidade de linhas, colunas, dados nulos e o tipo de cada campo. Algo que é necessário confirmar é como são avaliados os dados nulos dentro do df.info().

- Para achar a porcentagem foi feita uma conta simples de, utilizando o número de colunas com dados totalmente nulos (14 colunas) e dividindo pelo total de colunas (14 : 23 = 0,6086 ou 60,9%)

In [None]:
df.info()

In [None]:
 df[df["Eventos Relacionados"].notna()]

In [None]:
 df[df["Tx Trem"].notna()]

#### Retirando Colunas

As duas seguintes colunas, pois estão com todas as linhas nulas. 

In [None]:
df = df.drop(columns=["Eventos Relacionados", "Tx Trem", "Tx Trem", "Total Ajustes"], errors='ignore')
print(df.columns)

In [None]:
df["Classificacao Manchete"]

In [None]:
df["Manchete"]

In [None]:
df["Trecho"]

In [None]:
nulos_por_coluna = df.isnull().sum()

colunas_com_nulos = nulos_por_coluna[nulos_por_coluna > 0]
display(colunas_com_nulos)

### Análise dos Tipos de Relevância

Neste bloco de código, realiza-se uma contagem das ocorrências baseadas na coluna **Tipo de Relevância** e visualiza-se essa contagem em um gráfico de barras. Os gráficos demosntram uma grande diferença entre os tipos de relevância, mais de 90% dos registrados tem relevância -1.

- É necessário entender os tipos de relevância com a CPTM para obter mais infomrações desse gráfico
- O gráfico foi gerado utilizando a filtragem loc para plotar os outros valores diferentes de -1

In [None]:
total_relevancia = df["Id Tipo Relevancia"].sum()
print("Soma de Id Tipo Relevancia:", total_relevancia)

print(df["Id Tipo Relevancia"].describe())


In [None]:
valores_diferentes_de_menos_um = df.loc[(df["Id Tipo Relevancia"] != -1) & (df["Id Tipo Relevancia"].notna()), "Id Tipo Relevancia"]
print("Valores diferentes de -1 dentro de Id Tipo Relevanciava", valores_diferentes_de_menos_um)


In [None]:
id_tipo_relevancia = df.loc[df["Id Tipo Relevancia"] != -1, "Id Tipo Relevancia"]

contagem_relevancia = id_tipo_relevancia.value_counts()

plt.figure(figsize=(10, 6))
sns.barplot(x=contagem_relevancia.index, y=contagem_relevancia.values, palette='viridis')
plt.title('Distribuição de Id Tipo Relevancia')
plt.xlabel('Id Tipo Relevancia')
plt.ylabel('Contagem')
plt.xticks(rotation=45)
plt.show()

In [None]:
id_tipo_relevancia = df["Id Tipo Relevancia"]

contagem_relevancia = id_tipo_relevancia.value_counts()

plt.figure(figsize=(10, 6))
sns.barplot(x=contagem_relevancia.index, y=contagem_relevancia.values, palette='viridis')
plt.title('Distribuição de Id Tipo Relevancia')
plt.xlabel('Id Tipo Relevancia')
plt.ylabel('Contagem')
plt.xticks(rotation=45)
plt.show()

### Análise das Classificações de Manchete


Este gráfico da maior suporte para entender que tipos de ocorrências são mais comuns, mas ainda sim precisa de melhor entendimento com o parceiro para tirar melhores informações deste gráfico. Entretanto, é possível ver que há muitas falhas de operação, sistema e ocorrências de manutenção, ou seja os processos definidos pela empresa podem estar mal definidos ou tem pouca eficiência, já que a empresa tem muitas vezes controle dos mesmos.

- No glossário de definições a CPTM define manchete como grupo de títulos ouj chamadas de uma ocorrência
- Importante entender que tipos de ocorrência são classificadas pela manchete de usuário

In [None]:
contagem_classificacao = df['Classificacao Manchete'].value_counts()

plt.figure(figsize=(12, 6))
sns.barplot(x=contagem_classificacao.index, y=contagem_classificacao.values, palette='magma')
plt.title('Ocorrências por Classificação de Manchete')
plt.xlabel('Classificação de Manchete')
plt.ylabel('Contagem')
plt.xticks(rotation=45)
plt.show()


### Análise Temporal

Gráficos de linha são gerados para visualizar as ocorrências ao longo do tempo. Nesse sentido, a partir da visualização dos gráficos é possível ver que em 2019 ( de março até junho ) tiveram mais ocorrências registradas quando comparado com outras épocas de outros anos.

Uma das provas desses dados é a as notícias dessa época afirmando mais panes e ocorrências na CPTM durante essa época, como a notícia do [G1](https://g1.globo.com/sp/sao-paulo/noticia/2019/03/29/panes-no-metro-e-na-cptm-crescem-150percent-no-primeiro-bimestre-de-2019.ghtml) e do [Diário Transporte](https://diariodotransporte.com.br/2019/05/05/linha-1-azul-foi-campea-de-falhas-do-metro-de-sao-paulo-em-2018-no-inicio-de-2019-maior-parte-das-falhas-ocorreu-no-monotrilho/), que fala sobre aumento significativo de panes durante o período citado a cima 

- O gráfico apresenta a contagem de ocorrências ao longo do tempo, permitindo a identificação de tendências e **padrões** sazonais.
- Picos ou quedas significativas podem indicar eventos específicos ou mudanças nas operações que resultaram em mais ou menos ocorrências.
- A visualização do gráfico tem que ser melhorada para conseguir realizar a visualização com determinado limite de datas para conseguir observar melhor a quantidade de ocorrências.

In [None]:
df['Data Normalizacao'] = pd.to_datetime(df['Data Normalizacao'], format='%d/%m/%Y %H:%M:%S', errors='coerce')

ocorrencias_por_data = df['Data Normalizacao'].value_counts().sort_index()

plt.figure(figsize=(14, 7))
plt.plot(ocorrencias_por_data.index, ocorrencias_por_data.values, marker='o')
plt.title('Ocorrências ao Longo do Tempo')
plt.xlabel('Data')
plt.ylabel('Contagem de Ocorrências')
plt.xticks(rotation=45)

plt.xlim(ocorrencias_df['Data'].min(), ocorrencias_df['Data'].max())

plt.grid()
plt.show()

In [None]:
df['Data Normalizacao'] = pd.to_datetime(df['Data Normalizacao'], format='%d/%m/%Y %H:%M:%S', errors='coerce')

ocorrencias_por_data = df['Data Normalizacao'].value_counts().sort_index()

plt.figure(figsize=(14, 7))
plt.plot(ocorrencias_por_data.index, ocorrencias_por_data.values, marker='o')
plt.title('Ocorrências ao Longo do Tempo')
plt.xlabel('Data')
plt.ylabel('Contagem de Ocorrências')
plt.xticks(rotation=45)

plt.xlim(pd.Timestamp('2019-01-01'), pd.Timestamp('2022-12-31'))

plt.grid()
plt.show()

In [None]:
df['Data Normalizacao'] = pd.to_datetime(df['Data Normalizacao'], format='%d/%m/%Y %H:%M:%S', errors='coerce')

ocorrencias_por_data = df['Data Normalizacao'].value_counts().sort_index()

plt.figure(figsize=(14, 7))
plt.plot(ocorrencias_por_data.index, ocorrencias_por_data.values, marker='o')
plt.title('Ocorrências ao Longo do Tempo')
plt.xlabel('Data')
plt.ylabel('Contagem de Ocorrências')
plt.xticks(rotation=45)

plt.xlim(pd.Timestamp('2019-01-01'), pd.Timestamp('2019-12-31'))

plt.grid()
plt.show()

### Análise das Descrições das Ocorrências

A frequência das descrições das ocorrências é calculada e visualizada em um gráfico de barras e por um print que tem melhor visualização da quantidade de vezes que essa descrição aparece. Os dados são filtrados para exibir as descrições mais frequentes, facilitando o entendimento do motivo das ocorrências. O resultado mostra que quase 83% das ocorrências parte de Dados Suprimidos ( o que dificulta a análise ) e Auxílio Social.

- O gráfico e o print destacam as 10 descrições de ocorrências mais frequentes, oferecendo uma visão clara dos tipos de eventos que são mais comuns.
- Se uma descrição é muito prevalente, isso pode sugerir uma área de foco para investigação adicional ou melhorias.

In [None]:
descricao_counts = df['Desc Ocorrencia'].value_counts()

for descricao, count in descricao_counts.head(10).items():
    print(f'Descrição: {descricao}, Contagem: {count}')

print()
print(f'Total de descrições únicas: {len(descricao_counts)}')


In [None]:
descricao_counts = df['Desc Ocorrencia'].value_counts().head(20)

plt.figure(figsize=(14, 7))
sns.barplot(x=descricao_counts.values, y=descricao_counts.index, palette='viridis')
plt.title('Contagem de Ocorrências por Descrição')
plt.xlabel('Contagem de Ocorrências')
plt.ylabel('Descrição da Ocorrência')
plt.grid(axis='x')
plt.show()

### Heatmap da Média de 'Id Tipo Relevancia' por 'Id Localidade' e 'Classificacao Manchete'

Este heatmap exibe a média do 'Id Tipo Relevancia' em relação a diferentes localidades e classificações de manchetes. 

- **Eixos**:
  - O eixo **Y** representa as diferentes localidades identificadas por 'Id Localidade'.
  - O eixo **X** representa as diferentes classificações de manchetes ('Classificacao Manchete').


- **Anotações**: Os valores dentro das células mostram a média do 'Id Tipo Relevancia' correspondente a cada combinação de localidade e classificação. As células vazias, representadas pela máscara, indicam que não há dados disponíveis para essa combinação.

Este gráfico facilita a identificação de localidades que têm um 'Id Tipo Relevancia' mais alto ou mais baixo em relação a diferentes classificações de manchetes, permitindo insights sobre o desempenho de relevância nas localidades analisadas além de entender quais o tipos de problemas mais aparentes para cada localidade.


In [None]:
media_relevancia = df_relevancia.pivot_table(values='Id Tipo Relevancia', index='Id Localidade', columns='Classificacao Manchete', aggfunc='mean')
plt.figure(figsize=(12, 10))
sns.heatmap(media_relevancia, annot=True, fmt=".1f", cmap="coolwarm", center=0, cbar_kws={'label': 'Média Id Tipo Relevancia'})  # fmt ajustado para ".1f"
plt.title("Média de Id Tipo Relevancia por Id Localidade e Classificacao Manchete")
plt.xlabel("Classificacao Manchete")
plt.ylabel("Id Localidade")
plt.show()

### Heatmap de Correlação entre Colunas Numéricas Selecionadas

O heatmap a seguir ilustra a correlação entre colunas numéricas selecionadas do conjunto de dados. A correlação mede a relação entre duas variáveis, que pode variar de -1 a 1.

- **Eixos**:
  - Tanto o eixo **X** quanto o eixo **Y** representam as colunas numéricas selecionadas, como 'Fl Estimados', 'Id Dataocorrencia', 'Id Localidade', 'Pass Estimados', e 'Total Ajustes'.

- **Cores**: A paleta de cores "vlag" é usada para representar a intensidade da correlação, onde valores próximos a 1 indicam uma forte correlação positiva (as variáveis aumentam juntas) e valores próximos a -1 indicam uma forte correlação negativa (uma variável aumenta enquanto a outra diminui). Valores próximos a 0 indicam pouca ou nenhuma correlação.

- **Anotações**: As células mostram os valores de correlação entre as variáveis, facilitando a identificação de relações significativas. Por exemplo, uma correlação alta entre 'Fl Estimados' e 'Pass Estimados' pode indicar que um aumento em estimativas de um resulta em um aumento nas estimativas do outro.

Este gráfico é valioso para entender como as variáveis numéricas interagem entre si e pode guiar decisões de análise e modelagem de dados.


In [None]:
colunas_numericas = ['Fl Estimados', 'Id Dataocorrencia', 'Id Localidade', 'Pass Estimados', 'Total Ajustes']
correlacao = df[colunas_numericas].corr()

mask = np.isnan(correlacao)

plt.figure(figsize=(8, 6))
sns.heatmap(correlacao, annot=True, cmap="vlag", center=0, mask=mask, cbar_kws={'label': 'Correlação'})
plt.title("Correlação entre Colunas Numéricas Selecionadas")
plt.show()

### Heatmap Geral de Correlação entre Variáveis Numéricas

Este heatmap apresenta a correlação entre todas as variáveis numéricas do conjunto de dados. A correlação é uma medida que indica a relação entre duas variáveis, com valores que variam de -1 a 1.

- **Eixos**:
  - Tanto o eixo **X** quanto o eixo **Y** representam as variáveis numéricas do conjunto de dados.

- **Cores**: A paleta de cores "coolwarm" é utilizada, onde cores mais quentes (vermelhas) indicam uma correlação positiva mais forte, enquanto cores mais frias (azuis) indicam uma correlação negativa mais forte. As células brancas indicam correlações próximas de 0, sugerindo pouca ou nenhuma relação entre as variáveis.

- **Anotações**: Cada célula contém o valor numérico da correlação entre as duas variáveis correspondentes, facilitando a identificação de relações significativas entre elas.

In [None]:
df_numerico = df.select_dtypes(include=['number'])

correlacao_geral = df_numerico.corr()

plt.figure(figsize=(14, 10))
sns.heatmap(correlacao_geral, annot=True, fmt=".2f", cmap="coolwarm", center=0, cbar_kws={'label': 'Correlação'})
plt.title("Heatmap Geral de Correlação entre Variáveis Numéricas")
plt.xticks(rotation=45)
plt.yticks(rotation=0)
plt.show()

### Convertendo o Arquivo para Parquet

In [None]:
%pip install pyarrow


In [None]:
%pip install pyarrow
import pyarrow.parquet as pq

df.to_parquet('FT_OCORRENCIAS')

### Hipóteses

&emsp;&emsp;A análise exploratória de dados da tabela FT_OCORRENCIAS permite levantar as seguintes hipóteses, baseadas nos padrões e nas distribuições de ocorrências observados:

**Elevado Volume de Ocorrências de Falhas Operacionais e de Sistema:** A alta incidência de ocorrências relacionadas a falhas operacionais, de sistema e de manutenção pode indicar uma insuficiência nos processos internos de controle e operação da CPTM. Uma possível explicação é a falta de manutenção preventiva ou treinamento insuficiente, resultando em mais problemas técnicos. Este dado pode ser corroborado pelo fato de que grande parte das ocorrências identificadas possui impacto direto na operação, possivelmente comprometendo a eficiência do sistema.

**Impacto das Condições Externas e Econômicas nas Ocorrências:** Com base na análise temporal, é perceptível um aumento significativo de ocorrências no período de março a junho de 2019. Esta elevação pode estar associada a eventos externos ou a fatores sazonais que afetaram a operação. Como citado nas notícias da época, o aumento de panes pode estar relacionado a um possível aumento de uso do sistema ferroviário ou a uma sobrecarga nos equipamentos, o que resultou em mais registros de falhas.

**A Relevância dos Dados Ocultos e do Auxílio Social:** Observa-se que mais de 80% das ocorrências são descritas como “Dados Suprimidos” ou “Auxílio Social”. A presença de “Dados Suprimidos” como uma descrição predominante limita a capacidade de análise, pois representa uma quantidade significativa de dados que não estão claramente documentados. Já o “Auxílio Social” pode estar associado a uma demanda adicional de apoio dentro das estações e sistemas, sugerindo possíveis deficiências na gestão do atendimento social.

**Importância de Especificar a Relevância das Ocorrências:** Uma grande parte das ocorrências é registrada com a relevância -1, indicando uma falta de classificação detalhada sobre a importância dos eventos. Isso pode prejudicar a priorização de manutenção e resolução de falhas. A ausência de uma classificação clara sugere uma possível necessidade de padronização ou de revisão do sistema de categorização, visando tornar mais fácil a análise e o tratamento diferenciado das ocorrências com maior impacto.

## Conclusão

&emsp;&emsp;A análise da tabela FT_OCORRENCIAS revela padrões importantes e destaca áreas de atenção para a CPTM. Primeiramente, as falhas recorrentes, especialmente aquelas associadas à operação e ao sistema, sugerem possíveis lacunas em processos internos e reforçam a necessidade de investimentos em infraestrutura e manutenção preventiva. A análise temporal dos dados indica que há períodos de pico de ocorrências, como observado entre março e junho de 2019, que podem estar relacionados a mudanças sazonais ou a eventos específicos. Além disso, a predominância de registros classificados como “Dados Suprimidos” impede uma análise completa das ocorrências e dificulta o direcionamento de melhorias. Tais dados evidenciam a necessidade de uma revisão na documentação das ocorrências, para que sejam mais detalhadas e para que informações vitais não sejam omitidas, o que poderia enriquecer a análise e permitir uma resposta mais eficiente às demandas do sistema.

&emsp;Por fim, a análise de relevância das ocorrências sugere a importância de um sistema de categorização mais preciso. A falta de um entendimento detalhado da relevância de cada evento torna a análise superficial e impede que as decisões de gestão de falhas e de processos sejam baseadas em informações prioritárias. A implementação de classificações mais granulares, aliada a um treinamento mais adequado para a equipe responsável pelo registro de ocorrências, é recomendada para otimizar a análise futura e possibilitar uma gestão mais eficiente e proativa do sistema ferroviário.