# Exploração da Tabela DONI_STG_GHR_VW_VIAGEM_MSTRBI_DADOS

Este código python tem como objetivo explorar a tabela *DONI_STG_GHR_VW_VIAGEM_MSTRBI_DADOS* com o intuíto de compreender os dados, possibilitando o melhor processamento e tratamento dos mesmos.

**Obs:** Esta exploração não foi concluída. Ao falar com o Afonso ( professor de programação atrelado ao projeto ), percebemos que os dados estão errados ou faltantes. Tal aspecto deixava os cálculos da exploração enviesados, por isso foi decidio que a exploração seria trancada até novo envio da base de dados pela CPTM.

## Importação da Bibliotecas

As bibliotecas utilizadas são básicas de quase todas as exploração de dados. É possível visualizar no bloco de código a baixo bibliotecas que auxiliam na leitura e exploração da bases (pandas), bibliotecas de plotagem de gráficos (seaborn e matplotlib.pyplot), uma biblioteca para identificar para detectar automaticamente a codificação de caracteres em um arquivo (chardet) e para transformar variáveis categóricas em numéricas (LabelEncoder). A partir deste cenário temos o seguinte bloco de código com a importação dessas bibliotecas.

In [None]:
import pandas as pd
import chardet
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.preprocessing import LabelEncoder

## Exploração dos Dados

A exploração de dados auxilia no entendimento dos dados do projeto e como é possível trabalhar com eles para transformá-los em informações úteis para tomadas de decisão, além de melhor entendimento dos processos empresariais e outros ganhos que esta prática traz. Normalmente a exploração de dados pode ser feita de diversas formas, o mais comum entre os programadores é realizar a exploração de dados Diagnóstica (busca padrões dentro dos dados) e Associativa (busca identificar relações entre itens em grandes conjuntos de dados). Nesse sentido, as com os tipos de análises definidas foram feitos os passos, representados nos blocos de código a baixo.

In [None]:
file_path = "DONI_STG_GHR_VW_VIAGEM_MSTRBI_DADOS.csv"

with open(file_path, 'rb') as f:
    result = chardet.detect(f.read())
    encoding = result['encoding']

In [None]:
df = pd.read_csv(file_path, sep = ',', encoding = encoding) 
print(df.head())

In [None]:
df['DT_OPERACIONAL']

### Campos Nulos da Tabela

A partir do print da quantidade dos campos nulos nas tabelas foi possível identificar uma grande quantidade dos mesmos dentro da base. Nesse sentido, com uma grande quantidade de dados nulos, a exploração e tratamento dos dados pode ser dificultada.

In [None]:
nulos_por_coluna = df.isnull().sum()

colunas_com_nulos = nulos_por_coluna[nulos_por_coluna > 0]
print(colunas_com_nulos)

In [None]:
df.info()

### Plotagem dos Gráficos

Esta etapa é impresindível para entender melhor a distribuição dos dados. A plotagem do primeiro gráfico tem como finalidade entender quais linhas tem maiores registros de viagens, utilizando a bibilioteca matplotlib para o display do gráfico gerado. Ademais, a contagem foi distribuída dentro de barras para facilitar a visualização da diferenção da quantidade de viagem de cada linha.

O segundo gráfico tem como finalidade entender como as variáveis numérias se relacionam umas com as outras. Quanto maior sua relação mais quente é sua cor e o contrário também é verdade, quanto menor a sua relação com outra variável mais fria é a cor. Portanto, a plotagem do heatmap é muito importante para entender como as variáveis se relacionam dentro do datase, podendo trazer insights e descoberta de padrões de comportamento do dataset.

In [None]:
linha_viagens = df['DT_OPERACIONAL'].value_counts()

plt.figure(figsize=(10, 6))
sns.barplot(x=linha_viagens.values, y=linha_viagens.index, palette='viridis')

plt.title('Número de Viagens por Linha Operacional', fontsize=16)
plt.xlabel('Número de Viagens')
plt.ylabel('Linha Operacional')

plt.show()

In [None]:
df_numeric = df.select_dtypes(include=[float, int])

corr_df = df_numeric.corr()

plt.figure(figsize=(12, 8))
sns.heatmap(corr_df, annot=True, cmap='coolwarm')
plt.title('Correlação entre Variáveis - Matemática')
plt.show()