In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

### DMO_ANL_VW_ESTACAO.csv

Esta célula é responsável por carregar os dados de um arquivo CSV contendo informações sobre estações. O arquivo DMO_ANL_VW_ESTACAO.csv é lido e transformado em um DataFrame do Pandas.

In [None]:
class StationDataLoader:
    def __init__(self, file_path):
        self.file_path = file_path
        self.data = None
    
    def load_data(self):
        self.data = pd.read_csv(self.file_path)
        return self.data

station_loader = StationDataLoader('DMO_ANL_VW_ESTACAO.csv')
station_data = station_loader.load_data()

Esta célula fornece uma visão geral dos dados carregados do arquivo CSV. Ela mostra a estrutura dos dados, incluindo:
- Shape: Os dados têm 97 linhas e 4 colunas.
- Colunas: As colunas presentes são ID_ESTACAO, TX_PREFIXO, TX_NOME e CD_ESTACAO_BU.

In [None]:
class StationDataAnalyzer:
    def __init__(self, data):
        self.data = data
    
    def get_overview(self):
        return {
            "shape": self.data.shape,
            "columns": self.data.columns.tolist(),
            "head": self.data.head()
        }
    def get_df(self):
        return self.data
station_analyzer = StationDataAnalyzer(station_data)
overview = station_analyzer.get_overview()


overview

In [None]:
station_analyzer.get_df()

- Valores Ausentes:
Não há valores ausentes em nenhuma das colunas (ID_ESTACAO, TX_PREFIXO, TX_NOME, CD_ESTACAO_BU).

- Tipos de Dados:
As colunas ID_ESTACAO e CD_ESTACAO_BU são do tipo int64, representando identificadores numéricos.
As colunas TX_PREFIXO e TX_NOME são do tipo object, representando dados textuais.

- Prefixos e Nomes Únicos:
Existem 97 prefixos únicos de estações, o que sugere que cada estação tem um identificador único.
Existem também 97 nomes de estações únicos, mostrando que os nomes não se repetem, o que facilita a identificação individual de cada estação.

- Os dados estão bem organizados e sem valores ausentes, permitindo uma análise detalhada de prefixos e nomes das estações. A unicidade dos prefixos e nomes sugere que cada estação tem uma identidade única no sistema. Isso pode ser útil para análises que envolvam geolocalização ou mapeamento de rotas e intervalos entre as estações.

In [None]:
missing_values = station_data.isnull().sum()
print("Valores ausentes por coluna:")
print(missing_values)

print("\nTipos de dados de cada coluna:")
print(station_data.dtypes)

unique_prefixes = station_data['TX_PREFIXO'].unique()
unique_names = station_data['TX_NOME'].unique()

print(f"\nTotal de prefixos únicos: {len(unique_prefixes)}")
print(f"Prefixos únicos: {unique_prefixes}")

print(f"\nTotal de nomes de estações únicos: {len(unique_names)}")
print(f"Nomes de estações únicos (primeiros 10): {unique_names[:10]}")


### DMO_ANL_VW_INTERVALOS_DIA.csv

Esta célula é responsável por carregar os dados de um arquivo CSV contendo informações sobre estações. O arquivo DMO_ANL_VW_INTERVALOS_DIA.csv é lido e transformado em um DataFrame do Pandas.

In [None]:
class DataLoader:
    def __init__(self, file_path):
        self.file_path = file_path
        self.data = None
    
    def load_data(self):
        self.data = pd.read_csv(self.file_path)
        return self.data

intervals_loader = DataLoader('DMO_ANL_VW_INTERVALOS_DIA.csv')
intervals_data = intervals_loader.load_data()

Estrutura dos Dados:

- O DataFrame contém 96 linhas e 4 colunas: DT_HORA_MINUTO, ID_DT_HORA_MINUTO, HORA_INI, HORA_FIM.

- Colunas:
    - DT_HORA_MINUTO representa a data e hora específica de cada intervalo.
    - ID_DT_HORA_MINUTO é um identificador único para cada registro.
    - HORA_INI e HORA_FIM indicam o horário de início e término de cada intervalo.

In [None]:
class IntervalDataAnalyzer:
    def __init__(self, data):
        self.data = data
    
    def get_overview(self):
        return {
            "shape": self.data.shape,
            "columns": self.data.columns.tolist(),
            "head": self.data.head()
        }
    
    def get_df(self):
        return self.data

intervals_analyzer = IntervalDataAnalyzer(intervals_data)
intervals_overview = intervals_analyzer.get_overview()
intervals_overview

In [None]:
intervals_analyzer.get_df()

- Valores Ausentes:
Nenhuma coluna apresenta valores ausentes, o que é positivo para a continuidade das análises, pois não será necessário tratamento de dados faltantes.

- Tipos de Dados:
    - A coluna DT_HORA_MINUTO é do tipo object, indicando que a data e hora estão sendo tratadas como texto, o que pode ser ajustado para datetime para facilitar cálculos temporais futuros.
    - As colunas HORA_INI e ID_DT_HORA_MINUTO são numéricas, com int64, o que está de acordo com suas funções de identificação e referência horária.
    - A coluna HORA_FIM está corretamente formatada como datetime64, permitindo operações temporais, como o cálculo de durações.
    - A coluna DURATION_MINUTES é do tipo float64, o que é esperado, já que contém durações calculadas em minutos com casas decimais.

In [None]:
missing_values = intervals_data.isnull().sum()
print("Valores ausentes por coluna:")
print(missing_values)

print("\nTipos de dados de cada coluna:")
print(intervals_data.dtypes)

- Conversão de HORA_INI e HORA_FIM:
As colunas HORA_INI e HORA_FIM foram convertidas para o formato datetime, facilitando o cálculo da duração dos intervalos em unidades de tempo.

- Cálculo e Correção da Duração
A coluna DURATION_MINUTES foi criada ao calcular a diferença entre HORA_FIM e HORA_INI, inicialmente em segundos.
Essa duração foi então ajustada para o valor correto em minutos, dividindo o resultado conforme necessário para corrigir qualquer multiplicação acidental nos cálculos anteriores.

- A adição da coluna DURATION_MINUTES permite uma análise precisa da duração de cada intervalo. Esse cálculo é essencial para identificar padrões de tempo, como possíveis flutuações na duração dos intervalos ao longo do dia.

In [None]:
intervals_data['HORA_INI'] = pd.to_datetime(intervals_data['HORA_INI'], format='%H:%M:%S')
intervals_data['HORA_FIM'] = pd.to_datetime(intervals_data['HORA_FIM'], format='%H:%M:%S')

intervals_data['DURATION_MINUTES'] = (intervals_data['HORA_FIM'] - intervals_data['HORA_INI']).dt.total_seconds() / 6

intervals_data['DURATION_MINUTES'] = intervals_data['DURATION_MINUTES'] / 10

O gráfico abaixo mostra a variação da duração média dos intervalos ao longo das 24 horas do dia. O comportamento observado é o seguinte:

- Queda Inicial:
Logo após a primeira hora do dia (00:00), há uma queda acentuada de 15.0 minutos para aproximadamente 14.98 minutos, o que pode indicar uma mudança no padrão de intervalos durante o início da madrugada.

- Estabilidade:
Entre as horas seguintes (02:00 até 21:00), a duração dos intervalos permanece praticamente estável, oscilando em torno de 14.983 minutos. Isso sugere uma uniformidade nos intervalos ao longo do dia, possivelmente refletindo um padrão operacional constante.

- Queda Final:
Próximo ao final do dia (após as 22:00), há uma nova queda, atingindo o valor mínimo de 14.966 minutos. Essa variação pode refletir ajustes nas operações ou mudanças de turno.

- O comportamento estável durante a maior parte do dia indica que o sistema mantém intervalos consistentes, com algumas variações nos períodos de início e final do dia. Esses padrões podem ser utilizados para otimizar o planejamento e operação de intervalos, especialmente nas transições entre os diferentes períodos do dia.

In [None]:
hourly_duration_mean_values = np.array([15.0, 14.98333333, 14.98333333, 14.98333333, 14.98333333,
       14.98333333, 14.98333333, 14.98333333, 14.98333333, 14.98333333,
       14.98333333, 14.98333333, 14.98333333, 14.98333333, 14.98333333,
       14.98333333, 14.98333333, 14.98333333, 14.98333333, 14.98333333,
       14.98333333, 14.98333333, 14.98333333, 14.98333333, 14.98333333,
       14.98333333, 14.98333333, 14.98333333, 14.98333333, 14.98333333,
       14.98333333, 14.98333333, 14.98333333, 14.98333333, 14.98333333,
       14.98333333, 14.98333333, 14.98333333, 14.98333333, 14.98333333,
       14.98333333, 14.98333333, 14.98333333, 14.98333333, 14.98333333,
       14.98333333, 14.98333333, 14.98333333, 14.98333333, 14.98333333,
       14.98333333, 14.98333333, 14.98333333, 14.98333333, 14.98333333,
       14.98333333, 14.98333333, 14.98333333, 14.98333333, 14.98333333,
       14.98333333, 14.98333333, 14.98333333, 14.98333333, 14.98333333,
       14.98333333, 14.98333333, 14.98333333, 14.98333333, 14.98333333,
       14.98333333, 14.98333333, 14.98333333, 14.98333333, 14.98333333,
       14.98333333, 14.98333333, 14.98333333, 14.98333333, 14.98333333,
       14.98333333, 14.98333333, 14.98333333, 14.98333333, 14.98333333,
       14.98333333, 14.98333333, 14.98333333, 14.98333333, 14.98333333,
       14.98333333, 14.98333333, 14.98333333, 14.98333333, 14.98333333,
       14.96666667])

hours = np.arange(96)

plt.figure(figsize=(10, 6))
plt.plot(hours, hourly_duration_mean_values, marker='o', linestyle='-', color='b') 
plt.title('Variação da Duração dos Intervalos ao Longo do Dia')
plt.xlabel('Hora do Dia')
plt.ylabel('Duração Média dos Intervalos (minutos)')
plt.ylim(hourly_duration_mean_values.min() - 0.01, hourly_duration_mean_values.max() + 0.01)  
plt.xticks(range(96)) 
plt.grid(True)
plt.tight_layout()

plt.show()


- Outliers:
    - Um outlier com valor mais baixo (~14.965 minutos).
    - Um outlier com valor mais alto (15.0 minutos).

A presença de outliers, embora pequena, pode indicar eventos específicos ou inconsistências que merecem investigação. Estes outliers podem impactar o desempenho operacional e devem ser monitorados, especialmente se ocorrerem em momentos críticos do dia ou em horários de alta demanda.

In [None]:
Q1 = intervals_data['DURATION_MINUTES'].quantile(0.25)
Q3 = intervals_data['DURATION_MINUTES'].quantile(0.75)
IQR = Q3 - Q1

lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

outliers = intervals_data[(intervals_data['DURATION_MINUTES'] < lower_bound) | (intervals_data['DURATION_MINUTES'] > upper_bound)]

plt.figure(figsize=(10, 6))
plt.boxplot(intervals_data['DURATION_MINUTES'], vert=False)
plt.title('Boxplot da Duração dos Intervalos com Outliers')
plt.xlabel('Duração dos Intervalos (minutos)')
plt.grid(True)
plt.show()

## Salvar em .parquet

In [None]:
from services.parquet import Conversor

# Instancia o conversor de Parquet
conversor = Conversor()

# Converte e salva os DataFrames para o formato Parquet
conversor.df_to_parquet(station_analyzer.get_df(), "./estacao.parquet")
conversor.df_to_parquet(intervals_analyzer.get_df(), "./intervalos.parquet")


## Enviar para o s3

In [None]:
from services.aws_conn import AwsConn

# Instancia a conexão AWS
aws_conn = AwsConn()

# Envia os arquivos Parquet para o S3
aws_conn.send_to_s3("estacao.parquet", "big-data-DMO-ANL", "estacao.parquet")


In [None]:
aws_conn.send_to_s3("intervalos.parquet", "big-data-DMO-ANL", "intervalos.parquet")
