# Análise Exploratória da Tabela 'dmo_anl_vw_estacao'

Este notebook apresenta a análise exploratória de dados da tabela 'dmo_anl_vw_estacao'. o principal intuito desta análise é entender melhor os dados desta tabela e se possível gerar hipóteses e insights que se relacionem com a área de materiais.

Nesse sentido, aqui serão examinadas as principais características de um conjunto de dados, identificando padrões, tendências, outliers e possíveis relações entre variáveis. Utilizando estatísticas descritivas, gráficos e visualizações, a AED ajudará a entender a estrutura dos dados, verificar hipóteses e orientar etapas futuras, como modelagem ou limpeza. Essa análise é essencial para fazer escolhas informadas sobre quais métodos e técnicas aplicar no restante do projeto.

O notebook apresenta as seguintes seções:
1. Instalações
2. Importação da Base
3. Início das Análises 
4. Considerações Finais

# 1. Instalações


In [None]:
%pip install boto3

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import LabelEncoder
import numpy as np
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
import boto3
import pandas as pd
import pyarrow.parquet as pq

In [None]:
%pip install openpyxl

# 2. Importação da Base

In [None]:
database = pd.read_excel('Consumo.xlsx')

In [None]:
database.head()


In [None]:
# Contar o número total de NaN no DataFrame
total_nan = database.isna().sum().sum()
print("Número total de valores NaN:", total_nan)

# Contar o número total de linhas duplicadas
total_duplicates = database.duplicated().sum()
print("Número total de linhas duplicadas:", total_duplicates)

In [None]:
# Identificar as duplicatas, mantendo apenas a primeira ocorrência
duplicated_rows = database[database.duplicated(keep='first')]

# Mostrar cada linha duplicada e sua linha original correspondente
print("Linhas duplicadas e seus índices originais:")

for index in duplicated_rows.index:
    # Encontra a primeira ocorrência da linha duplicada
    original_index = database[database.eq(database.loc[index]).all(axis=1)].index[0]
    print(f"Linha duplicada no índice {index} é igual à linha original no índice {original_index}")

In [None]:
database_duplicatas=  database.drop_duplicates(keep='first')
print("DataFrame sem duplicatas:")
print(database_duplicatas)

In [None]:
# Definir a primeira linha como cabeçalho
database_duplicatas.columns = database_duplicatas.iloc[0]  # Define a primeira linha como cabeçalho
df = database_duplicatas[1:].reset_index(drop=True)  # Remove a primeira linha e redefine o índice

df.head()

In [None]:

# Supondo que 'df' seja o seu DataFrame
empty_rows = df.isnull().all(axis=1).sum()
print(f"Número de linhas vazias: {empty_rows}")


In [None]:
df.attrs.clear()

In [None]:
df.to_parquet('../../datalake/consumo_2019-2024.parquet')

In [None]:
%pip install unidecode
from unidecode import unidecode

df.columns = [unidecode(col) for col in df.columns]




In [None]:
df

# 3. Início das Análises

A primeira etapa da Análise exploratório é entender os dados apresentados na tabela. Para isso, será feita a visualização inicial da base.

In [None]:
database.head()

In [None]:
database.dtypes

In [None]:
for column in database:
    print(f'{column}: {database[column].unique()}')