## Tratamento de Tabela
Este notebook realiza o carregamento, limpeza e transformação de um conjunto de dados para ser colocado na AWS S3.

In [None]:
import pandas as pd

## Carregando o DataFrame

Para carregar o DataFrame, você deve colocar o arquivo csv "dmo_anl_vw_tot_mov_periodo.csv" na pasta 'copper-etl', depois copiar o caminho em 'Copy Path' e depois colocar em file_path.



In [6]:
file_path = r'dmo_anl_vw_tot_mov_periodo.csv'

df = pd.read_csv(file_path, encoding='latin1', low_memory=False)

print(df.head())

   id_dt_hora_minuto  cod_bilh  cd_estac_bu       dt_validacao  \
0                 46      3001          619  10/24/23 00:00:00   
1                 46      3001          619  10/25/23 00:00:00   
2                 46      3001          619  10/26/23 00:00:00   
3                 46      3001          619  10/27/23 00:00:00   
4                 46      3001          619  10/28/23 00:00:00   

   total_validacoes tipo_dia  
0                59        U  
1               107        U  
2                67        U  
3                66        U  
4                78        S  


## Preparação dos dados
Essas etapas preparam o conjunto de dados para análise, assegurando que ele esteja completo (sem nulos), consistente (com colunas tratadas e tipos de dados corretos) e único (sem duplicatas). Com o DataFrame limpo e estruturado, pode-se prosseguir para o S3.

In [7]:
numeric_cols = df.select_dtypes(include=['float64', 'int64']).columns
df[numeric_cols] = df[numeric_cols].fillna(df[numeric_cols].mean())


In [9]:
for col in mixed_type_cols:
    df[col] = pd.to_numeric(df[col], errors='coerce')


In [10]:
df[mixed_type_cols] = df[mixed_type_cols].fillna(df[mixed_type_cols].mean())


In [11]:
for col in mixed_type_cols:
    df[col] = df[col].astype(str)

In [12]:
for col in mixed_type_cols:
    if df[col].dtype == 'object':
        df[col] = df[col].fillna(df[col].mode()[0])

In [13]:
print(df.dtypes)

id_dt_hora_minuto     int64
cod_bilh              int64
cd_estac_bu           int64
dt_validacao         object
total_validacoes      int64
tipo_dia             object
dtype: object


In [14]:
df.drop_duplicates(inplace=True)
print(f"Número de linhas após remoção de duplicatas: {len(df)}")

Número de linhas após remoção de duplicatas: 3028393


Transformando para .parquet

In [23]:
df.to_parquet('dmo_anl_vw_tot_mov_periodo.parquet', index=False)