<a href="https://colab.research.google.com/github/vmjunior01/cd01/blob/main/Etapa07_Fase02_Robotica_cjovem_StandardScaler.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
!pip install unidecode
import pandas as pd
import joblib
import os
from sklearn.preprocessing import StandardScaler
from unidecode import unidecode  # Para remover acentos

# Lista de anos dos arquivos a serem processados
anos = [2023, 2024, 2025]

# Caminho base
caminho_base = '/content'

for ano in anos:
    nome_arquivo = f'df_coleta{ano}.z'
    caminho_arquivo = os.path.join(caminho_base, nome_arquivo)

    try:
        # Carregar o DataFrame
        df = joblib.load(caminho_arquivo)

        # Renomear colunas: minúsculas e sem acentos
        df.columns = [unidecode(col).lower() for col in df.columns]

        print(f"\nColunas no arquivo df_coleta{ano} após renomeação: {list(df.columns)}")

        # Verificação de colunas
        colunas_esperadas = ['peso', 'local', 'residuo']
        if not all(col in df.columns for col in colunas_esperadas):
            print(f"Colunas necessárias não encontradas no arquivo de {ano}. Pulando este.")
            continue

        # Mostrar primeiras linhas do DataFrame original
        print(f"\nPrimeiras linhas do df_coleta{ano} (original):")
        print(df.head())

        # Normalizar a coluna 'peso'
        scaler = StandardScaler()
        df['peso_normalizado'] = scaler.fit_transform(df[['peso']])

        # One-Hot Encoding nas colunas 'local' e 'residuo'
        df = pd.get_dummies(df, columns=['local', 'residuo'])

        # Mostrar primeiras linhas do DataFrame processado
        print(f"\nPrimeiras linhas do df_coleta{ano} (processado):")
        print(df.head())

        # Salvar em formato .z
        nome_saida_z = f'df_coleta_normalizada_{ano}.z'
        caminho_saida_z = os.path.join(caminho_base, nome_saida_z)
        joblib.dump(df, caminho_saida_z)

        # Salvar em formato .csv
        nome_saida_csv = f'df_coleta_normalizada_{ano}.csv'
        caminho_saida_csv = os.path.join(caminho_base, nome_saida_csv)
        df.to_csv(caminho_saida_csv, index=False)

        print(f"Arquivos df_coleta_normalizada_{ano}.z e .csv salvos com sucesso.")

    except Exception as e:
        print(f"Erro ao processar {nome_arquivo}: {e}")



Collecting unidecode
  Downloading Unidecode-1.4.0-py3-none-any.whl.metadata (13 kB)
Downloading Unidecode-1.4.0-py3-none-any.whl (235 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m235.8/235.8 kB[0m [31m4.6 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: unidecode
Successfully installed unidecode-1.4.0

Colunas no arquivo df_coleta2023 após renomeação: ['data', 'mes', 'coleta', 'local', 'residuo', 'peso']

Primeiras linhas do df_coleta2023 (original):
        data        mes  coleta             local           residuo  peso
0 2023-01-04    Janeiro       1  Drone de Garagem     Impressora 3D  10.5
1 2023-01-04    Janeiro       1  Drone de Garagem      Caixa Drones   7.8
2 2023-01-25    Janeiro       2               JSB  Ferro e Plástico  13.1
3 2023-02-06  Fevereiro       3            Locmed             Placa  13.9
4 2023-02-06  Fevereiro       3            Locmed     Bateria Litio  33.1

Primeiras linhas do df_coleta2023 (processado):
        da