# Tratamento de Dados

## Importando as dependências

In [1]:
import pandas as pd
from hydra import initialize, compose

with initialize(version_base=None, config_path="../config/"):
    cfg = compose(config_name='main')

- initialize(version_base=None, config_path="../config/") inicia o Hydra.
        version_base=None especifica que não há uma versão base definida.
        config_path="../config/" indica o caminho para o diretório contendo os arquivos de configuração.
- compose(config_name='main') carrega o arquivo de configuração 'main' do diretório especificado.
- cfg armazena as configurações carregadas do arquivo 'main'.

## Carregando o DataSet 

In [2]:
df = pd.read_csv(f"../{cfg.data.raw}")

- cfg.data.raw acessa a configuração carregada anteriormente através do Hydra, provavelmente contendo informações sobre o caminho do arquivo CSV a ser carregado.
- f"../{cfg.data.raw}" constrói o caminho do arquivo CSV com base nas informações contidas na configuração carregada.
- pd.read_csv() é uma função do pandas utilizada para ler arquivos CSV e carregar os dados em um DataFrame.
- df armazena os dados do arquivo CSV no DataFrame.

## Tratamento dos dados

In [3]:
# Remover Dados Duplicados
df_tratado = df.drop_duplicates()

- df.drop_duplicates() é um método do pandas aplicado ao DataFrame df que remove as linhas duplicadas.
- O DataFrame resultante é armazenado na variável df_tratado.

In [4]:
# Remover Linhas sem valor/valor nulo
df_tratado = df_tratado.dropna()

- df_tratado.dropna() é um método do pandas aplicado ao DataFrame df_tratado que remove linhas contendo valores nulos.
- O DataFrame resultante, sem os valores nulos, é armazenado novamente na variável df_tratado

## Salvando os dados

In [5]:
df_tratado.to_csv(f"../{cfg.data.interim}", index=False)

- df_tratado.to_csv() é um método do pandas utilizado para salvar o DataFrame em um arquivo CSV.
- f"../{cfg.data.interim}" constrói o caminho do arquivo CSV de saída com base nas informações contidas na configuração carregada anteriormente.
- index=False especifica que o índice do DataFrame não será salvo como uma coluna no arquivo CSV.