# Tratamento dos dados

## Processo de limpeza dos dados

Este documento tem como objetivo registrar detalhadamente todas as etapas realizadas durante o processo de limpeza e preparação dos dados, garantindo rastreabilidade, transparência e facilitando futuras manutenções ou reanálises.

A metodologia aplicada separa esse processo em duas etapas. Inicialmente, foi realizado o tratamento de valores ausentes e inconsistências. Em seguida, foi feita a normalização e padronização de variáveis.

A seguir será detalhada a primeira etapa desse processo.

## Tratamento de valores ausentes e inconsistências

Nessa fase, foi realizado o tratamento de valores ausentes e inconsistentes nos seguintes dataframes:

- `df_clientes`
- `df_vendas`
- `df_produtos`

Os demais dataframes não possuíam irregularidades.

### DataFrame: `df_clientes`

Nesse dataframe haviam colunas nulas, semelhante a algo criptografado. Com o objetivo de facilitar as próximas análises, foi realizada a remoção das seguintes colunas:

- `tidfiscs`
- `ccnae`
- `dnasc`
- `itemt`
- `iprz`
- `ccrm1`
- `nctx`
- `ccrm2`
- `nctx-2`
- `ccrm3`
- `ccrm4`
- `nctx-4` (repetido)
- `nctx-5`
- `ccrm6`
- `nctx-6`
- `crota`
- `nctx-3`
- `ccrm5`
- `crota_idol`

Colunas mantidas:

- `codigo`
- `id_fiscal`
- `nome`
- `nome_fantasia`
- `natureza_juridica`
- `id_fiscal_2`
- `id_fiscal_3`
- `contribuinte_icms`
- `pdc`
- `vendedor`
- `cst`

Tratamento adicional:
- A coluna `vendedor` foi preenchida com dados da tabela `df_vendedor.z`.
- Valor nulo em `id_fiscal` foi substituído por 0.
- As colunas `pdc` e `vendedor` foram convertidas para o tipo `int64`.

### Pré-tratamento (`df_clientes`)

| Coluna                 | Valores Nulos |
|------------------------|----------------|
| codigo                 | 0              |
| id_fiscal              | 1              |
| nome                   | 0              |
| nome_fantasia          | 0              |
| natureza_juridica      | 0              |
| id_fiscal_2            | 0              |
| id_fiscal_3            | 0              |
| tidfiscs               | 3131           |
| contribuinte_icms      | 0              |
| ccnae                  | 3131           |
| dnasc                  | 3124           |
| pdc                    | 0              |
| itemt                  | 3129           |
| iprz                   | 3132           |
| ccrm1                  | 3131           |
| nctx                   | 3131           |
| ccrm2                  | 3131           |
| nctx-2                 | 3131           |
| ccrm3                  | 3132           |
| nctx-3                 | 3132           |
| ccrm4                  | 3132           |
| nctx-4                 | 3132           |
| ccrm5                  | 3132           |
| nctx-5                 | 3132           |
| ccrm6                  | 3132           |
| nctx-6                 | 3132           |
| crota                  | 3132           |
| crota_idol             | 6              |
| vendedor               | 260            |
| cst                    | 0              |

### Pós-tratamento (`df_clientes`)

| Coluna                 | Valores Nulos |
|------------------------|----------------|
| codigo                 | 0              |
| id_fiscal              | 0              |
| nome                   | 0              |
| nome_fantasia          | 0              |
| natureza_juridica      | 0              |
| id_fiscal_2            | 0              |
| id_fiscal_3            | 0              |
| contribuinte_icms      | 0              |
| pdc                    | 0              |
| vendedor               | 0              |
| cst                    | 0              |

### DataFrame: `df_vendas`

#### Colunas com 100% de valores ausentes:

- `origem`
- `motivo_perda`

#### Colunas com alta taxa de ausência:

- `codigo_parceiro` (99.99%)
- `codigo_mecanico_empregado` (99.95%)
- `placa` (99.95%)
- `campanha` (99.03%)

#### Coluna com poucos ausentes:

- `data_faturamento` (menos de 0.1%)

#### Colunas sem valores ausentes:

- `codigo_cliente`, `centro_resultado`, `tipo_pedido`, `codigo_empresa`, `documento`, `hora_emissao`, `codigo_empregado`, `data_fechamento`, `hora_fechamento`, `data_emissao`, `codigo_produto`, `custo_medio`, `total`, `quantidade`, `valor_desconto`

#### Decisões tomadas:

- Remoção de colunas com mais de 99% de nulos.
- Exclusão de linhas com nulos em `data_faturamento`.

### Pré-tratamento (`df_vendas`)

| Coluna                      | Percentual de Valores Nulos |
|----------------------------|-----------------------------|
| origem                     | 100.000.000%                |
| motivo_perda               | 100.000.000%                |
| codigo_parceiro            | 99.990.410%                 |
| codigo_mecanico_empregado | 99.952.052%                 |
| placa                      | 99.952.052%                 |
| campanha                   | 99.031.454%                 |
| data_faturamento           | 95.896%                     |
| codigo_cliente             | 0%                          |
| centro_resultado           | 0%                          |
| tipo_pedido                | 0%                          |
| codigo_empresa             | 0%                          |
| documento                  | 0%                          |
| hora_emissao               | 0%                          |
| codigo_empregado           | 0%                          |
| data_fechamento            | 0%                          |
| hora_fechamento            | 0%                          |
| data_emissao               | 0%                          |
| codigo_produto             | 0%                          |
| custo_medio                | 0%                          |
| total                      | 0%                          |
| quantidade                 | 0%                          |
| valor_desconto             | 0%                          |

### Pós-tratamento (`df_vendas`)

| Coluna                | Valores Nulos |
|------------------------|----------------|
| codigo_empresa         | 0              |
| tipo_pedido            | 0              |
| centro_resultado       | 0              |
| documento              | 0              |
| codigo_cliente         | 0              |
| codigo_empregado       | 0              |
| data_emissao           | 0              |
| hora_emissao           | 0              |
| data_fechamento        | 0              |
| hora_fechamento        | 0              |
| data_faturamento       | 0              |
| codigo_produto         | 0              |
| quantidade             | 0              |
| total                  | 0              |
| custo_medio            | 0              |
| valor_desconto         | 0              |

As colunas de data `data_emissao`, `data_fechamento`, `data_faturamento` foram convertidas para o tipo `datetime`.

### DataFrame: `df_produtos`

#### Avaliação de valores ausentes:

| Coluna              | % de Valores Nulos |
|---------------------|--------------------|
| codigo_barras       | 98.84%             |
| marca               | 1.22%              |
| unidade             | 1.15%              |
| categoria           | 0.03%              |
| codigo_categoria    | 0.03%              |
| codigo              | 0.01%              |
| descricao           | 0%                 |
| classificacao       | 0%                 |
| preco_venda         | 0%                 |

Conclusão: 

- A coluna `codigo_barras` possui mais de 98% dos ausentes, sendo uma forte candidata a ser removida.

- As colunas `descricao`, `classificacao` e `preco_venda` não possuem valores ausentes, garantindo boa confiabilidade.

- As demais colunas possuem uma baixa porcentagem de valores ausentes (menor que 2%), logo será necessário uma estratégia para a substituição desses valores.