# Tratamento de dados

--------

Antes de tudo, é preciso se importar as dependências e reconectar com o banco, como foi feito na parte 1 do trabalho:

In [7]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sqlalchemy import create_engine

In [8]:
senha = input("Digite sua senha do usuário postgres: ")

# string de conexão com o banco de dados ecommerce
engine = create_engine(f'postgresql://postgres:{senha}@localhost:5432/ecommerce')

--------

Observando os dados nas tabela, podemos notar que algumas alterações podem ser feitas para otimizar o uso dos dados:

- A coluna **Codigo** de produtos deve se relacionar com a coluna **Code** de vendas
- A coluna ```Date``` guarda as datas em um formato não muito convencional para banco de dados e será útil alterá-la para ```timestamp```
- Os dados da coluna ```Preco``` da tabela **produtos** precisa ser manipulado para que seu tipo seja numérico. Isso facilitará cálculos, consultas e deixara o dado semanticamente coerente

Corrigindo esses pontos, será possível seguir para a análise exploratória.

## Relacionamento de colunas

O script sql abaixo liga a tabela de vendas à de produtos pela coluna Code (vendas) e Codigo (produtos)


```sql 
    ALTER TABLE vendas
    ADD CONSTRAINT fk_vendas_produtos_codigo
    FOREIGN KEY (code) REFERENCES produtos(code);
```

## Tratar preços

Os dados de preço têm um problea: eles são strings, com um '$' no início, o que dificulta a manipulação e uso deles para eventuais cálculos. Para transformar a coluna de preço para que ela exiba valores numéricos, é necessário rodar o seguinte script:

1. Criar nova coluna de data

```sql
    ALTER TABLE produtos
    ADD COLUMN new_price NUMERIC(10, 2);
```

2. Setar os valores da nova coluna como o preço da coluna antiga sem o '$' e convertido para NUMERIC

```sql
    UPDATE produtos
    SET new_price = (REPLACE(price, '$', '')::NUMERIC(10, 2));
```

3. Dropar a coluna antiga

```sql
    ALTER TABLE produtos
    DROP COLUMN price;
```

4. Renomear a coluna nova para que fique como a antiga

```sql
    ALTER TABLE produtos 
    RENAME COLUMN new_price TO price;

```

## Tratar valores de data

Para transformar a coluna de data para um formato adequado, basta segui o passo a passo abaixo:

1. Adicionar uma nova coluna de data

```sql
    ALTER TABLE vendas
    ADD COLUMN order_date DATE;
```

2. Atualizar os valores da nova coluna com as datas convertidas

```sql
    UPDATE vendas
    SET order_date = TO_DATE(vendas.Date, 'MM/DD/YYYY');
```

3. Eliminar a coluna antiga

```sql
    ALTER TABLE vendas
    DROP COLUMN date;
```

4. Verificar se os dados convertidos (preço, em produtos e data, em vendas) de vendas e produtos estão corretos

```sql
    SELECT * FROM vendas; 
    SELECT * FROM produtos;
```

ou então execute as duas células abaixo

In [9]:
produtos = pd.read_sql(
    '''
    SELECT * FROM produtos;
    ''',  
    engine
); 

produtos.head()

Unnamed: 0,code,product,price
0,BS001873,Apple Lightning Cable,21.99
1,BS001874,SanDisk Extreme microSDXC,31.5
2,BS001875,Seagate 2TB Expansion Portable HDD,79.0
3,BS001876,TicWatch Pro 3 Ultra GPS Smartwatch Qualcomm,399.0
4,BS001877,Webcam HD 1080p Web Camera,59.0


In [10]:
vendas = pd.read_sql(
    '''
    SELECT * FROM vendas;
    ''',  
    engine
);

vendas.head()

Unnamed: 0,order_id,ship_service_level,style,code,courier_status,quantity,ship_country,fulfillment,order_date
0,171-8536041-9190708,Expedited,SET400,BS001879,Cancelled,4,AU,True,2022-06-29
1,407-4176879-6571509,Expedited,JNE3486,BS001890,Cancelled,2,BR,True,2022-06-29
2,404-4382011-4681149,Expedited,JNE3887,BS001873,Cancelled,2,BR,True,2022-06-29
3,406-3412504-2471555,Expedited,JNE3487,BS001888,Cancelled,2,BR,True,2022-06-29
4,408-2481787-8248368,Expedited,JNE3566,BS001898,Cancelled,2,BR,True,2022-06-29


Se a coluna preço estiver como numerica e a coluna order_date for criada com os valores corretos, será possível dar continuidade ao trabalho.