# Vendas online

#### O objetivo:
 Realizar a análise dos resultados de um evento com os clientes de uma empresa de vendas online.
#### Cenários:
Foi coletado um conjunto de dados que contém os clientes que mais gastaram com produtos dentro de 5 dias de vendas, que é o período de duração do evento. A análise tem a proposta de:
  - Identificar o cliente com a maior compra na semana, que irá receber um prêmio da loja
  - Ajudar a empresa a criar novas estratégias para atrair mais clientes.

 A base de dados `dados_vendas_clientes.json` contém informações importantes sobre os clientes como, o nome de cadastro do cliente, o valor total pago na compra e o dia da compra.



In [14]:
import pandas as pd
import numpy as np


In [3]:
# abrir a base de dados com Pandas e aplicar o json_normalize.
df_vendas = pd.read_json('../../dataset/dados_vendas_clientes.json')
df_vendas

Unnamed: 0,dados_vendas
0,"{'Data de venda': '06/06/2022', 'Cliente': ['@..."
1,"{'Data de venda': '07/06/2022', 'Cliente': ['I..."
2,"{'Data de venda': '08/06/2022', 'Cliente': ['I..."
3,"{'Data de venda': '09/06/2022', 'Cliente': ['J..."
4,"{'Data de venda': '10/06/2022', 'Cliente': ['M..."


In [4]:
type(df_vendas)

pandas.core.frame.DataFrame

In [5]:
df_vendas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 1 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   dados_vendas  5 non-null      object
dtypes: object(1)
memory usage: 172.0+ bytes


#### Analise inicial dos dados
O arquivo contem informacoes aninhadas. Ha 5 linhas, uma data do evento, cada linha representa as informacoes de compras realizadas em uma data

In [6]:
# Normalizando os dados com pd.json_normalize()
df_vendas = pd.json_normalize(df_vendas['dados_vendas'])
df_vendas

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,"[@ANA _LUCIA 321, DieGO ARMANDIU 210, DieGO AR...","[R$ 836,5, R$ 573,33, R$ 392,8, R$ 512,34]"
1,07/06/2022,"[Isabely JOanes 738, Isabely JOanes 738, Isabe...","[R$ 825,31, R$ 168,07, R$ 339,18, R$ 314,69]"
2,08/06/2022,"[Isabely JOanes 738, JOãO Gabriel 671, Julya m...","[R$ 682,05, R$ 386,34, R$ 622,65, R$ 630,79]"
3,09/06/2022,"[Julya meireles 914, MaRIA Julia 444, MaRIA Ju...","[R$ 390,3, R$ 759,16, R$ 334,47, R$ 678,78]"
4,10/06/2022,"[MaRIA Julia 444, PEDRO PASCO 812, Paulo castr...","[R$ 314,24, R$ 311,15, R$ 899,16, R$ 885,24]"


## Etapa 2

Agora pode-se avançar nas transformações desses dados. E será dividido em:
- Remover os dados em listas dentro do DataFrame;
- Verificar os tipos de dados;
- Identificar colunas numéricas;
- Transformar a coluna numérica para o tipo numérico.

### Etapa 2 - passo 1: Remover os dados em listas dentro do DataFrame (dataframe plano)

In [7]:
# Criando uma lista com os nomes das colunas do DataFrame
# A lista será usada posteriormente para aplicar o método explode
colunas = list(df_vendas.columns)
colunas

['Data de venda', 'Cliente', 'Valor da compra']

In [11]:
df_vendas = df_vendas.explode(colunas[1:]) # Aplicando o método explode nas colunas a partir da 4ª coluna ('descricao_local')
df_vendas

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,@ANA _LUCIA 321,"R$ 836,5"
0,06/06/2022,DieGO ARMANDIU 210,"R$ 573,33"
0,06/06/2022,DieGO ARMANDIU 210,"R$ 392,8"
0,06/06/2022,DieGO ARMANDIU 210,"R$ 512,34"
1,07/06/2022,Isabely JOanes 738,"R$ 825,31"
1,07/06/2022,Isabely JOanes 738,"R$ 168,07"
1,07/06/2022,Isabely JOanes 738,"R$ 339,18"
1,07/06/2022,Isabely JOanes 738,"R$ 314,69"
2,08/06/2022,Isabely JOanes 738,"R$ 682,05"
2,08/06/2022,JOãO Gabriel 671,"R$ 386,34"


In [12]:
df_vendas.reset_index(inplace = True,drop=True) # inplace=True para que seja substituido o index , drop=True para que a coluna dos index antigos seja descartada
df_vendas.head()

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,@ANA _LUCIA 321,"R$ 836,5"
1,06/06/2022,DieGO ARMANDIU 210,"R$ 573,33"
2,06/06/2022,DieGO ARMANDIU 210,"R$ 392,8"
3,06/06/2022,DieGO ARMANDIU 210,"R$ 512,34"
4,07/06/2022,Isabely JOanes 738,"R$ 825,31"


### Etapa 02 - passo 02:
- Verificar os tipos de dados
- Identificar colunas numéricas;
- Transformar a coluna numérica para o tipo numérico.

In [13]:
df_vendas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Data de venda    20 non-null     object
 1   Cliente          20 non-null     object
 2   Valor da compra  20 non-null     object
dtypes: object(3)
memory usage: 612.0+ bytes


#### Passos da EDA:

1. **Identificar o tipo de dado de cada coluna**

- Saber se é numérico, texto, data/hora, booleano, etc.
- Isso define quais operações e análises são possíveis.
2. **Separar colunas numéricas e não numéricas**

- Numéricas → permitem soma, média, estatísticas, correlações, histogramas.
- Não numéricas (categóricas ou texto) → permitem contagens, agrupamentos, análise de frequência, conversões para category para otimizar memória.
- Datas → permitem extrair componentes (dia, mês, hora) e analisar tendências temporais.

3. **Aplicar os devidos tratamentos**

- Numéricas: conversão de string para número, tratamento de outliers, preenchimento de nulos.
- Categóricas: padronização de escrita, remoção de espaços, ajuste de capitalização.
- Datas: conversão para datetime, padronização de formato, ajuste de timezone se necessário.

Neste exemplo:

- `Data de venda` → converter para datetime (coluna de data).
- `Cliente` → tratar como categórica (texto).
- `Valor da compra` → converter para float (numérica).

#### Funcao: detect_and_convert_types(df: pd.DataFrame, threshold=0.8)
função que recebe um DataFrame, detecta os tipos das colunas, converte cada coluna para o tipo apropriado (numérico, datetime ou categórico) e retorna o DataFrame já transformado junto com a classificação das colunas:

O que ele faz:
1. Tenta converter colunas object para datetime se mais de 80% dos valores forem válidos.
2. Tenta converter colunas object para numérico (removendo “R$” e trocando vírgula por ponto) se mais de 80% forem convertíveis.
3. Classifica as colunas restantes como:
    - Numéricas (np.number)
    - Datas (datetime64)
    - Categóricas (resto).

In [22]:
import pandas as pd
import numpy as np
# função que recebe um DataFrame, detecta os tipos das colunas, converte cada coluna para o tipo apropriado (numérico, datetime ou categórico) e retorna o DataFrame já transformado junto com a classificação das colunas:
def detect_and_convert_types(df: pd.DataFrame, threshold=0.8):
    """
    Detecta tipos e tenta converter colunas de um DataFrame:
    - Converte para datetime e numérico se taxa de sucesso >= threshold.
    - Mantém o tipo original e gera aviso caso contrário.
    - Converte colunas categóricas para category.

    Parâmetros:
    - df: DataFrame original
    - threshold: proporção mínima de valores convertidos para aceitar a conversão (default 0.8)

    Retorna:
    - df convertido (cópia)
    - dicionário com listas de colunas por tipo detectado
    """
    df = df.copy()

    # Para armazenar colunas que não foram convertidas
    warnings = []

    # Tentar converter para datetime
    for col in df.columns:
        if df[col].dtype == object:
            try:
                converted = pd.to_datetime(df[col], errors='coerce', dayfirst=True)
            # Se a maioria dos valores não for NaT, mantém como datetime
                success_rate = converted.notna().mean()
                if success_rate >= threshold:
                    df[col] = converted
                else:
                    warnings.append(f"Coluna '{col}' NÃO convertida para datetime (taxa de sucesso: {success_rate:.2%})")
            except Exception as e:
                warnings.append(f"Coluna '{col}' NÃO convertida para datetime devido a erro: {e}")

    # Tentar converter para numérico
    for col in df.columns:
        if df[col].dtype == object:
            temp = pd.to_numeric(df[col].replace({',': '.', 'R\$': ''}, regex=True), errors='coerce')
            # Se a maioria conseguir converter, mantém como numérico
            success_rate = temp.notna().mean()
            if success_rate >= threshold:
                df[col] = temp
            else:
                warnings.append(f"Coluna '{col}' NÃO convertida para numérico (taxa de sucesso: {success_rate:.2%})")

    # Classificação final
    numeric_cols = df.select_dtypes(include=[np.number]).columns.tolist()
    date_cols = df.select_dtypes(include=['datetime64[ns]', 'datetime64[ns, UTC]']).columns.tolist()
    categorical_cols = [col for col in df.columns if col not in numeric_cols + date_cols]

    # Converter categóricas para category
    # Colunas categóricas normalmente ficam como 'object', mas pode otimizar para 'category'
    for col in categorical_cols:
        df[col] = df[col].astype('category')

    tipos = {
        "numeric": numeric_cols,
        "categorical": categorical_cols,
        "dates": date_cols
    }

    # Exibir avisos
    if warnings:
        print("\nAvisos durante conversão:")
        for w in warnings:
            print(f" - {w}")
    else:
        print("Todas as colunas convertidas com sucesso.")

    return df, tipos

# Exemplo de uso:
# df_converted, tipos = detect_convert_with_warnings(df)
# print(tipos)


In [23]:
# Usando a funcao para converter tipos do dataframe
df, tipos = detect_and_convert_types(df_vendas)
print("Numéricas:", tipos['numeric'])
print("Categóricas:", tipos['categorical'])
print("Datas:", tipos['dates'])
df


Avisos durante conversão:
 - Coluna 'Cliente' NÃO convertida para datetime (taxa de sucesso: 0.00%)
 - Coluna 'Cliente' NÃO convertida para numérico (taxa de sucesso: 0.00%)
Numéricas: ['Valor da compra']
Categóricas: ['Cliente']
Datas: ['Data de venda']


  converted = pd.to_datetime(df[col], errors='coerce', dayfirst=True)


Unnamed: 0,Data de venda,Cliente,Valor da compra
0,2022-06-06,@ANA _LUCIA 321,836.5
1,2022-06-06,DieGO ARMANDIU 210,573.33
2,2022-06-06,DieGO ARMANDIU 210,392.8
3,2022-06-06,DieGO ARMANDIU 210,512.34
4,2022-06-07,Isabely JOanes 738,825.31
5,2022-06-07,Isabely JOanes 738,168.07
6,2022-06-07,Isabely JOanes 738,339.18
7,2022-06-07,Isabely JOanes 738,314.69
8,2022-06-08,Isabely JOanes 738,682.05
9,2022-06-08,JOãO Gabriel 671,386.34


#### Sobre o warning do Pandas
```plaintext
UserWarning: Could not infer format, so each element will be parsed individually, falling back to `dateutil`.
To ensure parsing is consistent and as-expected, please specify a format.
```
Esse aviso ocorre porque o pd.to_datetime() não conseguiu detectar de forma direta o formato de data na coluna Data de venda.
Por isso, ele recorreu ao parser genérico do dateutil, que analisa cada valor separadamente.

Isso não é um erro, mas:
- Pode deixar a conversão mais lenta (porque analisa valor por valor).
- Pode gerar inconsistências se houver formatos misturados (ex.: "01/02/2025" e "2025-02-01").

**Como evitar o warning**

Se você sabe o formato das datas, informe no parâmetro format:
```python
df['Data de venda'] = pd.to_datetime(df['Data de venda'], format='%d/%m/%Y', dayfirst=True)
```
Assim:
- O Pandas não precisa “adivinhar” o formato.
- A conversão é mais rápida e confiável.
- O *warning* desaparece.

### Convertendo as colunas
#### `astype()` do Pandas/NumPy vs funções de conversão específicas (`pd.to_numeric()`, `pd.to_datetime()`):
- `astype()` é um método simples e rápido que converte o tipo de uma série ou array, mas não faz parsing ou validação dos dados. Se a coluna já está "quase no tipo certo" (por exemplo, números armazenados como floats mas você quer int), `astype()` é muito eficiente.

- `pd.to_numeric()` e `pd.to_datetime()` são funções mais robustas e "inteligentes" que tentam interpretar strings, fazer parsing, converter formatos, lidar com erros e valores inválidos. Por exemplo, converter "R$ 1.200,50" para número, ou "25/07/2025" para datetime. Essas funções são mais custosas em tempo, pois fazem análise e tratamento.

#### Quando usar o quê?
- Se você tem certeza que os dados já estão limpos e no formato correto e só quer mudar o tipo (ex: float64 para float32 ou object categórico para category), use astype(), pois é mais rápido e direto.
- Se você precisa converter strings sujas, parsear datas ou transformar números em texto com símbolos para número real, então use as funções especializadas como pd.to_numeric() ou pd.to_datetime().

#### Neste fluxo ETL

No passo de transformação, normalmente você vai:
- Primeiro usar as funções especializadas para interpretar e limpar dados (ex: pd.to_numeric, pd.to_datetime com errors='coerce').
- Depois, quando os dados estiverem limpos, usar astype() para ajustar tipos menores, por exemplo:
```python
    df['quantidade'] = df['quantidade'].astype('int32')  # se já sabe que não há NaNs
    df['categoria'] = df['categoria'].astype('category')
```
#### Resumo
- `astype()` é mais eficiente, mas só deve ser usado quando os dados já estiverem no formato correto (ou você quer só reduzir o tipo).
- Funções de conversão (`pd.to_numeric`, `pd.to_datetime`) são mais robustas e usadas para parsing e limpeza, mas custam mais tempo.

Essas funções facilitam o tratamento de dados sujos e variados, comuns em bases reais, e tornam seu código mais resiliente a mudanças no formato dos dados.

Depois que os dados já estiverem limpos, você pode usar astype() para ajustar tipos de forma mais eficiente (por exemplo, converter float64 para float32 ou objeto para category) — mas isso é uma otimização pós-processamento.
| Objetivo                       | Função recomendada |
| ------------------------------ | ------------------ |
| Converter strings para números | `pd.to_numeric()`  |
| Converter strings para datas   | `pd.to_datetime()` |
| Ajustar tipo já correto        | `.astype()`        |


In [None]:
# Exemplo de conversao
col_types = classify_columns(df)

# Converte colunas numéricas para float (ou int, se preferir)
for col in col_types['numeric']:
    df[col] = pd.to_numeric(df[col], errors='coerce')

# Converte colunas de datas para datetime (se ainda não estiver)
for col in col_types['dates']:
    df[col] = pd.to_datetime(df[col], errors='coerce', dayfirst=True)  # ajuste o formato se souber

# Colunas categóricas normalmente ficam como 'object', mas pode otimizar para 'category'
for col in col_types['categorical']:
    df[col] = df[col].astype('category')

# Agora o df está com os tipos convertidos corretamente


In [24]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   Data de venda    20 non-null     datetime64[ns]
 1   Cliente          20 non-null     category      
 2   Valor da compra  20 non-null     float64       
dtypes: category(1), datetime64[ns](1), float64(1)
memory usage: 844.0 bytes


In [25]:
df_vendas.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   Data de venda    20 non-null     datetime64[ns]
 1   Cliente          20 non-null     object        
 2   Valor da compra  20 non-null     float64       
dtypes: datetime64[ns](1), float64(1), object(1)
memory usage: 612.0+ bytes
