# Exemplo Manipulação de Dataset

## 1. Carregar e especionar o Dataset

<p style="background:black">
<code style="background:black;color:white">C:\Users\SEU_NOME_DE_USUARIO> pip install pandas
</code>
</p>

In [34]:
import pandas as pd

DATA = "data/data.csv"

data = pd.read_csv(DATA)

data.head()

Unnamed: 0,id_pedido,id_produto,id_loja,nome_produto,categoria_produto,cidade,data_venda,quantidade_vendida,valor_venda
0,1,40,4,PowerPro,Ferramentas Criativas,São Paulo,17/12/2024,5,306.95
1,2,44,3,CodeCode,Ferramentas de Desenvolvimento,São Paulo,08/07/2024,5,283.78
2,3,60,5,CodeCode,Ferramentas Educacionais,São Paulo,06/05/2023,6,38.45
3,4,64,3,LostFost,Ferramentas Criativas,Belo Horizonte,01/07/2023,8,295.01
4,5,48,1,CodeCode,Ferramentas de Desenvolvimento,São Paulo,24/03/2024,6,294.35



### Entendendo o que foi feito
- **Data:** Carregameos o dataset.
- **`pd.read_csv`:** Lê o CSV em um pandas DataFrame.
- **`df.head()`:** Mostra o primeiro 6 linhas do DataFrame.


## 2. Checando o tipo de dados

In [35]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1999 entries, 0 to 1998
Data columns (total 9 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   id_pedido           1999 non-null   int64  
 1   id_produto          1999 non-null   int64  
 2   id_loja             1999 non-null   int64  
 3   nome_produto        1999 non-null   object 
 4   categoria_produto   1999 non-null   object 
 5   cidade              1999 non-null   object 
 6   data_venda          1999 non-null   object 
 7   quantidade_vendida  1999 non-null   int64  
 8   valor_venda         1999 non-null   float64
dtypes: float64(1), int64(4), object(4)
memory usage: 140.7+ KB



### Explicando
- **`.info()`:** Mostra informações sobre a estrutura do DataFrame, como o número de linhas, colunas, e o tipo de dados de cada coluna.
- Isto ajuda a entender melhor o que o DataFrame contém e como ele foi criado e identificar possíveis problemas ou inconsistências com os dados.


## 3. Transformando os dados e extraindo as informações

In [36]:
# Convertendo 'data_venda' para datetime - com a formatação de data para o formato '%d/%m/%Y'
data["data_venda"] = pd.to_datetime(data["data_venda"], format="%d/%m/%Y")
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1999 entries, 0 to 1998
Data columns (total 9 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   id_pedido           1999 non-null   int64         
 1   id_produto          1999 non-null   int64         
 2   id_loja             1999 non-null   int64         
 3   nome_produto        1999 non-null   object        
 4   categoria_produto   1999 non-null   object        
 5   cidade              1999 non-null   object        
 6   data_venda          1999 non-null   datetime64[ns]
 7   quantidade_vendida  1999 non-null   int64         
 8   valor_venda         1999 non-null   float64       
dtypes: datetime64[ns](1), float64(1), int64(4), object(3)
memory usage: 140.7+ KB


In [37]:
# Extraindo mês e ano da data de venda
data["mes"] = data["data_venda"].dt.month
data["anos"] = data["data_venda"].dt.year

data.head()

Unnamed: 0,id_pedido,id_produto,id_loja,nome_produto,categoria_produto,cidade,data_venda,quantidade_vendida,valor_venda,mes,anos
0,1,40,4,PowerPro,Ferramentas Criativas,São Paulo,2024-12-17,5,306.95,12,2024
1,2,44,3,CodeCode,Ferramentas de Desenvolvimento,São Paulo,2024-07-08,5,283.78,7,2024
2,3,60,5,CodeCode,Ferramentas Educacionais,São Paulo,2023-05-06,6,38.45,5,2023
3,4,64,3,LostFost,Ferramentas Criativas,Belo Horizonte,2023-07-01,8,295.01,7,2023
4,5,48,1,CodeCode,Ferramentas de Desenvolvimento,São Paulo,2024-03-24,6,294.35,3,2024


### Explicando
- **`pd.to_datetime`:** Convertendo a coluna de `data_venda` para uma coluna datetime.
- **`.dt.month` and `.dt.year`:** Extraindo o mês e ano da data.
- Fazendo um dataset mais simples de manipular.


## 4. Usando Chaining

In [38]:
# Mesma transformação, mas agora usando chainingPerform the same transformations using method chaining
data = data.assign(
    data_venda=lambda df: pd.to_datetime(df["data_venda"]),
    mes=lambda df: df["data_venda"].dt.month,
    anos=lambda df: df["data_venda"].dt.year,
)


data.head()

Unnamed: 0,id_pedido,id_produto,id_loja,nome_produto,categoria_produto,cidade,data_venda,quantidade_vendida,valor_venda,mes,anos
0,1,40,4,PowerPro,Ferramentas Criativas,São Paulo,2024-12-17,5,306.95,12,2024
1,2,44,3,CodeCode,Ferramentas de Desenvolvimento,São Paulo,2024-07-08,5,283.78,7,2024
2,3,60,5,CodeCode,Ferramentas Educacionais,São Paulo,2023-05-06,6,38.45,5,2023
3,4,64,3,LostFost,Ferramentas Criativas,Belo Horizonte,2023-07-01,8,295.01,7,2023
4,5,48,1,CodeCode,Ferramentas de Desenvolvimento,São Paulo,2024-03-24,6,294.35,3,2024


### Explicação
- O Metodo chaining permite que você crie uma sequência de operações em um único comando.
- O método `.assign` permite que você atribua novos valores a uma coluna ou colunas de um DataFrame.

## 5. Calculadndo a receita de venda por cidade

In [39]:
ANO = 2023

receita_por_cidade = (
    data.groupby(["cidade", "anos"])["valor_venda"]
    .sum()
    .unstack()
    .assign(mudanca=lambda x: x.pct_change(axis=1)[ANO] * 100)
)

receita_por_cidade

anos,2022,2023,2024,mudanca
cidade,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Belo Horizonte,57236.95,62015.11,54264.19,8.348034
Rio de Janeiro,54779.91,57738.83,56035.35,5.401469
São Paulo,54286.58,54442.02,52665.59,0.286332


### Explicando
- **Grouping:** Agrupando dados por ano e por cidade.
- **Aggregation:** Soma o `valor_venda` por cada grupo.
- **Unstacking:** Remodelando o DataFrame para ter ano como coluna e cidade como linha.
- **Percentage de mudanca:** Calcula o percentual ano-a-ano usando `.pct_change`.

## 6. Exemplo para uma cidade apenas.

In [40]:
cidade = "Rio de Janeiro"

receita = receita_por_cidade.loc[cidade, ANO]
mudanca = receita_por_cidade.loc[cidade, "mudanca"]

f"{cidade} teve receita de R${receita:,.2f} com uma mudança de {mudanca:.2f}% em {ANO}"

'Rio de Janeiro teve receita de R$57,738.83 com uma mudança de 5.40% em 2023'

### Explicação
- Pegamos a data para uma cidade e ano especificos.
- Mostramos assim a receita e o percentual de mudança.

## 7. Preparando dados para um grafico em barra.

In [41]:
cidade_escolhida = "Rio de Janeiro"
ano_escolhido = 2023

dados_filtrados = (
    data.query("cidade == @cidade_escolhida & anos == @ano_escolhido")
    .groupby("mes", dropna=False, as_index=False)["valor_venda"]
    .sum()
)

dados_filtrados

Unnamed: 0,mes,valor_venda
0,1,4728.67
1,2,4640.86
2,3,7642.37
3,4,4401.32
4,5,6452.97
5,6,2594.85
6,7,4023.8
7,8,3613.78
8,9,3892.74
9,10,6611.02



### Explicação
- **Querying:** Filtrando o dado para a cidade e ano especifico usando `query`.
- **Grouping and Summing:** Agrupando os dados por mês e somando `valor_venda` para cada mês.
- Isto é para preparar para a vizualização em um bar chart.