# Projeto de Análise de Dados: Tendências de Compras do Cliente.

## Introdução:

Link para o [download do dataset](https://www.kaggle.com/datasets/iamsouravbanerjee/customer-shopping-trends-dataset) utilizado para a construção desse projeto.

**Atributos**:


* Customer ID - identificador exclusivo para cada cliente;
* Age - Idade do cliente;
* Gender - Gênero do cliente (Masculino/Feminino);
* Item Purchased - O item comprado pelo cliente;
* Category - Categoria do item adquirido;
* Purchase Amount (USD) - O valor da compra em USD;
* Location - Local onde a compra foi realizada;
* Size - Tamanho do item adquirido;
* Color - Cor do item adquirido;
* Season - Temporada durante a qual a compra foi feita;
* Review Rating - Classificação dada pelo cliente para o item comprado;
* Subscription Status - Indica se o cliente possui uma assinatura (Sim/Não);
* Shipping Type - Tipo de envio escolhido pelo cliente;
* Discount Applied -  Indica se foi aplicado desconto na compra (Sim/Não);
* Promo Code Used -  Indica se um código promocional foi usado para a compra(Sim/Não);
* Previous Purchases - A contagem total de transações concluídas pelo cliente na loja, excluindo a transação em andamento;
* Payment Method - método de pagamento preferido do cliente;
* Frequency of Purchases -  Frequência com que o cliente realiza compras (ex: Semanal, Quinzenal, Mensal).

## Pré-Processamento

1. Bibliotecas que serão utilizadas:

In [1]:
import pandas as pd
import streamlit as st

2. Leitura do dataset:

Máquina de FERNANDO:

In [5]:
dataset = "C:\\Users\\Nando\OneDrive\Documentos\Datasets/shopping_trends.csv"

Máquina de MICAEL:

In [2]:
dataset = r'C:\Users\micae\OneDrive\Documentos\GitHub\Projeto_Dev_Python\datasets\shopping_trends.csv'

Lendo o dataset:

In [3]:
df = pd.read_csv(dataset)

df

Unnamed: 0,Customer ID,Age,Gender,Item Purchased,Category,Purchase Amount (USD),Location,Size,Color,Season,Review Rating,Subscription Status,Payment Method,Shipping Type,Discount Applied,Promo Code Used,Previous Purchases,Preferred Payment Method,Frequency of Purchases
0,1,55,Male,Blouse,Clothing,53,Kentucky,L,Gray,Winter,3.1,Yes,Credit Card,Express,Yes,Yes,14,Venmo,Fortnightly
1,2,19,Male,Sweater,Clothing,64,Maine,L,Maroon,Winter,3.1,Yes,Bank Transfer,Express,Yes,Yes,2,Cash,Fortnightly
2,3,50,Male,Jeans,Clothing,73,Massachusetts,S,Maroon,Spring,3.1,Yes,Cash,Free Shipping,Yes,Yes,23,Credit Card,Weekly
3,4,21,Male,Sandals,Footwear,90,Rhode Island,M,Maroon,Spring,3.5,Yes,PayPal,Next Day Air,Yes,Yes,49,PayPal,Weekly
4,5,45,Male,Blouse,Clothing,49,Oregon,M,Turquoise,Spring,2.7,Yes,Cash,Free Shipping,Yes,Yes,31,PayPal,Annually
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3895,3896,40,Female,Hoodie,Clothing,28,Virginia,L,Turquoise,Summer,4.2,No,Cash,2-Day Shipping,No,No,32,Venmo,Weekly
3896,3897,52,Female,Backpack,Accessories,49,Iowa,L,White,Spring,4.5,No,PayPal,Store Pickup,No,No,41,Bank Transfer,Bi-Weekly
3897,3898,46,Female,Belt,Accessories,33,New Jersey,L,Green,Spring,2.9,No,Credit Card,Standard,No,No,24,Venmo,Quarterly
3898,3899,44,Female,Shoes,Footwear,77,Minnesota,S,Brown,Summer,3.8,No,PayPal,Express,No,No,24,Venmo,Weekly


3. Verificando a estrutura

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3900 entries, 0 to 3899
Data columns (total 19 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Customer ID               3900 non-null   int64  
 1   Age                       3900 non-null   int64  
 2   Gender                    3900 non-null   object 
 3   Item Purchased            3900 non-null   object 
 4   Category                  3900 non-null   object 
 5   Purchase Amount (USD)     3900 non-null   int64  
 6   Location                  3900 non-null   object 
 7   Size                      3900 non-null   object 
 8   Color                     3900 non-null   object 
 9   Season                    3900 non-null   object 
 10  Review Rating             3900 non-null   float64
 11  Subscription Status       3900 non-null   object 
 12  Payment Method            3900 non-null   object 
 13  Shipping Type             3900 non-null   object 
 14  Discount

In [5]:
df.describe()

Unnamed: 0,Customer ID,Age,Purchase Amount (USD),Review Rating,Previous Purchases
count,3900.0,3900.0,3900.0,3900.0,3900.0
mean,1950.5,44.068462,59.764359,3.749949,25.351538
std,1125.977353,15.207589,23.685392,0.716223,14.447125
min,1.0,18.0,20.0,2.5,1.0
25%,975.75,31.0,39.0,3.1,13.0
50%,1950.5,44.0,60.0,3.7,25.0
75%,2925.25,57.0,81.0,4.4,38.0
max,3900.0,70.0,100.0,5.0,50.0


4. Verificando valores nulos:

In [6]:
print(f'Verificando valores faltantes : \n\n{df.isna().sum()}')

Verificando valores faltantes : 

Customer ID                 0
Age                         0
Gender                      0
Item Purchased              0
Category                    0
Purchase Amount (USD)       0
Location                    0
Size                        0
Color                       0
Season                      0
Review Rating               0
Subscription Status         0
Payment Method              0
Shipping Type               0
Discount Applied            0
Promo Code Used             0
Previous Purchases          0
Preferred Payment Method    0
Frequency of Purchases      0
dtype: int64


5. Verificando duplicatas:

In [7]:
print(f'Verificando valores duplicados: \n\n{df.duplicated()}')

Verificando valores duplicados: 

0       False
1       False
2       False
3       False
4       False
        ...  
3895    False
3896    False
3897    False
3898    False
3899    False
Length: 3900, dtype: bool


In [8]:
# Verificar número de valores únicos em cada coluna
df.nunique()

Customer ID                 3900
Age                           53
Gender                         2
Item Purchased                25
Category                       4
Purchase Amount (USD)         81
Location                      50
Size                           4
Color                         25
Season                         4
Review Rating                 26
Subscription Status            2
Payment Method                 6
Shipping Type                  6
Discount Applied               2
Promo Code Used                2
Previous Purchases            50
Preferred Payment Method       6
Frequency of Purchases         7
dtype: int64

In [12]:
df['Gender'].unique()

array(['Male', 'Female'], dtype=object)

In [13]:
df['Item Purchased'].unique()

array(['Blouse', 'Sweater', 'Jeans', 'Sandals', 'Sneakers', 'Shirt',
       'Shorts', 'Coat', 'Handbag', 'Shoes', 'Dress', 'Skirt',
       'Sunglasses', 'Pants', 'Jacket', 'Hoodie', 'Jewelry', 'T-shirt',
       'Scarf', 'Hat', 'Socks', 'Backpack', 'Belt', 'Boots', 'Gloves'],
      dtype=object)

In [14]:
df['Category'].unique()

array(['Clothing', 'Footwear', 'Outerwear', 'Accessories'], dtype=object)

In [15]:
df['Size'].unique()

array(['L', 'S', 'M', 'XL'], dtype=object)

In [16]:
df['Color'].unique()

array(['Gray', 'Maroon', 'Turquoise', 'White', 'Charcoal', 'Silver',
       'Pink', 'Purple', 'Olive', 'Gold', 'Violet', 'Teal', 'Lavender',
       'Black', 'Green', 'Peach', 'Red', 'Cyan', 'Brown', 'Beige',
       'Orange', 'Indigo', 'Yellow', 'Magenta', 'Blue'], dtype=object)

In [17]:
df['Location'].unique()

array(['Kentucky', 'Maine', 'Massachusetts', 'Rhode Island', 'Oregon',
       'Wyoming', 'Montana', 'Louisiana', 'West Virginia', 'Missouri',
       'Arkansas', 'Hawaii', 'Delaware', 'New Hampshire', 'New York',
       'Alabama', 'Mississippi', 'North Carolina', 'California',
       'Oklahoma', 'Florida', 'Texas', 'Nevada', 'Kansas', 'Colorado',
       'North Dakota', 'Illinois', 'Indiana', 'Arizona', 'Alaska',
       'Tennessee', 'Ohio', 'New Jersey', 'Maryland', 'Vermont',
       'New Mexico', 'South Carolina', 'Idaho', 'Pennsylvania',
       'Connecticut', 'Utah', 'Virginia', 'Georgia', 'Nebraska', 'Iowa',
       'South Dakota', 'Minnesota', 'Washington', 'Wisconsin', 'Michigan'],
      dtype=object)

In [18]:
df['Season'].unique()

array(['Winter', 'Spring', 'Summer', 'Fall'], dtype=object)

In [20]:
df['Payment Method'].unique()

array(['Credit Card', 'Bank Transfer', 'Cash', 'PayPal', 'Venmo',
       'Debit Card'], dtype=object)

In [21]:
df['Shipping Type'].unique()

array(['Express', 'Free Shipping', 'Next Day Air', 'Standard',
       '2-Day Shipping', 'Store Pickup'], dtype=object)

In [22]:
df['Preferred Payment Method'].unique()

array(['Venmo', 'Cash', 'Credit Card', 'PayPal', 'Bank Transfer',
       'Debit Card'], dtype=object)

In [23]:
df['Frequency of Purchases'].unique()

array(['Fortnightly', 'Weekly', 'Annually', 'Quarterly', 'Bi-Weekly',
       'Monthly', 'Every 3 Months'], dtype=object)

6. Renomeando colunas:

In [9]:
print(df.columns)

Index(['Customer ID', 'Age', 'Gender', 'Item Purchased', 'Category',
       'Purchase Amount (USD)', 'Location', 'Size', 'Color', 'Season',
       'Review Rating', 'Subscription Status', 'Payment Method',
       'Shipping Type', 'Discount Applied', 'Promo Code Used',
       'Previous Purchases', 'Preferred Payment Method',
       'Frequency of Purchases'],
      dtype='object')


In [5]:
df = df.rename(
    columns = {
      'Customer ID': 'Id_cliente',
      'Age': 'Idade',
      'Gender': 'Sexo',
      'Item Purchased': 'Item_Comprado',
      'Category': 'Categoria',
      'Purchase Amount (USD)': 'Valor_Compra(USD)',
      'Location': 'Localização',
      'Size': 'Tamanho_item',
      'Color': 'Cor_Item',
      'Season': 'Temporada_Compra',
      'Review Rating': 'Classificação_cliente_compra',
      'Subscription Status': 'Assinatura_Cliente',
      'Payment Method': 'Método_Pagamento',
      'Shipping Type': 'Tipo_Envio_Cliente',
      'Discount Applied': 'Desconto_Compra',
      'Promo Code Used': 'Código_Promocional',
      'Previous Purchases': 'Transações_Concluidas_Cliente',
      'Preferred Payment Method': 'Preferência_Método_Pagamento',
      'Frequency of Purchases': 'Frequência_Compras_Cliente'
    }
)

for col in df.columns:
    df = df.rename(columns={col: col.lower()})

In [6]:
df.head(5)

Unnamed: 0,id_cliente,idade,sexo,item_comprado,categoria,valor_compra(usd),localização,tamanho_item,cor_item,temporada_compra,classificação_cliente_compra,assinatura_cliente,método_pagamento,tipo_envio_cliente,desconto_compra,código_promocional,transações_concluidas_cliente,preferência_método_pagamento,frequência_compras_cliente
0,1,55,Male,Blouse,Clothing,53,Kentucky,L,Gray,Winter,3.1,Yes,Credit Card,Express,Yes,Yes,14,Venmo,Fortnightly
1,2,19,Male,Sweater,Clothing,64,Maine,L,Maroon,Winter,3.1,Yes,Bank Transfer,Express,Yes,Yes,2,Cash,Fortnightly
2,3,50,Male,Jeans,Clothing,73,Massachusetts,S,Maroon,Spring,3.1,Yes,Cash,Free Shipping,Yes,Yes,23,Credit Card,Weekly
3,4,21,Male,Sandals,Footwear,90,Rhode Island,M,Maroon,Spring,3.5,Yes,PayPal,Next Day Air,Yes,Yes,49,PayPal,Weekly
4,5,45,Male,Blouse,Clothing,49,Oregon,M,Turquoise,Spring,2.7,Yes,Cash,Free Shipping,Yes,Yes,31,PayPal,Annually


7. Renomeando Valores Categóricos:

* Sexo:

In [7]:
counts = df["sexo"].value_counts()
counts.head(10)

sexo
Male      2652
Female    1248
Name: count, dtype: int64

In [8]:
sexo_map = {
    'Male': 'Masculino',
    'Female': 'Feminino'
}
df['sexo'] = df['sexo'].apply(lambda sexo: sexo_map.get(sexo) if sexo in sexo_map.keys() else sexo)

In [14]:
df.head(3)

Unnamed: 0,id_cliente,idade,sexo,item_comprado,categoria,valor_compra(usd),localização,tamanho_item,cor_item,temporada_compra,classificação_cliente_compra,assinatura_cliente,método_pagamento,tipo_envio_cliente,desconto_compra,código_promocional,transações_concluidas_cliente,preferência_método_pagamento,frequência_compras_cliente
0,1,55,Masculino,Blouse,Clothing,53,Kentucky,L,Gray,Winter,3.1,Yes,Credit Card,Express,Yes,Yes,14,Venmo,Fortnightly
1,2,19,Masculino,Sweater,Clothing,64,Maine,L,Maroon,Winter,3.1,Yes,Bank Transfer,Express,Yes,Yes,2,Cash,Fortnightly
2,3,50,Masculino,Jeans,Clothing,73,Massachusetts,S,Maroon,Spring,3.1,Yes,Cash,Free Shipping,Yes,Yes,23,Credit Card,Weekly


* item comprado:

In [30]:
df['item_comprado'].unique()

array(['Blouse', 'Sweater', 'Jeans', 'Sandals', 'Sneakers', 'Shirt',
       'Shorts', 'Coat', 'Handbag', 'Shoes', 'Dress', 'Skirt',
       'Sunglasses', 'Pants', 'Jacket', 'Hoodie', 'Jewelry', 'T-shirt',
       'Scarf', 'Hat', 'Socks', 'Backpack', 'Belt', 'Boots', 'Gloves'],
      dtype=object)

In [37]:
counts = df["item_comprado"].value_counts()
counts.head(25)

item_comprado
Blouse        171
Jewelry       171
Pants         171
Shirt         169
Dress         166
Sweater       164
Jacket        163
Belt          161
Sunglasses    161
Coat          161
Sandals       160
Socks         159
Skirt         158
Shorts        157
Scarf         157
Hat           154
Handbag       153
Hoodie        151
Shoes         150
T-shirt       147
Sneakers      145
Boots         144
Backpack      143
Gloves        140
Jeans         124
Name: count, dtype: int64

In [9]:
item_comprado_map = {
    'Blouse': 'Blusa',
    'Jewelry': 'Joia',
    'Pants' : 'Calça',
    'Shirt' : 'Camisa',
    'Dress' : 'Vestido',
    'Sweater' : 'Suéter',
    'Jacket' : 'Jaqueta',
    'Belt' : 'Cinto',
    'Sunglasses' : 'Oculos de sol',
    'Coat' : 'Casaco',
    'Sandals' : 'Sandálias',
    'Socks' : 'Meias',
    'Skirt' : 'Saia',
    'Scarf' : 'Lenço',
    'Hat' : 'Chapéu',
    'Handbag' : 'Bolsa',
    'Hoodie' : 'Capuz',
    'Shoes' : 'Sapatos',
    'T-shirt' : 'Camiseta',
    'Sneakers' : 'Tênis',
    'Boots' : 'Botas',
    'Backpack' : 'Mochila',
    'Gloves' : 'Luvas',
    
}
df['item_comprado'] = df['item_comprado'].apply(lambda item_comprado: item_comprado_map.get(item_comprado) if item_comprado in item_comprado_map.keys() else item_comprado)

In [42]:
counts = df["item_comprado"].value_counts()
counts.head(25)

item_comprado
Blusa            171
Joia             171
Calça            171
Camisa           169
Vestido          166
Suéter           164
Jaqueta          163
Cinto            161
Oculos de sol    161
Casaco           161
Sandálias        160
Meias            159
Saia             158
Shorts           157
Lenço            157
Chapéu           154
Bolsa            153
Capuz            151
Sapatos          150
Camiseta         147
Tênis            145
Botas            144
Mochila          143
Luvas            140
Jeans            124
Name: count, dtype: int64

* categoria:

In [16]:
counts = df["categoria"].value_counts()
counts.head(25)

categoria
Clothing       1737
Accessories    1240
Footwear        599
Outerwear       324
Name: count, dtype: int64

In [10]:
categoria_map = {
    'Clothing' : 'Roupas',
    'Accessories' : 'Acessórios',
    'Footwear' : 'Calçados',
    'Outerwear' : 'Agasalhos'
}

df['categoria'] = df['categoria'].apply(lambda categoria: categoria_map.get(categoria) if categoria in categoria_map.keys() else categoria)

In [18]:
df.head()

Unnamed: 0,id_cliente,idade,sexo,item_comprado,categoria,valor_compra(usd),localização,tamanho_item,cor_item,temporada_compra,classificação_cliente_compra,assinatura_cliente,método_pagamento,tipo_envio_cliente,desconto_compra,código_promocional,transações_concluidas_cliente,preferência_método_pagamento,frequência_compras_cliente
0,1,55,Masculino,Blusa,Roupas,53,Kentucky,L,Gray,Winter,3.1,Yes,Credit Card,Express,Yes,Yes,14,Venmo,Fortnightly
1,2,19,Masculino,Suéter,Roupas,64,Maine,L,Maroon,Winter,3.1,Yes,Bank Transfer,Express,Yes,Yes,2,Cash,Fortnightly
2,3,50,Masculino,Jeans,Roupas,73,Massachusetts,S,Maroon,Spring,3.1,Yes,Cash,Free Shipping,Yes,Yes,23,Credit Card,Weekly
3,4,21,Masculino,Sandálias,Calçados,90,Rhode Island,M,Maroon,Spring,3.5,Yes,PayPal,Next Day Air,Yes,Yes,49,PayPal,Weekly
4,5,45,Masculino,Blusa,Roupas,49,Oregon,M,Turquoise,Spring,2.7,Yes,Cash,Free Shipping,Yes,Yes,31,PayPal,Annually


* Cor do item:

In [71]:
counts = df['cor_item'].value_counts()
counts.head(50)

cor_item
Oliva            177
Amarelo          174
Prata            173
Azul-petróleo    172
Verde            169
Black            167
Cyan             166
Violet           166
Gray             159
Maroon           158
Orange           154
Charcoal         153
Pink             153
Magenta          152
Blue             152
Purple           151
Peach            149
Red              148
Beige            147
Indigo           147
Lavender         147
Turquoise        145
White            142
Brown            141
Gold             138
Name: count, dtype: int64

In [11]:
cor_item_map = {
    'Olive':  'Oliva',
    'Yellow': 'Amarelo',
    'Silver': 'Prata',
    'Teal' : 'Azul-petrolio',
    'Green' : 'Verde',     
    'Black' : 'Preto',         
    'Cyan' : 'Ciano',           
    'Violet' :'Violeta',          
    'Gray': 'Cinza',           
    'Maroon': 'Marrom',          
    'Orange':  'Laranja',         
    'Charcoal' : 'Carvão',      
    'Pink':  'Rosa',           
    'Magenta': 'Magenta',         
    'Blue':  'Azul',           
    'Purple': 'Roxo',          
    'Peach':  'Pêssego',         
    'Red' :  'Vermelho',           
    'Beige':  'Bege',          
    'Indigo':  'Índigo',         
    'Lavender':  'Lavanda',       
    'Turquoise':  'Turquesa',      
    'White':  'Branco',          
    'Brown':  'Marrom',          
    'Gold': 'Ouro'
}
df['cor_item'] = df['cor_item'].apply(lambda cor_item: cor_item_map.get(cor_item) if cor_item in cor_item_map.keys() else cor_item)


In [75]:
counts = df['cor_item'].value_counts()
counts.head(26)

cor_item
Marrom           299
Oliva            177
Amarelo          174
Prata            173
Azul-petróleo    172
Verde            169
Preto            167
Ciano            166
Violeta          166
Cinza            159
Laranja          154
Carvão           153
Rosa             153
Magenta          152
Azul             152
Roxo             151
Pêssego          149
Vermelho         148
Bege             147
Índigo           147
Lavanda          147
Turquesa         145
Branco           142
Ouro             138
Name: count, dtype: int64

* temporada compra:

In [53]:
counts = df['temporada_compra'].value_counts()
counts.head()

temporada_compra
Spring    999
Fall      975
Winter    971
Summer    955
Name: count, dtype: int64

In [12]:
temporada_compra_map = {
    'Spring' : 'Primavera',
    'Fall' : 'Outono',
    'Winter' : 'Inverno',
    'Summer' : 'Verão'
}
df['temporada_compra'] = df['temporada_compra'].apply(lambda temporada_compra: temporada_compra_map.get(temporada_compra) if temporada_compra in temporada_compra_map.keys() else temporada_compra)

In [56]:
df.head()

Unnamed: 0,id_cliente,idade,sexo,item_comprado,categoria,valor_compra(usd),localização,tamanho_item,cor_item,temporada_compra,classificação_cliente_compra,assinatura_cliente,método_pagamento,tipo_envio_cliente,desconto_compra,código_promocional,transações_concluidas_cliente,preferência_método_pagamento,frequência_compras_cliente
0,1,55,Masculino,Blusa,Roupas,53,Kentucky,L,Gray,Inverno,3.1,Yes,Credit Card,Express,Yes,Yes,14,Venmo,Fortnightly
1,2,19,Masculino,Suéter,Roupas,64,Maine,L,Maroon,Inverno,3.1,Yes,Bank Transfer,Express,Yes,Yes,2,Cash,Fortnightly
2,3,50,Masculino,Jeans,Roupas,73,Massachusetts,S,Maroon,Primavera,3.1,Yes,Cash,Free Shipping,Yes,Yes,23,Credit Card,Weekly
3,4,21,Masculino,Sandálias,Calçados,90,Rhode Island,M,Maroon,Primavera,3.5,Yes,PayPal,Next Day Air,Yes,Yes,49,PayPal,Weekly
4,5,45,Masculino,Blusa,Roupas,49,Oregon,M,Turquoise,Primavera,2.7,Yes,Cash,Free Shipping,Yes,Yes,31,PayPal,Annually


* assinatura_cliente:

In [63]:
counts = df['assinatura_cliente'].value_counts()
counts.head(10)

assinatura_cliente
Não    2847
Sim    1053
Name: count, dtype: int64

In [13]:
assinatura_cliente_map = {
    'No' : 'Não',
    'Yes' : 'Sim'
}
df['assinatura_cliente'] = df['assinatura_cliente'].apply(lambda assinatura_cliente: assinatura_cliente_map.get(assinatura_cliente) if assinatura_cliente in assinatura_cliente_map.keys() else assinatura_cliente)

In [60]:
df.head()

Unnamed: 0,id_cliente,idade,sexo,item_comprado,categoria,valor_compra(usd),localização,tamanho_item,cor_item,temporada_compra,classificação_cliente_compra,assinatura_cliente,método_pagamento,tipo_envio_cliente,desconto_compra,código_promocional,transações_concluidas_cliente,preferência_método_pagamento,frequência_compras_cliente
0,1,55,Masculino,Blusa,Roupas,53,Kentucky,L,Gray,Inverno,3.1,Sim,Credit Card,Express,Yes,Yes,14,Venmo,Fortnightly
1,2,19,Masculino,Suéter,Roupas,64,Maine,L,Maroon,Inverno,3.1,Sim,Bank Transfer,Express,Yes,Yes,2,Cash,Fortnightly
2,3,50,Masculino,Jeans,Roupas,73,Massachusetts,S,Maroon,Primavera,3.1,Sim,Cash,Free Shipping,Yes,Yes,23,Credit Card,Weekly
3,4,21,Masculino,Sandálias,Calçados,90,Rhode Island,M,Maroon,Primavera,3.5,Sim,PayPal,Next Day Air,Yes,Yes,49,PayPal,Weekly
4,5,45,Masculino,Blusa,Roupas,49,Oregon,M,Turquoise,Primavera,2.7,Sim,Cash,Free Shipping,Yes,Yes,31,PayPal,Annually


* método de pagamento:

In [22]:
counts = df['método_pagamento'].value_counts()
counts.head(10)

método_pagamento
Credit Card      696
Venmo            653
Cash             648
PayPal           638
Debit Card       633
Bank Transfer    632
Name: count, dtype: int64

In [14]:
método_pagamento_map = {
    'Credit Card' : 'Cartão de Crédito',
    'Cash' : 'Dinheiro',
    'Debit Card' : 'Cartão de Débito',
    'Bank Transfer' : 'Transferência Bancária'
}
df['método_pagamento'] = df['método_pagamento'].apply(lambda método_pagamento: método_pagamento_map.get(método_pagamento) if método_pagamento in método_pagamento_map.keys() else método_pagamento)

In [66]:
df.head()

Unnamed: 0,id_cliente,idade,sexo,item_comprado,categoria,valor_compra(usd),localização,tamanho_item,cor_item,temporada_compra,classificação_cliente_compra,assinatura_cliente,método_pagamento,tipo_envio_cliente,desconto_compra,código_promocional,transações_concluidas_cliente,preferência_método_pagamento,frequência_compras_cliente
0,1,55,Masculino,Blusa,Roupas,53,Kentucky,L,Gray,Inverno,3.1,Sim,Cartão de Crédito,Express,Yes,Yes,14,Venmo,Fortnightly
1,2,19,Masculino,Suéter,Roupas,64,Maine,L,Maroon,Inverno,3.1,Sim,Transferência Bancária,Express,Yes,Yes,2,Cash,Fortnightly
2,3,50,Masculino,Jeans,Roupas,73,Massachusetts,S,Maroon,Primavera,3.1,Sim,Dinheiro,Free Shipping,Yes,Yes,23,Credit Card,Weekly
3,4,21,Masculino,Sandálias,Calçados,90,Rhode Island,M,Maroon,Primavera,3.5,Sim,PayPal,Next Day Air,Yes,Yes,49,PayPal,Weekly
4,5,45,Masculino,Blusa,Roupas,49,Oregon,M,Turquoise,Primavera,2.7,Sim,Dinheiro,Free Shipping,Yes,Yes,31,PayPal,Annually


* tipo envio cliente;

In [24]:
counts = df['tipo_envio_cliente'].value_counts()
counts.head(10)

tipo_envio_cliente
Free Shipping     675
Standard          654
Store Pickup      650
Next Day Air      648
Express           646
2-Day Shipping    627
Name: count, dtype: int64

In [15]:
tipo_envio_cliente_map = {
    'Free Shipping' : 'Frete grátis',
    'Standard' :  'Padrão',       
    'Store Pickup' : 'Retirada na loja',
    'Next Day Air' : 'Entrega aérea no dia seguinte',    
    'Express' : 'Expresso',         
    '2-Day Shipping' : 'Envio em 2 dias',
    }
df['tipo_envio_cliente'] = df['tipo_envio_cliente'].apply(lambda tipo_envio_cliente: tipo_envio_cliente_map.get(tipo_envio_cliente) if tipo_envio_cliente in tipo_envio_cliente_map.keys() else tipo_envio_cliente)

In [79]:
df.head()

Unnamed: 0,id_cliente,idade,sexo,item_comprado,categoria,valor_compra(usd),localização,tamanho_item,cor_item,temporada_compra,classificação_cliente_compra,assinatura_cliente,método_pagamento,tipo_envio_cliente,desconto_compra,código_promocional,transações_concluidas_cliente,preferência_método_pagamento,frequência_compras_cliente
0,1,55,Masculino,Blusa,Roupas,53,Kentucky,L,Cinza,Inverno,3.1,Sim,Cartão de Crédito,Expresso,Yes,Yes,14,Venmo,Fortnightly
1,2,19,Masculino,Suéter,Roupas,64,Maine,L,Marrom,Inverno,3.1,Sim,Transferência Bancária,Expresso,Yes,Yes,2,Cash,Fortnightly
2,3,50,Masculino,Jeans,Roupas,73,Massachusetts,S,Marrom,Primavera,3.1,Sim,Dinheiro,Frete grátis,Yes,Yes,23,Credit Card,Weekly
3,4,21,Masculino,Sandálias,Calçados,90,Rhode Island,M,Marrom,Primavera,3.5,Sim,PayPal,Entrega aérea no dia seguinte,Yes,Yes,49,PayPal,Weekly
4,5,45,Masculino,Blusa,Roupas,49,Oregon,M,Turquesa,Primavera,2.7,Sim,Dinheiro,Frete grátis,Yes,Yes,31,PayPal,Annually


* desconto compra:

In [80]:
counts = df['desconto_compra'].value_counts()
counts.head()

desconto_compra
No     2223
Yes    1677
Name: count, dtype: int64

In [16]:
desconto_compra_map = {
    'No' : 'Não',
    'Yes' : 'Sim'
}
df['desconto_compra'] = df['desconto_compra'].apply(lambda desconto_compra: desconto_compra_map.get(desconto_compra) if desconto_compra in desconto_compra_map.keys() else desconto_compra)

In [82]:
df.head()

Unnamed: 0,id_cliente,idade,sexo,item_comprado,categoria,valor_compra(usd),localização,tamanho_item,cor_item,temporada_compra,classificação_cliente_compra,assinatura_cliente,método_pagamento,tipo_envio_cliente,desconto_compra,código_promocional,transações_concluidas_cliente,preferência_método_pagamento,frequência_compras_cliente
0,1,55,Masculino,Blusa,Roupas,53,Kentucky,L,Cinza,Inverno,3.1,Sim,Cartão de Crédito,Expresso,Sim,Yes,14,Venmo,Fortnightly
1,2,19,Masculino,Suéter,Roupas,64,Maine,L,Marrom,Inverno,3.1,Sim,Transferência Bancária,Expresso,Sim,Yes,2,Cash,Fortnightly
2,3,50,Masculino,Jeans,Roupas,73,Massachusetts,S,Marrom,Primavera,3.1,Sim,Dinheiro,Frete grátis,Sim,Yes,23,Credit Card,Weekly
3,4,21,Masculino,Sandálias,Calçados,90,Rhode Island,M,Marrom,Primavera,3.5,Sim,PayPal,Entrega aérea no dia seguinte,Sim,Yes,49,PayPal,Weekly
4,5,45,Masculino,Blusa,Roupas,49,Oregon,M,Turquesa,Primavera,2.7,Sim,Dinheiro,Frete grátis,Sim,Yes,31,PayPal,Annually


* código promocional:

In [83]:
counts = df['código_promocional'].value_counts()
counts.head()

código_promocional
No     2223
Yes    1677
Name: count, dtype: int64

In [17]:
código_promocional_map = {
    'No' : 'Não',
    'Yes' : 'Sim'
}
df['código_promocional'] = df['código_promocional'].apply(lambda código_promocional: código_promocional_map.get(código_promocional) if código_promocional in código_promocional_map.keys() else código_promocional)

In [85]:
df.head()

Unnamed: 0,id_cliente,idade,sexo,item_comprado,categoria,valor_compra(usd),localização,tamanho_item,cor_item,temporada_compra,classificação_cliente_compra,assinatura_cliente,método_pagamento,tipo_envio_cliente,desconto_compra,código_promocional,transações_concluidas_cliente,preferência_método_pagamento,frequência_compras_cliente
0,1,55,Masculino,Blusa,Roupas,53,Kentucky,L,Cinza,Inverno,3.1,Sim,Cartão de Crédito,Expresso,Sim,Sim,14,Venmo,Fortnightly
1,2,19,Masculino,Suéter,Roupas,64,Maine,L,Marrom,Inverno,3.1,Sim,Transferência Bancária,Expresso,Sim,Sim,2,Cash,Fortnightly
2,3,50,Masculino,Jeans,Roupas,73,Massachusetts,S,Marrom,Primavera,3.1,Sim,Dinheiro,Frete grátis,Sim,Sim,23,Credit Card,Weekly
3,4,21,Masculino,Sandálias,Calçados,90,Rhode Island,M,Marrom,Primavera,3.5,Sim,PayPal,Entrega aérea no dia seguinte,Sim,Sim,49,PayPal,Weekly
4,5,45,Masculino,Blusa,Roupas,49,Oregon,M,Turquesa,Primavera,2.7,Sim,Dinheiro,Frete grátis,Sim,Sim,31,PayPal,Annually


*  preferência método de pagamento:

In [86]:
counts = df['preferência_método_pagamento'].value_counts()
counts.head(10)

preferência_método_pagamento
PayPal           677
Credit Card      671
Cash             670
Debit Card       636
Venmo            634
Bank Transfer    612
Name: count, dtype: int64

In [18]:
preferência_método_pagamento_map = {
    'Credit Card' : 'Cartão de Crédito',
    'Cash' : 'Dinheiro',
    'Debit Card' : 'Cartão de Débito',
    'Bank Transfer' : 'Transferência Bancária'
}
df['preferência_método_pagamento'] = df['preferência_método_pagamento'].apply(lambda preferência_método_pagamento: preferência_método_pagamento_map.get(preferência_método_pagamento) if preferência_método_pagamento in preferência_método_pagamento_map.keys() else preferência_método_pagamento)

In [88]:
df.head()

Unnamed: 0,id_cliente,idade,sexo,item_comprado,categoria,valor_compra(usd),localização,tamanho_item,cor_item,temporada_compra,classificação_cliente_compra,assinatura_cliente,método_pagamento,tipo_envio_cliente,desconto_compra,código_promocional,transações_concluidas_cliente,preferência_método_pagamento,frequência_compras_cliente
0,1,55,Masculino,Blusa,Roupas,53,Kentucky,L,Cinza,Inverno,3.1,Sim,Cartão de Crédito,Expresso,Sim,Sim,14,Venmo,Fortnightly
1,2,19,Masculino,Suéter,Roupas,64,Maine,L,Marrom,Inverno,3.1,Sim,Transferência Bancária,Expresso,Sim,Sim,2,Dinheiro,Fortnightly
2,3,50,Masculino,Jeans,Roupas,73,Massachusetts,S,Marrom,Primavera,3.1,Sim,Dinheiro,Frete grátis,Sim,Sim,23,Cartão de Crédito,Weekly
3,4,21,Masculino,Sandálias,Calçados,90,Rhode Island,M,Marrom,Primavera,3.5,Sim,PayPal,Entrega aérea no dia seguinte,Sim,Sim,49,PayPal,Weekly
4,5,45,Masculino,Blusa,Roupas,49,Oregon,M,Turquesa,Primavera,2.7,Sim,Dinheiro,Frete grátis,Sim,Sim,31,PayPal,Annually


* frequência compra cliente:

In [89]:
counts = df['frequência_compras_cliente'].value_counts()
counts.head(10)

frequência_compras_cliente
Every 3 Months    584
Annually          572
Quarterly         563
Monthly           553
Bi-Weekly         547
Fortnightly       542
Weekly            539
Name: count, dtype: int64

In [19]:
frequência_compras_cliente_map = {
    'Every 3 Months' : 'A cada 3 meses' ,
    'Annually'   : 'Anualmente',
    'Quarterly'  : 'Trimestral' ,  
    'Monthly'  : 'Por mês',      
    'Bi-Weekly'   : 'Bimensalmente',  
    'Fortnightly'  : 'Quinzenal', 
    'Weekly'  : 'Semanalmente'
    }
df['frequência_compras_cliente'] = df['frequência_compras_cliente'].apply(lambda frequência_compras_cliente: frequência_compras_cliente_map.get(frequência_compras_cliente) if frequência_compras_cliente in frequência_compras_cliente_map.keys() else frequência_compras_cliente)

In [30]:
df.head()

Unnamed: 0,id_cliente,idade,sexo,item_comprado,categoria,valor_compra(usd),localização,tamanho_item,cor_item,temporada_compra,classificação_cliente_compra,assinatura_cliente,método_pagamento,tipo_envio_cliente,desconto_compra,código_promocional,transações_concluidas_cliente,preferência_método_pagamento,frequência_compras_cliente
0,1,55,Masculino,Blusa,Roupas,53,Kentucky,L,Cinza,Inverno,3.1,Sim,Cartão de Crédito,Expresso,Sim,Sim,14,Venmo,Quinzenal
1,2,19,Masculino,Suéter,Roupas,64,Maine,L,Marrom,Inverno,3.1,Sim,Transferência Bancária,Expresso,Sim,Sim,2,Dinheiro,Quinzenal
2,3,50,Masculino,Jeans,Roupas,73,Massachusetts,S,Marrom,Primavera,3.1,Sim,Dinheiro,Frete grátis,Sim,Sim,23,Cartão de Crédito,Semanalmente
3,4,21,Masculino,Sandálias,Calçados,90,Rhode Island,M,Marrom,Primavera,3.5,Sim,PayPal,Entrega aérea no dia seguinte,Sim,Sim,49,PayPal,Semanalmente
4,5,45,Masculino,Blusa,Roupas,49,Oregon,M,Turquesa,Primavera,2.7,Sim,Dinheiro,Frete grátis,Sim,Sim,31,PayPal,Anualmente


* Estado código

In [22]:
estado_codigo_map = {
    "Kentucky": "KY",
    "Maine": "ME",
    "Massachusetts": "MA",
    "Rhode Island": "RI",
    "Oregon": "OR",
    "Wyoming": "WY",
    "Montana": "MT",
    "Louisiana": "LA",
    "West Virginia": "WV",
    "Missouri": "MO",
    "Arkansas": "AR",
    "Hawaii": "HI",
    "Delaware": "DE",
    "New Hampshire": "NH",
    "New York": "NY",
    "Alabama": "AL",
    "Mississippi": "MS",
    "North Carolina": "NC",
    "California": "CA",
    "Oklahoma": "OK",
    "Florida": "FL",
    "Texas": "TX",
    "Nevada": "NV",
    "Kansas": "KS",
    "Colorado": "CO",
    "North Dakota": "ND",
    "Illinois": "IL",
    "Indiana": "IN",
    "Arizona": "AZ",
    "Alaska": "AK",
    "Tennessee": "TN",
    "Ohio": "OH",
    "New Jersey": "NJ",
    "Maryland": "MD",
    "Vermont": "VT",
    "New Mexico": "NM",
    "South Carolina": "SC",
    "Idaho": "ID",
    "Pennsylvania": "PA",
    "Connecticut": "CT",
    "Utah": "UT",
    "Virginia": "VA",
    "Georgia": "GA",
    "Nebraska": "NE",
    "Iowa": "IA",
    "South Dakota": "SD",
    "Minnesota": "MN",
    "Washington": "WA",
    "Wisconsin": "WI",
    "Michigan": "MI"
}

print(estado_codigo_map)


{'Kentucky': 'KY', 'Maine': 'ME', 'Massachusetts': 'MA', 'Rhode Island': 'RI', 'Oregon': 'OR', 'Wyoming': 'WY', 'Montana': 'MT', 'Louisiana': 'LA', 'West Virginia': 'WV', 'Missouri': 'MO', 'Arkansas': 'AR', 'Hawaii': 'HI', 'Delaware': 'DE', 'New Hampshire': 'NH', 'New York': 'NY', 'Alabama': 'AL', 'Mississippi': 'MS', 'North Carolina': 'NC', 'California': 'CA', 'Oklahoma': 'OK', 'Florida': 'FL', 'Texas': 'TX', 'Nevada': 'NV', 'Kansas': 'KS', 'Colorado': 'CO', 'North Dakota': 'ND', 'Illinois': 'IL', 'Indiana': 'IN', 'Arizona': 'AZ', 'Alaska': 'AK', 'Tennessee': 'TN', 'Ohio': 'OH', 'New Jersey': 'NJ', 'Maryland': 'MD', 'Vermont': 'VT', 'New Mexico': 'NM', 'South Carolina': 'SC', 'Idaho': 'ID', 'Pennsylvania': 'PA', 'Connecticut': 'CT', 'Utah': 'UT', 'Virginia': 'VA', 'Georgia': 'GA', 'Nebraska': 'NE', 'Iowa': 'IA', 'South Dakota': 'SD', 'Minnesota': 'MN', 'Washington': 'WA', 'Wisconsin': 'WI', 'Michigan': 'MI'}


In [23]:
# Aplicando o mapeamento fictício
df['codigo_regiao'] = df['localização'].replace(estado_codigo_map)


In [24]:
df.head(5)

Unnamed: 0,id_cliente,idade,sexo,item_comprado,categoria,valor_compra(usd),localização,tamanho_item,cor_item,temporada_compra,classificação_cliente_compra,assinatura_cliente,método_pagamento,tipo_envio_cliente,desconto_compra,código_promocional,transações_concluidas_cliente,preferência_método_pagamento,frequência_compras_cliente,codigo_regiao
0,1,55,Masculino,Blusa,Roupas,53,Kentucky,L,Cinza,Inverno,3.1,Sim,Cartão de Crédito,Expresso,Sim,Sim,14,Venmo,Quinzenal,KY
1,2,19,Masculino,Suéter,Roupas,64,Maine,L,Marrom,Inverno,3.1,Sim,Transferência Bancária,Expresso,Sim,Sim,2,Dinheiro,Quinzenal,ME
2,3,50,Masculino,Jeans,Roupas,73,Massachusetts,S,Marrom,Primavera,3.1,Sim,Dinheiro,Frete grátis,Sim,Sim,23,Cartão de Crédito,Semanalmente,MA
3,4,21,Masculino,Sandálias,Calçados,90,Rhode Island,M,Marrom,Primavera,3.5,Sim,PayPal,Entrega aérea no dia seguinte,Sim,Sim,49,PayPal,Semanalmente,RI
4,5,45,Masculino,Blusa,Roupas,49,Oregon,M,Turquesa,Primavera,2.7,Sim,Dinheiro,Frete grátis,Sim,Sim,31,PayPal,Anualmente,OR


Salvando arquivo na pasta:

In [25]:
caminho_arquivo = r'C:\Users\micae\OneDrive\Documentos\GitHub\Projeto_Dev_Python\datasets\df.csv'

# Salvar o DataFrame df em um arquivo CSV com o caminho especificado
df.to_csv(caminho_arquivo, index=False)