# Projeto de Análise de Dados: Tendências de Compras do Cliente

## Introdução

Link para o [download do dataset](https://www.kaggle.com/datasets/iamsouravbanerjee/customer-shopping-trends-dataset) utilizado para a construção desse projeto

**Atributos**:


* Customer ID - identificador exclusivo para cada cliente;
* Age - Idade do cliente;
* Gender - Gênero do cliente (Masculino/Feminino);
* Item Purchased - O item comprado pelo cliente;
* Category - Categoria do item adquirido;
* Purchase Amount (USD) - O valor da compra em USD;
* Location - Local onde a compra foi realizada;
* Size - Tamanho do item adquirido;
* Color - Cor do item adquirido;
* Season - Temporada durante a qual a compra foi feita;
* Review Rating - Classificação dada pelo cliente para o item comprado;
* Subscription Status - Indica se o cliente possui uma assinatura (Sim/Não);
* Shipping Type - Tipo de envio escolhido pelo cliente;
* Discount Applied -  Indica se foi aplicado desconto na compra (Sim/Não);
* Promo Code Used -  Indica se um código promocional foi usado para a compra(Sim/Não);
* Previous Purchases - A contagem total de transações concluídas pelo cliente na loja, excluindo a transação em andamento;
* Payment Method - método de pagamento preferido do cliente;
* Frequency of Purchases -  Frequência com que o cliente realiza compras (ex: Semanal, Quinzenal, Mensal).

## Pré-Processamento

1. Bibliotecas que serão utilizadas:

In [9]:
import pandas as pd
import streamlit as st

2. Leitura do dataset:

Máquina de FERNANDO:

In [10]:
dataset = "C:\\Users\\Nando\OneDrive\Documentos\Datasets/shopping_trends.csv"

Máquina de MICAEL:

In [17]:
dataset = r'C:\Users\micae\OneDrive\Documentos\GitHub\Projeto_Dev_Python\archive (2)\shopping_trends.csv'

Lendo o dataset:

In [18]:
df = pd.read_csv(dataset)

df

Unnamed: 0,Customer ID,Age,Gender,Item Purchased,Category,Purchase Amount (USD),Location,Size,Color,Season,Review Rating,Subscription Status,Payment Method,Shipping Type,Discount Applied,Promo Code Used,Previous Purchases,Preferred Payment Method,Frequency of Purchases
0,1,55,Male,Blouse,Clothing,53,Kentucky,L,Gray,Winter,3.1,Yes,Credit Card,Express,Yes,Yes,14,Venmo,Fortnightly
1,2,19,Male,Sweater,Clothing,64,Maine,L,Maroon,Winter,3.1,Yes,Bank Transfer,Express,Yes,Yes,2,Cash,Fortnightly
2,3,50,Male,Jeans,Clothing,73,Massachusetts,S,Maroon,Spring,3.1,Yes,Cash,Free Shipping,Yes,Yes,23,Credit Card,Weekly
3,4,21,Male,Sandals,Footwear,90,Rhode Island,M,Maroon,Spring,3.5,Yes,PayPal,Next Day Air,Yes,Yes,49,PayPal,Weekly
4,5,45,Male,Blouse,Clothing,49,Oregon,M,Turquoise,Spring,2.7,Yes,Cash,Free Shipping,Yes,Yes,31,PayPal,Annually
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3895,3896,40,Female,Hoodie,Clothing,28,Virginia,L,Turquoise,Summer,4.2,No,Cash,2-Day Shipping,No,No,32,Venmo,Weekly
3896,3897,52,Female,Backpack,Accessories,49,Iowa,L,White,Spring,4.5,No,PayPal,Store Pickup,No,No,41,Bank Transfer,Bi-Weekly
3897,3898,46,Female,Belt,Accessories,33,New Jersey,L,Green,Spring,2.9,No,Credit Card,Standard,No,No,24,Venmo,Quarterly
3898,3899,44,Female,Shoes,Footwear,77,Minnesota,S,Brown,Summer,3.8,No,PayPal,Express,No,No,24,Venmo,Weekly


3. Verificando a estrutura

In [23]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3900 entries, 0 to 3899
Data columns (total 19 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Customer ID               3900 non-null   int64  
 1   Age                       3900 non-null   int64  
 2   Gender                    3900 non-null   object 
 3   Item Purchased            3900 non-null   object 
 4   Category                  3900 non-null   object 
 5   Purchase Amount (USD)     3900 non-null   int64  
 6   Location                  3900 non-null   object 
 7   Size                      3900 non-null   object 
 8   Color                     3900 non-null   object 
 9   Season                    3900 non-null   object 
 10  Review Rating             3900 non-null   float64
 11  Subscription Status       3900 non-null   object 
 12  Payment Method            3900 non-null   object 
 13  Shipping Type             3900 non-null   object 
 14  Discount

In [22]:
df.describe()

Unnamed: 0,Customer ID,Age,Purchase Amount (USD),Review Rating,Previous Purchases
count,3900.0,3900.0,3900.0,3900.0,3900.0
mean,1950.5,44.068462,59.764359,3.749949,25.351538
std,1125.977353,15.207589,23.685392,0.716223,14.447125
min,1.0,18.0,20.0,2.5,1.0
25%,975.75,31.0,39.0,3.1,13.0
50%,1950.5,44.0,60.0,3.7,25.0
75%,2925.25,57.0,81.0,4.4,38.0
max,3900.0,70.0,100.0,5.0,50.0


4. Verificando valores nulos:

In [19]:
print(f'Verificando valores faltantes : \n\n{df.isna().sum()}')

Verificando valores faltantes : 

Customer ID                 0
Age                         0
Gender                      0
Item Purchased              0
Category                    0
Purchase Amount (USD)       0
Location                    0
Size                        0
Color                       0
Season                      0
Review Rating               0
Subscription Status         0
Payment Method              0
Shipping Type               0
Discount Applied            0
Promo Code Used             0
Previous Purchases          0
Preferred Payment Method    0
Frequency of Purchases      0
dtype: int64


5. Verificando duplicatas:

In [20]:
print(f'Verificando valores duplicados: \n\n{df.duplicated()}')

Verificando valores duplicados: 

0       False
1       False
2       False
3       False
4       False
        ...  
3895    False
3896    False
3897    False
3898    False
3899    False
Length: 3900, dtype: bool


In [15]:
# Verificar número de valores únicos em cada coluna
df.nunique()

Customer ID                 3900
Age                           53
Gender                         2
Item Purchased                25
Category                       4
Purchase Amount (USD)         81
Location                      50
Size                           4
Color                         25
Season                         4
Review Rating                 26
Subscription Status            2
Payment Method                 6
Shipping Type                  6
Discount Applied               2
Promo Code Used                2
Previous Purchases            50
Preferred Payment Method       6
Frequency of Purchases         7
dtype: int64

In [24]:
df['Gender'].unique()

array(['Male', 'Female'], dtype=object)

In [25]:
df['Item Purchased'].unique()

array(['Blouse', 'Sweater', 'Jeans', 'Sandals', 'Sneakers', 'Shirt',
       'Shorts', 'Coat', 'Handbag', 'Shoes', 'Dress', 'Skirt',
       'Sunglasses', 'Pants', 'Jacket', 'Hoodie', 'Jewelry', 'T-shirt',
       'Scarf', 'Hat', 'Socks', 'Backpack', 'Belt', 'Boots', 'Gloves'],
      dtype=object)

In [26]:
df['Category'].unique()

array(['Clothing', 'Footwear', 'Outerwear', 'Accessories'], dtype=object)

In [27]:
df['Size'].unique()

array(['L', 'S', 'M', 'XL'], dtype=object)

In [28]:
df['Color'].unique()

array(['Gray', 'Maroon', 'Turquoise', 'White', 'Charcoal', 'Silver',
       'Pink', 'Purple', 'Olive', 'Gold', 'Violet', 'Teal', 'Lavender',
       'Black', 'Green', 'Peach', 'Red', 'Cyan', 'Brown', 'Beige',
       'Orange', 'Indigo', 'Yellow', 'Magenta', 'Blue'], dtype=object)

In [29]:
df['Location'].unique()

array(['Kentucky', 'Maine', 'Massachusetts', 'Rhode Island', 'Oregon',
       'Wyoming', 'Montana', 'Louisiana', 'West Virginia', 'Missouri',
       'Arkansas', 'Hawaii', 'Delaware', 'New Hampshire', 'New York',
       'Alabama', 'Mississippi', 'North Carolina', 'California',
       'Oklahoma', 'Florida', 'Texas', 'Nevada', 'Kansas', 'Colorado',
       'North Dakota', 'Illinois', 'Indiana', 'Arizona', 'Alaska',
       'Tennessee', 'Ohio', 'New Jersey', 'Maryland', 'Vermont',
       'New Mexico', 'South Carolina', 'Idaho', 'Pennsylvania',
       'Connecticut', 'Utah', 'Virginia', 'Georgia', 'Nebraska', 'Iowa',
       'South Dakota', 'Minnesota', 'Washington', 'Wisconsin', 'Michigan'],
      dtype=object)

In [30]:
df['Season'].unique()

array(['Winter', 'Spring', 'Summer', 'Fall'], dtype=object)

In [31]:
df['Payment Method'].unique()

array(['Credit Card', 'Bank Transfer', 'Cash', 'PayPal', 'Venmo',
       'Debit Card'], dtype=object)

In [33]:
df['Shipping Type'].unique()

array(['Express', 'Free Shipping', 'Next Day Air', 'Standard',
       '2-Day Shipping', 'Store Pickup'], dtype=object)

In [34]:
df['Preferred Payment Method'].unique()

array(['Venmo', 'Cash', 'Credit Card', 'PayPal', 'Bank Transfer',
       'Debit Card'], dtype=object)

In [35]:
df['Frequency of Purchases'].unique()

array(['Fortnightly', 'Weekly', 'Annually', 'Quarterly', 'Bi-Weekly',
       'Monthly', 'Every 3 Months'], dtype=object)

6. Renomeando colunas:

In [36]:
print(df.columns)

Index(['Customer ID', 'Age', 'Gender', 'Item Purchased', 'Category',
       'Purchase Amount (USD)', 'Location', 'Size', 'Color', 'Season',
       'Review Rating', 'Subscription Status', 'Payment Method',
       'Shipping Type', 'Discount Applied', 'Promo Code Used',
       'Previous Purchases', 'Preferred Payment Method',
       'Frequency of Purchases'],
      dtype='object')


In [37]:
df = df.rename(
    columns = {
      'Customer ID': 'Id_cliente',
      'Age': 'Idade',
      'Gender': 'Sexo',
      'Item Purchased': 'Item_Comprado',
      'Category': 'Categoria',
      'Purchase Amount (USD)': 'Valor_Compra(USD)',
      'Location': 'Localização',
      'Size': 'Tamanho_item',
      'Color': 'Cor_Item',
      'Season': 'Temporada_Compra',
      'Review Rating': 'Classificação_cliente_compra',
      'Subscription Status': 'Assinatura_Cliente',
      'Payment Method': 'Método_Pagamento',
      'Shipping Type': 'Tipo_Envio_Cliente',
      'Discount Applied': 'Desconto_Compra',
      'Promo Code Used': 'Código_Promocional',
      'Previous Purchases': 'Transações_Concluidas_Cliente',
      'Preferred Payment Method': 'Preferência_Método_Pagamento',
      'Frequency of Purchases': 'Frequência_Compras_Cliente'
    }
)

for col in df.columns:
    df = df.rename(columns={col: col.lower()})

In [38]:
df.head(5)

Unnamed: 0,id_cliente,idade,sexo,item_comprado,categoria,valor_compra(usd),localização,tamanho_item,cor_item,temporada_compra,classificação_cliente_compra,assinatura_cliente,método_pagamento,tipo_envio_cliente,desconto_compra,código_promocional,transações_concluidas_cliente,preferência_método_pagamento,frequência_compras_cliente
0,1,55,Male,Blouse,Clothing,53,Kentucky,L,Gray,Winter,3.1,Yes,Credit Card,Express,Yes,Yes,14,Venmo,Fortnightly
1,2,19,Male,Sweater,Clothing,64,Maine,L,Maroon,Winter,3.1,Yes,Bank Transfer,Express,Yes,Yes,2,Cash,Fortnightly
2,3,50,Male,Jeans,Clothing,73,Massachusetts,S,Maroon,Spring,3.1,Yes,Cash,Free Shipping,Yes,Yes,23,Credit Card,Weekly
3,4,21,Male,Sandals,Footwear,90,Rhode Island,M,Maroon,Spring,3.5,Yes,PayPal,Next Day Air,Yes,Yes,49,PayPal,Weekly
4,5,45,Male,Blouse,Clothing,49,Oregon,M,Turquoise,Spring,2.7,Yes,Cash,Free Shipping,Yes,Yes,31,PayPal,Annually


7. Renomeando Valores Categóricos:

* Sexo:

In [39]:
counts = df["sexo"].value_counts()
counts.head(10)

sexo
Male      2652
Female    1248
Name: count, dtype: int64

In [40]:
sexo_map = {
    'Male': 'Masculino',
    'Female': 'Feminino'
}
df['sexo'] = df['sexo'].apply(lambda sexo: sexo_map.get(sexo) if sexo in sexo_map.keys() else sexo)

In [42]:
df.head(3)

Unnamed: 0,id_cliente,idade,sexo,item_comprado,categoria,valor_compra(usd),localização,tamanho_item,cor_item,temporada_compra,classificação_cliente_compra,assinatura_cliente,método_pagamento,tipo_envio_cliente,desconto_compra,código_promocional,transações_concluidas_cliente,preferência_método_pagamento,frequência_compras_cliente
0,1,55,Masculino,Blouse,Clothing,53,Kentucky,L,Gray,Winter,3.1,Yes,Credit Card,Express,Yes,Yes,14,Venmo,Fortnightly
1,2,19,Masculino,Sweater,Clothing,64,Maine,L,Maroon,Winter,3.1,Yes,Bank Transfer,Express,Yes,Yes,2,Cash,Fortnightly
2,3,50,Masculino,Jeans,Clothing,73,Massachusetts,S,Maroon,Spring,3.1,Yes,Cash,Free Shipping,Yes,Yes,23,Credit Card,Weekly


* item comprado:

* categoria:

* localização:

* Cor do item:

* temporada compra:

* assinatura_cliente:

* método de pagamento:

* tipo envio cliente;

* desconto compra:

* código promocional:

*  preferência método de pagamento:

* frequência compra cliente: