# Análise Exploratória
Aqui você verá todos os meus projetos de Data Science divididos em grupos com as habilidades necessárias para obter os melhores Insights.

![Group 55.png](<attachment:Group 55.png>)

---

# **Scituffy** | Python: E-Commerce Customer Data For Behavior Analysis
Fiz uma análise das vendas de um E-Commerce para entender melhor como são seus clientes. Além disso, após a análise, um modelo de aprendizado de máquina também pode ser desenvolvido para prever se um cliente sairá da plataforma.

**Dados** [Acessar](https://www.kaggle.com/datasets/shriyashjagtap/e-commerce-customer-for-behavior-analysis)

[Enzo Schitini](https://www.linkedin.com/in/enzoschitini/) - Data Scientist • Expert Bubble.io • UX & UI @ Nugus creator

---

## O que você vai encontrar neste notebook? 👋

### **Análise exploratória**
A ciência sempre me fascinou pelo fato de podermos descobrir coisas novas. E foi por essa vontade de fazer descobertas que me tornei Data Scientist, para resolver problemas reais e fazer as tais descobertas.

#### - *Contexto*
É um conjunto de dados sintético gerado usando a biblioteca Faker Python. Ele simula um ambiente completo de comércio eletrônico, capturando diversos aspectos do comportamento do cliente e do histórico de compras em um mercado digital. Este conjunto de dados foi projetado para análise de dados e modelagem preditiva na área de comércio eletrônico. É adequado para tarefas como previsão de rotatividade de clientes, análise de cesta de compras, sistemas de recomendação e análise de tendências.

#### - *Sobre os dados*
É um conjunto de dados sintético gerado usando a biblioteca Faker Python. Ele simula um ambiente completo de comércio eletrônico, capturando diversos aspectos do comportamento do cliente e do histórico de compras em um mercado digital. Este conjunto de dados foi projetado para análise de dados e modelagem preditiva na área de comércio eletrônico. É adequado para tarefas como previsão de rotatividade de clientes, análise de cesta de compras, sistemas de recomendação e análise de tendências.

- `Informações da coluna:`

| Coluna  | Descrição |
| ------- | --------- |
| ID do cliente | Um identificador exclusivo para cada cliente. |
| Nome do cliente | O nome do cliente (gerado pelo Faker) |
| Idade do cliente | A idade do cliente (gerada pelo Faker) |
| Gênero | O gênero do cliente (gerado por Faker)    |
| Data da compra | A data de cada compra feita pelo cliente |
| Categoria do produto | A categoria ou o tipo do produto adquirido |
| Preço do produto | O preço do produto adquirido |
| Quantidade | A quantidade do produto comprado |
| Valor total da compra | O valor total gasto pelo cliente em cada transação |
| Método de pagamento | O método de pagamento usado pelo cliente (por exemplo, cartão de crédito, PayPal) |
| Devoluções | Se o cliente devolveu algum produto do pedido (binário: 0 para nenhuma devolução, 1 para devolução) |
| Churn | Uma coluna binária que indica se o cliente agitou (0 para retido, 1 para agitado) |

> Os dados foram fornecidos pelo [Kaggle](https://www.kaggle.com/datasets/shriyashjagtap/e-commerce-customer-for-behavior-analysis)

### **`Tópicos`**

<ol type="1">
  <li>Carregamento dos dados e dos pacotes</li>
  <li>Entender a estrutura</li>
  <li>Tratamemto</li>
  <li>Atributos e colunas</li>
  <li>Métricas e visualização</li>
</ol>

##### Abaixo você encontrará algumas informações descobertas por esses códigos. Mas se quiser acessar o material completo, baixe o [PDF](https://drive.google.com/file/d/1fK1ocDTSzMpDhKy8jJ1yU3LN1Tm-gxcV/view?usp=drivesdk)

---

## 1.0 Carregamento dos dados e dos pacotes

In [42]:
import pandas as pd
from main import GuidaDataframe

In [43]:
df = pd.read_csv("Data\ecommerce_customer_data_large.csv")
df.head()

  df = pd.read_csv("Data\ecommerce_customer_data_large.csv")


Unnamed: 0,Customer ID,Purchase Date,Product Category,Product Price,Quantity,Total Purchase Amount,Payment Method,Customer Age,Returns,Customer Name,Age,Gender,Churn
0,44605,2023-05-03 21:30:02,Home,177,1,2427,PayPal,31,1.0,John Rivera,31,Female,0
1,44605,2021-05-16 13:57:44,Electronics,174,3,2448,PayPal,31,1.0,John Rivera,31,Female,0
2,44605,2020-07-13 06:16:57,Books,413,1,2345,Credit Card,31,1.0,John Rivera,31,Female,0
3,44605,2023-01-17 13:14:36,Electronics,396,3,937,Cash,31,0.0,John Rivera,31,Female,0
4,44605,2021-05-01 11:29:27,Books,259,4,2598,PayPal,31,1.0,John Rivera,31,Female,0


### 1.1 Estrutura dos dados
Entender a estrutura dos dados significa saber quantas Linhas e Colunas existem, se há dados duplicados ou não, o Nome das colunas, seu Tipo, sua quantidade de categorias, quantos dados nulos e a porcentagem deles.

- Linhas e colunas

In [44]:
linhas, colunas = df.shape
print(f'Temos {linhas} linhas e {colunas} colunas.')

Temos 250000 linhas e 13 colunas.


- Linhas duplicadas

In [45]:
df.drop_duplicates(inplace=True)

#### `Schema`
Agora vamos ver com mais detalhes como é a estrutura da coluna

In [46]:
gd = GuidaDataframe(df)
gd.esplorazione()

Tabela Exploratória
Nesses dados temos 250.000 linhas e 13 colunas.
Consumo de memória: 85.9Mb.


Unnamed: 0,Nome,Tipo,qnt_categorias,Dados nulos,Dados nulos %,Memória (Mb)
1,Customer ID,numpy.int64,49661,0,0.0,2.0
2,Purchase Date,str,249728,0,0.0,16.0
3,Product Category,str,4,0,0.0,13.0
4,Product Price,numpy.int64,491,0,0.0,2.0
5,Quantity,numpy.int64,5,0,0.0,2.0
6,Total Purchase Amount,numpy.int64,5245,0,0.0,2.0
7,Payment Method,str,3,0,0.0,13.0
8,Customer Age,numpy.int64,53,0,0.0,2.0
9,Returns,numpy.float64,2,47382,19.0,2.0
10,Customer Name,str,39878,0,0.0,15.0


## 1.2 Tratamendo dos dados

Já entendemos que os dados apresentam problemas estruturais. São elas: Colunas que pertencem ao tipo de dados errado e que há dados nulos

### Reparando as colunas
Vamos converter valor_transacoes_12m e limite_credito para terem um tipo numérico, para que no futuro possamos fazer cálculos com esses números

- Colunas de data

In [47]:
df['Purchase Date'] = pd.to_datetime(df['Purchase Date'])

- Colunas categóricas

In [48]:
colunas_categoricas = df.select_dtypes('object').columns.to_list()

for coluna in colunas_categoricas:
    df[coluna] = df[coluna].astype('category')

### Dados faltantes

In [49]:
df.isnull().sum()

Customer ID                  0
Purchase Date                0
Product Category             0
Product Price                0
Quantity                     0
Total Purchase Amount        0
Payment Method               0
Customer Age                 0
Returns                  47382
Customer Name                0
Age                          0
Gender                       0
Churn                        0
dtype: int64

In [50]:
gd = GuidaDataframe(df)
gd.esplorazione()

Tabela Exploratória
Nesses dados temos 250.000 linhas e 13 colunas.
Consumo de memória: 22.21Mb.


Unnamed: 0,Nome,Tipo,qnt_categorias,Dados nulos,Dados nulos %,Memória (Mb)
1,Customer ID,numpy.int64,49661,0,0.0,2.0
2,Purchase Date,pandas._libs.tslibs.timestamps.Timestamp,249728,0,0.0,2.0
3,Product Category,str,4,0,0.0,0.0
4,Product Price,numpy.int64,491,0,0.0,2.0
5,Quantity,numpy.int64,5,0,0.0,2.0
6,Total Purchase Amount,numpy.int64,5245,0,0.0,2.0
7,Payment Method,str,3,0,0.0,0.0
8,Customer Age,numpy.int64,53,0,0.0,2.0
9,Returns,numpy.float64,2,47382,19.0,2.0
10,Customer Name,str,39878,0,0.0,4.0


In [51]:
df.drop('Customer ID', axis=1).select_dtypes('number').describe().transpose()

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Product Price,250000.0,254.742724,141.738104,10.0,132.0,255.0,377.0,500.0
Quantity,250000.0,3.004936,1.414737,1.0,2.0,3.0,4.0,5.0
Total Purchase Amount,250000.0,2725.385196,1442.576095,100.0,1476.0,2725.0,3975.0,5350.0
Customer Age,250000.0,43.798276,15.364915,18.0,30.0,44.0,57.0,70.0
Returns,202618.0,0.500824,0.500001,0.0,0.0,1.0,1.0,1.0
Age,250000.0,43.798276,15.364915,18.0,30.0,44.0,57.0,70.0
Churn,250000.0,0.20052,0.40039,0.0,0.0,0.0,0.0,1.0


In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 250000 entries, 0 to 249999
Data columns (total 13 columns):
 #   Column                 Non-Null Count   Dtype         
---  ------                 --------------   -----         
 0   Customer ID            250000 non-null  int64         
 1   Purchase Date          250000 non-null  datetime64[ns]
 2   Product Category       250000 non-null  category      
 3   Product Price          250000 non-null  int64         
 4   Quantity               250000 non-null  int64         
 5   Total Purchase Amount  250000 non-null  int64         
 6   Payment Method         250000 non-null  category      
 7   Customer Age           250000 non-null  int64         
 8   Returns                202618 non-null  float64       
 9   Customer Name          250000 non-null  category      
 10  Age                    250000 non-null  int64         
 11  Gender                 250000 non-null  category      
 12  Churn                  250000 non-null  int6