# Instruções para a realização dos Cases


![image.png](attachment:image.png)

# 1. Manipulação e Visualização de Dados

In [3]:
import pandas as pd
from sqlalchemy import create_engine
import os

In [None]:
df1 = pd.read_excel('./bases/vendas.xlsx')
df1.shape

In [None]:
df1.columns = [
    col.lower().replace(' ', '_').replace('ç', 'c').replace('í', 'i') for col in df1.columns
]
print(df1.columns)

Index(['cluster_de_preco_do_vinho', 'tipo_do_vinho', 'pais_do_vinho',
       'uf_do_cliente', 'idade_do_cliente', 'receita', 'pedidos', 'clientes'],
      dtype='object')


In [None]:
df1.head()

Unnamed: 0,cluster_de_preco_do_vinho,tipo_do_vinho,pais_do_vinho,uf_do_cliente,idade_do_cliente,receita,pedidos,clientes
0,"R$0 a R$49,99",Espumante,Itália,AL,34,378.235,2,3
1,"R$0 a R$49,99",Espumante,Itália,AL,38,103.155,1,1
2,"R$0 a R$49,99",Espumante,Itália,AL,39,127.65,1,1
3,"R$0 a R$49,99",Espumante,Itália,AL,40,40.135,1,1
4,"R$0 a R$49,99",Espumante,Itália,AL,41,45.885,1,1


In [None]:
df1['Tipo do Vinho'].unique()

array(['Espumante', 'Rosé', 'Branco', 'Tinto'], dtype=object)

In [None]:
df1['País do Vinho'].unique()

array(['Itália', 'Argentina', 'Espanha', 'Uruguai', 'França', 'Portugal',
       'Brasil', 'Austrália', 'Chile'], dtype=object)

In [None]:
df1['UF do Cliente'].unique()

array(['AL', 'AC', 'AP', 'AM', 'CE', 'BA', 'ES', 'DF', 'MA', 'GO', 'MS',
       'MG', 'PA', 'MT', 'PE', 'PB', 'PR', 'PI', 'SP', 'RN', 'RR', 'RO',
       'SC', 'RS', 'SE', 'RJ', 'TO'], dtype=object)

In [None]:
df1['Cluster de Preço do Vinho'].unique()

array(['R$0 a R$49,99', 'R$100 a R$199,99', 'R$200 a R$399,99',
       'R$400 ou mais', 'R$50 a R$99,99'], dtype=object)

In [None]:
df1['Idade do Cliente'].unique()

array([34, 38, 39, 40, 41, 43, 44, 45, 46, 47, 54, 61, 62, 66, 69, 95, 26,
       27, 28, 31, 33, 35, 37, 42, 48, 49, 50, 51, 52, 55, 56, 57, 58, 59,
       60, 63, 65, 67, 68, 70, 73, 74, 76, 78, 80, 83, 29, 30, 32, 36, 53,
       64, 71, 72, 75, 77, 81, 86, 23, 25, 79, 82, 85, 87, 89, 20, 21, 22,
       24, 94, 88, 91, 84, 90, 92, 19, 93,  0, 18], dtype=int64)

In [None]:
pivot_df = pd.pivot_table(
    df1,
    values=['Receita', 'Pedidos', 'Clientes'],
    index=['País do Vinho'],
    aggfunc='sum'
)

In [None]:
pivot_df = pivot_df.sort_values(by='Receita', ascending=False)
pivot_df

Unnamed: 0_level_0,Clientes,Pedidos,Receita
País do Vinho,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
França,340723,361413,46451280.0
Itália,387082,415528,40562700.0
Argentina,160033,169714,38099010.0
Espanha,336151,370225,36637240.0
Uruguai,302200,322980,28832640.0
Portugal,80795,75432,12220640.0
Brasil,23876,21398,3860598.0
Chile,10938,9348,838738.9
Austrália,5322,4544,690247.6


In [None]:
df1['uf_do_cliente'].unique()

array(['AL', 'AC', 'AP', 'AM', 'CE', 'BA', 'ES', 'DF', 'MA', 'GO', 'MS',
       'MG', 'PA', 'MT', 'PE', 'PB', 'PR', 'PI', 'SP', 'RN', 'RR', 'RO',
       'SC', 'RS', 'SE', 'RJ', 'TO'], dtype=object)

In [None]:
engine = create_engine('mysql+pymysql://root:010300@localhost:3306/PORTIFOLIO')

df1.to_sql('vendas_tratada', con=engine, if_exists='replace', index=False)

86847

In [None]:
['cluster_de_preco_do_vinho', 'tipo_do_vinho', 'pais_do_vinho',
       'uf_do_cliente', 'idade_do_cliente', 'receita', 'pedidos', 'clientes'],
      dtype='object')

In [None]:
query = """

SELECT 

cluster_de_preco_do_vinho,
tipo_do_vinho,
pais_do_vinho,
uf_do_cliente,
idade_do_cliente,

CASE
    WHEN TRIM(uf_do_cliente) IN ('SP', 'RJ', 'MG', 'ES') THEN 'SUDESTE'
    WHEN TRIM(uf_do_cliente) IN ('RS', 'SC', 'PR') THEN 'SUL'
    WHEN TRIM(uf_do_cliente) IN ('DF', 'GO', 'MT', 'MS') THEN 'CENTRO-OESTE'
    WHEN TRIM(uf_do_cliente) IN ('AC', 'AM', 'AP', 'PA', 'RO', 'RR', 'TO') THEN 'NORTE'
    WHEN TRIM(uf_do_cliente) IN ('AL', 'BA', 'CE', 'MA', 'PB', 'PE', 'PI', 'RN', 'SE') THEN 'NORDESTE'
END AS REGIAO,

CASE 
    WHEN idade_do_cliente < 18 THEN 'Menor de Idade'
    WHEN idade_do_cliente >= 18 AND idade_do_cliente < 30 THEN '18-29'
    WHEN idade_do_cliente >= 30 AND idade_do_cliente < 40 THEN '30-39'
    WHEN idade_do_cliente >= 40 AND idade_do_cliente < 50 THEN '40-49'
    WHEN idade_do_cliente >= 50 AND idade_do_cliente < 60 THEN '50-59'
    WHEN idade_do_cliente >= 60 THEN '60+'
END AS faixa_etaria,

SUM(receita) AS SOMA_RECEITA,
SUM(pedidos) AS SOMA_PEDIDOS,
SUM(clientes) AS SOMA_CLIENTES

FROM PORTIFOLIO.vendas_tratada
GROUP BY 1,2,3,4,5;

"""

df = pd.read_sql_query(query, engine)
df.shape


(77612, 10)

In [None]:
df.head()

Unnamed: 0,cluster_de_preco_do_vinho,tipo_do_vinho,pais_do_vinho,uf_do_cliente,idade_do_cliente,REGIAO,faixa_etaria,SOMA_RECEITA,SOMA_PEDIDOS,SOMA_CLIENTES
0,"R$0 a R$49,99",Espumante,Itália,AL,34,NORDESTE,30-39,378.235,2.0,3.0
1,"R$0 a R$49,99",Espumante,Itália,AL,38,NORDESTE,30-39,103.155,1.0,1.0
2,"R$0 a R$49,99",Espumante,Itália,AL,39,NORDESTE,30-39,127.65,1.0,1.0
3,"R$0 a R$49,99",Espumante,Itália,AL,40,NORDESTE,40-49,40.135,1.0,1.0
4,"R$0 a R$49,99",Espumante,Itália,AL,41,NORDESTE,40-49,45.885,1.0,1.0


In [None]:
df.to_excel('./bases/cubo_vendas.xlsx', index=False)

# 2. Desenvolvimento de Modelos Estatísticos para CRM

In [25]:
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
import seaborn as sns
from sqlalchemy import create_engine
import os
import pymysql

In [65]:
df = pd.read_excel('./bases/clientes_evino.xlsx')

In [66]:
df.columns = [
    col.lower().replace(' ', '_').replace('ú', 'u').replace('ç', 'c') for col in df.columns
]
print(df.columns)

Index(['id_unico_do_cliente', 'range_de_preco', 'tipo_de_vinho', 'receita',
       'garrafas'],
      dtype='object')


In [67]:
df1 = pd.get_dummies(df, columns=['range_de_preco', 'tipo_de_vinho'], drop_first=False)


# Selecionar as colunas relevantes
features = ['receita', 'garrafas'] + [col for col in df1.columns if 'range_de_preco_' in col or 'tipo_de_vinho_' in col]
X = df1[features]


scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)



n_clusters = 10
kmeans = KMeans(n_clusters=n_clusters, init='k-means++', max_iter=300, n_init=10, random_state=42)
df1['cluster'] = kmeans.fit_predict(X_scaled)


df['cluster'] = kmeans.fit_predict(X_scaled)

In [68]:
df['cluster'].value_counts()

cluster
2    175725
1    139979
0     93440
3     66587
7     58501
8     46387
5     37565
6     11189
4      9661
9      8420
Name: count, dtype: int64

In [69]:
pivot_table = pd.pivot_table(df, 
                             index='cluster', 
                             columns='range_de_preco', 
                             aggfunc='size', 
                             fill_value=0)

pivot_table

range_de_preco,"R$0 a R$49,99","R$100 a R$199,99","R$200 a R$399,99",R$400 ou mais,"R$50 a R$99,99"
cluster,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,52172,0,0,0,41268
1,0,0,0,0,139979
2,175725,0,0,0,0
3,0,66587,0,0,0
4,0,0,0,9661,0
5,18543,4349,0,0,14673
6,0,0,11189,0,0
7,58501,0,0,0,0
8,0,0,0,0,46387
9,3571,1051,20,119,3659


In [71]:
pivot_table1 = pd.pivot_table(df, 
                             index='cluster', 
                             columns='tipo_de_vinho', 
                             aggfunc='size', 
                             fill_value=0)

pivot_table1

tipo_de_vinho,Branco,Espumante,Rosé,Tinto
cluster,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,93440,0,0,0
1,0,0,0,139979
2,0,0,0,175725
3,11860,0,13579,41148
4,1656,594,1915,5496
5,0,37565,0,0
6,1930,706,2156,6397
7,0,0,58501,0
8,0,0,46387,0
9,1265,397,1559,5199


In [72]:
# Escrevendo o df no MySQL, usando o nome do arquivo como o nome da tabela
df.to_sql('clientes_clusterizados', con=engine, if_exists='replace', index=False)

647454

In [76]:
query = """

SELECT 
range_de_preco,
tipo_de_vinho,
cluster,

SUM(receita) AS SOMA_RECEITA,
SUM(garrafas) AS SOMA_GARRAFAS,
COUNT(id_unico_do_cliente) AS QTD_CLIENTES

FROM PORTIFOLIO.clientes_clusterizados
GROUP BY 1,2,3;
"""

df2 = pd.read_sql_query(query, engine)
df2.shape


(39, 6)

In [77]:
df2

Unnamed: 0,range_de_preco,tipo_de_vinho,cluster,SOMA_RECEITA,SOMA_GARRAFAS,QTD_CLIENTES
0,"R$0 a R$49,99",Tinto,2,58968850.0,4612574.0,175725
1,"R$100 a R$199,99",Rosé,3,7191802.0,264897.0,13579
2,"R$50 a R$99,99",Tinto,1,53598000.0,2914324.0,139979
3,"R$0 a R$49,99",Espumante,5,6419541.0,504341.0,18543
4,"R$50 a R$99,99",Rosé,8,18380440.0,994553.0,46387
5,"R$0 a R$49,99",Branco,0,17439880.0,1367389.0,52172
6,"R$100 a R$199,99",Tinto,3,21868480.0,785543.0,41148
7,"R$200 a R$399,99",Tinto,6,3343901.0,111029.0,6397
8,"R$0 a R$49,99",Rosé,7,20065790.0,1572776.0,58501
9,"R$50 a R$99,99",Branco,0,15783580.0,853471.0,41268


In [78]:
df2.to_excel('cubo_clientes_clusterizados.xlsx', index=False)