In [None]:
import numpy as np #biblioteca utilizada para trabalhar com vetores
import pandas as pd #biblioteca para trabalhar com dataframes (planilhas excel)
import seaborn as sns #biblioteca utilizada para criar gráficos mais "bonitos"
import matplotlib.pyplot as plt #biblioteca para criar gráficos "comuns" ao estilo Matlab

In [None]:
# abrir o arquivo csv que contém os dados a serem utilizados durante a prática
uci_customers = pd.read_csv('../input/uci-wholesale-customers-data/Wholesale customers data.csv')

In [None]:
#visualizando as 5 primeiras linhas do banco de dados
uci_customers.head()

1. FRESH: total anual gasto em produtos frescos;
2. MILK: total anual gasto em produtos derivados do leite;
3. GROCERY: total anual gasto em produtos de supermercado;
4. FROZEN: total anual gasto em produtos congelados;
5. DETERGENTS_PAPER: total anual gasto em produtos de limpeza;
6. DELICATESSEN: total anual gasto em produtos de delicatessen;
7. CHANNEL: tipo do canal de comunicação com o consumidor (1- Horeca(hotel/restaurante/cafés) 2- varejo)
8. REGION: região do consumidor

In [None]:
#conhecendo o "formato" dos dados
uci_customers.info() #função para "ver" as variáveis presentes no dataset

In [None]:
#analisando o banco de dados
uci_customers.describe() #função que retorna uma análise superficial dos dados 

**Verificando se existem outliers (anomalias) nos dados. Para isso, será utilizado o boxplot.**

In [None]:
boxplot = uci_customers.boxplot(column=['Fresh', 'Milk','Grocery','Frozen','Detergents_Paper','Delicassen'])  #constroi o boxplot para as colunas desejadas

In [None]:
plt.figure(figsize=(20,10))
uci_customers.boxplot(column=['Fresh','Grocery'])  #constroi o boxplot para o total gasto em alimentos frescos e de supermercado

**Explorando os dados. Entendendo alguns relacionamentos e comportamentos dos clientes.**

In [None]:
#analisando a distribuição dos clientes por gênero
sns.countplot(x='Region', data=uci_customers); # cria o gráfico que conta a quantidade de consumidores existente em cada uma das regiões
plt.title('Distribuição dos clientes quanto à região');  #adiciona o título no gráfico

**Distribuição dos consumidores pelo gasto com produtos derivados do leite**

In [None]:
#analisando a distribuição dos clientes quanto ao total de gastos com produtos derivados do leite através do histograma
uci_customers.hist('Milk', bins=50);  #seleciona a coluna de total de gastos para realizar o histograma
                                 # os "bins" indicam a quantidade de grupos que se deseja dividir os dados
plt.title('Distribuição dos clientes pelo gasto anual em produtos derivados do leite');# adiciona o título ao gráfico (histograma)
plt.xlabel('Gasto total em produtos derivados do leite');

**Comparando o canal de comunicação **

In [None]:
canal_1=uci_customers[uci_customers['Channel']==1] #seleciona o canal 1
canal_2= uci_customers[uci_customers['Channel']==2] #seleciona a comunicação pelo canal 2
plt.hist('Milk', data=canal_1, alpha=0.5, label='Canal_1'); #cria o histograma apenas do canal 1
plt.hist('Milk', data=canal_2, alpha=0.5, label='Canal_2'); #cria o histograma apenas para o canal 2
plt.title('Distribuição dos gastos com derivados do leite por canal'); #adicionao título ao gráfico
plt.xlabel('Canal de Comunicação'); # adiciona o label para o eixo x
plt.legend(); #adiciona a legenda

**Analisando os gastos anuais com supermercado.**

In [None]:
uci_customers.hist('Grocery');  #criando um histograma para os os gastos totais dos consumidores com produtos de supermercado
plt.title('Distribuição dos gastos anuais dos consumidores com supermercado'); #adiciona o título no gráfico
plt.xlabel('Dinheiros'); # adiciona o label do eixo X

In [None]:
uci_customers[uci_customers['Region']==0]#.unique()

**Analisando o impacto da região nos gastos com supermercado.**

In [None]:
plt.figure(figsize=(20,10))


regiao_1=uci_customers[uci_customers['Region'] == 1]
regiao_2=uci_customers[uci_customers['Region'] == 2]
regiao_3=uci_customers[uci_customers['Region'] == 3]

plt.hist('Grocery', data=regiao_1, alpha=0.5, label='Região 1');
plt.hist('Grocery', data=regiao_2, alpha=0.5, label='Região 2');
plt.hist('Grocery', data=regiao_3, alpha=0.5, label='Região 3');

plt.title('Distribuição dos gastos com produtos de supermercado por região');
plt.xlabel('Região');
plt.legend();

** Comparando os valores gastos com supermercado por cada região**

In [None]:
#obtém os dados de cada um dos consumidores em cada região
regiao_1=uci_customers[uci_customers['Region'] == 1]
regiao_2=uci_customers[uci_customers['Region'] == 2]
regiao_3=uci_customers[uci_customers['Region'] == 3]

# obtém os valores médios atribuídos a cada uma das regiões
print('Valor anual médio gasto pelos clientes da região 1: ',regiao_1[['Fresh','Milk','Grocery','Frozen','Detergents_Paper','Delicassen']].mean()) #imprime o valor médio para a região 1
print('Valor anual médio gasto pelos clientes da região 2: ',regiao_2[['Fresh','Milk','Grocery','Frozen','Detergents_Paper','Delicassen']].mean()) #imprime o valor médio para a região 2
print('Valor anual médio gasto pelos clientes da região 3: ',regiao_3[['Fresh','Milk','Grocery','Frozen','Detergents_Paper','Delicassen']].mean()) #imprime o valor médio para a região 3



In [None]:
df_customers_mean=uci_customers.groupby('Region').mean() #agrupa por região e obtém os valores médios
df_customers_mean.plot(kind='bar',figsize=(20,10))  #realiza o plot 

**Encontrando o valor gasto com Delicassen e Supermercado pela região**

In [None]:
plt.figure(figsize=(20,10))

sns.scatterplot('Delicassen', 'Grocery', hue='Region', data=uci_customers); #realiza o plot do gráfico dos gastos em supermercado com o 
plt.title('Delicassen x Supermercado (colorido por Região)'); #adiciona o título ao gráfico

** Analisando a correlação entre as variáveis **

In [None]:
plt.figure(figsize=(20,10))

sns.heatmap(uci_customers.corr(), annot=True) # desenha a matriz de correlação entre cada um dos dados 

** Analisando a correlação entre os Gastos com Detergente e Papel com as Compras de Produtos de Supermercado **

In [None]:
plt.figure(figsize=(20,10))


sns.scatterplot('Grocery', 'Detergents_Paper', hue='Region', data=uci_customers);  #realiza o plot do gráfico de dispersão 
plt.title('Compras em Supermercado x Detergente e Papel, (Colorido por região))'); #adiciona o título ao gráfico

** Aplicando a regressão linear **

In [None]:
from sklearn.model_selection import train_test_split 
from sklearn.linear_model import LinearRegression
from sklearn import metrics

In [None]:
X = uci_customers['Grocery'].values.reshape(-1,1)
y = uci_customers['Delicassen'].values.reshape(-1,1)

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0) #dividindo o df em treinamento e teste

In [None]:
regressor = LinearRegression() #objeto para a construção do medelo de regressão linear 
regressor.fit(X_train, y_train) #treinamento do algoritmo

In [None]:
y_pred = regressor.predict(X_test)  #previsão do modelo de regressão
plt.scatter(X_test, y_test,  color='gray')
plt.plot(X_test, y_pred, color='red', linewidth=2)
plt.show()

** Analisando a correlação entre o gasto com Produtos congelados e produtos de higiene**

In [None]:
plt.figure(figsize=(20,10))


sns.scatterplot('Frozen', 'Detergents_Paper', hue='Region', data=uci_customers);  #realiza o plot do gráfico de dispersão 
plt.title('Produtos Congelados x Detergente e Papel, (Colorido por região))'); #adiciona o título ao gráfico

** Correlações por região **

In [None]:
#região 1 - Lisboa
sns.heatmap(regiao_1.corr(), annot=True); #encontra a matriz de correlação apenas entre o gênero feminino
plt.title('Correlações apenas para a região 1'); #adiciona o título no gráfico

**Segmentação de clientes utilizando compras no supermercado e produtos de limpeza.**

In [None]:
#biblioteca para realizar a construção do algoritmo não supervisionado K-means
from sklearn.cluster import KMeans

In [None]:
#obtém os dados para a construção do banco de dados apenas com compras de congelados e produtos de limpeza
segmentacao_1 = uci_customers[['Frozen' , 'Detergents_Paper']].iloc[: , :].values #transforma os dados em array


In [None]:
kmeans = KMeans(n_clusters=3) #contrói o modelo para aplicar o algoritmo de clusterização não supervisionado K-means
kmeans.fit(segmentacao_1) #aplica o modelo K-means aos dados
y_kmeans = kmeans.predict(segmentacao_1) #encontra os grupos

In [None]:
#inicia a construção da figura
plt.figure(figsize = (20 , 10) ) #define o tamanho da figura

plt.scatter(segmentacao_1[:, 0], segmentacao_1[:, 1], c=y_kmeans, cmap='viridis') #constrói o gráfco de dispersão com os grupos
centers = kmeans.cluster_centers_ #encontra os centros de cada um dos grupos
plt.scatter(centers[:, 0], centers[:, 1], c='black', s=200, alpha=0.5) #realiza o plot de cada um dos grupos
plt.xlabel("Gastos com supermercado")  #adiciona o label para o eixo X
plt.ylabel("Gastos com produtos de limpeza") #adiciona o label para o eixo Y
plt.title("Segmentação de clientes por gastos com  Produots de supermercado x Produtos de limpeza") #adiciona o título