## <font color='white'>Machine Learning com Linguagem Python e Power BI com Jupyter Notebook</font>

Problema de Negócio:

Considerando dados históricos de clientes que realizaram compras em nossa empresa, faça o agrupamento (segmentação) dos clientes por similaridade de características em 3 grupos e envie o relatório para a equipe de Marketing.

In [1]:
# Versão da Linguagem Python
from platform import python_version
print('Versão da Linguagem Python Usada Neste Jupyter Notebook:', python_version())

Versão da Linguagem Python Usada Neste Jupyter Notebook: 3.12.4


In [2]:
# Imports
import pandas as pd
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler

## Carregando os Dados

In [3]:
# Carrega os dados
df_dsa = pd.read_csv('dados/dados_clientes.csv')

In [4]:
type(df_dsa)

pandas.core.frame.DataFrame

In [5]:
# Visualiza as 10 primeiras linhas
df_dsa.head(10)

Unnamed: 0,id,idade,renda_anual,pontuacao_gastos
0,1,56,94740,90
1,2,69,136352,50
2,3,46,86617,62
3,4,32,114841,97
4,5,60,36896,51
5,6,25,145729,37
6,7,38,66175,96
7,8,56,27805,87
8,9,36,25237,78
9,10,40,135247,29


## Análise Exploratória

In [6]:
# Resumo estatístico
df_dsa[['idade', 'renda_anual', 'pontuacao_gastos']].describe()

Unnamed: 0,idade,renda_anual,pontuacao_gastos
count,500.0,500.0,500.0
mean,44.732,81557.166,48.512
std,15.239707,36764.379945,29.556946
min,18.0,20384.0,0.0
25%,32.0,49172.75,24.0
50%,45.0,79219.0,48.5
75%,57.0,113017.25,73.25
max,70.0,149695.0,100.0


## Pré-Processamento dos Dados

In [7]:
# Cria o padronizador dos dados
padronizador = StandardScaler()

In [8]:
# Aplica o padronizador somente nas colunas de interesse
dados_padronizados = padronizador.fit_transform(df_dsa[['idade', 'renda_anual', 'pontuacao_gastos']])

In [9]:
# Visualiza os dados
print(dados_padronizados)

[[ 0.74012478  0.35893538  1.40506904]
 [ 1.59401387  1.49192537  0.05039391]
 [ 0.08328703  0.13776654  0.45679645]
 ...
 [-0.31081563  0.32661636  0.18586143]
 [-1.23038848 -1.48706069  1.43893592]
 [-1.03333716 -0.96992912 -0.59307677]]


## Construção do Modelo de Machine Learning Para Segmentação de Clientes

In [10]:
# Definimos o número de clusters (k)
k = 3

In [11]:
# Criamos o modelo K-means
kmeans = KMeans(n_clusters = k)

In [12]:
# Treinamento do modelo com os dados padronizados
kmeans.fit(dados_padronizados)



In [13]:
# Atribuímos os rótulos dos clusters aos clientes
df_dsa['cluster'] = kmeans.labels_

In [14]:
# Exibe o resultado (10 primeiras linhas)
df_dsa.head(10)

Unnamed: 0,id,idade,renda_anual,pontuacao_gastos,cluster
0,1,56,94740,90,2
1,2,69,136352,50,0
2,3,46,86617,62,0
3,4,32,114841,97,0
4,5,60,36896,51,2
5,6,25,145729,37,0
6,7,38,66175,96,1
7,8,56,27805,87,2
8,9,36,25237,78,1
9,10,40,135247,29,0


In [15]:
# Salvamos o resultado em disco
df_dsa.to_csv('dados/segmentos.csv', index = False)

## Gerando Relatório dos Segmentos de Clientes com Power BI no Jupyter Notebook

https://pypi.org/project/powerbiclient/

In [16]:
# Instala o pacote  
!pip install -q powerbiclient

In [None]:
# Carrega as funções usadas para autenticar e gerar  relatórios
from powerbiclient import QuickVisualize, get_dataset_config, Report
from powerbiclient.authentication import DeviceCodeLoginAuthentication

**ATENÇÃO**: Para fazer a autenticação é necessário ter uma conta no Power BI Service, criada com e-mail de estudante ou corporativo. Caso você não tenha, apenas acompanhe as aulas e ao final mostraremos como abrir o relatório no Power BI  Desktop, que será fornecido ao final do capítulo.

In [None]:
# Define a autenticação no Power BI Service
device_auth = DeviceCodeLoginAuthentication()

In [None]:
# Cria o relatório no Power BI
relatorio_PBI = QuickVisualize(get_dataset_config(df_dsa), auth = device_auth)

In [None]:
# Renderiza (visualiza) o relatório
relatorio_PBI

# Fim