# Machine Learning com Linguagem Python e Power BI Dentro do Jupyter Notebook

Problema de Negócio:
Considerando dados históricos de clientes que realizaram compras em nossa empresa,
faça o agrupamento (segmentação) dos clientes por similaridade de características
em 3 grupos e envie o relatório para a equipe de Marketing.

In [7]:
# Versão da linguagem Python

from platform import  python_version

print('Versão da Linguagem Python usada neste jupyter notebook:', python_version())

Versão da Linguagem Python usada neste jupyter notebook: 3.9.25


###  Importando as bibliotecas

In [8]:
# Imports

import pandas as pd
from sklearn.cluster import KMeans 
#framework de machine learning para linguagem python
# eu vou buscar o pacote cluster e importar a função kmeans que é a função que tem o algoritmo de aprendizado de máquina
from sklearn.preprocessing import StandardScaler
# pra usar o modelo eu preciso pré processar os dados
# então vou usar a função StandardScaler do pacote preprocessing do SKlearn

### Carregando os dados

In [9]:
df_dsa = pd.read_csv('../data/dados_clientes.csv')

### Visualizando os dados

In [10]:
df_dsa.head(10)

Unnamed: 0,id,idade,renda_anual,pontuacao_gastos
0,1,56,94740,90
1,2,69,136352,50
2,3,46,86617,62
3,4,32,114841,97
4,5,60,36896,51
5,6,25,145729,37
6,7,38,66175,96
7,8,56,27805,87
8,9,36,25237,78
9,10,40,135247,29


### Análise Exploratória

In [11]:
# Resumo estatístico
df_dsa[['idade','renda_anual','pontuacao_gastos']].describe()

Unnamed: 0,idade,renda_anual,pontuacao_gastos
count,500.0,500.0,500.0
mean,44.732,81557.166,48.512
std,15.239707,36764.379945,29.556946
min,18.0,20384.0,0.0
25%,32.0,49172.75,24.0
50%,45.0,79219.0,48.5
75%,57.0,113017.25,73.25
max,70.0,149695.0,100.0


### Pré Processamento de dados

In [12]:
# Cria o padronizador dos dados
padronizador = StandardScaler()

In [13]:
# Aplica a padronizador somente nas colunas de interesse
dados_padronizados = padronizador.fit_transform(df_dsa[['idade','renda_anual','pontuacao_gastos']])

In [14]:
# Visualiza os dados
print(dados_padronizados)

[[ 0.74012478  0.35893538  1.40506904]
 [ 1.59401387  1.49192537  0.05039391]
 [ 0.08328703  0.13776654  0.45679645]
 ...
 [-0.31081563  0.32661636  0.18586143]
 [-1.23038848 -1.48706069  1.43893592]
 [-1.03333716 -0.96992912 -0.59307677]]


### Construção do Modelo de Machine Learning Para Segmentação de Clientes

In [15]:
# Define o número de clusters (k)
# Antes de definir, seria necessário fazer a validação para encontrar o valor ideal
# A segmentação pode ser prejudicada(o valor final pode não ser o correto) devido à falta de atenção nessa etapa.
k = 3

In [16]:
# Cria o modelo(objeto) K-means
kmeans = KMeans(n_clusters= k)

In [17]:
# Treinamento do modelo com os dados padronizados
kmeans.fit(dados_padronizados)

In [18]:
# Atribuimos os rótulos dos clusters dos clientes
df_dsa['cluster'] = kmeans.labels_

In [19]:
# Exibe o resultado (10 primeiros)
df_dsa.head(10)

Unnamed: 0,id,idade,renda_anual,pontuacao_gastos,cluster
0,1,56,94740,90,2
1,2,69,136352,50,2
2,3,46,86617,62,2
3,4,32,114841,97,2
4,5,60,36896,51,1
5,6,25,145729,37,0
6,7,38,66175,96,2
7,8,56,27805,87,1
8,9,36,25237,78,1
9,10,40,135247,29,0


In [20]:
# Salvamos o resultado em disco
df_dsa.to_csv('../data/segmentos.csv', index= False)

### Gerando Relatório de Segmentos dos Clientes com Power BI no Jupyter Notebook

Instalando o pacote
site: https://pypi.org/project/powerbiclient/

In [21]:
# Instalando o pacote
# Esse é o prompt da aula MAS deu erro aqui na minha máquina
#%pip install -q  powerbiclient


# Então essa aqui foi a minha solução de forma que eu não preciso das permissões adm
%pip install -q powerbiclient

Note: you may need to restart the kernel to use updated packages.


In [None]:
# Carrega as funções usadas para autenticar e gerar relatórios
from powerbiclient import QuickVisualize, get_dataset_config
from powerbiclient.authentication import DeviceCodeLoginAuthentication

*Atenção*: Para fazer a autenticação é necessário ter uma conta no PowerBI Service, criada com email de
Estudante ou Corporativa. Caso você não tenha, apenas acompanhe as aulas e ao final mostraremos como abrir
o relatório no Power BI Desktop, que será fornecido ao final do capítulo.

In [None]:
# Define a autenticação no Power BI Service

# Ok, a partir daqui é preciso uma conta de estudante ou corporativa e eu não tenho ainda
device_auth = DeviceCodeLoginAuthentication()

Performing device flow authentication. Please follow the instructions below.
To sign in, use a web browser to open the page https://microsoft.com/devicelogin and enter the code FZLSAWXGP to authenticate.


In [24]:
# Criar o relatório no Power BI
relatorio_PBI = QuickVisualize(get_dataset_config(df_dsa), auth = device_auth)

NameError: name 'device_auth' is not defined

In [None]:
# Renderiza (visualiza) o relatório
relatorio_PBI

# FIM