<a href="https://colab.research.google.com/github/rugellioliveira/MachineLearning_and_BusinessIntelligence/blob/main/MachineLearning(DSA).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Conhecendo Machine Learning:**
Considerando dados históricos de clientes que realizaram compras em nossa empresa, faça o agrupamento (segmentação) dos clientes por similaridade de características em 3 grupos e gerar relatório para o setor de marketing.

In [2]:
import pandas as pd
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler

K-Means é um algoritmo de clusterização (ou agrupamento) disponível na biblioteca Scikit-Learn.

É um algoritmo de aprendizado não supervisionado (ou seja, que não precisa de inputs de confirmação externos) que avalia e clusteriza os dados de acordo com suas características.

Carregando os dados:

In [3]:
df_dsa = pd.read_csv('dados_clientes.csv')
df_dsa.head()

Unnamed: 0,id,idade,renda_anual,pontuacao_gastos
0,1,56,94740,90
1,2,69,136352,50
2,3,46,86617,62
3,4,32,114841,97
4,5,60,36896,51


Análise exploratória:

In [4]:
#Resumo estatístico
df_dsa[['idade','renda_anual','pontuacao_gastos']].describe()

Unnamed: 0,idade,renda_anual,pontuacao_gastos
count,500.0,500.0,500.0
mean,44.732,81557.166,48.512
std,15.239707,36764.379945,29.556946
min,18.0,20384.0,0.0
25%,32.0,49172.75,24.0
50%,45.0,79219.0,48.5
75%,57.0,113017.25,73.25
max,70.0,149695.0,100.0


Pré-processamento dos dados:

In [5]:
#Cria o padronizador dos dados
padronizador = StandardScaler()

In [6]:
#Aplica o padronizador somente nas colunas de interesse
dados_padronizados = padronizador.fit_transform(df_dsa[['idade','renda_anual','pontuacao_gastos']])

In [7]:
#Visualiza os dados
print(dados_padronizados)

[[ 0.74012478  0.35893538  1.40506904]
 [ 1.59401387  1.49192537  0.05039391]
 [ 0.08328703  0.13776654  0.45679645]
 ...
 [-0.31081563  0.32661636  0.18586143]
 [-1.23038848 -1.48706069  1.43893592]
 [-1.03333716 -0.96992912 -0.59307677]]


Construção do modelo de machine learning para segmentação de clientes:

In [8]:
#Definimos o número de clusters (k)
k = 3

In [11]:
#Criamos o modelo K-means
kmeans = KMeans(n_clusters = k)

KMeans(n_clusters=3)


In [17]:
#Treinamento do modelo com os dados padronizados
kmeans.fit(dados_padronizados)



In [18]:
#Atribuímos os rótulos dos clusters aos clientes
df_dsa['cluster'] = kmeans.labels_

In [19]:
#Exibe o resultado (10 primeiras linhas)
df_dsa.head(10)

Unnamed: 0,id,idade,renda_anual,pontuacao_gastos,cluster
0,1,56,94740,90,2
1,2,69,136352,50,0
2,3,46,86617,62,2
3,4,32,114841,97,2
4,5,60,36896,51,0
5,6,25,145729,37,1
6,7,38,66175,96,2
7,8,56,27805,87,2
8,9,36,25237,78,2
9,10,40,135247,29,1


In [20]:
#Salva o resultado em arquivo .csv
df_dsa.to_csv('segmentos.csv', index = False)

Gerando o relatório do segmentos de clientes com Power BI

https://pypi.org/project/powerbiclient/

In [21]:
#Instala o pacote
!pip install -q powerbiclient

[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/684.9 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━[0m[90m╺[0m[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m71.7/684.9 kB[0m [31m2.1 MB/s[0m eta [36m0:00:01[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[90m╺[0m [32m675.8/684.9 kB[0m [31m10.0 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m684.9/684.9 kB[0m [31m8.6 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m99.0/99.0 kB[0m [31m10.0 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m316.9/316.9 MB[0m [31m4.5 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.6/1.6 MB[0m [31m75.1 MB/s[0m eta [36m0:00:00[0m
[?25h  Building wheel for pyspark (setup.py) ... [?25l[?25hdone


In [22]:
#Carrega funções para autenticar e gerar relatórios
from powerbiclient import QuickVisualize, get_dataset_config, Report
from powerbiclient.authentication import DeviceCodeLoginAuthentication

ATENÇÃO: Para fazer a autenticação é necessário ter uma conta Power BI Service.

In [None]:
#Define a autenticação no Power BI Service
device_auth = DeviceCodeLoginAuthentication()

In [41]:
#Cria o relatório no Power BI
relatorio_PBI = QuickVisualize(get_dataset_config(df_dsa), auth = device_auth)

In [47]:
#Suporte para widgets de terceiros
from google.colab import output
output.enable_custom_widget_manager()

In [48]:
#Renderiza (visualiza) o relatório
relatorio_PBI

QuickVisualize()

In [61]:
#Abre o link passado como parâmetro em uma nova aba do navegador (aqui é o relatório gerado para o Power BI)
%%javascript
window.open('https://app.powerbi.com/view?r=eyJrIjoiMWUxMzdlMDgtMjFmOC00MmU1LTgwMDAtNzdkNDMyYWNjMzg3IiwidCI6IjRiMzk4ZGQxLTI5MTMtNDVkYi05MWU4LWI2NmZiNjZmMDE2ZSJ9', '_blank');

<IPython.core.display.Javascript object>