# <font color='blue'>Data Science Academy</font>

## <font color='blue'>Microsoft Power BI Para Business Intelligence e Data Science</font>

## <font color='blue'>Machine Learning com Linguagem Python e Power BI Dentro do Jupyter Notebook</font>

Problema de Negócio:

Considerando dados históricos de clientes que realizaram compras em nossa empresa, faça o agrupamento (segmentação) dos clientes por similaridade de características em 3 grupos e envie o relatório para a equipe de Marketing.

![DSA](Imagens/Lab7.png)

In [1]:
# Verificar a Versão da Linguagem Python

from platform import python_version

print('Versão da Linguagem Python Usada Neste Jupyter Notebook:', python_version())

Versão da Linguagem Python Usada Neste Jupyter Notebook: 3.11.3


In [2]:
# O código começa importando as bibliotecas Pandas, que ajuda a trabalhar com dados, e o KMeans e StandardScaler do Scikit-Learn. 
# Ele usa essas ferramentas para agrupar dados em clusters usando o algoritmo KMeans, depois de ajustar a escala dos dados para que tenham 
# média zero e desvio padrão um, o que é importante para o funcionamento correto do algoritmo.

import pandas as pd
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler

## Carregando os Dados

In [3]:
# Este código carrega dados de um arquivo CSV chamado 'dados_clientes.csv' em um DataFrame usando a biblioteca pandas.
# Obs: Um DataFrame é uma estrutura de dados tabular bidimensional utilizada para organizar e armazenar informações, 
# semelhante a uma tabela de banco de dados ou uma planilha, frequentemente usada na programação para análise e manipulação de dados.

df_dsa = pd.read_csv('dados/dados_clientes.csv')

In [4]:
# Esse código verifica o tipo do objeto chamado "df_dsa".

type(df_dsa)

pandas.core.frame.DataFrame

In [5]:
# Este código exibe as 10 primeiras linhas dos dados contidos no DataFrame chamado "df_dsa".

df_dsa.head(10)

Unnamed: 0,id,idade,renda_anual,pontuacao_gastos
0,1,56,94740,90
1,2,69,136352,50
2,3,46,86617,62
3,4,32,114841,97
4,5,60,36896,51
5,6,25,145729,37
6,7,38,66175,96
7,8,56,27805,87
8,9,36,25237,78
9,10,40,135247,29


## Análise Exploratória

In [6]:
# Esse código calcula estatísticas resumidas para as colunas 'idade', 'renda_anual' e 'pontuacao_gastos' 
# de um DataFrame chamado df_dsa. Na saida ele Esse apresenta estatísticas para três conjuntos de dados diferentes, 
# mostrando valores como contagem, média, desvio padrão, mínimo, máximo e quartis para cada conjunto.

df_dsa[['idade', 'renda_anual', 'pontuacao_gastos']].describe()

Unnamed: 0,idade,renda_anual,pontuacao_gastos
count,500.0,500.0,500.0
mean,44.732,81557.166,48.512
std,15.239707,36764.379945,29.556946
min,18.0,20384.0,0.0
25%,32.0,49172.75,24.0
50%,45.0,79219.0,48.5
75%,57.0,113017.25,73.25
max,70.0,149695.0,100.0


## Pré-Processamento dos Dados

In [7]:
# Cria o padronizador dos dados - Esse código cria um objeto chamado "padronizador" que será usado para 
# padronizar (normalizar) dados numéricos em uma escala com média zero e desvio padrão um.

padronizador = StandardScaler()

In [8]:
# Aplica o padronizador somente nas colunas de interesse - Este código aplica um processo de padronização aos dados de 
# idade, renda anual e pontuação de gastos de um DataFrame chamado df_dsa, resultando em novos dados padronizados.

dados_padronizados = padronizador.fit_transform(df_dsa[['idade', 'renda_anual', 'pontuacao_gastos']])

In [9]:
# Visualiza os dados - Esse código imprime os dados que foram previamente padronizados.

print(dados_padronizados)

[[ 0.74012478  0.35893538  1.40506904]
 [ 1.59401387  1.49192537  0.05039391]
 [ 0.08328703  0.13776654  0.45679645]
 ...
 [-0.31081563  0.32661636  0.18586143]
 [-1.23038848 -1.48706069  1.43893592]
 [-1.03333716 -0.96992912 -0.59307677]]


## Construção do Modelo de Machine Learning Para Segmentação de Clientes

In [10]:
# Este código define o número de grupos (clusters) como 3.

k = 3

In [11]:
# criando um modelo de agrupamento K-means, onde os dados serão divididos em "k" grupos diferentes.
# Esse código utiliza o algoritmo KMeans, que é uma técnica de aprendizado de máquina, para dividir um 
# conjunto de dados em "k" grupos, onde "k" é um número definido previamente. Cada grupo contém pontos de dados 
# semelhantes entre si, e o algoritmo busca encontrar os centros desses grupos de forma a minimizar a distância 
# entre os pontos e os centros. Isso ajuda a organizar e entender melhor os padrões presentes nos dados.

kmeans = KMeans(n_clusters = k)

In [13]:
# Este código em Python desativa a exibição de avisos (warnings) durante a execução do programa.
# Obs: Use esse código se precisar.

import warnings
warnings.filterwarnings("ignore")

In [14]:
# Treinamento do modelo com os dados padronizados - Nesse código, está sendo utilizado o algoritmo K-Means 
# para agrupar um conjunto de dados que já foram padronizados, ou seja, ajustados para terem média zero e 
# desvio padrão um. O método `fit` é aplicado para treinar o modelo K-Means usando esses dados padronizados, 
# buscando identificar padrões e agrupamentos naturais nos dados.

kmeans.fit(dados_padronizados)

In [15]:
# Atribuímos os rótulos dos clusters aos clientes - Nesse código, o algoritmo de agrupamento K-Means foi aplicado 
# aos dados de clientes representados pelo DataFrame "df_dsa". Cada cliente foi atribuído a um cluster (grupo) com 
# um rótulo específico, e essa informação de cluster foi adicionada como uma nova coluna chamada "cluster" no DataFrame. 
# Isso permite a análise e segmentação dos clientes com base nos padrões identificados pelo algoritmo K-Means.

df_dsa['cluster'] = kmeans.labels_

In [16]:
# Este código exibe as primeiras 10 linhas do DataFrame chamado "df_dsa".

df_dsa.head(10)

Unnamed: 0,id,idade,renda_anual,pontuacao_gastos,cluster
0,1,56,94740,90,2
1,2,69,136352,50,2
2,3,46,86617,62,1
3,4,32,114841,97,0
4,5,60,36896,51,1
5,6,25,145729,37,0
6,7,38,66175,96,1
7,8,56,27805,87,1
8,9,36,25237,78,1
9,10,40,135247,29,2


In [None]:
# Salvamos o resultado em disco - O código salva os dados do DataFrame chamado "df_dsa" em um arquivo CSV 
# chamado "segmentos.csv" dentro da pasta "dados", sem incluir os números das linhas.

df_dsa.to_csv('dados/segmentos.csv', index = False)

## Gerando Relatório dos Segmentos de Clientes com Power BI no Jupyter Notebook

https://pypi.org/project/powerbiclient/

In [17]:
# Instala o pacote - Esse código instala silenciosamente (sem mostrar muita saída) o pacote "powerbiclient", 
# que provavelmente é utilizado para interagir com o Power BI de forma programática.

%pip install -q powerbiclient

Note: you may need to restart the kernel to use updated packages.


In [18]:
# Esse código instala silenciosamente a biblioteca "findspark", que é usada para facilitar a configuração 
# e o uso do Spark, uma plataforma de processamento de dados.

%pip install -q findspark

Note: you may need to restart the kernel to use updated packages.


In [None]:
# Esse código ativa um recurso especial para gerenciar widgets personalizados no ambiente de programação Google Colab.
# Obs: Usar esse código se estiver no ambiente de programação Google Colab.

from google.colab import output
output.enable_custom_widget_manager()

In [20]:
# Carrega as funções usadas para autenticar e gerar relatórios - Este código importa algumas bibliotecas para interagir 
# com o Power BI, permitindo a criação de visualizações rápidas usando autenticação por código de dispositivo.

from powerbiclient import QuickVisualize, get_dataset_config, Report
from powerbiclient.authentication import DeviceCodeLoginAuthentication

**ATENÇÃO**: Para fazer a autenticação é necessário ter uma conta no Power BI Service, criada com e-mail de estudante ou corporativo. Caso você não tenha, apenas acompanhe as aulas e ao final mostraremos como abrir o relatório no Power BI  Desktop, que será fornecido ao final do capítulo.

In [21]:
# Define a autenticação no Power BI Service - O código cria uma forma de autenticação para 
# acessar o Power BI Service usando um método chamado "DeviceCodeLoginAuthentication".

device_auth = DeviceCodeLoginAuthentication()

Performing device flow authentication. Please follow the instructions below.
To sign in, use a web browser to open the page https://microsoft.com/devicelogin and enter the code F99RXMFZR to authenticate.

Device flow authentication successfully completed.
You are now logged in .

The result should be passed only to trusted code in your notebook.


In [22]:
# Cria o relatório no Power BI - Esse código cria um relatório no Power BI usando um conjunto de dados chamado `df_dsa` 
# com as configurações definidas e a autenticação do dispositivo especificada.

relatorio_PBI = QuickVisualize(get_dataset_config(df_dsa), auth = device_auth)

In [25]:
# Renderiza (visualiza) o relatório - O código "relatorio_PBI" gera um relatório 
# usando o Power BI para analisar dados e informações de forma visual.

relatorio_PBI

QuickVisualize()

# Fim