# Introdução às Abordagens de Aprendizado de Máquina - KNN e K-Means

## Parte 1: Conceitos Fundamentais de Aprendizado de Máquina
Começaremos com uma breve introdução ao que é Aprendizado de Máquina. Explicaremos a diferença entre Aprendizado Supervisionado (como KNN) e Aprendizado Não Supervisionado (como K-Means).



### **O que é Aprendizado de Máquina?**
Em termos simples, o aprendizado de máquina é como ensinar um computador a aprender com exemplos, para que ele possa fazer previsões ou tomar decisões sem precisar ser programado para cada detalhe.


<center><img src="https://media.giphy.com/media/iPj5oRtJzQGxwzuCKV/giphy.gif?cid=790b7611r44rsb6wi4jsohfc1ohr73er7x57ud0bqvguai28&ep=v1_gifs_search&rid=giphy.gif&ct=g" width="450" height="350" alt="ML"></center>




### Aprendizado Supervisionado vs. Não Supervisionado:

- **Supervisionado:** O algoritmo é treinado com um conjunto de dados rotulados (cada dado tem uma classe ou valor alvo associado). O objetivo é aprender a mapear as características de entrada para a saída desejada. KNN é um exemplo clássico.
<center><img src="https://media.giphy.com/media/xepQrrT6lxQTm/giphy.gif?cid=790b7611uh6luswat7b2hfm1wc3eqai2cmkjec5yc0fqwy6n&ep=v1_gifs_search&rid=giphy.gif&ct=g" width="450" height="350" alt="SML"></center>

- **Não Supervisionado:** O algoritmo trabalha com dados não rotulados. O objetivo é descobrir padrões, estruturas ou agrupamentos nos dados. K-Means é um exemplo típico.


<center><img src="https://media.giphy.com/media/v1.Y2lkPTc5MGI3NjExcDYwaWc2bndpa3JmcWJsbjlkaW52YWljaGVocWQ5NnhweGtsenh3ZSZlcD12MV9naWZzX3NlYXJjaCZjdD1n/PCU1qlnDuJfE0HZVbi/giphy.gif" width="450" height="350" alt="USML"></center>


### **Conceitos-chave:**

- **Dados:** 📊 A base de tudo. Precisamos de dados para treinar e testar nossos modelos.🧠

- **Características (Features):** 📌 Atributos que descrevem os dados. Cada detalhe conta!

- **Algoritmos:** ⚙️ As "receitas" que processam os dados e criam modelos. Misturando ingredientes para o sucesso! 🧪

- **Modelo:** 🧠 A representação aprendida a partir dos dados. O resultado do nosso trabalho árduo! 💪

- **Previsão (ou Clusterização):** 🔮 O resultado do modelo, seja uma previsão de valor ou a atribuição a um grupo. A revelação final! ✨

- **Acurácia:** 💯 Uma medida de quão bem o modelo está funcionando. A precisão que buscamos!🎯

- **Variável alvo (Target):** 📈 Nos modelos de aprendizado supervisionado, é a variável que queremos prever (ex: preço de uma casa, probabilidade de um cliente comprar um produto). É o que o modelo tenta "adivinhar"! 🤔

## **Parte 2: K-Nearest Neighbors (KNN)**

KNN é um algoritmo de aprendizado supervisionado usado para classificação e regressão. Ele classifica um novo ponto de dados com base na maioria dos seus vizinhos mais próximos no espaço de características.

In [None]:
import pandas as pd

# Cria um dataset de teste
data_knn = {'Idade': [25, 32, 45, 28, 38, 22, 50, 30, 27, 40],
        'Gênero': ['Masculino', 'Feminino', 'Masculino', 'Feminino', 'Masculino', 'Feminino', 'Masculino', 'Feminino', 'Masculino', 'Feminino'],
        'Renda Anual': [40000, 60000, 80000, 50000, 70000, 35000, 90000, 55000, 45000, 75000],
        'Interesses': ['Esportes,Tecnologia,Viagens', 'Moda,Cinema,Gastronomia', 'Leitura,Música Clássica,Jardinagem', 'Tecnologia,Jogos,Viagens', 'Gastronomia,Arte,Música Popular', 'Moda,Música Pop,Dança', 'Leitura,História,Colecionismo', 'Cinema,Teatro,Viagens de Aventura', 'Esportes,Jogos,Tecnologia', 'Gastronomia,Jardinagem,Artesanato'],
        'Atividades ao Ar Livre': [1, 0, 1, 1, 0, 0, 0, 1, 1, 1]}

df_knn = pd.DataFrame(data_knn)

In [None]:
df_knn.head()

### **Como funciona:**

- **Escolha um valor de K:** O número de vizinhos mais próximos a serem considerados.
<center><img src="https://media.giphy.com/media/7fpxIH9g9i8la/giphy.gif?cid=790b7611d6rskbbxxj3h65gopnvt0351g7v1aubxjvif21fg&ep=v1_gifs_search&rid=giphy.gif&ct=g" width="450" height="350" alt="neighbors"></center>

Imagine que você está em uma festa e quer descobrir se vai gostar ou não de uma nova pessoa. Você não conhece essa pessoa, mas pode observar as pessoas que já conhece.
O valor de K é o número de pessoas que você vai observar para decidir se vai gostar da nova pessoa.
- Se K=3, você observa as 3 pessoas mais próximas de você (em termos de interesses e características).
- Se K=5, você observa 5 pessoas, e assim por diante.

**Um K muito pequeno pode ser influenciado por "vizinhos" muito específicos e atípicos, enquanto um K muito grande pode levar a decisões menos precisas.**



- **Calcule a distância:** Calcule a distância entre o novo ponto de dados e todos os pontos de dados no conjunto de treinamento.

Para decidir quais são as 3 pessoas mais próximas (K=3), você precisa medir a "distância" entre você (novo ponto de dados) e cada pessoa na festa. Essa distância não é física, mas sim em termos de semelhança de interesses. Se uma pessoa gosta muito de esportes e tecnologia, assim como você, a distância entre vocês é pequena. Se uma pessoa gosta apenas de moda e cinema, a distância é maior. Para medir essa distância as mais comuns são:

  - **A Euclidiana** - seria como medir a distância em linha reta entre dois pontos em um gráfico, considerando todos os seus interesses.

<center><img src="https://media.giphy.com/media/fAQKNhWUIzRbPevYsQ/giphy.gif?cid=790b76117b6b0lm35s9t4mq7o6rmkcdpc5sgnqnl7j528txb&ep=v1_gifs_search&rid=giphy.gif&ct=g" width="350" height="350" alt="euclidean"></center>


  - **E a Manhattan** - seria como medir a distância andando apenas em ruas retas (somente horizontalmente ou verticalmente em um gráfico)

<center><img src="https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcSixnoMbr5uWzVlUCYkWAUGPFO44G0bMuOr-g&s" width="350" height="350" alt="manhattan"></center>


  - **Visualizando as Duas** - A distância euclidiana é a hipotenusa de um triângulo retângulo, enquanto a distância de Manhattan é a soma dos catetos.
   
<center><img src="https://medidassimdist.wordpress.com/wp-content/uploads/2019/04/image-11.png" width="550" height="350" alt="both_distance"></center>


  - **Qual distância escolher** - Experimente ambas as distâncias e avalie o desempenho do seu modelo usando métricas como acurácia, precisão, recall e F1-score. A distância que resultar no melhor desempenho em sua tarefa específica é a mais adequada. Comece com a distância euclidiana se seus dados são principalmente **contínuos e com escalas similares**; caso contrário, considere a distância de Manhattan, especialmente se você tem **dados categóricos ou discretos**.

- **Encontre os K vizinhos mais próximos:** Depois de medir a "distância" entre você e todas as pessoas na festa, você seleciona as 3 pessoas (K=3) mais parecidas com você em termos de interesses. Essas são suas 3 vizinhas mais próximas.
<center><img src="https://media.giphy.com/media/N2nQcsIDqQbrG/giphy.gif?cid=ecf05e47lni7r21ov27s365cpt4lq3lovjptn9kr1x5b4lv7&ep=v1_gifs_related&rid=giphy.gif&ct=g" width="650" height="350" alt="chooseK"></center>



- **Classifique:** Agora que você identificou suas 3 vizinhas mais próximas, observe se elas gostam ou não de atividades ao ar livre (a variável alvo no nosso dataset). Se 2 delas gostam e 1 não gosta, o KNN conclui que você provavelmente também vai gostar de atividades ao ar livre, pois essa é a classe mais frequente entre seus 3 vizinhos mais próximos.

**o KNN funciona como um sistema de recomendação baseado na semelhança com os dados que já conhecemos. A escolha de K, a métrica de distância e a quantidade de dados influenciam diretamente na precisão da classificação.**

### **Bora Codar:**
<center><img src="https://media.giphy.com/media/yCmlEez1c3C5OPQgij/giphy.gif?cid=ecf05e47xo1sna6zb9l4yibj866hiuunbd2ed2x8ru0isauw&ep=v1_gifs_search&rid=giphy.gif&ct=g" width="250" height="350" alt="letscode"></center>



Para isso vamos usar o algoritmo da Biblioteca Scikit-learn - **KNeighborsClassifier**.

Detalhes de como funciona e os argumentos que podem ser usados:

https://scikit-learn.org/1.6/modules/generated/sklearn.neighbors.KNeighborsClassifier.html

In [None]:
# importando as bibliotecas necessárias
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

### **Dado o nosso dataset, o que queremos prever?**

**Se a pessoa gosta de atividades ao ar livre, onde:**
 - 0 a pessoa não gosta
 - 1 a pessoa gosta

A maioria dos algoritmos de aprendizado de máquina lidam melhor com várias dos tipo numéricas, portanto precisaremos transformar as nossas colunas categóricas em numéricas

In [None]:
# verificando os tipos das variáveis/features
df_knn.info()

In [None]:
df_knn['Gênero'].unique()

In [None]:
df_knn['Interesses'].unique()

In [None]:
# Codificação do gênero
le = LabelEncoder()
df_knn['Gênero'] = le.fit_transform(df_knn['Gênero'])

In [None]:
df_knn['Gênero'].unique()

In [None]:
df_knn['Interesses']


In [None]:
# Explode a lista em múltiplas linhas
df_exploded = df_knn.copy()
df_exploded['Interesses'] = df_exploded['Interesses'].str.split(',')
df_exploded = df_exploded.explode('Interesses').reset_index()

In [None]:
df_exploded

In [None]:
# Codificação do Interesses
le = LabelEncoder()
df_exploded['Interesses_encod'] = le.fit_transform(df_exploded['Interesses'])

In [None]:
df_exploded.info()

Nesse caso o LabelEncoder atribuiu valores para todas as categorias de interesse, porém ela se transformou em uma atribuição Arbitrária... Eu estou dando pesos para cada tipo de interesse e o algoritmo entende que por exemplo que 'Viagens de Aventura' pode ser 18 vezes melhor que 'Arte', o que não é verdade... Afinal todos os interesses tem o mesmo peso e o que importa é se a pessoar tem interesse ou não.

In [None]:
df_exploded[['Interesses', 'Interesses_encod']].sort_values(by='Interesses_encod')

In [None]:
# Remove a coluna usando del
del df_exploded['Interesses_encod']

O que fazer???

In [None]:
# Aplica get_dummies
df_encoded = pd.get_dummies(df_exploded, columns=['Interesses'],
                            dtype=int)

In [None]:
df_encoded.head()

In [None]:
# Separar features e target
X = df_encoded.drop(['Atividades ao Ar Livre', 'index'], axis=1)
y = df_encoded['Atividades ao Ar Livre']

O StandardScaler() é uma ferramenta que "normaliza" seus dados, colocando-os em uma escala comum. Isso é importante para garantir que todos os seus dados contribuam igualmente para o aprendizado de um modelo de machine learning e para facilitar a comparação entre diferentes features.

In [None]:
# Padronização dos dados (opcional, mas recomendado)
scaler = StandardScaler()
X = scaler.fit_transform(X)

In [None]:
# Dividir em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
X_train

In [None]:
from sklearn.model_selection import cross_val_score
import matplotlib.pyplot as plt

In [None]:
# Treinar o KNN (exemplo com k=3) - Por Padrão já é escolhido a distância euclidiana
knn = KNeighborsClassifier(n_neighbors=3)

# Treina o modelo usando os dados de treinamento
knn.fit(X_train, y_train)

In [None]:
# Faz previsões usando o modelo treinado com dados que ele nunca viu
y_pred = knn.predict(X_test)

# Calcula a precisão das previsões, comparando-as com os valores reais.
accuracy = accuracy_score(y_test, y_pred)
print(f"Acurácia (Euclidiana):{accuracy}")

In [None]:
# KNN com distância de Manhattan
knn_manhattan = KNeighborsClassifier(n_neighbors=3, metric='manhattan')
knn_manhattan.fit(X_train, y_train)
y_pred_manhattan = knn_manhattan.predict(X_test)
accuracy_manhattan = accuracy_score(y_test, y_pred_manhattan)
print(f"Acurácia (Manhattan): {accuracy_manhattan}")

**Uma acurácia de 0.67 (ou 67%) em um modelo que prevê se uma pessoa gosta ou não de atividades ao ar livre significa que o modelo está correto em suas previsões 67% das vezes.**

Lembre-se que este é um exemplo muito simples, e a acurácia pode ser baixa devido ao tamanho pequeno do dataset. Para um problema real, você precisará de um dataset muito maior e possivelmente mais features relevantes. Você também deve experimentar diferentes valores de k e métricas de distância para otimizar o desempenho. A etapa de escalonamento (StandardScaler) é importante para garantir que todas as features contribuam igualmente para a distância calculada.

## **Parte 3: K-Means**

K-Means é um algoritmo de aprendizado não supervisionado usado para clusterização. Ele agrupa dados semelhantes em clusters distintos.


In [None]:
# Cria um dataset de teste
df_kmeans = df_encoded.copy()

In [None]:
df_kmeans.head()

In [None]:
# deleta a coluna Alvo que usamos no antigo modelo
del df_kmeans['Atividades ao Ar Livre']


### Como funciona:

- **Escolha o número de clusters (K):** Imagine que você precisa organizar um grupo de amigos em equipes para um jogo. 'K' é o número de equipes que você quer formar. Se K=3, você quer 3 equipes.

<center><img src="https://media.giphy.com/media/v1.Y2lkPTc5MGI3NjExdjJ4MGplaDJ1dG5iMWF6em1lb2lxbDVtODU5MmtiNTR4b3RudzE0aiZlcD12MV9naWZzX3NlYXJjaCZjdD1n/WOIGpnJ3ye445BUQl4/giphy.gif" width="450" height="350" alt="group_friends"></center>


- **Inicialize os centróides:** Você escolhe aleatoriamente K pessoas do seu grupo de amigos para serem os "líderes" de cada equipe. Esses líderes são os centróides iniciais. A posição inicial deles é aleatória.

<center><img src="https://media3.giphy.com/media/v1.Y2lkPTc5MGI3NjExMnoxYXlqNHdsdG5zbTd2aG1yNHpnMGkzYTllaTFobWZ5NTNya3ozYyZlcD12MV9pbnRlcm5hbF9naWZfYnlfaWQmY3Q9Zw/L3c8aAACw7Qpx2ojGB/giphy.gif" width="550" height="350" alt="centroides"></center>


- **Atribua pontos aos clusters:** Cada um dos seus amigos restantes escolhe a equipe cujo líder está mais próximo (em termos de características, interesses, etc.). Por exemplo, se os amigos gostam de cinema, eles se juntam ao líder que também gosta de cinema.
<center><img src="https://media3.giphy.com/media/v1.Y2lkPTc5MGI3NjExZjl5MGFjbnFsMWZzOTJ0Ymc2aWcyb2QyZWV2OHRodXMyaGh6Z3l6dyZlcD12MV9pbnRlcm5hbF9naWZfYnlfaWQmY3Q9Zw/NPRgEfb3m39wvuphjI/giphy.gif" width="250" height="350" alt="choose_leader"></center>





- **Recalcule os centróides:** Depois que todos escolheram suas equipes, cada equipe escolhe um novo líder. Este novo líder é a "média" das características de todos os membros da equipe. Por exemplo, se uma equipe tem membros que gostam de jogos de tabuleiro e alguns que gostam de ler, o novo líder pode ser alguém que gosta de ambos.

<center><img src="https://media.giphy.com/media/0i2Ozmxz89JPN9zq1c/giphy.gif?cid=790b7611jhl3amuahsmn2asbzintkh7bvsc6ocktgwwi0plc&ep=v1_gifs_search&rid=giphy.gif&ct=gf" width="550" height="350" alt="choose2"></center>




- **Repita os passos 3 e 4:** Você repete os passos 3 e 4. Os amigos escolhem novas equipes baseadas nos novos líderes, e os líderes são recalculados novamente. Você continua esse processo até que as equipes não mudem muito, ou seja, os líderes não mudam de lugar significativamente. Isso significa que as equipes estão organizadas da melhor forma possível de acordo com as características dos seus membros.
<center><img src="https://media.giphy.com/media/lx7AtejahSmgIWmLX5/giphy.gif?cid=790b7611vhkf22sicopbho5o60b7dhf3tuxslyxzqky07jlq&ep=v1_gifs_search&rid=giphy.gif&ct=g" width="450" height="350" alt="loop"></center>

**Em resumo, o K-means é como organizar um grupo de pessoas em equipes, onde as pessoas se juntam à equipe cujo líder é mais parecido com elas, e os líderes são recalculados repetidamente até que as equipes fiquem estáveis. A escolha inicial dos líderes (centróides) é aleatória, mas o algoritmo converge para uma solução final.**

Para isso vamos usar o algoritmo da Biblioteca Scikit-learn - **KMeans**.

Detalhes de como funciona e os argumentos que podem ser usados:

https://scikit-learn.org/1.5/modules/generated/sklearn.cluster.KMeans.html

In [None]:
from sklearn.cluster import KMeans

In [None]:
# Aplicação do K-means (exemplo com k=2)
kmeans = KMeans(n_clusters=2, random_state=0)
df_exploded['Cluster'] = kmeans.fit_predict(df_kmeans.drop('index',axis=1))
df_exploded.head(10)

In [None]:
df_exploded.head()

O K-means busca o melhor agrupamento de dados ("centróides" ou "líderes"), e o **"Método do Cotovelo"** ajuda a determinar o número ideal de grupos analisando a distância média entre os pontos e seus centróides. Este método é útil mesmo sem conhecer previamente o número de grupos.
Tem um trabalho muito bem explicado aqui:  https://medium.com/pizzadedados/kmeans-e-metodo-do-cotovelo-94ded9fdf3a9


<center><img src="https://media.giphy.com/media/xUA7b4pjBgxRxpzanK/giphy.gif?cid=790b76111ntnnrxl5zwxji47ppffghbfr937mffqsqg9vbct&ep=v1_gifs_search&rid=giphy.gif&ct=g" width="450" height="350" alt="loop"></center>

In [None]:
# cria um novo dataframe sem o index, pois não queremos enviesamento dos dados
df_final = df_kmeans.drop('index',axis=1)

# Esta linha cria uma lista vazia chamada, para adicionar as distâncias que o algoritmo calcular
Soma_distancias_quadradas = []

# Esta linha cria uma sequência de números inteiros de 2 a 7 (inclusive). Estes números representam os diferentes valores de k (número de clusters) que serão testados no algoritmo K-means.
K = range(2,8)
# Este loop itera sobre cada valor de k na sequência criada na linha anterior.
for k in K:
  #Dentro do loop, esta linha cria um objeto KMeans com o número de clusters definido pelo valor atual de k.
  km = KMeans(n_clusters=k)
  # Esta linha executa o algoritmo K-means no DataFrame df_final usando o objeto KMeans criado na linha anterior. O algoritmo agrupa os dados em k clusters.
  km = km.fit(df_final)
  # Esta linha calcula a soma das distâncias quadradas entre cada ponto de dados e o centróide do cluster ao qual ele pertence (a inertia do modelo). Este valor é então adicionado à lista Soma_distancias_quadradas.
  Soma_distancias_quadradas.append(km.inertia_)

In [None]:
Soma_distancias_quadradas

In [None]:
# Plota um gráfico de linha mostrando a soma das distâncias quadradas em função do número de clusters (k).
plt.plot(K, Soma_distancias_quadradas, 'bx-')
plt.xlabel('k')
plt.ylabel('Soma das distancias quadradas')
plt.title('Método do cotovelo para o melhor k')
plt.show()


In [None]:
kmeans_2= KMeans(n_clusters=4, random_state=0)
df_exploded['Cluster_2'] = kmeans_2.fit_predict(df_kmeans.drop('index',axis=1))

In [None]:
df_exploded.head(10)

In [None]:
#plotando os clusters gerados
plt.xlabel('Renda Anual')
plt.ylabel('Idade')
plt.scatter(df_exploded['Renda Anual'], df_exploded['Idade'])

In [None]:
#plotando os clusters gerados
plt.xlabel('Renda Anual')
plt.ylabel('Idade')
plt.scatter(df_exploded['Renda Anual'], df_exploded['Idade'], c=df_exploded['Cluster_2'])

In [None]:
import numpy as np
unique_labels = np.unique(df_exploded['Cluster_2'])

for label in unique_labels:
    plt.scatter([], [], c=f'C{label}', label=f'Cluster {label}')

plt.xlabel('Interesses')
plt.ylabel('Idade')
plt.scatter(df_exploded['Interesses'], df_exploded['Idade'], c=df_exploded['Cluster_2'], cmap='viridis')
plt.xticks(rotation=45, ha="right")
plt.legend()
plt.title('Clusters gerados pelo K-means')
plt.show()

## **Parte 4: MCA**

Multiple Correspondence Analysis - Análise de Correspondência Múltipla, é uma técnica para entender e visualizar a relação entre as variáveis categóricas ao mesmo tempo. Assim como o Kmeans, ele também é um algoritmos não supervisionado

- **Imagine que você é o Organizador da Festa (O Algoritmo MCA).**

<center><img src="https://media.giphy.com/media/v1.Y2lkPTc5MGI3NjExMHpoeGlwcGhmZ3ZuODZxNjZ2ZmtteG9lZzhqamJqOGwzN25tb2RuaCZlcD12MV9naWZzX3NlYXJjaCZjdD1n/MCQhvOioRYboB4JvQ3/giphy.gif" width="450" height="350" alt="letscode"></center>

Você tem uma lista de convidados e, para que a festa seja um sucesso, pediu que cada um marcasse em um questionário quais elementos de festa eles gostam (Tipos de Comida, Gêneros de Música, Tipos de Atividade, Estilos de Decoração, etc.). Cada convidado marcou várias opções em várias categorias.

**Seu objetivo como Organizador é:**

- Entender quais elementos de festa tendem a ser populares juntos entre os convidados.
- Identificar os principais "temas" ou "estilos" de festa que emergem das preferências combinadas.
- Criar um "mapa" visual para ver quais elementos se encaixam em quais temas, ajudando a decidir o tema final da festa e as atividades/comidas/músicas que combinam.

**As Etapas da Organização da Festa (O Algoritmo MCA):**

Você não pode simplesmente olhar para as respostas individuais de cada um (seria muita informação!). Você precisa de um jeito de resumir tudo.

**Etapa 1:** O "Checklist Mestre" de Cada Convidado (Matriz Indicadora)

Para cada convidado, você cria uma lista gigante com todos os elementos de festa possíveis que estavam no questionário (Ex: Pizza, Sushi, Música Pop, Música Jazz, Dançar, Jogar Cartas, Decoração Tropical, Decoração Minimalista...). Para cada elemento, você marca "Sim" (ou 1) se o convidado gosta, e "Não" (ou 0) se não gosta.
Convidado 1: [Pizza: Sim, Sushi: Não, Música Pop: Sim, Música Jazz: Não, Dançar: Sim, ...]
Convidado 2: [Pizza: Não, Sushi: Sim, Música Pop: Não, Música Jazz: Sim, Jogar Cartas: Sim, ...]



<center><img src="https://media.giphy.com/media/v1.Y2lkPTc5MGI3NjExczcxbzNuOGNmc2Y4eWFxY3Z3NDZ1Zzh3eDRmamtwbmxqeWlqdGtuYiZlcD12MV9naWZzX3NlYXJjaCZjdD1n/XC1Lqj7rtyYeQ48TuH/giphy.gif" width="450" height="350" alt="letscode"></center>

Isso é a Matriz Indicadora. É uma tabela onde cada linha é um Convidado e cada coluna é um Elemento de Festa (uma categoria). Os valores são 1 (gosta) ou 0 (não gosta). É uma forma padronizada de representar as preferências de todos.


- **Passo 2:** Entendendo as Conexões (As "Correspondências" - Matriz de Burt)

 Agora, você pega todos os Checklists Mestres e começa a contar:
    - "Quantos convidados marcaram 'Pizza' E 'Música Pop'?"
    - "Quantos convidados marcaram 'Sushi' E 'Jogar Cartas'?"
    - "Quantos convidados marcaram 'Música Jazz' E 'Decoração Minimalista'?"


Você faz isso para todas as combinações possíveis de Elementos de Festa. O resultado é uma grande tabela que mostra a frequência com que cada par de elementos aparece junto nas preferências dos convidados.

 <center><img src="https://media.giphy.com/media/v1.Y2lkPWVjZjA1ZTQ3ejF6cmdsa2Q1bXgwcXNwNjF2N3h5ZWw3bm1odm83NHJlZms2b2J4MyZlcD12MV9naWZzX3NlYXJjaCZjdD1n/1n8aGJBEXuW0M7ELrB/giphy.gif" width="450" height="350" alt="letscode"></center>

 Isso é a Matriz de Burt. É uma tabela quadrada onde tanto as linhas quanto as colunas são os Elementos de Festa. O número na célula [Elemento A, Elemento B] é simplesmente a contagem de convidados que gostam TANTO do Elemento A QUANTO do Elemento B. A diagonal (onde Elemento A é igual a Elemento B) mostra o total de convidados que gostam de cada elemento individualmente. Essa matriz resume todas as "conexões" entre os elementos baseadas nas preferências dos convidados.

- **Passo 3:** Encontrando os "Temas Principais" (Decomposição em Valores Singulares)

Olhando para a Matriz de Burt (a tabela de combinações populares), você vê um monte de números. Você quer ir além dos pares e encontrar os grandes "temas" ou "estilos" subjacentes que explicam por que certos elementos aparecem juntos.

Existe um "Tema Relax" onde 'Música Jazz', 'Jogar Cartas' e 'Decoração Minimalista' tendem a se agrupar?
Existe um "Tema Balada" onde 'Música Pop', 'Dançar' e 'Pizza' (comida rápida) se encaixam?

Você quer encontrar os temas que explicam a maior parte das combinações populares na sua tabela.

O MCA usa uma técnica matemática chamada Decomposição (como SVD ou Eigen) aplicada à Matriz de Burt (depois de alguns ajustes e normalizações). Essa decomposição "quebra" a Matriz de Burt em partes que representam os principais "eixos" ou "dimensões" da variabilidade nas preferências.

Aqui você encontra uma explicação detalhada de como encontrar os Autovalores e os autovetores de uma Matriz: https://www.geeksforgeeks.org/eigen-values/

**Essa quebra produz:**
   - "Pontuações de Importância" para cada Tema (Valores Singulares/Eigenvalores): Números que dizem o quão forte ou importante é cada tema para explicar as combinações populares. Um número maior significa que o tema captura uma grande parte da "estrutura" das preferências.
   - "Ingredientes" de cada Tema (Vetores Singulares/Eigenvetores): Listas de números que mostram o quanto cada Elemento de Festa ('Pizza', 'Música Pop', etc.) contribui ou se alinha com cada tema.

    <center><img src="https://media.giphy.com/media/v1.Y2lkPTc5MGI3NjExN2RuM3FjYXl0MHRlYmR0MjBiNTN1OGQ1MTg1YXN2ZWVpZ3U2a2l2YSZlcD12MV9naWZzX3NlYXJjaCZjdD1n/fvmbkNjNwBlHCG3Yin/giphy.gif" width="450" height="350" alt="letscode"></center>

- **Passo 4:** Criando um "Mapa das Preferências" (O Gráfico de MCA)

O que o MCA gera: Ele pega todas essas contagens e associações e as transforma em um mapa visual, geralmente em 2 dimensões.


 <center><img src="https://media.giphy.com/media/v1.Y2lkPWVjZjA1ZTQ3NnN6Zjd2dTEwMjQ2MTh0MnlyM2hxa3hoMTJkY3dpaTk5ZTl5YWVwbCZlcD12MV9naWZzX3NlYXJjaCZjdD1n/2UJqged5IlCdpPg698/giphy.gif" width="450" height="350" alt="letscode"></center>

Você usa os resultados da Decomposição (os Eigenvetores e Eigenvalores) para calcular as coordenadas de cada Elemento de Festa no espaço definido pelos temas (dimensões). Basicamente, é uma projeção que diz "onde" cada Elemento de Festa "cai" em relação a cada tema.


- **Passo 5:** Interpretando o Mapa da Festa:

   - Pontos Próximos: Elementos de Festa que aparecem próximos no mapa são aqueles que tendem a ser populares juntos e se encaixam em temas similares. Se 'Pizza' e 'Música Pop' estão perto, combine-os na festa!

   - Pontos Distantes: Elementos distantes são menos associados. 'Sushi' e 'Heavy Metal' podem estar em lados opostos do mapa.

  - Os Eixos (Temas/Dimensões): Olhando para quais elementos estão nas pontas de cada eixo, você pode dar um nome aos temas. O Eixo 1 pode ir de "Festa Relax" (elementos de um lado) a "Festa Animada" (elementos do outro).

  
   <center><img src="https://media.giphy.com/media/v1.Y2lkPTc5MGI3NjExMW1xemt4aHJ4bDJsYzFmeDB4Z2ZwNWo3cDliaHBocmFoN3hsYzhhNiZlcD12MV9naWZzX3NlYXJjaCZjdD1n/qBVd1FNIAGMCCG71xV/giphy.gif" width="350" height="350" alt="letscode"></center>

**Resumindo: O algoritmo do MCA, em sua essência, pega a sua lista de respostas categóricas, a transforma em uma tabela que conta todas as combinações de categorias (Matriz de Burt), encontra as direções nessa tabela que mostram os padrões de associação mais fortes (Decomposição), calcula onde cada categoria se encaixa nessas direções (Coordenadas) e, finalmente, desenha um mapa com base nessas posições.**

**Você não precisa fazer a SVD ou os cálculos de coordenadas à mão; as bibliotecas (como prince) fazem isso. O importante é entender que o processo vai dos seus dados brutos para uma contagem de co-ocorrências, e depois usa matemática para encontrar as tendências de associação mais fortes dentro dessas contagens e projetá-las em um espaço visual.**

A documentação da Biblioteca Prince:
https://pypi.org/project/prince/0.6.2/

In [None]:
#instala a biblioteca
!pip install prince

In [None]:
# Importa as bibliotecas
import prince
import plotly.io as pio
import plotly.graph_objects as go

Geralmente os dataset que usamos são mistos, variáveis categóricas, numéricas (contínuas e discretas), booleanas, etc. Para utilizar a técnica, apenas as variáveis categóricas funcionam, portanto, teremos que transformar as colunas numéricas em categóricas.

In [None]:
# Vamos continuar com o mesmo dataframe, só transformar as colunas numéricas em categóricas
df_exploded['Idade_Categoria'] = pd.qcut(df_exploded['Idade'], q=2, labels=['Jovem_Adulto', 'Adulto_Maduro'], duplicates='drop')

df_exploded['Renda_Categoria'] = pd.qcut(df_exploded['Renda Anual'], q=3, labels=['Renda_Baixa', 'Renda_Media', 'Renda_Alta'], duplicates='drop')

mapeamento_genero = {0: 'Feminino', 1: 'Masculino'}
df_exploded['Gênero_Categoria'] = df_exploded['Gênero'].map(mapeamento_genero)

mapeamento_atividade = {0: 'Nao_Gosta', 1: 'Sim_Gosta'}
df_exploded['Ativ_Categoria'] = df_exploded['Atividades ao Ar Livre'].map(mapeamento_atividade)

In [None]:
# Deleta colunas que não iremos usar
df_mca = df_exploded.drop([ 'index', 'Idade', 'Renda Anual', 'Gênero',  'Atividades ao Ar Livre', 'Cluster', 'Cluster_2'], axis=1).copy()

In [None]:
df_mca.head()

In [None]:
# 3. Realizar a Análise de Correspondência Múltipla (MCA)

# Inicializar o objeto MCA. n_components=2 significa que queremos 2 dimensões principais
# para visualizar os resultados em um gráfico 2D.
mca = prince.MCA(
    n_components=2,
    n_iter=10, # Número de iterações para o cálculo (geralmente 10 é suficiente)
    random_state=42 # Para garantir que os resultados sejam os mesmos toda vez que rodar
)

# Ajustar o modelo aos dados (encontrar as relações)
mca = mca.fit(df_mca)

In [None]:
# Os Auto Valores
table_eigenvalues = mca.eigenvalues_summary
table_eigenvalues

In [None]:
# Matriz de burt para obter as principais coordenadas das variáveis categóricas
coord_burt = mca.column_coordinates(df_mca)

In [None]:
coord_burt.head()

In [None]:
# cálculo das coordenadas das observações
coord_obs = mca.row_coordinates(df_mca)

In [None]:
coord_obs.head()

In [None]:
# Obtendo as coordenadas padrão
coord_padrao = mca.column_coordinates(df_mca)/np.sqrt(mca.eigenvalues_)

In [None]:
# Plotando o mapa perceptual (coordenadas padrão)
# Note: para que a função acima seja executada corretamente, não deixe um sublinhado (underline) no nome original da variável no dataset!
chart = coord_padrao.reset_index()

nome_categ=[]
for col in df_mca:
    nome_categ.append(df_mca[col].sort_values(ascending=True).unique())
    categorias = pd.DataFrame(nome_categ).stack().reset_index()

var_chart = pd.Series(chart['index'].str.split('_', expand=True).iloc[:,0])

chart_df_mca = pd.DataFrame({'category': chart['index'],
                             'obs_x': chart[0],
                             'obs_y': chart[1],
                             'variable': var_chart,
                             'category_id': categorias[0]})

In [None]:
# Instala biblioteca para ajudar na visualização dos nomes
!pip install adjustText

In [None]:
from adjustText import adjust_text
import seaborn as sns

# Modificamos a função para *coletar* os objetos de texto
def create_point_labels(x, y, val, ax):
    texts = [] # Lista para guardar os objetos de texto
    a = pd.concat({'x': x, 'y': y, 'val': val}, axis=1)
    for i, point in a.iterrows():
        # Em vez de apenas chamar ax.text, guardamos o resultado na lista
        # Podemos manter o offset inicial se quisermos, mas adjustText vai ajustar
        txt = ax.text(point['x'] + 0.03, point['y'] - 0.02, point['val'], fontsize=5)
        texts.append(txt)
    return texts # Retornamos a lista de objetos de texto

# Cria o scatter plot
sns.scatterplot(data=chart_df_mca, x='obs_x', y='obs_y', hue='variable', s=20)

# Adiciona os outros elementos do plot
sns.despine(top=True, right=True, left=False, bottom=False)
plt.axhline(y=0, color='lightgrey', ls='--', linewidth=0.8)
plt.axvline(x=0, color='lightgrey', ls='--', linewidth=0.8)
plt.tick_params(size=2, labelsize=6)
# Ajusta a posição da legenda para não atrapalhar (pode precisar de ajuste fino)
plt.legend(bbox_to_anchor=(1.05, 1), loc='upper left', fancybox=True, shadow=True, ncols=1, fontsize='5') # Mudei a posição para fora do gráfico
plt.title("Mapa Percentual - MCA", fontsize=12)
# Certifique-se que table_eigenvalues tem os dados esperados
try:
    xlabel_text = f"Dim. 1: {table_eigenvalues.iloc[0,1]:.2f} of Inertia" # Formata para 2 casas decimais
    ylabel_text = f"Dim. 2: {table_eigenvalues.iloc[1,1]:.2f} of Inertia"
except Exception as e:
    print(f"Erro ao formatar labels dos eixos: {e}")
    xlabel_text = "Dimensão 1"
    ylabel_text = "Dimensão 2"

plt.xlabel(xlabel_text, fontsize=8)
plt.ylabel(ylabel_text, fontsize=8)

# CHAMA A FUNÇÃO PARA CRIAR OS LABELS E COLETAR OS OBJETOS
text_objects = create_point_labels(x = chart_df_mca['obs_x'],
                                   y = chart_df_mca['obs_y'],
                                   val = chart_df_mca['category_id'],
                                   ax = plt.gca())

# CHAMA adjust_text PARA AJUSTAR AS POSIÇÕES
# force_points e force_text controlam o quanto os labels são "empurrados"
# Valores maiores empurram mais, mas podem mover os labels para longe dos pontos
# arrowprops pode adicionar setas se o label for movido para longe
adjust_text(text_objects,
            force_points=(0.5, 0.5), # Ajuste esses valores conforme necessário
            force_text=(0.5, 0.5),   # Ajuste esses valores conforme necessário
            arrowprops=dict(arrowstyle='-', color='lightgrey', lw=0.5)) # Adiciona setas sutis

plt.show()

## Muita coisa para assimilar né...

**Desafio PyLadies Fortaleza**

 Escolha um método e crie a sua própria Previsão/Clusterização/MCA e poste no seu Linkedin (marque a comunidade) e no seu github.
 E nos convide para dar os feedbacks, será um prazer enorme.

<center><img src="https://media.giphy.com/media/QhmboW0R7eUbm/giphy.gif?cid=790b7611vial0wck238nhqxlbgvyamui71uttairs8fd0jpv&ep=v1_gifs_search&rid=giphy.gif&ct=g" width="450" height="350" alt="loop"></center>

