# Exercício Prático: Clustering com K-Means - Vinhos (UCI)
## Objetivo
Neste exercício sobre **aprendizagem não supervisionada (agrupamento)**, você aplicará o algoritmo K-Means no dataset de vinhos da UCI. O objetivo é agrupar os dados em 4 clusters e analisar a distribuição desses clusters em relação às classes originais.

## Instruções
Faça a leitura dos dados sobre vinhos da UCI, utilizando o seguinte código:
```python
import pandas as pd
# URL do dataset Wine
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data'
# Nome das colunas em português BR
column_names_pt_br = [
    'classe',
    'alcool',
    'acido_malico',
    'cinzas',
    'alcalinidade_de_cinzas',
    'magnesio',
    'fenois_totais',
    'flavanoides',
    'fenois_nao_flavanoides',
    'proantocianinas',
    'intensidade_de_cor',
    'matiz',
    'od280_od315_de_vinhos_diluidos',
    'prolina'
]
# Ler o arquivo CSV com as colunas especificadas, definindo a coluna 'classe' como object
vinhos = pd.read_csv(url, names=column_names_pt_br, dtype={'classe': object})
```
## Tarefas
1. Normalização dos Dados

Realize a reescala linear dos dados para o intervalo (0, 1). Utilize a biblioteca `MinMaxScaler` do `sklearn`. Lembre-se de dropar a coluna `classe`, pois ela não deve ser utilizada para o agrupamento.
```python
from sklearn.preprocessing import MinMaxScaler
# Dropar a coluna 'classe'
X = vinhos.drop('classe', axis=1)
# Reescala linear dos dados
scaler = MinMaxScaler()
X_scaled = scaler.fit_transform(X)
```
2. Aplicação do K-Means

Aplique o K-Means para agrupar os dados em 4 clusters. Utilize `random_state=42` para garantir a reprodutibilidade dos resultados. Após o treinamento, apresente o valor da inércia do modelo.
```python
from sklearn.cluster import KMeans
# Aplicar K-Means com 4 clusters
kmeans = KMeans(n_clusters=4, random_state=42)
vinhos['cluster'] = kmeans.fit_predict(X_scaled)
# Apresentar o valor da inércia
print(f'Inércia do modelo K-Means: {kmeans.inertia_}')  # Exemplo de como apresentar a inércia
```
3. Análise dos Clusters

Após a aplicação do K-Means, mostre a distribuição dos clusters na nova coluna que foi criada. Utilize o método `value_counts()` para isso:
```python
# Apresentar a contagem dos clusters
print(vinhos['cluster'].value_counts())
```
4. Comparação com Classes Originais

Compare a distribuição dos clusters obtidos com as classes originais da coluna `classe`. Utilize o método `groupby()` para facilitar essa análise.
```python
# Comparar clusters com as classes originais
comparacao = vinhos.groupby('cluster')['classe'].value_counts()
print(comparacao )
```
ou de forma alternativa com `pd.crosstab`:
```python
comparacao = pd.crosstab(vinhos['classe'], vinhos['cluster'])
print(comparacao)
```
## Observações:
* Faça a entrega como Notebook (.ipynb)
* Use o Google Colab
* Certifique-se de comentar e organizar seu código.
* Utilize o espaço de discussão desta issue para compartilhar seu progresso ou dúvidas.

In [17]:
import pandas as pd
# URL do dataset Wine
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data'
# Nome das colunas em português BR
column_names_pt_br = [
    'classe',
    'alcool',
    'acido_malico',
    'cinzas',
    'alcalinidade_de_cinzas',
    'magnesio',
    'fenois_totais',
    'flavanoides',
    'fenois_nao_flavanoides',
    'proantocianinas',
    'intensidade_de_cor',
    'matiz',
    'od280_od315_de_vinhos_diluidos',
    'prolina'
]
# Ler o arquivo CSV com as colunas especificadas, definindo a coluna 'classe' como object
vinhos = pd.read_csv(url, names=column_names_pt_br, dtype={'classe': object})

In [18]:
print(vinhos)

    classe  alcool  acido_malico  cinzas  alcalinidade_de_cinzas  magnesio  \
0        1   14.23          1.71    2.43                    15.6       127   
1        1   13.20          1.78    2.14                    11.2       100   
2        1   13.16          2.36    2.67                    18.6       101   
3        1   14.37          1.95    2.50                    16.8       113   
4        1   13.24          2.59    2.87                    21.0       118   
..     ...     ...           ...     ...                     ...       ...   
173      3   13.71          5.65    2.45                    20.5        95   
174      3   13.40          3.91    2.48                    23.0       102   
175      3   13.27          4.28    2.26                    20.0       120   
176      3   13.17          2.59    2.37                    20.0       120   
177      3   14.13          4.10    2.74                    24.5        96   

     fenois_totais  flavanoides  fenois_nao_flavanoides  proant

## Por que usar a normalização?

Como os dados da coluna `prolina` e `magnesio` estão muito acima das outras, devemos aplicar uma normalização dos dados.

## Por que usar o MinMaxScaler ao invés do StandardScaler?

Pois utilizamos um modelo com sensibilidade à escala absoluta.

In [19]:
from sklearn.preprocessing import MinMaxScaler

scaler=MinMaxScaler()
X=vinhos.drop('classe',axis=1)
X_scaled=scaler.fit_transform(X)

vinhos.drop('classe',axis=1)

Unnamed: 0,alcool,acido_malico,cinzas,alcalinidade_de_cinzas,magnesio,fenois_totais,flavanoides,fenois_nao_flavanoides,proantocianinas,intensidade_de_cor,matiz,od280_od315_de_vinhos_diluidos,prolina
0,14.23,1.71,2.43,15.6,127,2.80,3.06,0.28,2.29,5.64,1.04,3.92,1065
1,13.20,1.78,2.14,11.2,100,2.65,2.76,0.26,1.28,4.38,1.05,3.40,1050
2,13.16,2.36,2.67,18.6,101,2.80,3.24,0.30,2.81,5.68,1.03,3.17,1185
3,14.37,1.95,2.50,16.8,113,3.85,3.49,0.24,2.18,7.80,0.86,3.45,1480
4,13.24,2.59,2.87,21.0,118,2.80,2.69,0.39,1.82,4.32,1.04,2.93,735
...,...,...,...,...,...,...,...,...,...,...,...,...,...
173,13.71,5.65,2.45,20.5,95,1.68,0.61,0.52,1.06,7.70,0.64,1.74,740
174,13.40,3.91,2.48,23.0,102,1.80,0.75,0.43,1.41,7.30,0.70,1.56,750
175,13.27,4.28,2.26,20.0,120,1.59,0.69,0.43,1.35,10.20,0.59,1.56,835
176,13.17,2.59,2.37,20.0,120,1.65,0.68,0.53,1.46,9.30,0.60,1.62,840


## Obs.:

Como não estamos lidando com modelo supervisionado, não vamos dividir em `train` e `test`.

In [20]:
from sklearn.cluster import KMeans

kmeans=KMeans(n_clusters=4,random_state=42)

vinhos['cluster']=kmeans.fit_predict(X_scaled)

print('Valor de Inércia:',kmeans.inertia_)

Valor de Inércia: 44.887604580852816


In [21]:
print(vinhos['cluster'].value_counts())

cluster
2    59
1    50
0    36
3    33
Name: count, dtype: int64


In [22]:
comparacao = vinhos.groupby('cluster')['classe'].value_counts()
print(comparacao )

cluster  classe
0        2         34
         1          2
1        3         48
         2          2
2        1         57
         2          2
3        2         33
Name: count, dtype: int64
