## **Carregando os dados**

In [1]:
import pandas as pd

# URL do dataset Wine
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data'

# Nome das colunas em português BR
column_names_pt_br = [
    'classe',
    'alcool',
    'acido_malico',
    'cinzas',
    'alcalinidade_de_cinzas',
    'magnesio',
    'fenois_totais',
    'flavanoides',
    'fenois_nao_flavanoides',
    'proantocianinas',
    'intensidade_de_cor',
    'matiz',
    'od280_od315_de_vinhos_diluidos',
    'prolina'
]

# Ler o arquivo CSV com as colunas especificadas, definindo a coluna 'classe' como object
vinhos = pd.read_csv(url, names=column_names_pt_br, dtype={'classe': object})

# **Tarefas**

## **1. Normalização dos Dados**

Realize a reescala linear dos dados para o intervalo (0, 1). Utilize a biblioteca MinMaxScaler do sklearn. Lembre-se de dropar a coluna classe, pois ela não deve ser utilizada para o agrupamento.

In [2]:
from sklearn.preprocessing import MinMaxScaler

# Dropar a coluna 'classe'
X = vinhos.drop('classe', axis=1)

# Reescala linear dos dados
scaler = MinMaxScaler()
X_scaled = scaler.fit_transform(X)

## **2. Aplicação do K-Means**

Aplique o K-Means para agrupar os dados em 4 clusters. Utilize random_state=42 para garantir a reprodutibilidade dos resultados. Após o treinamento, apresente o valor da inércia do modelo.

In [3]:
from sklearn.cluster import KMeans

# Aplicar K-Means com 4 clusters
kmeans = KMeans(n_clusters=4, random_state=42)
vinhos['cluster'] = kmeans.fit_predict(X_scaled)

# Apresentar o valor da inércia
print(f'Inércia do modelo K-Means: {kmeans.inertia_}')  # Exemplo de como apresentar a inércia

Inércia do modelo K-Means: 44.887604580852816


## **3. Análise dos Clusters**

Após a aplicação do K-Means, mostre a distribuição dos clusters na nova coluna que foi criada. Utilize o método value_counts() para isso:

In [4]:
# Apresentar a contagem dos clusters
print(vinhos['cluster'].value_counts())

cluster
2    59
1    50
0    36
3    33
Name: count, dtype: int64


## **4. Comparação com Classes Originais**

Compare a distribuição dos clusters obtidos com as classes originais da coluna classe. Utilize o método groupby() para facilitar essa análise.

In [5]:
# Comparar clusters com as classes originais
comparacao = vinhos.groupby('cluster')['classe'].value_counts()
print(comparacao )

cluster  classe
0        2         34
         1          2
1        3         48
         2          2
2        1         57
         2          2
3        2         33
Name: count, dtype: int64


ou de forma alternativa com  pd.crosstab:

In [6]:
comparacao = pd.crosstab(vinhos['classe'], vinhos['cluster'])
print(comparacao)

cluster   0   1   2   3
classe                 
1         2   0  57   0
2        34   2   2  33
3         0  48   0   0
