**Árvore de Decisão**

In [None]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import pandas as pd
import numpy as np


In [None]:
# Carregar dados a partir do arquivo CSV
data = pd.read_csv("wine.csv")

In [None]:
# Printa a base de dados com um default de 5 valores
# ex = data.head(20) - Printa 20 valores
data.head()

Unnamed: 0,Wine,Alcohol,Malic.acid,Ash,Acl,Mg,Phenols,Flavanoids,Nonflavanoid.phenols,Proanth,Color.int,Hue,OD,Proline
0,1,14.23,1.71,2.43,15.6,127,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065
1,1,13.2,1.78,2.14,11.2,100,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050
2,1,13.16,2.36,2.67,18.6,101,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185
3,1,14.37,1.95,2.5,16.8,113,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480
4,1,13.24,2.59,2.87,21.0,118,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735


In [None]:
# Dividir os dados em variáveis de entrada (X) e variável de saída (y)
X = data.drop('Wine', axis=1) # Apaga a coluna "Wine" completamente (axis=1 indica que se quer apagar a coluna toda)
y = data['Wine'] # Variável de saída

# Codificar as variáveis categóricas para valores numéricos
X_encoded = pd.get_dummies(X) # Transforma variáveis categóricas(ex: String)  em valores numéricos
                              # Cria novas colunas transformando os dados em valores numéricos

# Dividir os dados em conjuntos de treinamento e teste
# Separa os dados, destinando uma parte para o treinamento e outra para os testes
# test_size = Representa quanto dos dados são destinados para teste (0.2 = 20% dos dados são usados para teste)
#random_state = Representa uma seed que armazena o conteúdo presente, podendo ser recuperado depois
X_train, X_test, Y_train, Y_test = train_test_split(X_encoded,y,test_size=0.2, random_state=32)

In [None]:
# Criar o classificador da árvore de decisão
clf = DecisionTreeClassifier()

# Treinar o classificador com os dados de treinamento
# .fit() = Alimenta a árvore com os dados de treinamento
clf.fit(X_train,Y_train)

# Fazer previsões com os dados de teste
# .predict() = Cria um array pra cada exemplo de teste trazendo sua previsão
y_pred = clf.predict(X_test)

# Calcular a acurácia do modelo
accuracy = accuracy_score(Y_test, y_pred)
print(f"Acurácia do modelo: {accuracy:.4f}") # Indica que x%(ex = 0.9444 -> ~94%) dos valores ele acertou

Acurácia do modelo: 0.9444


In [None]:
# Inserindo novo valor para a máquina realizar sua previsão de qual vinho é
novo_valor = {
    'Alcohol': 14.63,
    'Malic.acid': 1.91,
    'Ash': 2.23,
    'Acl': 16.6,
    'Mg': 130,
    'Phenols': 2.10,
    'Flavanoids': 2.86,
    'Nonflavanoid.phenols': 0.48,
    'Proanth': 2.49,
    'Color.int': 6.64,
    'Hue': 2.04,
    'OD': 3.32,
    'Proline': 1365
}
# Note que não existe a coluna "Wine", justamente pq quem vai prever qual vinho é será a máquina

In [None]:
novo_valor_encoded = pd.get_dummies(novo_valor)
previsao = clf.predict(novo_valor_encoded)
print(f"A previsão para o novo valor é: {previsao[0]}")
 # A máquina prevê que o vinho definido na célula acima seja do tipo 2

<details>
  <summary><strong>K Means (Agrupamentos)</strong></summary>
  <a href="http://alekseynp.com/viz/k-means.html"> K-Means interative demonstration<a>
</details>


In [None]:
import pandas as pd
import numpy as np
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt



In [None]:
# Carregar o arquivo CSV com os dados
data = pd.read_csv('wine.csv')
data.head()


Unnamed: 0,Wine,Alcohol,Malic.acid,Ash,Acl,Mg,Phenols,Flavanoids,Nonflavanoid.phenols,Proanth,Color.int,Hue,OD,Proline
0,1,14.23,1.71,2.43,15.6,127,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065
1,1,13.2,1.78,2.14,11.2,100,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050
2,1,13.16,2.36,2.67,18.6,101,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185
3,1,14.37,1.95,2.5,16.8,113,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480
4,1,13.24,2.59,2.87,21.0,118,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735


In [None]:
# Excluir a coluna 'Type', pois é a coluna de rótulos (supervisionado) que não precisamos para o K-means (não supervisionado)
data = data.drop('Wine', axis=1)


In [None]:
# Converter os dados para um array numpy
X = data.values



In [None]:
# Definir o número de clusters (K) (ou seja, definir o número de agrupamentos) que desejamos encontrar
K = 3 # clusters = Agrupamentos



In [None]:
# Criar o objeto KMeans e realizar o agrupamento
kmeans = KMeans(n_clusters=K, random_state=42)
clusters = kmeans.fit_predict(X)

# Adicionar as informações do cluster de cada exemplo no DataFrame original
data['Cluster'] = clusters



In [None]:
data.head(20)

Unnamed: 0,Alcohol,Malic.acid,Ash,Acl,Mg,Phenols,Flavanoids,Nonflavanoid.phenols,Proanth,Color.int,Hue,OD,Proline,Cluster
0,14.23,1.71,2.43,15.6,127,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065,1
1,13.2,1.78,2.14,11.2,100,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050,1
2,13.16,2.36,2.67,18.6,101,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185,1
3,14.37,1.95,2.5,16.8,113,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480,1
4,13.24,2.59,2.87,21.0,118,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735,2
5,14.2,1.76,2.45,15.2,112,3.27,3.39,0.34,1.97,6.75,1.05,2.85,1450,1
6,14.39,1.87,2.45,14.6,96,2.5,2.52,0.3,1.98,5.25,1.02,3.58,1290,1
7,14.06,2.15,2.61,17.6,121,2.6,2.51,0.31,1.25,5.05,1.06,3.58,1295,1
8,14.83,1.64,2.17,14.0,97,2.8,2.98,0.29,1.98,5.2,1.08,2.85,1045,1
9,13.86,1.35,2.27,16.0,98,2.98,3.15,0.22,1.85,7.22,1.01,3.55,1045,1


In [None]:
# Descobrir quantidade de elementos em cada agrupamento
num_elements_group_0 = len(data[data['Cluster'] == 0])
num_elements_group_0


In [None]:
num_elements_group_1 = len(data[data['Cluster'] == 1])
num_elements_group_1


In [None]:
num_elements_group_2 = len(data[data['Cluster'] == 2])
num_elements_group_2

62

In [None]:
# Agrupar todos esses dados
df = data.groupby(['Cluster'])['Cluster'].count()
df

Cluster
0    69
1    47
2    62
Name: Cluster, dtype: int64

<details>
<summary><strong>Stable Diffusion (Gerador de Imagens)</strong></summary>
  <a href="https://colab.research.google.com/drive/1cBZxg5Cv925q0XCqiYMLYAC970bvgMjB?usp=sharing">Stable Diffusion</a>
</details>