### Download do dataset

In [None]:
!wget https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data

### Importação das Bibliotecas

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report

### Leitura do database

In [None]:
names = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'class']

iris = pd.read_csv("iris.data", names=names)

### Média, desvio e moda de cada variável (geral)

In [None]:
lista = []

caracteristicas = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width']

#calcula media, desvio e moda de cada variavel
for caracteristica in caracteristicas:
  df = iris[caracteristica]
  df_media = df.mean()
  df_desvio = df.std()
  df_moda = df.mode()[0]
  lista.append({"caracteristica": caracteristica, "media": df_media, "desvio": df_desvio, "moda": df_moda})

lista

### Média, desvio e moda de cada variável (por categoria)

In [None]:
lista = []

categorias = ['Iris-setosa', 'Iris-versicolor', 'Iris-virginica']

#calcula media, desvio e moda de cada variavel para cada classe
for categoria in categorias:
  df = iris[iris['class'] == categoria]
  for caracteristica in caracteristicas:
    df2 = df[caracteristica]
    df_media = df2.mean()
    df_desvio = df2.std()
    df_moda = df2.mode()[0]
    lista.append({"classe": categoria, "caracteristica": caracteristica, "media": df_media, "desvio": df_desvio, "moda": df_moda})

lista

### Frêquencias

In [None]:
num_registros = iris.shape[0]

frequencias_abs = iris['class'].value_counts()
frequencias_rel = frequencias_abs / num_registros

print(f"Total:{num_registros}")
print("Freq Abs:\n" + frequencias_abs.to_string())
print("Freq Rel:\n" + frequencias_rel.to_string(header=False))

### Relação entre comprimento e largura da sépala para cada categoria

In [None]:
# Cria subplots de 1 por 3
fig, axs = plt.subplots(1, 3, figsize=(12,4))

# Plota gráfico para Iris-setosa
setosa = iris[iris["class"] == "Iris-setosa"]
axs[0].scatter(setosa["sepal_length"], setosa["sepal_width"])
axs[0].set_xlabel("Comprimento da sépala")
axs[0].set_ylabel("Largura da sépala")
axs[0].set_title("Iris-setosa")

# Plota gráfico para Iris-versicolor
versicolor = iris[iris["class"] == "Iris-versicolor"]
axs[1].scatter(versicolor["sepal_length"], versicolor["sepal_width"])
axs[1].set_xlabel("Comprimento da sépala")
axs[1].set_ylabel("Largura da sépala")
axs[1].set_title("Iris-versicolor")

# Plota gráfico para Iris-virginica
virginica = iris[iris["class"] == "Iris-virginica"]
axs[2].scatter(virginica["sepal_length"], virginica["sepal_width"])
axs[2].set_xlabel("Comprimento da sépala")
axs[2].set_ylabel("Largura da sépala")
axs[2].set_title("Iris-virginica")

plt.show()

### Relação entre comprimento e largura da pétala para cada categoria

In [None]:
# Cria subplots de 1 por 3
fig, axs = plt.subplots(1, 3, figsize=(12,4))

# Plota gráfico para Iris-setosa
setosa = iris[iris["class"] == "Iris-setosa"]
axs[0].scatter(setosa["petal_length"], setosa["petal_width"])
axs[0].set_xlabel("Comprimento da pétala")
axs[0].set_ylabel("Largura da pétala")
axs[0].set_title("Iris-setosa")

# Plota gráfico para Iris-versicolor
versicolor = iris[iris["class"] == "Iris-versicolor"]
axs[1].scatter(versicolor["petal_length"], versicolor["petal_width"])
axs[1].set_xlabel("Comprimento da pétala")
axs[1].set_ylabel("Largura da pétala")
axs[1].set_title("Iris-versicolor")

# Plota gráfico para Iris-virginica
virginica = iris[iris["class"] == "Iris-virginica"]
axs[2].scatter(virginica["petal_length"], virginica["petal_width"])
axs[2].set_xlabel("Comprimento da pétala")
axs[2].set_ylabel("Largura da pétala")
axs[2].set_title("Iris-virginica")

plt.show()

### Distribuição das categorias nas 4 dimensões (comprimento e largura da sépala e pétala)

In [None]:
# seleciona apenas as colunas de interesse
df = iris[['class', 'sepal_length', 'sepal_width', 'petal_length', 'petal_width']]

# cria um loop para gerar o gráfico de densidade para cada característica
for col in df.columns[1:]:
    plt.figure(figsize=(8,5))
    sns.kdeplot(data=df, x=col, hue='class', common_norm=False, palette='bright')
    plt.title(f'Distribuição das classes para {col}')
    plt.show()

### Principal Component Analysis (PCA)

In [None]:
# Normalização dos dados
scaler = StandardScaler()
X = scaler.fit_transform(iris.drop('class', axis=1))

# Cálculo dos componentes principais
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)

# Plota dos dados
plt.scatter(X_pca[:, 0], X_pca[:, 1], c=iris['class'].astype('category').cat.codes)
plt.xlabel('Primeiro componente principal')
plt.ylabel('Segundo componente principal')
plt.show()

### K-NN

In [None]:
# Separa os dados em X (caracteristicas) e y (classe)
X = iris.drop('class', axis=1)
y = iris['class']

# Divide os dados em treinamento (80%) e teste (20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=None)

# Cria um kNN
knn = KNeighborsClassifier(n_neighbors=3, metric='euclidean')
knn.fit(X_train, y_train)

# Predicao do classificador
y_pred = knn.predict(X_test)

# Mostra o resultado do classificador na base de teste
acc = knn.score(X_test, y_test)
print("Acurácia do modelo: {:.2f}%".format(acc*100))

# Cria a matriz de confusao
cm = confusion_matrix(y_test, y_pred)
print (cm)
print(classification_report(y_test, y_pred))