# Desafio 1: Classificador Básico no Iris Dataset

## Bibliotecas Utilizadas

In [None]:
from sklearn import datasets
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sb
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, confusion_matrix

- SKLearn: Carregar o Iris Dataset, treinar e avaliar modelos.
- Pandas: Resumir os dados do dataset.
- Matplot: Plotar gráficos.
- Seaborn: Plotar gráficos mais complexos.

## Carregando Dataset

In [None]:
# Carregando o Iris Dataset
iris_ds = datasets.load_iris()

# Carregando os dados do Dataset no Pandas
ds = pd.DataFrame(iris_ds.data, columns=iris_ds.feature_names)
ds['species'] = pd.Categorical.from_codes(iris_ds.target, iris_ds.target_names)

> É necessário importar as espécies externamente, pois não é gerado por padrão no metódo load_iris().

## Estátistica Descritiva e Plotagem de Gráficos

In [None]:
# Resumo do Dataset com aproximação de 2 casas decimais
print(ds.describe().round(2))

# Histograma da frequência do tamanho das petalas
histogram = ds['petal length (cm)'].plot.hist()
plt.title("Distribuição do Comprimento das Pétalas")
plt.xlabel("Petal Length (cm)")
plt.show()

# Gráfico de dispersão entre o comprimento da sepala e o comprimento das petalas
dispersion = ds.plot.scatter(x='petal length (cm)', y='sepal length (cm)')
plt.title("Dispersão Entre o Comprimento das Pétalas e Sépalas")
plt.xlabel('Petal Length (cm)')
plt.ylabel('Sepal Length (cm)')
plt.show()

# Gráfico de dispersão entre todos os dados
sb.pairplot(ds, hue='species')
plt.show()

## Treino e Teste

### Distribuir os Dados

In [None]:
# Definindo a distruibuição dos dados
X = ds.drop('species', axis=1)
y = ds['species']

X_train, X_tests, y_train, y_tests = train_test_split(X, y, test_size=0.3, random_state=0)

- X é a váriavel que contém todas as características das flores de uma espécie.
- y é a váriavel que contém as espécies.

O objetivo é treinar um modelo capaz de classificar a espécie de acordo com as características da flor.

- O metódo train_test_split() separa os dados para treinos e testes.
    - O parâmetro test_size a porcentagem dos dados que irão ser utilizados para testes - como solicitado, 30% dos dados foram utilizados para testes e 70% para treinar o modelo. 
    - O parâmetro random_state é um ponto fixo de aleatoriedade, usado para garantir a consistências dos dados, sem precisar ficar preso na aleatoriedade.

- X_train e y_train serão os dados utilizados para treinar o modelo.
- X_tests são os dados de flores que o modelo tentará identificar e y_tests são os resultados esperados.

### Treinar o Modelo

In [None]:
# Treinando o modelo DecisionTreeClassfier
model = DecisionTreeClassifier()
model.fit(X=X_train, y=y_train)

- Selecionando o modelo específico do DecisionTreeClassifier e utilizando o metódo fit() para treinar o modelo.

### Testar o Modelo

In [None]:
# Testando o modelo
y_predict = model.predict(X=X_tests)

- Utililando o metódo predict() para obter os resultados dos testes, guardamos esses resultados em uma váriavel para avaliar o modelo.

## Avaliar o Modelo

- Como solicitado, o metódo de avaliação do modelo será medindo a sua acurácia e matriz de confusão. Para isso já temos metódos disponíveis na biblioteca do SKLearn.

In [None]:
# Medindo a precisão do modelo
accuracy = accuracy_score(y_true=y_tests, y_pred=y_predict)
conf_matrix = confusion_matrix(y_true=y_tests, y_pred=y_predict)

print(f"{100 * accuracy:.2f}%")
print(conf_matrix)

- y_true é o parâmetro que recebe os resultados esperados, que foi nomeado como y_tests durante a execução do metódo train_test_split().
- y_pred é o parâmetro que recebe os resultados que foram obtidos durante os testes.