## Iris Dataset - Exercício Introdutório de Ciência de Dados

### 0. Importação de Bibliotecas (libs ou packages)

In [None]:
# Manipulação de dados em formato tabular (DataFrames): Permite ler, limpar, filtrar e transformar dados de forma eficiente.
import pandas as pd

In [1]:
# Visualizações estatísticas com estilo elegante: Facilita gráficos como boxplot, scatterplot e heatmaps, com suporte nativo a DataFrames do pandas.
import seaborn as sns

In [None]:
# Criação de gráficos personalizados: Usado em conjunto com seaborn para controlar detalhes dos gráficos, como tamanho e títulos.
import matplotlib.pyplot as plt

In [2]:
#Operações numéricas e vetoriais: Oferece funções para arrays, operações matemáticas e criação de novas colunas (como no uso de np.where).
import numpy as np

In [None]:
# Carrega datasets prontos da scikit-learn: Aqui, traz o famoso Iris Dataset, já dividido em data e target.
from sklearn.datasets import load_iris

In [None]:
# Divide os dados em treino e teste: Muito usado para separar uma parte dos dados para avaliar o desempenho do modelo.
from sklearn.model_selection import train_test_split

In [None]:
# Modelo de regressão logística (classificação): Classificador simples e eficiente para problemas com múltiplas classes (como prever a espécie da flor).
from sklearn.linear_model import LogisticRegression

In [None]:
# Padroniza as variáveis numéricas: Transforma os dados para terem média 0 e desvio padrão 1, o que melhora o desempenho de muitos modelos.
from sklearn.preprocessing import StandardScaler

### 1. Carregamento do dataset

In [None]:
iris_data = load_iris()
df = pd.DataFrame(data=iris_data.data, columns=iris_data.feature_names)
df['species'] = pd.Categorical.from_codes(iris_data.target, iris_data.target_names)

# 2. Inspeção Inicial
print("Shape:", df.shape)
print("\nTipos de dados:\n", df.dtypes)
print("\nPrimeiras linhas:\n", df.head())


### 3. Estatísticas descritivas

In [None]:
print("\nEstatísticas gerais:\n", df.describe())
print("\nMédia por espécie:\n", df.groupby('species').mean())



### 4. Visualizações

In [None]:
sns.set(style="whitegrid")

# Boxplot
plt.figure(figsize=(8, 5))
sns.boxplot(x="species", y="petal length (cm)", data=df)
plt.title("Distribuição do Comprimento da Pétala por Espécie")
plt.show()

In [None]:
# Scatter plot
plt.figure(figsize=(8, 5))
sns.scatterplot(
    data=df,
    x="petal length (cm)",
    y="petal width (cm)",
    hue="species",
    palette="deep"
)
plt.title("Dispersão: Petal Length vs Petal Width")
plt.show()

In [None]:
# Heatmap de correlação
plt.figure(figsize=(6, 4))
sns.heatmap(df.drop(columns='species').corr(), annot=True, cmap="Blues")
plt.title("Matriz de Correlação")
plt.show()

In [None]:
# 5. Criação de nova coluna categórica
petal_threshold = df["petal length (cm)"].median()
df["petal_size"] = np.where(df["petal length (cm)"] > petal_threshold, "grande", "pequena")
print("\nDistribuição de petal_size:\n", df["petal_size"].value_counts())

In [None]:
# 6. Modelo simples (Logistic Regression)
features = ["petal length (cm)", "petal width (cm)"]
X = df[features]
y = df["species"]

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

model = LogisticRegression(max_iter=200)
model.fit(X_train, y_train)
acc = model.score(X_test, y_test)
print(f"\nAcurácia do modelo com 2 features: {acc:.2%}")