## Iris Dataset - Exercício Introdutório de Ciência de Dados

### 0. Importação de Bibliotecas (libs ou packages)

In [16]:
# Manipulação de dados em formato tabular (DataFrames): Permite ler, limpar, filtrar e transformar dados de forma eficiente.
import pandas as pd

In [17]:
#Operações numéricas e vetoriais: Oferece funções para arrays, operações matemáticas e criação de novas colunas (como no uso de np.where).
import numpy as np

In [18]:
# Visualizações estatísticas com estilo elegante: Facilita gráficos como boxplot, scatterplot e heatmaps, com suporte nativo a DataFrames do pandas.
import seaborn as sns

In [19]:
# Criação de gráficos personalizados: Usado em conjunto com seaborn para controlar detalhes dos gráficos, como tamanho e títulos.
import matplotlib.pyplot as plt

In [20]:
# Carrega datasets prontos da scikit-learn: Aqui, traz o famoso Iris Dataset, já dividido em data e target.
from sklearn.datasets import load_wine

In [21]:
# Divide os dados em treino e teste: Muito usado para separar uma parte dos dados para avaliar o desempenho do modelo.
from sklearn.model_selection import train_test_split

In [22]:
# Modelo de regressão logística (classificação): Classificador simples e eficiente para problemas com múltiplas classes (como prever a espécie da flor).
from sklearn.linear_model import LogisticRegression

In [23]:
# Padroniza as variáveis numéricas: Transforma os dados para terem média 0 e desvio padrão 1, o que melhora o desempenho de muitos modelos.
from sklearn.preprocessing import StandardScaler

In [24]:
np.random.seed(42)

### 1. Carregamento do dataset

In [28]:
from sklearn.datasets import load_wine 
data = load_wine() 
df = pd.DataFrame(data.data, columns=data.feature_names) 
df['target'] = data.target

df.head()

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline,target
0,14.23,1.71,2.43,15.6,127.0,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065.0,0
1,13.2,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050.0,0
2,13.16,2.36,2.67,18.6,101.0,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185.0,0
3,14.37,1.95,2.5,16.8,113.0,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480.0,0
4,13.24,2.59,2.87,21.0,118.0,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735.0,0


In [29]:
df['target'].value_counts()

target
1    71
0    59
2    48
Name: count, dtype: int64

In [32]:
df['target'].value_counts(normalize=True, dropna=False)*100

target
1    39.887640
0    33.146067
2    26.966292
Name: proportion, dtype: float64

In [26]:
# 2. Inspeção Inicial
print("Shape:", df.shape)
print("Tipos de dados:", df.dtypes)
display("Primeiras linhas:", df.tail(20))


Shape: (178, 14)
Tipos de dados: alcohol                         float64
malic_acid                      float64
ash                             float64
alcalinity_of_ash               float64
magnesium                       float64
total_phenols                   float64
flavanoids                      float64
nonflavanoid_phenols            float64
proanthocyanins                 float64
color_intensity                 float64
hue                             float64
od280/od315_of_diluted_wines    float64
proline                         float64
target                            int32
dtype: object


'Primeiras linhas:'

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline,target
158,14.34,1.68,2.7,25.0,98.0,2.8,1.31,0.53,2.7,13.0,0.57,1.96,660.0,2
159,13.48,1.67,2.64,22.5,89.0,2.6,1.1,0.52,2.29,11.75,0.57,1.78,620.0,2
160,12.36,3.83,2.38,21.0,88.0,2.3,0.92,0.5,1.04,7.65,0.56,1.58,520.0,2
161,13.69,3.26,2.54,20.0,107.0,1.83,0.56,0.5,0.8,5.88,0.96,1.82,680.0,2
162,12.85,3.27,2.58,22.0,106.0,1.65,0.6,0.6,0.96,5.58,0.87,2.11,570.0,2
163,12.96,3.45,2.35,18.5,106.0,1.39,0.7,0.4,0.94,5.28,0.68,1.75,675.0,2
164,13.78,2.76,2.3,22.0,90.0,1.35,0.68,0.41,1.03,9.58,0.7,1.68,615.0,2
165,13.73,4.36,2.26,22.5,88.0,1.28,0.47,0.52,1.15,6.62,0.78,1.75,520.0,2
166,13.45,3.7,2.6,23.0,111.0,1.7,0.92,0.43,1.46,10.68,0.85,1.56,695.0,2
167,12.82,3.37,2.3,19.5,88.0,1.48,0.66,0.4,0.97,10.26,0.72,1.75,685.0,2


### 3. Estatísticas descritivas

In [None]:
import warnings
warnings.filterwarnings("ignore", category=FutureWarning)

In [None]:
df.groupby('species')[['sepal length (cm)','sepal width (cm)']].mean()

In [None]:
print("\nEstatísticas gerais:\n")
display(df.describe())

print("\nMédia por espécie:\n")
display(df.groupby('species').mean())

In [33]:
### dados ausentes: missing, NaN

df.isna().sum()

alcohol                         0
malic_acid                      0
ash                             0
alcalinity_of_ash               0
magnesium                       0
total_phenols                   0
flavanoids                      0
nonflavanoid_phenols            0
proanthocyanins                 0
color_intensity                 0
hue                             0
od280/od315_of_diluted_wines    0
proline                         0
target                          0
dtype: int64

In [None]:
# Testes Diagnósticos para cada feature
# Testes Anova e Kruskal-Wallis para cada feature (variavel)

# cada coluna pode ser ou feature (X) ou target (y)

# no dataset iris:
# y: species
# X: todas as caracteristicas das plantas

### 4. Visualizações

In [None]:
sns.set(style="whitegrid")

# Boxplot
plt.figure(figsize=(8, 5))
sns.boxplot(x="species", y="petal length (cm)", data=df)
plt.title("Distribuição do Comprimento da Pétala por Espécie")
plt.show()

In [None]:
sns.set(style="whitegrid")

# Boxplot
plt.figure(figsize=(8, 5))
sns.boxplot(x="species", y="sepal length (cm)", data=df)
plt.title("Distribuição do Comprimento da Pétala por Espécie")
plt.show()

In [None]:
# Scatter plot
plt.figure(figsize=(8, 5))
sns.scatterplot(
    data=df,
    x="petal length (cm)",
    y="petal width (cm)",
    hue="species",
    palette="deep"
)
plt.title("Dispersão: Petal Length vs Petal Width")
plt.show()

In [None]:
# Heatmap de correlação
plt.figure(figsize=(6, 4))
sns.heatmap(df.drop(columns='species').corr(), annot=True, cmap="Blues")
plt.title("Matriz de Correlação")
plt.show()

In [None]:
# 5. Criação de nova coluna categórica
petal_threshold = df["petal length (cm)"].median()

df["petal_size"] = np.where(df["petal length (cm)"] > petal_threshold, "grande", "pequena")

print("\nDistribuição de petal_size:\n", df["petal_size"].value_counts())

In [None]:
df

In [None]:
# 6. Modelo simples (Logistic Regression)
features = ["petal length (cm)", "petal width (cm)"]
X = df[features]
y = df["species"]

In [None]:
X

In [None]:
# 6a. Histogramas das features (distribuição geral, sem usar o target)
plt.figure(figsize=(12, 5))

# Histograma para petal length
plt.subplot(1, 2, 1)
sns.histplot(x=X["petal length (cm)"], kde=True, bins=20, color="gray", element="step")
plt.title("Distribuição Geral: Petal Length")
plt.xlabel("Petal Length (cm)")
plt.ylabel("Frequência")

# Histograma para petal width
plt.subplot(1, 2, 2)
sns.histplot(x=X["petal width (cm)"], kde=True, bins=20, color="gray", element="step")
plt.title("Distribuição Geral: Petal Width")
plt.xlabel("Petal Width (cm)")
plt.ylabel("Frequência")

plt.tight_layout()
plt.show()


In [None]:
X.describe()

In [None]:
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

In [None]:
# 6a. Histogramas das features escaladas (sem target)
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

# Cria DataFrame com as features escaladas
df_scaled = pd.DataFrame(X_scaled, columns=features)

plt.figure(figsize=(12, 5))

# Histograma para petal length
plt.subplot(1, 2, 1)
sns.histplot(data=df_scaled, x="petal length (cm)", kde=True, bins=20, color="gray", element="step")
plt.title("Distribuição Escalada: Petal Length")
plt.xlabel("Petal Length (escalado)")
plt.ylabel("Frequência")

# Histograma para petal width
plt.subplot(1, 2, 2)
sns.histplot(data=df_scaled, x="petal width (cm)", kde=True, bins=20, color="gray", element="step")
plt.title("Distribuição Escalada: Petal Width")
plt.xlabel("Petal Width (escalado)")
plt.ylabel("Frequência")

plt.tight_layout()
plt.show()


In [None]:
pd.DataFrame(X_scaled, columns=features).describe()

In [None]:
# semente de reprodutibilidade: random_state

X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

In [None]:
X_test.shape

In [None]:
y_test.shape

In [None]:
model = LogisticRegression(max_iter=200)

In [None]:
model.fit(X_train, y_train)

In [None]:
acc = model.score(X_test, y_test)
print(f"\nAcurácia do modelo com 2 features: {acc:.2%}")

In [None]:
from sklearn.tree import DecisionTreeClassifier

model_dt = DecisionTreeClassifier()

model_dt.fit(X_train, y_train)

acc = model_dt.score(X_test, y_test)
print(f"\nAcurácia do modelo com 2 features: {acc:.2%}")

In [None]:
from sklearn.tree import plot_tree

# 7. Visualização da Árvore de Decisão
plt.figure(figsize=(18, 12))
plot_tree(
    model_dt,
    feature_names=features,
    class_names=model_dt.classes_,
    filled=True,
    rounded=True,
    fontsize=10
)
plt.title("Árvore de Decisão - Classificação de Espécies")
plt.show()
