
#  UNIBH - ESTORIL EDA II Victor Emanuel Maksud Carneiro RA - 12315747


#  Análise Exploratória de Dados — Iris Dataset
Este notebook apresenta uma **Análise Exploratória de Dados (EDA)** completa sobre o clássico dataset **Iris**, (`iris_eda`).

O objetivo é explorar, visualizar e compreender o comportamento das variáveis numéricas e categóricas, detectando padrões, relações e possíveis outliers.

##  Configuração do ambiente no Google Colab


In [None]:
!pip install pandas numpy matplotlib seaborn scikit-learn plotly -q
print(' Bibliotecas instaladas com sucesso!')

##  Importação das bibliotecas

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler

sns.set(style='whitegrid')
plt.rcParams['figure.figsize'] = (10,6)
print(' Bibliotecas importadas com sucesso!')

##  Carregamento da base de dados Iris


In [None]:
iris = load_iris()

# Criando DataFrame
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['species'] = pd.Categorical.from_codes(iris.target, iris.target_names)

print(' Dataset carregado com sucesso!')

display(df.head())

##  Estrutura e informações iniciais dos dados

In [None]:
print('Formato do dataset:', df.shape)
print('\nInformações gerais:')
print(df.info())
print('\nValores ausentes por coluna:')
print(df.isnull().sum())

##  Estatísticas descritivas

In [None]:
df.describe().T

##  Análise univariada — variáveis numéricas

In [None]:
num_cols = df.select_dtypes(include=[np.number]).columns
df[num_cols].hist(bins=20, figsize=(12, 8), edgecolor='black')
plt.suptitle('Distribuição das variáveis numéricas', fontsize=16)
plt.show()

##  Boxplots — Detecção visual de outliers

In [None]:
for col in num_cols:
    plt.figure()
    sns.boxplot(x=df[col], color='lightblue')
    plt.title(f'Boxplot — {col}')
plt.show()

##  Análise das espécies (variável categórica)

In [None]:
sns.countplot(x='species', data=df, palette='pastel')
plt.title('Distribuição das espécies')
plt.show()

##  Matriz de correlação

In [None]:
corr = df[num_cols].corr()
plt.figure(figsize=(8,6))
sns.heatmap(corr, annot=True, cmap='coolwarm', linewidths=0.5)
plt.title('Matriz de correlação entre as variáveis numéricas')
plt.show()

##  Pairplot — Relações entre as variáveis

In [None]:
sns.pairplot(df, hue='species', palette='pastel')
plt.suptitle('Pairplot das variáveis numéricas por espécie', y=1.02)
plt.show()

##  Detecção de outliers (IQR)

In [None]:
outlier_summary = {}
for col in num_cols:
    Q1, Q3 = df[col].quantile(0.25), df[col].quantile(0.75)
    IQR = Q3 - Q1
    lower, upper = Q1 - 1.5 * IQR, Q3 + 1.5 * IQR
    outliers = ((df[col] < lower) | (df[col] > upper)).sum()
    outlier_summary[col] = outliers

pd.DataFrame.from_dict(outlier_summary, orient='index', columns=['Outliers'])

##  Padronização (StandardScaler)

In [None]:
scaler = StandardScaler()
df_scaled = df.copy()
df_scaled[num_cols] = scaler.fit_transform(df[num_cols])
print('✅ Dados padronizados com sucesso!')
df_scaled.head()

##  PCA — Redução de dimensionalidade para visualização

In [None]:
from sklearn.decomposition import PCA

pca = PCA(n_components=2)
components = pca.fit_transform(df_scaled[num_cols])
pca_df = pd.DataFrame(components, columns=['PC1', 'PC2'])
pca_df['species'] = df['species']

sns.scatterplot(x='PC1', y='PC2', hue='species', data=pca_df, palette='pastel')
plt.title('PCA — projeção em 2D das espécies')
plt.show()

##  Conclusões da EDA
- As três espécies (setosa, versicolor, virginica) apresentam separações claras em variáveis como **petal length** e **petal width**.
- Não há valores ausentes no dataset.
- A variável `setosa` é facilmente separável visualmente.
- `versicolor` e `virginica` têm sobreposição parcial em algumas dimensões.


##  Observações Finais
- Este notebook é **executado diretamente no Google Colab**.
- Não é necessário fazer download manual dos dados — o Iris já está embutido no scikit-learn.
