# 📊 Análise Exploratória de Dados com Pandas

Este notebook demonstra uma **Análise Exploratória de Dados (EDA)** aplicada ao dataset **Iris**, clássico em Machine Learning.  
O objetivo é **mostrar domínio prático em manipulação, exploração e sumarização de dados**, etapa fundamental em qualquer projeto de Ciência de Dados.  

---

## 1. Carregamento e Visão Geral

In [3]:
import pandas as pd
from sklearn.datasets import load_iris
# Carregar dataset Iris
iris = load_iris(as_frame=True)
df = iris.frame

# Visão inicial
print(df.head())
print(df.info())

   sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)  \
0                5.1               3.5                1.4               0.2   
1                4.9               3.0                1.4               0.2   
2                4.7               3.2                1.3               0.2   
3                4.6               3.1                1.5               0.2   
4                5.0               3.6                1.4               0.2   

   target  
0       0  
1       0  
2       0  
3       0  
4       0  
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
 4   target             150 non-null    int32  
dtypes: float

## 2. Estatísticas Descritivas

In [4]:
# Estatísticas básicas
print(df.describe())

# Contagem por classe
print(df["target"].value_counts())


       sepal length (cm)  sepal width (cm)  petal length (cm)  \
count         150.000000        150.000000         150.000000   
mean            5.843333          3.057333           3.758000   
std             0.828066          0.435866           1.765298   
min             4.300000          2.000000           1.000000   
25%             5.100000          2.800000           1.600000   
50%             5.800000          3.000000           4.350000   
75%             6.400000          3.300000           5.100000   
max             7.900000          4.400000           6.900000   

       petal width (cm)      target  
count        150.000000  150.000000  
mean           1.199333    1.000000  
std            0.762238    0.819232  
min            0.100000    0.000000  
25%            0.300000    0.000000  
50%            1.300000    1.000000  
75%            1.800000    2.000000  
max            2.500000    2.000000  
target
0    50
1    50
2    50
Name: count, dtype: int64


## 3. Seleção e Filtragem

In [5]:
# Selecionando apenas pétalas
petalas = df[["petal length (cm)", "petal width (cm)"]]
print(petalas.head())

# Filtrando flores Setosa
setosa = df[df["target"] == 0]
print(setosa.head())


   petal length (cm)  petal width (cm)
0                1.4               0.2
1                1.4               0.2
2                1.3               0.2
3                1.5               0.2
4                1.4               0.2
   sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)  \
0                5.1               3.5                1.4               0.2   
1                4.9               3.0                1.4               0.2   
2                4.7               3.2                1.3               0.2   
3                4.6               3.1                1.5               0.2   
4                5.0               3.6                1.4               0.2   

   target  
0       0  
1       0  
2       0  
3       0  
4       0  


## 4. Criação de Colunas Derivadas

In [6]:
# Nova coluna: razão comprimento/largura da pétala
df["petal_ratio"] = df["petal length (cm)"] / df["petal width (cm)"]

# Média por espécie
media_ratio = df.groupby("target")["petal_ratio"].mean()
print(media_ratio)


target
0    6.908000
1    3.242837
2    2.780662
Name: petal_ratio, dtype: float64


## 5. Análise Exploratória Rápida

In [7]:
# Diferença de médias entre espécies
comparacao = df.groupby("target").mean()
print(comparacao)


        sepal length (cm)  sepal width (cm)  petal length (cm)  \
target                                                           
0                   5.006             3.428              1.462   
1                   5.936             2.770              4.260   
2                   6.588             2.974              5.552   

        petal width (cm)  petal_ratio  
target                                 
0                  0.246     6.908000  
1                  1.326     3.242837  
2                  2.026     2.780662  


## 🎯 Conclusão

Neste notebook foram demonstradas habilidades essenciais em **EDA** com **Pandas**:  
- Carregamento e inspeção de dataset real  
- Estatísticas descritivas  
- Seleção e filtragem de dados  
- Criação de colunas derivadas  
- Agrupamento e comparações entre classes  
Esse processo é **a base da análise exploratória**, fornecendo insumos valiosos para etapas posteriores de **modelagem preditiva** e **visualização avançada**.