In [None]:
# Imports
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import confusion_matrix
from sklearn.ensemble import RandomForestClassifier

In [None]:
# Carregar o dataset
df = sns.load_dataset("penguins").dropna()

# Tradu√ß√µes
df = df.rename(columns={
    'species': 'especie',
    'island': 'ilha',
    'bill_length_mm': 'comprimento_bico_mm',
    'bill_depth_mm': 'largura_bico_mm',
    'flipper_length_mm': 'comprimento_nadadeira_mm',
    'body_mass_g': 'massa_corporal_g',
    'sex': 'sexo'
})

df['especie'] = df['especie'].replace({'Adelie': 'Ad√©lia', 'Chinstrap': 'Barbicha', 'Gentoo': 'Gentoo'})
df['sexo'] = df['sexo'].replace({'Male': 'Macho', 'Female': 'F√™mea'})

# Preparar os dados
X = df[['comprimento_bico_mm', 'largura_bico_mm', 'comprimento_nadadeira_mm', 'massa_corporal_g']]
y = LabelEncoder().fit_transform(df['especie'])
label_names = ['Ad√©lia', 'Barbicha', 'Gentoo']  # ordem definida pelo LabelEncoder

# Dividir os dados
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Treinar modelo
model = RandomForestClassifier(random_state=42)
model.fit(X_train, y_train)

# Predi√ß√µes
y_pred = model.predict(X_test)

# Matriz de Confus√£o
cm = confusion_matrix(y_test, y_pred)

In [None]:
# Gr√°fico 1 - Heatmap
fig, ax = plt.subplots(figsize=(8, 5))
sns.heatmap(df.select_dtypes(include='number').corr(), annot=True, cmap='coolwarm', ax=ax)
ax.set_title("Mapa de Calor - Correla√ß√£o Num√©rica", fontsize=14)
plt.tight_layout(rect=[0, 0.1, 1, 0.95])
plt.show()

# üî• Mapa de Calor - Correla√ß√£o Num√©rica

O **Mapa de Calor (Heatmap)** √© uma forma visual de representar a **correla√ß√£o entre vari√°veis num√©ricas** de um dataset. Ele nos ajuda a identificar rela√ß√µes fortes, fracas ou inexistentes entre diferentes vari√°veis de forma r√°pida e intuitiva.

---

## üß≠ Entendendo os Eixos

- **Eixo X e Eixo Y** cont√™m os mesmos nomes das **vari√°veis num√©ricas** do dataset:
  - `comprimento_bico_mm`
  - `largura_bico_mm`
  - `comprimento_nadadeira_mm`
  - `massa_corporal_g`

Esses nomes se cruzam para formar uma **matriz de correla√ß√£o**, onde cada c√©lula representa a correla√ß√£o entre duas vari√°veis espec√≠ficas.

---

## üéØ O que √© correla√ß√£o?

- Correla√ß√£o √© um n√∫mero entre **-1 e 1** que indica **for√ßa e dire√ß√£o da rela√ß√£o linear** entre duas vari√°veis:

| Valor | Interpreta√ß√£o |
|-------|----------------|
| `+1`  | Correla√ß√£o positiva perfeita üîºüìà |
| `0`   | Sem correla√ß√£o ‚ùå |
| `-1`  | Correla√ß√£o negativa perfeita üîΩüìâ |

---

## üß† Interpretando o gr√°fico

- **Cores**:
  - üî¥ Vermelho forte = correla√ß√£o positiva alta
  - üîµ Azul escuro = correla√ß√£o negativa alta
  - ‚ö™ Branco = correla√ß√£o pr√≥xima de zero (sem rela√ß√£o)

- **C√©lulas diagonais (de cima √† esquerda at√© embaixo √† direita)** s√£o sempre `1`, pois cada vari√°vel est√° sendo correlacionada com ela mesma.

---

## üîç Exemplos pr√°ticos do gr√°fico

| Vari√°vel A                  | Vari√°vel B                | Correla√ß√£o | Interpreta√ß√£o |
|----------------------------|---------------------------|------------|-----------------------------|
| `comprimento_nadadeira_mm` | `massa_corporal_g`        | `0.87`     | Forte correla√ß√£o positiva ‚Äì quanto maior a nadadeira, maior a massa üêß |
| `largura_bico_mm`          | `comprimento_nadadeira_mm`| `-0.58`    | Correla√ß√£o negativa ‚Äì nadadeiras maiores tendem a aparecer com bicos mais estreitos |
| `comprimento_bico_mm`      | `largura_bico_mm`         | `-0.23`    | Correla√ß√£o fraca ‚Äì pouca rela√ß√£o entre essas vari√°veis |

---

## ‚úÖ Para que serve um heatmap de correla√ß√£o?

| Utilidade üí° | Explica√ß√£o |
|-------------|------------|
| üß™ An√°lise explorat√≥ria | Entender como as vari√°veis se relacionam entre si |
| üéØ Sele√ß√£o de features | Identificar colinearidade para melhorar modelos |
| üß± Engenharia de atributos | Criar novas vari√°veis com base em rela√ß√µes existentes |
| ‚ö†Ô∏è Detec√ß√£o de multicolinearidade | Evitar incluir vari√°veis altamente correlacionadas em modelos lineares |

---

## üìù Conclus√£o

O mapa de calor de correla√ß√£o √© uma ferramenta **essencial para qualquer cientista de dados**. Ele mostra, de forma clara e visual, **quais vari√°veis se influenciam mutuamente** e em que grau.

- üîé Use-o sempre que estiver come√ßando a explorar um dataset
- üìä Avalie padr√µes ocultos e estruturas internas
- üß† Tome decis√µes mais inteligentes na modelagem

---

üéì Dica final:
> Quando vari√°veis t√™m **correla√ß√£o forte (> 0.8 ou < -0.8)**, pense em manter apenas uma delas em modelos lineares, ou usar t√©cnicas como PCA para reduzir dimensionalidade.


In [None]:
# Gr√°fico 2 - Barplot - Gr√°fico de Barras de Frequ√™ncia por Sexo e Esp√©cie
freq = df.groupby(['especie', 'sexo']).size().reset_index(name='frequencia')
sns.barplot(data=freq, x='especie', y='frequencia', hue='sexo')
plt.title("Gr√°fico de Barras - Frequ√™ncia por Esp√©cie e Sexo")
plt.show()

# üìä Gr√°fico de Barras - Frequ√™ncia por Esp√©cie e Sexo

Este gr√°fico √© um **gr√°fico de barras agrupado**, que mostra a **frequ√™ncia (quantidade de registros)** de pinguins separados por **esp√©cie** e **sexo**.

---

## üß≠ Estrutura do Gr√°fico

### üìå Eixo X (Horizontal)
- Representa a vari√°vel **`especie`**.
- Possui 3 categorias:
  - **Ad√©lia**
  - **Barbicha**
  - **Gentoo**
- Para cada esp√©cie, temos **duas barras agrupadas**, representando os **sexos**:
  - üîµ Azul: **F√™mea**
  - üü† Laranja: **Macho**

### üìå Eixo Y (Vertical)
- Representa a **frequ√™ncia** (contagem de indiv√≠duos).
- Os valores mostram **quantos indiv√≠duos de cada sexo** existem para cada esp√©cie.

---

## üîç Interpreta√ß√£o Visual

| Esp√©cie   | F√™meas | Machos | Observa√ß√µes |
|-----------|--------|--------|-------------|
| Ad√©lia    | ~73    | ~73    | Distribui√ß√£o **igual** entre sexos |
| Barbicha  | ~34    | ~34    | Tamb√©m bem **equilibrado** |
| Gentoo    | ~58    | ~61    | Leve **predom√≠nio de machos** |

üß† **Insights:**
- ‚úÖ Boa representa√ß√£o para **comparar propor√ß√µes entre subgrupos**.
- ‚úÖ Mostra **distribui√ß√£o uniforme** de sexo em algumas esp√©cies.
- üîç Permite ver se existe **desequil√≠brio de g√™nero** em algum grupo.

---

## üß∞ Para que serve esse tipo de gr√°fico?

| Finalidade                          | Explica√ß√£o                                                                 |
|------------------------------------|----------------------------------------------------------------------------|
| Comparar categorias                | Comparar **quantidades** entre esp√©cies e sexos simultaneamente            |
| Analisar propor√ß√µes                | Ver se os grupos t√™m distribui√ß√£o equilibrada                              |
| Detectar padr√µes demogr√°ficos      | Identificar se existe predomin√¢ncia de sexo em alguma esp√©cie             |
| Visualiza√ß√£o r√°pida de contagens   | Facilita a leitura e comunica√ß√£o em relat√≥rios e dashboards                |

---

## üìà Quando usar gr√°ficos de barras agrupadas?

| Quando usar üìÖ                  | Por qu√™? |
|-------------------------------|----------|
| üß™ An√°lise explorat√≥ria        | Visualizar distribui√ß√£o de grupos em dados categ√≥ricos |
| üßë‚Äçüè´ Apresenta√ß√µes educativas  | Muito intuitivo para p√∫blicos diversos |
| üìä Relat√≥rios gerenciais       | Excelente para mostrar propor√ß√µes entre subgrupos |

---

## üìù Conclus√£o

- O gr√°fico de barras agrupadas √© uma **ferramenta poderosa e simples** para comparar **duas vari√°veis categ√≥ricas simultaneamente**.
- Neste exemplo, entendemos **como os pinguins est√£o distribu√≠dos por esp√©cie e sexo**, revelando **padr√µes √∫teis para an√°lise biol√≥gica, estat√≠stica e at√© para alimentar modelos preditivos**.

> üîç Dica b√¥nus: voc√™ pode calcular a **propor√ß√£o** de machos/f√™meas por esp√©cie com esse gr√°fico ou usar vers√µes percentuais para an√°lises mais refinadas!



In [None]:
# Gr√°fico 3 - Barplot
fig, ax = plt.subplots(figsize=(8, 5))
sns.barplot(data=df, x='especie', y='comprimento_bico_mm', ax=ax)
ax.set_title("Barplot - M√©dia do Bico por Esp√©cie")
plt.tight_layout(rect=[0, 0.1, 1, 0.95])
plt.show()

# üìä Barplot - M√©dia do Bico por Esp√©cie

O gr√°fico de barras (**Barplot**) √© utilizado para **comparar valores agregados (como m√©dias)** entre diferentes categorias. Neste gr√°fico, estamos analisando a **m√©dia do comprimento do bico (em mm)** de tr√™s esp√©cies de pinguins.

---

## üß≠ Eixos do gr√°fico

- **Eixo X (`especie`)**: apresenta as **categorias das esp√©cies de pinguins**:
  - Ad√©lia
  - Barbicha
  - Gentoo

- **Eixo Y (`comprimento_bico_mm`)**: indica a **m√©dia do comprimento do bico em mil√≠metros** para cada esp√©cie. Os valores variam de aproximadamente **39 mm a 49 mm**.

---

## üìè Interpreta√ß√£o das Barras

- **Altura das Barras**: representa a **m√©dia do comprimento do bico** para cada esp√©cie.
  - üü¶ Ad√©lia: menor m√©dia (~39 mm)
  - üü¶ Barbicha: maior m√©dia (~49 mm)
  - üü¶ Gentoo: m√©dia pr√≥xima √† da Barbicha (~48 mm)

- **Barras verticais pretas no topo**: s√£o chamadas de **"intervalos de confian√ßa"** ou **"barras de erro"**.
  - Elas indicam a **incerteza estat√≠stica** sobre a m√©dia.
  - Quanto **menor** a barra de erro, **mais precisa** √© a m√©dia.
  - Se as barras de erro **n√£o se sobrep√µem**, √© um indicativo visual de que as diferen√ßas podem ser estatisticamente significativas.

---

## üß† Como interpretar

- Esse gr√°fico **responde √† pergunta**: _"Qual esp√©cie de pinguim tem o bico mais longo, em m√©dia?"_ üêßüìè
- Ele **n√£o mostra a dispers√£o dos dados** (para isso, usamos boxplot, violinplot etc).
- Ideal para **compara√ß√µes diretas** de m√©dias entre grupos.

---

## ‚úÖ Para que serve um Barplot?

| Objetivo | Benef√≠cio |
|---------|-----------|
| üìê Comparar valores m√©dios | Visualmente simples e direto |
| üîç Observar diferen√ßas entre grupos | Foco em categorias distintas |
| üß™ Mostrar varia√ß√£o m√©dia com erro | Interpreta√ß√£o estat√≠stica clara |

---

## üìù Conclus√£o

Este gr√°fico nos mostra que:
- A **esp√©cie Barbicha** possui o **maior comprimento m√©dio de bico**.
- A **esp√©cie Ad√©lia** tem o **menor comprimento m√©dio**.
- As **barras de erro** ajudam a verificar a confiabilidade dessas m√©dias.

Use gr√°ficos de barras quando quiser:
- Comparar valores agregados üìä
- Mostrar m√©dias com intervalos de confian√ßa üìè
- Explicar resultados de agrupamentos estat√≠sticos üë®‚Äçüî¨

---

üß† Dica: Combine o barplot com outros gr√°ficos (boxplot, violinplot) para entender melhor a **distribui√ß√£o completa dos dados**, e n√£o s√≥ a m√©dia.


In [None]:
# Gr√°fico 4 - Boxplot por Esp√©cie
fig, ax = plt.subplots(figsize=(8, 5))
sns.boxplot(data=df, x='especie', y='comprimento_bico_mm', ax=ax)
ax.set_title("Boxplot por Esp√©cie")
plt.tight_layout(rect=[0, 0.1, 1, 0.95])
plt.show()

# üì¶ Boxplot por Esp√©cie - Comprimento do Bico

Este gr√°fico √© um **boxplot** (ou gr√°fico de caixa), muito usado na **an√°lise explorat√≥ria de dados** para entender **distribui√ß√µes**, **tend√™ncias centrais** e **dispers√£o**. Ele √© excelente para comparar **grupos diferentes**, neste caso, as **esp√©cies de pinguins**.

---

## üîç O que mostra esse gr√°fico?

- **Eixo X (`especie`)**: mostra as tr√™s esp√©cies de pinguins no dataset (`Ad√©lia`, `Barbicha`, `Gentoo`).
- **Eixo Y (`comprimento_bico_mm`)**: mostra os valores do comprimento do bico em mil√≠metros.
- Cada "caixa" representa a **distribui√ß√£o estat√≠stica** dessa vari√°vel para cada esp√©cie.

---

## üß† Como interpretar um boxplot?

Para cada esp√©cie:

- **üì¶ Caixa (box)**: vai do **1¬∫ quartil (Q1 - 25%)** at√© o **3¬∫ quartil (Q3 - 75%)** ‚Üí mostra onde est√° a maior parte dos dados.
- **üìç Linha no meio da caixa**: √© a **mediana (Q2 - 50%)** ‚Üí o valor central da distribui√ß√£o.
- **üìè Bigodes (linhas que saem da caixa)**: v√£o at√© os valores m√°ximos e m√≠nimos **dentro de 1,5x o intervalo interquartil (IQR)**.
- **‚ö†Ô∏è Pontos fora dos bigodes (como um c√≠rculo acima da Gentoo)**: s√£o **outliers**, ou seja, valores que est√£o fora do padr√£o da maioria.

---

## üß™ Interpreta√ß√£o por esp√©cie

### üêß Ad√©lia:
- Mediana perto de **38 mm**.
- Caixa estreita ‚Üí menor varia√ß√£o nos dados.
- Bigodes indicam distribui√ß√£o mais compacta.
- Bicos mais curtos no geral.

### üêß Barbicha:
- Mediana em torno de **50 mm**.
- Caixa mais larga ‚Üí maior dispers√£o.
- Alguns valores altos ‚Üí comprimento de bico mais vari√°vel.

### üêß Gentoo:
- Mediana tamb√©m pr√≥xima de **48 mm**.
- Um **outlier vis√≠vel acima de 59 mm**.
- Caixa indica boa consist√™ncia, mas h√° mais varia√ß√£o que na Ad√©lia.

---

## üìå Para que serve o boxplot?

| Objetivo | Explica√ß√£o |
|----------|------------|
| üìè Comparar distribui√ß√µes | Permite ver facilmente qual grupo tem valores maiores ou menores |
| üìê Avaliar dispers√£o | O tamanho da caixa indica o grau de varia√ß√£o dos dados |
| üìç Observar tend√™ncia central | A linha da mediana mostra onde est√° o "meio" dos dados |
| ‚ö†Ô∏è Identificar outliers | Pontos fora dos bigodes s√£o valores extremos (potenciais erros ou dados raros) |

---

## ‚úÖ Conclus√£o

Este boxplot mostra de forma clara e concisa:

- Que as esp√©cies t√™m **comprimentos de bico diferentes**;
- Que a esp√©cie `Ad√©lia` tem bicos menores e menos variabilidade;
- Que a `Barbicha` apresenta **maior dispers√£o**;
- E que a `Gentoo` tem **outliers** a serem analisados com aten√ß√£o.

Use boxplots sempre que quiser **comparar a distribui√ß√£o de uma vari√°vel num√©rica entre grupos distintos**!


In [None]:
# Gr√°fico 5 ‚Äì Boxenplot - Comprimento do Bico por Esp√©cie
fig, ax = plt.subplots(figsize=(8, 5))
sns.boxenplot(data=df, x='especie', y='comprimento_bico_mm', ax=ax)
ax.set_title("Boxenplot - Comprimento do Bico por Esp√©cie", fontsize=14)
plt.tight_layout(rect=[0, 0.1, 1, 0.95])
plt.show()

# üìä Boxenplot ‚Äì Comprimento do Bico por Esp√©cie

O **Boxenplot** (tamb√©m chamado de "letter-value plot") √© uma evolu√ß√£o do boxplot tradicional, projetado para mostrar a **distribui√ß√£o detalhada** de **vari√°veis cont√≠nuas** especialmente quando h√° **muitos dados** e a distribui√ß√£o n√£o √© sim√©trica.

---

## üß≠ Eixos do Gr√°fico

- **Eixo X**: `especie` ‚Äì Cada categoria representa uma **esp√©cie de pinguim**: *Ad√©lia*, *Barbicha* e *Gentoo*.
- **Eixo Y**: `comprimento_bico_mm` ‚Äì Representa o **comprimento do bico em mil√≠metros**.

---

## üì¶ Componentes do Boxenplot

Cada ‚Äúbloco‚Äù representa uma **faixa percentil** da distribui√ß√£o:

- üîπ **Linha central** (mais grossa): Mediana (50% dos dados est√£o abaixo e 50% acima).
- üîπ **Blocos maiores centrais**: Intervalos entre o 1¬∫ e o 3¬∫ quartil (25% a 75%).
- üîπ **Blocos adicionais acima/abaixo**: Representam subdivis√µes mais profundas dos dados (ex: 12.5%, 6.25% etc).
- ‚ö™ **C√≠rculos fora da √°rea azul**: Outliers (valores at√≠picos).

> Esse gr√°fico vai al√©m do boxplot tradicional, revelando com mais clareza os extremos e caudas da distribui√ß√£o. üéØ

---

## üß† Como Interpretar?

| Elemento             | Significado                                                                 |
|----------------------|------------------------------------------------------------------------------|
| üî∑ Blocos escuros     | Onde est√° **a maior densidade de dados** (centro da distribui√ß√£o)           |
| üîπ Blocos claros      | Representam √°reas mais raras, como caudas                                  |
| üìè Altura da faixa    | Indica a amplitude dos dados naquele percentil                             |
| ‚ö™ Outliers            | Valores que fogem da tend√™ncia principal (extremos)                        |

---

## üìç Observa√ß√µes por Esp√©cie

- **Ad√©lia**: Bicos mais curtos, menor variabilidade, mais outliers abaixo de 35mm.
- **Barbicha**: Bicos mais longos, ampla dispers√£o e v√°rios outliers acima de 55mm.
- **Gentoo**: Intermedi√°ria entre as outras duas, mas com leve tend√™ncia √† direita (bicos mais longos).

---

## üéØ Para que Serve?

| Aplica√ß√£o üéØ               | Utilidade üí°                                                                 |
|---------------------------|------------------------------------------------------------------------------|
| üìä An√°lise de distribui√ß√µes| Revela nuances da distribui√ß√£o que o boxplot tradicional n√£o mostra         |
| üîé Identificar caudas      | Facilita encontrar padr√µes em extremos da distribui√ß√£o                     |
| üìê Compara√ß√£o entre grupos | Compara diferentes grupos de forma mais informativa que boxplots simples    |

---

## üìò Dica Extra

O boxenplot √© ideal quando:

- Voc√™ tem **grande volume de dados**.
- Deseja explorar **distribui√ß√µes assim√©tricas ou com caudas longas**.
- Quer **detalhes percent√≠licos mais profundos**.

---

## ‚úÖ Conclus√£o

Use o **boxenplot** para obter **uma vis√£o mais rica e detalhada** da distribui√ß√£o de uma vari√°vel cont√≠nua por categorias. Ele √© mais informativo que o boxplot tradicional quando h√° muitos dados, permitindo:

- üìä Ver onde os dados se concentram.
- üìâ Analisar caudas da distribui√ß√£o.
- üîç Investigar a simetria dos dados.

> ‚ú® Uma ferramenta essencial para an√°lises explorat√≥rias profundas e precisas!


In [None]:
# Gr√°fico 6 - Scatterplot
fig, ax = plt.subplots(figsize=(8, 5))
sns.scatterplot(data=df, x='comprimento_bico_mm', y='comprimento_nadadeira_mm', hue='sexo', ax=ax)
ax.set_title("Scatterplot - Bico vs Nadadeira")
plt.tight_layout(rect=[0, 0.1, 1, 0.95])
plt.show()

# üîµ Scatterplot - Bico vs Nadadeira

O **scatterplot** (ou gr√°fico de dispers√£o) √© um dos gr√°ficos mais importantes da an√°lise explorat√≥ria de dados. Ele mostra como **duas vari√°veis num√©ricas se relacionam entre si**, ponto a ponto. Cada ponto representa uma **observa√ß√£o individual** do conjunto de dados.

---

## üß≠ Eixos do gr√°fico

- **Eixo X (`comprimento_bico_mm`)**: mostra o valor do comprimento do bico de cada pinguim em mil√≠metros. Os valores v√£o de aproximadamente **30 mm at√© 60 mm**.
- **Eixo Y (`comprimento_nadadeira_mm`)**: mostra o comprimento da nadadeira de cada pinguim, tamb√©m em mil√≠metros. Os valores variam entre **170 mm e 230 mm**.

---

## üü† O que representa cada ponto?

Cada **ponto no gr√°fico** representa um pinguim. O posicionamento √© definido por:

- üìç A posi√ß√£o horizontal (X): comprimento do bico.
- üìç A posi√ß√£o vertical (Y): comprimento da nadadeira.
- üé® A cor do ponto: representa o **sexo do pinguim**:
  - Azul ‚Üí `Macho`
  - Laranja ‚Üí `F√™mea`

---

## üîç O que podemos observar nesse gr√°fico?

### üìà 1. Rela√ß√£o Positiva entre as Vari√°veis
A maioria dos pontos segue uma **tend√™ncia ascendente**: quanto maior o comprimento do bico, maior tende a ser o comprimento da nadadeira. Isso sugere uma **correla√ß√£o positiva** entre as duas vari√°veis.

### üë´ 2. Diferen√ßa entre Machos e F√™meas
A separa√ß√£o por cores permite observar que:
- Pinguins machos (azuis) tendem a ter bicos e nadadeiras **ligeiramente maiores** do que as f√™meas (laranjas).
- H√° uma certa **sobreposi√ß√£o**, mas os grupos apresentam **tend√™ncias diferentes**.

### üéØ 3. Distribui√ß√£o dos Dados
Os dados est√£o bem distribu√≠dos, com poucas observa√ß√µes nos extremos (valores muito baixos ou muito altos). Existe um **aglomerado principal** entre:
- **Comprimento do bico:** 35 mm a 50 mm
- **Comprimento da nadadeira:** 180 mm a 220 mm

---

## üìå Para que serve um scatterplot?

| Objetivo | Benef√≠cio |
|----------|-----------|
| üìä Visualizar rela√ß√£o entre duas vari√°veis num√©ricas | Identifica padr√µes de correla√ß√£o e agrupamentos |
| üîé Detectar tend√™ncias lineares ou n√£o | Verifica se os dados crescem juntos, de forma linear, exponencial etc. |
| üö® Detectar outliers | Pontos isolados fora da massa principal de dados podem indicar valores extremos |
| üü¶ Comparar subgrupos com cores | Permite an√°lise de subcategorias, como sexo, esp√©cie, etc. |

---

## ‚úÖ Conclus√£o

O scatterplot √© excelente para **investigar rela√ß√µes entre vari√°veis cont√≠nuas**. Neste exemplo, ele revela uma correla√ß√£o entre **comprimento do bico e da nadadeira**, al√©m de mostrar **diferen√ßas por sexo**. Ele √© essencial em qualquer an√°lise explorat√≥ria quando queremos **entender rela√ß√µes estruturais entre caracter√≠sticas num√©ricas**.

Use scatterplots sempre que quiser responder a perguntas como:
- ‚ÄúEssas duas vari√°veis crescem juntas?‚Äù üìà
- ‚ÄúOs grupos se comportam de forma diferente?‚Äù üé®
- ‚ÄúH√° padr√µes ou exce√ß√µes?‚Äù üîç


In [None]:
# Gr√°fico 7 - Pairplot (Gr√°fico de Pares)
sns.pairplot(df, hue='especie', diag_kind='kde', corner=True)
plt.suptitle("Pairplot - Rela√ß√£o entre Vari√°veis Num√©ricas por Esp√©cie", y=1.02)
plt.show()

# üîó Pairplot ‚Äì Rela√ß√£o entre Vari√°veis Num√©ricas por Esp√©cie

O **pairplot** (tamb√©m conhecido como *scatterplot matrix*) √© uma ferramenta poderosa de **an√°lise explorat√≥ria de dados multivariados**. Ele mostra **todas as combina√ß√µes poss√≠veis de pares de vari√°veis num√©ricas**, facilitando a identifica√ß√£o de padr√µes, rela√ß√µes lineares, correla√ß√µes e agrupamentos por categorias.

---

## üß≠ Como Ler o Pairplot

### üîπ Eixos X e Y

Cada linha e coluna representam uma vari√°vel **num√©rica cont√≠nua**. Neste gr√°fico:

- `comprimento_bico_mm`
- `largura_bico_mm`
- `comprimento_nadadeira_mm`
- `massa_corporal_g`

> O eixo **X** de cada gr√°fico mostra uma das vari√°veis, enquanto o eixo **Y** mostra outra vari√°vel, criando **todas as combina√ß√µes poss√≠veis entre elas**.

---

## üß© Interpreta√ß√£o dos Elementos

| Parte do Gr√°fico                              | Significado                                                                 |
|----------------------------------------------|------------------------------------------------------------------------------|
| üéØ Diagonais                                  | Distribui√ß√£o univariada (*KDE* ou histograma) de cada vari√°vel              |
| üîµüü†üü¢ Cores                                   | Representam as diferentes **esp√©cies** (*Ad√©lia, Barbicha, Gentoo*)         |
| üî≥ Gr√°ficos fora da diagonal                   | Scatterplots bivariados (vari√°vel X vs vari√°vel Y) com pontos por esp√©cie   |
| üìà Padr√µes diagonais nos scatterplots         | Indicam **correla√ß√£o positiva ou negativa** entre as vari√°veis              |
| üßÆ Densidade sobre a diagonal                  | Mostra a distribui√ß√£o da vari√°vel em cada grupo                             |

---

## üîç O que o gr√°fico revela?

### 1. **Distribui√ß√£o individual por esp√©cie (diagonal)**
- O KDE mostra como a vari√°vel est√° distribu√≠da para cada esp√©cie.
  - Por exemplo: `massa_corporal_g` tem maior m√©dia para a esp√©cie *Gentoo* (verde).

### 2. **Relacionamentos entre vari√°veis**
- H√° forte correla√ß√£o positiva entre:
  - `comprimento_nadadeira_mm` e `massa_corporal_g`
  - `comprimento_bico_mm` e `massa_corporal_g`
- Algumas vari√°veis, como `largura_bico_mm`, t√™m distribui√ß√£o bem diferente entre esp√©cies, o que pode ser √∫til para classifica√ß√£o.

### 3. **Agrupamento de esp√©cies**
- As esp√©cies est√£o **bem separadas visualmente**, sugerindo que h√° uma base s√≥lida para **modelos de classifica√ß√£o supervisionada**.

---

## üéØ Quando usar o Pairplot?

| Situa√ß√£o üí°                                 | Utilidade üéØ                                                       |
|--------------------------------------------|--------------------------------------------------------------------|
| üß™ An√°lise explorat√≥ria (EDA)               | Visualiza todas as combina√ß√µes entre vari√°veis num√©ricas           |
| üß¨ Identifica√ß√£o de correla√ß√µes              | Verifica poss√≠veis colinearidades ou depend√™ncias entre atributos  |
| üìä Compara√ß√£o entre grupos                  | Avalia como os grupos (ex: esp√©cies) se distribuem nas vari√°veis   |
| üß† Insight para modelagem                   | Descobre quais vari√°veis s√£o mais relevantes para modelos preditivos |

---

## ‚úÖ Conclus√£o

O **pairplot** √© essencial para:

- üìâ Detectar rela√ß√µes entre vari√°veis.
- üß† Visualizar a separa√ß√£o entre classes.
- üî¨ Entender melhor a estrutura dos dados.

> ‚ú® Uma ferramenta visual indispens√°vel para quem trabalha com **classifica√ß√£o, clustering** e **modelos supervisionados**.

In [None]:
# Gr√°fico 8 - Histograma + KDE
fig, ax = plt.subplots(figsize=(8, 5))
sns.histplot(df['comprimento_bico_mm'], kde=True, bins=20, ax=ax, color='skyblue')
ax.set_title("Histograma + KDE - Comprimento do Bico")
plt.tight_layout(rect=[0, 0.1, 1, 0.95])
plt.show()

# üìä Histograma + KDE - Comprimento do Bico

Este gr√°fico combina **dois tipos de visualiza√ß√£o** fundamentais em an√°lise explorat√≥ria:

---

## ‚úÖ O que o gr√°fico mostra?

1. **üî∑ Histograma (barras em azul claro)**  
   - Representa **quantos pinguins** possuem o comprimento do bico dentro de **intervalos espec√≠ficos**.
   - Cada **barra** cobre uma **faixa de valores no eixo X** (por exemplo, de 40 a 42 mm).
   - A **altura da barra (eixo Y)** mostra **a quantidade (frequ√™ncia)** de pinguins naquela faixa.
   - Ideal para visualizar a **distribui√ß√£o** e a **frequ√™ncia** de valores em grupos discretos.

2. **üìà KDE (linha suavizada)**  
   - KDE significa _Kernel Density Estimation_, ou **Estimativa de Densidade por N√∫cleo**.
   - Representa uma **vers√£o suavizada** do histograma, como se fosse uma curva de tend√™ncia.
   - **Quanto mais alta a curva**, **maior a densidade de dados** naquela regi√£o.
   - Ajuda a visualizar **tend√™ncias e padr√µes** que o histograma sozinho pode n√£o mostrar.

---

## üìè Eixo X: `comprimento_bico_mm`

- Mostra os **valores de comprimento do bico dos pinguins**, geralmente variando de **30 mm a 60 mm**.
- Cada valor representa **um poss√≠vel comprimento real** de bico em mil√≠metros (mm).
- Os **intervalos das barras** (bins) dividem esses valores em **faixas**, como 32‚Äì34 mm, 34‚Äì36 mm, etc.

---

## üìä Eixo Y: `Count`

- Indica o **n√∫mero de observa√ß√µes (pinguins)** em cada faixa de comprimento (histograma).
- Para a curva KDE, o eixo Y representa a **densidade relativa** (n√£o √© contagem exata), ou seja, **a probabilidade de ocorr√™ncia** dos valores.

---

## üîç Como interpretar visualmente?

### üéØ Regi√£o central

- A maioria dos dados est√° concentrada entre **40 e 50 mm**.
- Isso √© indicado pelas **barras mais altas** e tamb√©m pelo **pico da curva KDE** nessa regi√£o.
- √â onde o comprimento do bico √© mais comum entre os pinguins analisados.

### üóª Picos da curva (modos)

- A KDE apresenta **dois picos**, indicando que os dados s√£o **bimodais**.
- Isso sugere que podem existir **duas popula√ß√µes diferentes** no conjunto de dados ‚Äî talvez duas esp√©cies de pinguins com comprimentos de bico distintos.

### ‚ûï Cauda longa √† direita

- A curva KDE se estende para a direita, com valores que v√£o at√© perto de **60 mm**.
- Isso √© chamado de **assimetria positiva** ou **cauda √† direita**.
- Indica que h√° **alguns pinguins com bicos mais longos** que o padr√£o geral.

### üîª Extremos (valores raros)

- Poucas barras aparecem abaixo de **35 mm** ou acima de **55 mm**.
- Essas √°reas representam **valores menos comuns** de comprimento do bico ‚Äî podem ser outliers ou esp√©cies raras.

---

## üß† Para que serve esse tipo de gr√°fico?

| Objetivo | Explica√ß√£o |
|----------|------------|
| üß≠ Entender a distribui√ß√£o dos dados | Mostra como os valores se distribuem: sim√©tricos, assim√©tricos, agrupados, dispersos |
| üß¨ Detectar padr√µes | Picos, caudas e forma geral revelam poss√≠veis **agrupamentos naturais** |
| üéØ Identificar outliers | Valores extremos aparecem como **barras isoladas** ou **caudas da KDE** |
| üìä Comparar frequ√™ncia e densidade | O histograma mostra **contagem exata**, a KDE mostra **densidade relativa** |

---

## üìå Conclus√£o

Este gr√°fico √© **essencial** em uma an√°lise explorat√≥ria porque permite:

- Ver **quantas vezes** cada valor ocorre (barras);
- Entender **a forma geral da distribui√ß√£o** (KDE);
- Detectar poss√≠veis **anomalias ou m√∫ltiplas popula√ß√µes**;
- Apoiar **decis√µes de modelagem** ‚Äî como transforma√ß√£o de dados, normaliza√ß√£o e sele√ß√£o de vari√°veis.

Use-o sempre que quiser **explorar a distribui√ß√£o de uma vari√°vel num√©rica** de forma visual, clara e eficiente! ‚úÖ


In [None]:
# Gr√°fico 9 - Jointplot - Rela√ß√£o entre duas vari√°veis com KDE
sns.jointplot(data=df, x='comprimento_bico_mm', y='comprimento_nadadeira_mm', hue='especie', kind='kde', fill=True)
plt.suptitle("Jointplot KDE - Bico vs Nadadeira com Densidade", y=1.05)
plt.show()

# üìä Jointplot KDE - Bico vs Nadadeira com Densidade

O gr√°fico acima representa um **`jointplot` com KDE (Kernel Density Estimation)**, que combina **an√°lises bivariadas e univariadas**. Ele mostra **a rela√ß√£o entre duas vari√°veis num√©ricas** (`comprimento_bico_mm` e `comprimento_nadadeira_mm`) com base na **densidade dos dados**, separados por esp√©cie.

---

## üîé O que cada parte representa?

### üîÅ Gr√°fico Central (KDE 2D com contornos coloridos)
- O plano principal mostra a **distribui√ß√£o conjunta** de duas vari√°veis:
  - **Eixo X** ‚û°Ô∏è `comprimento_bico_mm` (comprimento do bico em mil√≠metros).
  - **Eixo Y** ‚û°Ô∏è `comprimento_nadadeira_mm` (comprimento da nadadeira em mil√≠metros).
- As **√°reas mais escuras** indicam **maior concentra√ß√£o de dados** (alta densidade).
- Cada cor representa uma **esp√©cie de pinguim**:
  - üîµ Azul: Ad√©lia
  - üü† Laranja: Barbicha
  - üü¢ Verde: Gentoo

---

### üìà Gr√°ficos Marginais (Top e Lateral)
- **Topo:** Distribui√ß√£o univariada do `comprimento_bico_mm` para cada esp√©cie.
- **Direita:** Distribui√ß√£o univariada do `comprimento_nadadeira_mm` para cada esp√©cie.
- Esses gr√°ficos s√£o **KDEs (estimativas de densidade)** e ajudam a entender o padr√£o individual de cada vari√°vel, por esp√©cie.

---

## üí° Interpreta√ß√£o

| Esp√©cie  | Comprimento do Bico | Comprimento da Nadadeira | Observa√ß√µes |
|----------|---------------------|---------------------------|-------------|
| Ad√©lia   | Mais curto          | Menor                     | Pinguins menores em geral |
| Barbicha | Intermedi√°rio       | Intermedi√°rio             | Tamanho mediano |
| Gentoo   | Mais longo          | Maior                     | Pinguins maiores em geral |

‚û°Ô∏è As esp√©cies est√£o bem separadas no espa√ßo 2D, o que indica que essas duas vari√°veis ajudam a **diferenciar as esp√©cies** com bastante clareza.

---

## üì¶ Para que serve esse gr√°fico?

| Utilidade üìä                              | Explica√ß√£o üí°                                                       |
|------------------------------------------|---------------------------------------------------------------------|
| Comparar 2 vari√°veis num√©ricas           | Avaliar a rela√ß√£o entre `comprimento_bico_mm` e `comprimento_nadadeira_mm` |
| Observar padr√µes de densidade            | √Åreas escuras = onde h√° maior concentra√ß√£o de indiv√≠duos            |
| Identificar clusters por categoria       | Cada esp√©cie forma um grupo/coorte com formato e posi√ß√£o espec√≠ficos |
| Visualizar distribui√ß√£o univariada       | Gr√°ficos marginais mostram o comportamento individual de cada vari√°vel |
| Separar classes visualmente              | √ötil para classifica√ß√£o, segmenta√ß√£o ou clusteriza√ß√£o de dados      |

---

## ‚úÖ Quando usar um `jointplot` com KDE?

| Quando usar üïµÔ∏è‚Äç‚ôÄÔ∏è                       | Por qu√™? |
|----------------------------------------|---------|
| üìö Na fase de an√°lise explorat√≥ria     | Para investigar rela√ß√µes entre duas vari√°veis cont√≠nuas |
| üîç Para detectar clusters/grupos       | Muito bom para verificar se os dados se agrupam naturalmente |
| ü§ñ Para problemas de classifica√ß√£o     | Ajuda a saber se as vari√°veis t√™m poder de separa√ß√£o entre classes |

---

## üìå Conclus√£o

- O **jointplot com KDE** √© uma ferramenta poderosa para **visualizar rela√ß√µes e densidades**.
- Permite **ver padr√µes escondidos** e entender a **distribui√ß√£o e separa√ß√£o entre grupos**.
- Muito √∫til em **modelagem preditiva, clusteriza√ß√£o e an√°lise explorat√≥ria de dados**.

> üåü Esse tipo de gr√°fico te d√° uma vis√£o 2-em-1: a densidade bivariada + a univariada, facilitando muito as decis√µes anal√≠ticas!



In [None]:
# Gr√°fico 10 ‚Äì KDE 2D - Bico vs Nadadeira
fig, ax = plt.subplots(figsize=(8, 5))
sns.kdeplot(data=df, x='comprimento_bico_mm', y='comprimento_nadadeira_mm', ax=ax, fill=True, cmap='Reds')
ax.set_title("KDE 2D - Bico vs Nadadeira", fontsize=14)
plt.tight_layout(rect=[0, 0.1, 1, 0.95])
plt.show()

# üî• KDE 2D - Densidade de Pinguins (Comprimento do Bico vs Nadadeira)

O gr√°fico **KDE 2D (Kernel Density Estimation 2D)** √© uma forma poderosa de visualizar **a distribui√ß√£o conjunta de duas vari√°veis cont√≠nuas**. Ele nos ajuda a entender **onde os dados est√£o mais concentrados em um plano bidimensional**.

---

## üìä Interpreta√ß√£o Geral

Este gr√°fico mostra a **distribui√ß√£o conjunta** entre:

- **Eixo X**: `comprimento_bico_mm` ‚Üí Comprimento do bico do pinguim (em mil√≠metros)
- **Eixo Y**: `comprimento_nadadeira_mm` ‚Üí Comprimento da nadadeira do pinguim (em mil√≠metros)

Cada ponto no plano representa uma poss√≠vel combina√ß√£o entre comprimento do bico e nadadeira.

---

## üî• Como funciona a KDE 2D?

- Ela **estima a densidade de probabilidade** dos dados em um plano 2D.
- As **√°reas mais escuras** indicam **maior concentra√ß√£o de dados** (regi√µes com muitos pinguins).
- As **√°reas mais claras** indicam menor concentra√ß√£o.

A ideia √© suavizar os pontos e revelar os **padr√µes de distribui√ß√£o** ‚Äî mesmo quando temos milhares de observa√ß√µes!

---

## üß≠ Entendendo os Eixos

| Eixo üìê | Representa√ß√£o üìè |
|--------|------------------|
| **X**  | Comprimento do bico (`mm`) - de 25 a 65 mm |
| **Y**  | Comprimento da nadadeira (`mm`) - de 160 a 240 mm |

Cada ponto poss√≠vel nesse plano representa uma **combina√ß√£o dessas duas vari√°veis**.

---

## üåã Interpreta√ß√£o das Cores (Contornos de Densidade)

| Cor üü• | Significado üîç |
|-------|-----------------|
| üî¥ Vermelho escuro | Alt√≠ssima densidade de pontos |
| üüß Vermelho m√©dio | Densidade m√©dia |
| üü® Vermelho claro | Baixa densidade |

As **linhas de contorno** funcionam como um "mapa de calor": quanto mais escura e central a √°rea, mais dados foram observados com aquelas combina√ß√µes de comprimento.

---

## üß† O que podemos concluir?

- Existem pelo menos **duas grandes regi√µes de alta densidade**, o que sugere a exist√™ncia de **duas popula√ß√µes distintas de pinguins**.
- Uma dessas concentra√ß√µes est√° por volta de:
  - Bico: **35‚Äì40 mm**
  - Nadadeira: **175‚Äì190 mm**
- Outra concentra√ß√£o:
  - Bico: **45‚Äì50 mm**
  - Nadadeira: **210‚Äì220 mm**
- Isso pode indicar **diferen√ßas de esp√©cie, sexo ou outras caracter√≠sticas biol√≥gicas.**

---

## üìå Para que serve esse gr√°fico?

| Aplica√ß√£o üî¨ | Utilidade |
|--------------|-----------|
| üß¨ An√°lise de agrupamentos | Identificar **agrupamentos naturais** nos dados |
| üß† Detec√ß√£o de padr√µes | Descobrir **rela√ß√µes n√£o lineares** entre duas vari√°veis |
| üìâ Melhor que scatterplot | Quando h√° **muitos dados sobrepostos**, a KDE mostra densidades mesmo onde os pontos se escondem |
| üéØ Comparar popula√ß√µes | Ver diferen√ßas entre grupos com base em duas vari√°veis cont√≠nuas |

---

## ‚úÖ Dica pr√°tica

> Se voc√™ estiver lidando com muitos dados e o **scatterplot fica ileg√≠vel**, use o **KDE 2D** para identificar **zonas de densidade** e compreender a **estrutura dos dados**.

---

## üí¨ Resumo Final

O KDE 2D nos d√° uma vis√£o clara de onde os dados est√£o concentrados. Ele √© perfeito para revelar **clusters ocultos**, **sobreposi√ß√µes dif√≠ceis de enxergar** e padr√µes **n√£o evidentes em gr√°ficos simples**.



In [None]:
# Gr√°fico 11 - Barplot com Erro Padr√£o (desvio padr√£o)
sns.barplot(data=df, x='sexo', y='massa_corporal_g', hue='especie', ci='sd')
plt.title("Barplot - Massa Corporal por Sexo com Desvio Padr√£o")
plt.show()

# üìä Barplot - Massa Corporal por Sexo com Desvio Padr√£o

Este gr√°fico √© um **barplot com barras de erro (error bars)** e nos mostra a **m√©dia da massa corporal (em gramas)** dos pinguins por **sexo** e **esp√©cie**, com **desvio padr√£o** indicando a varia√ß√£o dos dados.

---

## üß≠ Estrutura do Gr√°fico

### üìå Eixo X (horizontal):
- Representa a vari√°vel **`sexo`**:
  - üü¶ Macho
  - üüß F√™mea
- Dentro de cada grupo de sexo, temos **barras coloridas** representando diferentes **esp√©cies**:
  - Azul: **Ad√©lia**
  - Laranja: **Barbicha**
  - Verde: **Gentoo**

### üìå Eixo Y (vertical):
- Representa a **massa corporal m√©dia** dos pinguins, medida em **gramas (`massa_corporal_g`)**.
- Quanto maior a barra, maior o valor m√©dio da massa corporal daquele grupo.

---

## üìå Barras de Erro (Error Bars) üß™

As **linhas pretas verticais** no topo de cada barra representam o **desvio padr√£o**, que indica o **grau de varia√ß√£o** em torno da m√©dia.

- Barras de erro **mais curtas** üëâ menor varia√ß√£o dos dados
- Barras de erro **mais longas** üëâ maior dispers√£o dos valores

---

## üîç Interpreta√ß√£o Detalhada

| Sexo   | Esp√©cie  | Massa Corporal (g) aprox. | Observa√ß√µes |
|--------|----------|----------------------------|-------------|
| Macho  | Ad√©lia   | ~4050                      | Massa m√©dia intermedi√°ria |
| Macho  | Barbicha | ~3950                      | Levemente menor que Ad√©lia |
| Macho  | Gentoo   | ~5500                      | Muito mais pesada üí™ |
| F√™mea  | Ad√©lia   | ~3400                      | Mais leve que os machos |
| F√™mea  | Barbicha | ~3550                      | Semelhante a Ad√©lia |
| F√™mea  | Gentoo   | ~4700                      | A mais pesada entre as f√™meas |

‚ú® **O Gentoo √© consistentemente mais pesado em ambos os sexos**, e **os machos geralmente pesam mais do que as f√™meas**.

---

## üéØ Para que serve este tipo de gr√°fico?

| Utilidade                       | Explica√ß√£o |
|--------------------------------|------------|
| üìâ Comparar m√©dias              | Comparar valores m√©dios entre grupos categ√≥ricos |
| üìè Visualizar variabilidade     | Observar a consist√™ncia dos dados com barras de erro |
| üîç Analisar padr√µes             | Detectar diferen√ßas de massa por sexo e esp√©cie |
| üìä Relat√≥rios estat√≠sticos      | Compreender tend√™ncias com suporte visual claro |

---

## üí° Dicas para interpreta√ß√£o

- üß† Sempre observe **tanto o valor da m√©dia quanto o desvio padr√£o**: m√©dias podem ser parecidas, mas a **variabilidade** pode mudar toda a interpreta√ß√£o.
- üü¢ Se houver **sobreposi√ß√£o de barras de erro**, a **diferen√ßa entre grupos pode n√£o ser estatisticamente significativa**.
- üß™ Pode ser combinado com testes estat√≠sticos (ex: t-test, ANOVA) para confirmar essas diferen√ßas.

---

## ‚úÖ Conclus√£o

Este gr√°fico √© ideal para representar **m√©dias e sua incerteza**, sendo bastante usado em **ci√™ncias biol√≥gicas**, **experimentos com grupos distintos** e **compara√ß√µes estat√≠sticas visuais**. Ele permite **r√°pida compreens√£o de diferen√ßas e consist√™ncia dos dados**, como neste caso, onde notamos que:

- O pinguim **Gentoo** tem maior massa corporal m√©dia em ambos os sexos üêß‚öñÔ∏è
- Machos, em geral, s√£o mais pesados que f√™meas.



In [None]:
# Gr√°fico 12 - Treemap (Mapa de √Årvore com Plotly)
fig = px.treemap(df, path=['especie', 'sexo'], values='massa_corporal_g',
                 title='Treemap - Massa Corporal por Esp√©cie e Sexo')
fig.show()

# üå≥ Treemap - Massa Corporal por Esp√©cie e Sexo

O gr√°fico de **Treemap** (ou "mapa de √°rvore") √© uma visualiza√ß√£o que representa dados hier√°rquicos por meio de **ret√¢ngulos aninhados**, onde:

- O **tamanho de cada ret√¢ngulo** √© proporcional a um valor num√©rico (neste caso, a **massa corporal total ou m√©dia** dos pinguins).
- A **hierarquia** √© representada por **categorias agrupadas** (como **esp√©cie** e **sexo**).
- As **cores** ajudam a diferenciar os grupos (esp√©cies).

---

## üìå O que cada parte representa?

### üì¶ Ret√¢ngulos

- Cada **ret√¢ngulo** representa uma **combina√ß√£o de esp√©cie + sexo**.
- O **tamanho** do ret√¢ngulo √© proporcional √† **massa corporal** total/m√©dia daquele grupo.

Exemplo:
- O **ret√¢ngulo maior** (Gentoo - Macho ou Gentoo - F√™mea) mostra que essa categoria tem **maior massa corporal**.
- O **ret√¢ngulo menor** (Barbicha - F√™mea) indica **menor massa**.

---

## üß≠ Interpreta√ß√£o dos dados

| Esp√©cie  | Sexo   | Interpreta√ß√£o üìä |
|----------|--------|------------------|
| **Gentoo** | Macho / F√™mea | Maior massa corporal entre todos os grupos üü¶ |
| **Ad√©lia** | Macho / F√™mea | Massa intermedi√°ria üü• |
| **Barbicha** | Macho / F√™mea | Menor massa corporal üü© |

- Dentro de cada **esp√©cie**, os sexos s√£o subdivididos, o que permite **compara√ß√µes intraesp√©cie** (Macho x F√™mea).
- Tamb√©m podemos fazer **compara√ß√µes entre esp√©cies**, observando os **tamanhos relativos dos blocos**.

---

## üìå Vantagens do Treemap

| üîç Utilidade | ‚úîÔ∏è Explica√ß√£o |
|-------------|--------------|
| üìê Comparar propor√ß√µes | Mostra como diferentes categorias se comparam entre si em termos de massa |
| üîÑ Visualiza√ß√£o hier√°rquica | Permite ver a distribui√ß√£o de um valor dentro de subgrupos |
| üåà Simples e intuitivo | Muito visual e direto para p√∫blicos n√£o t√©cnicos |
| üé® √ìtimo para dashboards | Usado para resumir muitos dados rapidamente |

---

## üéØ Quando usar?

- Quando voc√™ quer **comparar propor√ß√µes entre diferentes grupos e subgrupos**.
- Quando tem uma estrutura **hier√°rquica** nos dados (ex: Categoria ‚Üí Subcategoria).
- Para **resumir dados agregados** em relat√≥rios e dashboards.

---

## üí° Dicas de leitura

- ‚ûï Maior √°rea do ret√¢ngulo = **maior valor num√©rico (massa)**
- üé® Cor diferente = **grupo distinto (esp√©cie)**
- üî† Texto dentro do ret√¢ngulo = **categorias (nome da esp√©cie e sexo)**

---

## ‚úÖ Conclus√£o

Este **Treemap** √© ideal para **comparar massas corporais de pinguins** agrupadas por **esp√©cie e sexo**. Ele deixa evidente que:

- A esp√©cie **Gentoo** domina em massa corporal üí™
- A esp√©cie **Barbicha** apresenta os menores valores
- As diferen√ßas entre **machos e f√™meas** s√£o bem vis√≠veis

√â uma ferramenta poderosa para **entender composi√ß√£o e propor√ß√£o** entre grupos distintos üß†üìê



In [None]:
# Gr√°fico 13 - FacetGrid com Histograma por Sexo
g = sns.FacetGrid(df, col="sexo")
g.map(sns.histplot, "comprimento_bico_mm", bins=15, kde=True, color="skyblue")
g.fig.suptitle("FacetGrid - Histograma do Comprimento do Bico por Sexo", y=1.05)
plt.show()

# üß© FacetGrid - Histograma do Comprimento do Bico por Sexo

O gr√°fico apresentado utiliza a **t√©cnica de FacetGrid** do Seaborn, combinando histogramas com curvas KDE (estimativas de densidade). Isso permite **comparar a distribui√ß√£o de uma vari√°vel cont√≠nua (comprimento do bico)** de acordo com diferentes **categorias (sexo)**.

---

## üéØ O que √© um FacetGrid?

O **FacetGrid** divide o conjunto de dados em **subgr√°ficos (facetas)** com base em uma ou mais vari√°veis categ√≥ricas. Neste caso, a vari√°vel categ√≥rica √© o `sexo`, dividindo o gr√°fico em dois pain√©is:

- `sexo = Macho` (esquerda)
- `sexo = F√™mea` (direita)

---

## üìà Como interpretar cada parte?

### üßÆ Eixo X (`comprimento_bico_mm`)
- Representa o **valor do comprimento do bico**, medido em mil√≠metros (mm).
- Os valores variam aproximadamente de **30 mm a 60 mm**.

### üìä Eixo Y (`Count`)
- Indica a **frequ√™ncia absoluta**: quantas observa√ß√µes (ping√ºins) possuem bicos com comprimentos em determinada faixa (bin).

---

## üîç O que os elementos mostram?

| Elemento                     | Significado                                                                 |
|-----------------------------|------------------------------------------------------------------------------|
| üìä Barras                    | Mostram o **n√∫mero de indiv√≠duos** com comprimento de bico em cada faixa    |
| üîµ Curva azul (KDE)          | Representa uma **estimativa suave da densidade** da distribui√ß√£o            |
| ‚ûó Divis√£o por sexo           | Permite **comparar machos e f√™meas lado a lado**, observando padr√µes distintos |
| üìê Altura das barras         | Indica a **concentra√ß√£o de dados** em determinadas faixas                   |

---

## üìä Observa√ß√µes importantes

- **Machos** tendem a ter uma concentra√ß√£o mais vis√≠vel entre **48‚Äì52 mm**, com uma distribui√ß√£o mais picuda.
- **F√™meas** mostram picos distribu√≠dos em m√∫ltiplas faixas, com menor densidade ap√≥s 50 mm.
- A **forma da curva KDE** sugere se os dados est√£o bem distribu√≠dos, concentrados ou se h√° m√∫ltiplas ‚Äúmodas‚Äù (picos).

---

## ‚úÖ Quando usar um FacetGrid?

| Cen√°rio üß™                            | Utilidade üéØ                                               |
|-------------------------------------|------------------------------------------------------------|
| Comparar distribui√ß√µes por categoria| Visualizar como uma vari√°vel num√©rica se comporta em grupos |
| üìä An√°lise de grupos separados      | FacetGrid cria uma visualiza√ß√£o limpa e comparativa        |
| Detectar diferen√ßas de tend√™ncia    | Avalia se grupos t√™m m√©dias, dispers√µes ou modas distintas |

---

## üí° Conclus√£o

- O **FacetGrid** √© uma ferramenta poderosa para **compara√ß√µes lado a lado**.
- Combina a **clareza de histogramas** com a **fluidez das curvas de densidade (KDE)**.
- Ideal para **an√°lises explorat√≥rias iniciais**, especialmente quando se deseja observar diferen√ßas entre subgrupos.

> ‚ú® Uma forma visual e clara de comparar **distribui√ß√µes de vari√°veis cont√≠nuas** entre categorias!



In [None]:
# Gr√°fico 14 ‚Äì Swarmplot - Massa Corporal por Sexo
fig, ax = plt.subplots(figsize=(8, 5))
sns.swarmplot(data=df, x='sexo', y='massa_corporal_g', ax=ax)
ax.set_title("Swarmplot - Massa Corporal por Sexo", fontsize=14)
plt.tight_layout(rect=[0, 0.1, 1, 0.95])
plt.show()

# üêù Swarmplot - Massa Corporal por Sexo

O **swarmplot** √© uma varia√ß√£o do **stripplot** que **organiza os pontos de forma que eles n√£o se sobreponham**, criando uma visualiza√ß√£o clara da **distribui√ß√£o individual dos dados** dentro de categorias.

---

## üìä Interpreta√ß√£o Geral

Este gr√°fico mostra a **massa corporal (em gramas)** dos pinguins, separada por **sexo** (`Macho` e `F√™mea`).

---

## üß≠ Entendendo os Eixos

- **Eixo X** (`sexo`) ‚û°Ô∏è representa a **categoria**, ou seja, os dois grupos: `Macho` e `F√™mea`.

- **Eixo Y** (`massa_corporal_g`) ‚û°Ô∏è representa a **massa corporal** de cada pinguim, medida em **gramas**. Os valores v√£o de aproximadamente **3000g a 6300g**.

---

## üîµ Cada ponto azul representa:

- **Um pinguim √∫nico**.
- A **posi√ß√£o no eixo Y** mostra a **massa corporal** dele.
- A **posi√ß√£o no eixo X** indica se ele √© `Macho` ou `F√™mea`.
- Os pontos s√£o **organizados horizontalmente (espalhados com simetria)** para evitar sobreposi√ß√£o e facilitar a leitura.

---

## üß† O que podemos concluir?

| Observa√ß√£o üëÄ | Interpreta√ß√£o üìå |
|--------------|------------------|
| `Machos` tendem a ter massas mais elevadas | Os pontos est√£o mais concentrados entre 4000g e 6000g. |
| `F√™meas` t√™m massas corporais mais baixas em m√©dia | A maioria dos pontos est√° entre 3000g e 4800g. |
| A distribui√ß√£o √© **visualmente distinta** entre os dois sexos | Isso pode indicar **dimorfismo sexual** na esp√©cie. |

---

## üöÄ Para que serve esse gr√°fico?

| Utilidade üí° | Explica√ß√£o |
|-------------|------------|
| üìç Visualizar todos os valores individuais com clareza |
| üìà Detectar padr√µes ou diferen√ßas entre categorias |
| üß¨ Analisar dispers√£o de dados categorizados |
| üîé Detectar presen√ßa de grupos densos, valores extremos ou falhas |

---

## üîÑ Compara√ß√£o com outros gr√°ficos

| Gr√°fico üß∞ | Diferen√ßa ‚ú® |
|-----------|-------------|
| **Stripplot** | Pontos podem se sobrepor. |
| **Boxplot** | Mostra mediana e quartis, mas n√£o os pontos individuais. |
| **Violin plot** | Mostra densidade, mas n√£o os pontos reais. |
| **Swarmplot** ‚úÖ | Mostra **cada dado individual**, sem sobreposi√ß√£o! |

---

## üìù Conclus√£o

O **Swarmplot** √© ideal para mostrar **cada ponto da amostra** sem perder legibilidade. √â √≥timo para comparar categorias e verificar a **distribui√ß√£o exata** de observa√ß√µes dentro de grupos.

> üåü Dica: em conjuntos de dados muito grandes, pode ficar pesado ‚Äî ent√£o use com modera√ß√£o quando houver milhares de pontos!



In [None]:
# Gr√°fico 15 - Violin Plot
fig, ax = plt.subplots(figsize=(8, 5))
sns.violinplot(data=df, x='especie', y='comprimento_bico_mm', ax=ax)
ax.set_title("Violin Plot - Comprimento do Bico por Esp√©cie")
plt.tight_layout(rect=[0, 0.1, 1, 0.95])
plt.show()

# üéª Violin Plot - Comprimento do Bico por Esp√©cie

O **violin plot** √© uma combina√ß√£o poderosa entre **boxplot** e **gr√°fico de densidade**. Ele mostra **como os dados est√£o distribu√≠dos**, al√©m de **destacar mediana, quartis e padr√µes de densidade**. Este gr√°fico √© excelente para **comparar distribui√ß√µes entre diferentes categorias**, como neste exemplo com as esp√©cies de pinguins.

---

## üß≠ Eixos do Gr√°fico

- **Eixo X (`especie`)**: representa as categorias da vari√°vel **especie**, ou seja, os grupos comparados: `Ad√©lia`, `Barbicha` e `Gentoo`.
- **Eixo Y (`comprimento_bico_mm`)**: valores num√©ricos do **comprimento do bico**, variando de aproximadamente **30 mm a 65 mm**.

---

## üß† Como interpretar o violin plot?

Cada ‚Äúviolino‚Äù (forma sim√©trica) representa a **distribui√ß√£o dos dados** de uma categoria. Vamos entender os elementos:

### üéª Formato do violino
- Representa a **estimativa de densidade de probabilidade** (via KDE ‚Äì Kernel Density Estimation).
- Quanto **mais largo** o violino em certa altura do eixo Y, **maior a concentra√ß√£o de dados** naquela faixa de valor.
- Regi√µes mais estreitas indicam **pouca frequ√™ncia** de dados.

### üì¶ Faixa central escura (boxplot embutido)
- A linha branca ao centro √© a **mediana** (50% dos dados).
- A √°rea grossa escura vertical representa o **intervalo interquartil (Q1 a Q3)**.
- As "pontas" (topo e base) da barra mostram os quartis ‚Üí ajudam a ver onde os dados est√£o mais dispersos ou concentrados.

---

## üìå Interpreta√ß√£o por esp√©cie

### üêß Ad√©lia
- Curva mais larga entre **36‚Äì40 mm**, indicando concentra√ß√£o nessa faixa.
- Mediana pr√≥xima de **39 mm**.
- Distribui√ß√£o mais **sim√©trica e compacta**.

### üêß Barbicha
- Curva bem larga entre **47‚Äì52 mm**, indicando maior densidade de valores nessa faixa.
- Mediana mais alta, cerca de **50 mm**.
- Distribui√ß√£o mais **concentrada no topo** (padr√£o diferente da Ad√©lia).

### üêß Gentoo
- Faixa de maior densidade parecida com a Barbicha, entre **45‚Äì50 mm**.
- Mediana pr√≥xima de **48 mm**.
- Poss√≠vel **leve assimetria**, mas semelhante √† Barbicha.

---

## ‚úÖ Para que serve o violin plot?

| Objetivo | Benef√≠cio |
|----------|-----------|
| üéØ Visualizar forma da distribui√ß√£o | Mostra se os dados s√£o sim√©tricos, multimodais, achatados, etc. |
| üì¶ Comparar mediana e quartis entre categorias | Permite verificar diferen√ßas de tend√™ncia central |
| üîç Analisar densidade de dados | Ajuda a ver onde os valores est√£o mais concentrados |
| üÜö Melhor que o boxplot quando se quer ver a "forma" da distribui√ß√£o | Especialmente √∫til com amostras maiores ou padr√µes complexos |

---

## üß™ Conclus√£o

O violin plot √© ideal quando voc√™ quer **entender a distribui√ß√£o dos dados para cada grupo**, com mais detalhes do que o boxplot sozinho oferece. Ele une o melhor dos dois mundos: **resumo estat√≠stico (boxplot)** e **forma da distribui√ß√£o (KDE)**.

Neste gr√°fico, fica evidente que as esp√©cies t√™m **padr√µes distintos de comprimento de bico**, tanto em **mediana quanto na concentra√ß√£o de valores** ‚Äî o que pode ser √∫til para an√°lises biol√≥gicas ou classifica√ß√µes.

Use violin plots sempre que quiser explorar **diferen√ßas na distribui√ß√£o de vari√°veis num√©ricas entre categorias**! üéì


In [None]:
# Gr√°fico 16 ‚Äì Stripplot - Comprimento do Bico por Esp√©cie
fig, ax = plt.subplots(figsize=(8, 5))
sns.stripplot(data=df, x='especie', y='comprimento_bico_mm', ax=ax, jitter=True)
ax.set_title("Stripplot - Comprimento do Bico por Esp√©cie", fontsize=14)
plt.tight_layout(rect=[0, 0.1, 1, 0.95])
plt.show()

# üéØ Stripplot - Comprimento do Bico por Esp√©cie

O **stripplot** √© uma excelente forma de visualizar a **distribui√ß√£o individual de pontos** dentro de uma ou mais categorias. √â √∫til especialmente para **dados categ√≥ricos no eixo X** e **valores num√©ricos no eixo Y**.

---

## üß≠ Entendendo os Eixos

- **Eixo X (horizontal)**:
  - Representa a vari√°vel **categ√≥rica** `especie`, contendo tr√™s categorias:
    - `Ad√©lia`
    - `Barbicha`
    - `Gentoo`
  - Cada categoria agrupa os pontos verticalmente para facilitar a compara√ß√£o.

- **Eixo Y (vertical)**:
  - Representa os valores **num√©ricos cont√≠nuos** de `comprimento_bico_mm`, ou seja, o **comprimento do bico** em mil√≠metros.

---

## üîµ O que cada ponto significa?

- Cada **ponto azul** √© **um pinguim do dataset**.
- A posi√ß√£o do ponto no **eixo Y** mostra o valor do comprimento do bico daquele pinguim.
- A posi√ß√£o no **eixo X** indica a qual **esp√©cie** ele pertence.
- N√£o h√° sobreposi√ß√£o horizontal: os pontos est√£o empilhados verticalmente em uma √∫nica linha por categoria.

---

## üí° O que esse gr√°fico revela?

- Podemos **comparar a dispers√£o e a concentra√ß√£o** dos dados de comprimento de bico para cada esp√©cie:
  - `Ad√©lia`: concentra√ß√£o entre ~35mm e 45mm
  - `Barbicha`: faixa maior, variando de ~42mm a ~58mm
  - `Gentoo`: valores parecidos com Barbicha, mas um pouco mais compactos

---

## üß† Para que serve esse gr√°fico?

| Utilidade üí° | Explica√ß√£o |
|-------------|------------|
| üìç Analisar a distribui√ß√£o de cada ponto individualmente |
| üß¨ Detectar **aglomerados**, **lacunas** ou **valores extremos** |
| üìà Comparar variabilidade entre grupos categ√≥ricos |
| üîé Ideal para **amostras pequenas a m√©dias** (sen√£o h√° muita sobreposi√ß√£o!) |

---

## ‚úÖ Dicas de leitura

- Se os pontos estiverem todos concentrados, indica **baixa variabilidade**.
- Se estiverem muito espalhados verticalmente, h√° **alta dispers√£o** dos valores.
- Se voc√™ perceber ‚Äúespa√ßos vazios‚Äù, pode ser um indicativo de **valores ausentes em certas faixas**.

---

## üöÄ Diferen√ßa para outros gr√°ficos

- üîÑ *Comparado ao boxplot*: o stripplot **mostra todos os pontos**, enquanto o boxplot resume com quartis e mediana.
- üéª *Comparado ao violin plot*: o stripplot mostra os pontos, j√° o violin mostra a densidade dos dados.

---

## üß™ Conclus√£o

O **stripplot** √© excelente para visualiza√ß√µes r√°pidas e intuitivas sobre **distribui√ß√µes individuais**. Use-o quando quiser manter cada observa√ß√£o vis√≠vel e analisar como os dados se distribuem entre grupos.

> ‚ú® Combine com `jitter=True` se quiser espalhar horizontalmente e evitar sobreposi√ß√£o!


In [None]:
# Gr√°fico 17 - Lineplot
fig, ax = plt.subplots(figsize=(8, 5))
sns.lineplot(data=df.reset_index(), x='index', y='massa_corporal_g', hue='especie', ax=ax)
ax.set_title("Lineplot - Massa Corporal por √çndice")
plt.tight_layout(rect=[0, 0.1, 1, 0.95])
plt.show()

# üìâ Lineplot - Massa Corporal por √çndice

O **lineplot** (gr√°fico de linha) √© uma ferramenta muito usada para visualizar **tend√™ncias, varia√ß√µes e padr√µes ao longo de um eixo cont√≠nuo**, como o tempo, √≠ndice ou qualquer sequ√™ncia ordenada. Neste caso, ele mostra a varia√ß√£o da **massa corporal dos pinguins** ao longo dos seus **√≠ndices no dataset**.

---

## üß≠ Eixos do gr√°fico

- **Eixo X (`index`)**: representa a posi√ß√£o sequencial (√≠ndice) de cada pinguim no dataset. N√£o √© uma medida do tempo, mas **ajuda a organizar os dados em ordem**.
- **Eixo Y (`massa_corporal_g`)**: mostra a **massa corporal de cada pinguim em gramas (g)**. Os valores v√£o de cerca de 2.800g at√© 6.300g.

---

## üé® Cores e Legenda

- Cada linha colorida representa uma **esp√©cie diferente de pinguim**:
  - üîµ Azul ‚Üí Ad√©lia
  - üü† Laranja ‚Üí Barbicha
  - üü¢ Verde ‚Üí Gentoo

A cor da linha permite **comparar visualmente** como a massa corporal se comporta em cada grupo.

---

## üîç Como interpretar o gr√°fico?

### üîÑ 1. **Varia√ß√µes e padr√µes**
- As linhas sobem e descem, o que indica **flutua√ß√µes na massa corporal** entre os pinguins daquela esp√©cie.
- Isso ajuda a entender a **dispers√£o dos dados dentro de cada grupo**.

### üìè 2. **Compara√ß√µes entre esp√©cies**
- Pinguins da esp√©cie **Gentoo** (linha verde) possuem, em m√©dia, **massa corporal bem mais alta** que as outras esp√©cies.
- Os pinguins **Ad√©lia** e **Barbicha** est√£o em faixas mais baixas de massa.

### üìä 3. **Varia√ß√µes internas**
- A **esp√©cie Ad√©lia** tem bastante varia√ß√£o ‚Äî a linha azul sobe e desce com frequ√™ncia.
- A **Barbicha** mostra certa estabilidade, com menor amplitude vertical.
- A **Gentoo**, apesar de massas maiores, tamb√©m tem flutua√ß√µes percept√≠veis.

---

## ‚úÖ Para que serve um Lineplot?

| Objetivo | Benef√≠cio |
|----------|-----------|
| üß† Visualizar mudan√ßas ao longo de uma sequ√™ncia | Excelente para identificar tend√™ncias |
| üìà Comparar m√∫ltiplas categorias (cores diferentes) | Mostra varia√ß√µes entre grupos |
| üö® Detectar flutua√ß√µes anormais ou padr√µes repetitivos | √ötil para an√°lises temporais ou ordenadas |
| üîç Observar comportamento individual ou agregado | Mesmo sem datas, o √≠ndice j√° oferece uma boa vis√£o |

---

## üìù Conclus√£o

Este gr√°fico mostra que:
- A **massa corporal** varia entre os indiv√≠duos de cada esp√©cie.
- A esp√©cie **Gentoo** √©, em geral, **mais pesada**.
- O lineplot √© √∫til para **visualizar padr√µes de varia√ß√£o**, mesmo sem datas, apenas com uma sequ√™ncia (√≠ndice).

Use lineplots sempre que quiser responder a perguntas como:
- ‚ÄúExiste uma tend√™ncia de aumento ou queda?‚Äù üìâüìà  
- ‚ÄúEsse grupo se comporta diferente dos outros?‚Äù üß¨  
- ‚ÄúExistem flutua√ß√µes incomuns ou padr√µes repetitivos?‚Äù üîÅ


In [None]:
# Gr√°fico 18 ‚Äì Histograma Empilhado - Bico por Esp√©cie
fig, ax = plt.subplots(figsize=(8, 5))
sns.histplot(data=df, x='comprimento_bico_mm', hue='especie', multiple='stack', ax=ax)
ax.set_title("Histograma Empilhado - Bico por Esp√©cie", fontsize=14)
plt.tight_layout(rect=[0, 0.1, 1, 0.95])
plt.show()

# üìä Histograma Empilhado ‚Äì Comprimento do Bico por Esp√©cie

Este gr√°fico representa um **histograma empilhado**, onde a distribui√ß√£o do **comprimento do bico dos pinguins** est√° dividida e colorida por **esp√©cie**.

---

## üñºÔ∏è Elementos do Gr√°fico

### üß≠ Eixos:

- **Eixo X**: `comprimento_bico_mm` ‚Üí Representa os intervalos (bins) dos comprimentos dos bicos, em mil√≠metros.
- **Eixo Y**: `Count` ‚Üí Indica a quantidade de pinguins em cada faixa de comprimento de bico.

---

## üß± Como funciona um histograma empilhado?

- üî¢ Os dados s√£o agrupados em **intervalos de valores (bins)** ao longo do eixo X.
- üé® Cada bin √© **empilhado verticalmente** com ret√¢ngulos coloridos, onde:
  - Azul ‚Üí Esp√©cie **Ad√©lia**
  - Laranja ‚Üí Esp√©cie **Barbicha**
  - Verde ‚Üí Esp√©cie **Gentoo**

A **altura total da barra** mostra o n√∫mero total de observa√ß√µes naquele intervalo de comprimento, e a **cor mostra a contribui√ß√£o de cada esp√©cie** naquele total.

---

## üîç Interpreta√ß√µes √∫teis:

- üìå **Onde h√° sobreposi√ß√£o de esp√©cies**, voc√™ pode observar **diversidade naquela faixa**.
- üß¨ **Distribui√ß√£o**:
  - A esp√©cie **Ad√©lia** concentra-se em comprimentos de bico menores (~33 a 44 mm).
  - A **Gentoo** tem comprimentos maiores (~43 a 55 mm).
  - A **Barbicha** tem uma sobreposi√ß√£o ampla com Gentoo, mas com maior frequ√™ncia de 45 a 52 mm.

---

## üéØ Para que serve?

| Objetivo üéØ                         | Utilidade üí°                                                                 |
|------------------------------------|------------------------------------------------------------------------------|
| üìä Comparar distribui√ß√µes          | Ver como diferentes grupos (esp√©cies) se distribuem em uma vari√°vel cont√≠nua |
| üß† Avaliar sobreposi√ß√£o de dados   | Identificar onde esp√©cies t√™m caracter√≠sticas semelhantes                    |
| üîç Identificar padr√µes de grupos   | Visualizar onde uma esp√©cie predomina sobre outras                          |
| üì¶ Mostrar composi√ß√£o dos dados    | Cada bin mostra o total e a fra√ß√£o por categoria                            |

---

## üß† Dicas para leitura

- üìè **Barras altas** indicam muitos indiv√≠duos com aquele intervalo de bico.
- üéØ **Barras de uma cor s√≥** sugerem dom√≠nio de uma esp√©cie naquela faixa.
- üì∂ **Barras com v√°rias cores** indicam **sobreposi√ß√£o ou mistura** entre esp√©cies.

---

## üìò Compara√ß√µes com outros gr√°ficos

| Gr√°fico üìä        | Diferen√ßa Principal üìå                                                                 |
|------------------|----------------------------------------------------------------------------------------|
| Histograma normal| N√£o separa por categorias, mostra apenas a distribui√ß√£o total                         |
| Barplot          | Usa m√©dias ou somas por categoria, n√£o mostra distribui√ß√£o cont√≠nua                   |
| KDE Plot         | Estima a densidade suave, mas n√£o mostra quantidade absoluta                          |

---

## ‚úÖ Conclus√£o

O **histograma empilhado** √© perfeito para an√°lises explorat√≥rias onde voc√™ quer **ver a distribui√ß√£o de uma vari√°vel cont√≠nua** (como o comprimento do bico) **separada por grupos categ√≥ricos** (como esp√©cie). Ele permite:

- üìä Compara√ß√£o clara entre grupos
- üì¶ Visualiza√ß√£o da distribui√ß√£o geral
- üîç Detec√ß√£o de sobreposi√ß√µes e padr√µes

> Use este gr√°fico quando quiser **entender a composi√ß√£o de diferentes grupos em uma vari√°vel cont√≠nua** com muita clareza! üéØ


In [None]:
# Gr√°fico 19 ‚Äì Matriz de Confus√£o
sns.heatmap(cm, annot=True, fmt="d", cmap="Blues", xticklabels=label_names, yticklabels=label_names)
plt.xlabel("Predito")
plt.ylabel("Real")
plt.title("Matriz de Confus√£o - Esp√©cies de Pinguins")
plt.tight_layout()
plt.show()

# üìâ Matriz de Confus√£o ‚Äì Classifica√ß√£o de Esp√©cies de Pinguins

Este gr√°fico representa uma **matriz de confus√£o**, usada para avaliar o desempenho de um modelo de **classifica√ß√£o de esp√©cies de pinguins** (Ad√©lia, Barbicha e Gentoo), com base em caracter√≠sticas f√≠sicas como **comprimento do bico, largura do bico, comprimento da nadadeira e massa corporal**.

---

## üñºÔ∏è Elementos do Gr√°fico

### üß≠ Eixos:

- **Eixo X**: `Predito` ‚Üí O que o modelo classificou.
- **Eixo Y**: `Real` ‚Üí A classe verdadeira, conhecida nos dados.

---

## üß© O que √© uma matriz de confus√£o?

√â uma tabela que resume o desempenho de um algoritmo de classifica√ß√£o. Cada **c√©lula** mostra o n√∫mero de vezes que uma classe real foi **prevista como outra**.

| Real \ Predito | Ad√©lia | Barbicha | Gentoo |
|----------------|--------|----------|--------|
| **Ad√©lia**     | 48     | 0        | 0      |
| **Barbicha**   | 1      | 17       | 0      |
| **Gentoo**     | 0      | 0        | 34     |

---

## ‚úÖ Como interpretar?

- üéØ **Diagonal principal (‚Üò)** ‚Üí acertos (classifica√ß√µes corretas).
- ‚ö†Ô∏è **Fora da diagonal** ‚Üí erros (confus√µes entre classes).

---

## üîç Interpreta√ß√µes √∫teis:

### üìå Acertos:
- 48 pinguins **Ad√©lia** corretamente classificados como Ad√©lia.
- 17 pinguins **Barbicha** corretamente classificados.
- 34 pinguins **Gentoo** corretamente classificados.

### ‚ö†Ô∏è Erros:
- Apenas **1 pinguim Barbicha foi classificado erroneamente como Ad√©lia**.

---

## üìä M√©tricas r√°pidas derivadas:

```python
from sklearn.metrics import accuracy_score

acuracia = (48 + 17 + 34) / (48 + 1 + 17 + 34)  # Total de acertos / total de exemplos
print(f"Acur√°cia: {acuracia:.2%}")
```

> Resultado: **99% de acur√°cia**

---

## üéØ Para que serve?

| Objetivo üéØ                     | Utilidade üí°                                                                 |
|--------------------------------|------------------------------------------------------------------------------|
| üìà Avaliar o desempenho do modelo  | Verifica se o modelo est√° fazendo boas previs√µes                           |
| üéØ Medir precis√£o por classe       | Identifica quais classes o modelo acerta mais                              |
| ‚ö†Ô∏è Localizar fontes de erro        | Entende onde o modelo mais erra e por qu√™                                  |
| üîç Guiar melhorias no modelo       | Ajuda a decidir ajustes e reequil√≠brios nas classes                        |

---

## üß† Dicas para leitura

- ‚úÖ **Matriz ideal**: valores altos na **diagonal principal** e baixos fora dela.
- ‚ùå **Matriz ruim**: muitos valores fora da diagonal ‚Üí o modelo est√° confundindo classes.
- üîÑ Combine com outras m√©tricas como F1-score, precis√£o e revoca√ß√£o para uma an√°lise completa.

---

## üìò Compara√ß√µes com outros gr√°ficos

| Gr√°fico üìä          | Diferen√ßa Principal üìå                                                              |
|--------------------|--------------------------------------------------------------------------------------|
| **ROC Curve**       | Avalia sensibilidade vs especificidade, √∫til em problemas bin√°rios                  |
| **Precision-Recall**| Melhor em bases desbalanceadas                                                      |
| **Matriz de Confus√£o**| Mostra exatamente **quais classes** est√£o sendo confundidas e como                 |

---

## ‚úÖ Conclus√£o

A **matriz de confus√£o** √© uma das ferramentas mais importantes na avalia√ß√£o de modelos de classifica√ß√£o. No caso dos pinguins:

- A performance foi excelente (**99% de acerto**).
- Erros m√≠nimos indicam que as vari√°veis num√©ricas foram suficientes para diferenciar as esp√©cies.

> Use esse gr√°fico sempre que quiser entender **o comportamento detalhado** de um classificador multiclasse.
