# Lab 03 - Análise Exploratória de Dados (EDA): Variáveis Numéricas e Categóricas
**Disciplina:** Extração e Preparação de Dados | **Professor:** Luis Aramis

Neste laboratório, vamos aprender a diferenciar e tratar variáveis numéricas e categóricas usando a biblioteca Pandas. Utilizaremos o famoso dataset do **Titanic**.

## 1. Setup
Importe as bibliotecas necessárias.

In [18]:
import pandas as pd
import numpy as np
import seaborn as sns # Apenas para carregar o dataset, se necessário

## 2. Carregamento dos Dados
Vamos carregar o dataset do Titanic. O Pandas consegue ler diretamente de uma URL.

In [19]:
url = 'https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv'
df = pd.read_csv(url)
print('Dataset carregado com sucesso!')

Dataset carregado com sucesso!


## 3. Inspeção Inicial
Use `.head()`, `.info()` para entender a estrutura dos dados.

In [20]:
# Visualizando as primeiras linhas
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [21]:
# Verificando tipos e nulos
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


## 4. Análise de Variáveis Numéricas
Identifique as colunas numéricas (Age, Fare, etc.).
Use `.describe()` para ver estatísticas descritivas.

In [22]:
# Estatísticas descritivas das numéricas
df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


### Exercício 4.1
Qual é a média de idade (`Age`) dos passageiros? E a mediana?

In [23]:
df_media = df['Age'].mean
df_mediana = df['Age'].median
print(f'media: {df_media} mediana{df_mediana}')

media: <bound method Series.mean of 0      22.0
1      38.0
2      26.0
3      35.0
4      35.0
       ... 
886    27.0
887    19.0
888     NaN
889    26.0
890    32.0
Name: Age, Length: 891, dtype: float64> mediana<bound method Series.median of 0      22.0
1      38.0
2      26.0
3      35.0
4      35.0
       ... 
886    27.0
887    19.0
888     NaN
889    26.0
890    32.0
Name: Age, Length: 891, dtype: float64>


## 5. Análise de Variáveis Categóricas
Identifique as colunas categóricas (Sex, Embarked, Pclass).
Use `.value_counts()` para ver a frequência de cada categoria.

In [24]:
# Contagem de passageiros por sexo
df.value_counts()

PassengerId  Survived  Pclass  Name                                                 Sex     Age   SibSp  Parch  Ticket    Fare     Cabin        Embarked
2            1         1       Cumings, Mrs. John Bradley (Florence Briggs Thayer)  female  38.0  1      0      PC 17599  71.2833  C85          C           1
4            1         1       Futrelle, Mrs. Jacques Heath (Lily May Peel)         female  35.0  1      0      113803    53.1000  C123         S           1
7            0         1       McCarthy, Mr. Timothy J                              male    54.0  0      0      17463     51.8625  E46          S           1
11           1         3       Sandstrom, Miss. Marguerite Rut                      female  4.0   1      1      PP 9549   16.7000  G6           S           1
12           1         1       Bonnell, Miss. Elizabeth                             female  58.0  0      0      113783    26.5500  C103         S           1
                                                         

In [25]:
# Contagem de passageiros por classe (Pclass) - note que Pclass é numérico mas age como categoria ordinal
df['Pclass'].value_counts().sort_index()

Pclass
1    216
2    184
3    491
Name: count, dtype: int64

## 6. Conversão de Tipos (Otimização)
Colunas como `Sex` e `Embarked` são lidas como `object` (string). Podemos converter para `category` para economizar memória e melhorar a semântica.

In [26]:
# Verificando memória antes
print(df['Sex'].memory_usage(deep=True))

47983


In [28]:
# Convertendo
df['Sex'] = df['Sex'].astype('category')
df['Embarked'] = df['Embarked'].astype('category')

# Verificando memória depois
print(df['Sex'].memory_usage(deep=True))
print(df['Embarked'].memory_usage(deep=True))


1239
1281


## 7. Análise Multivariada Simples (GroupBy)
Vamos cruzar variáveis numéricas e categóricas.
Qual a tarifa média (`Fare`) paga por cada classe (`Pclass`)?

### Exercício 7.1
Qual a taxa de sobrevivência (`Survived` média) por sexo (`Sex`)?

In [30]:
# Seu código aqui
# Dica: Survived é 0 ou 1. A média de uma coluna binária é a proporção de 1s.
df.groupby('Sex')['Survived'].mean()

  df.groupby('Sex')['Survived'].mean()


Sex
female    0.742038
male      0.188908
Name: Survived, dtype: float64

---
## 8. DESAFIO PARA CASA
Utilize o mesmo dataset do Titanic para responder:
1. Quantos nomes únicos existem (`Name`)? Há nomes repetidos?
2. Crie uma nova coluna `FaixaEtaria` usando `pd.cut` na coluna `Age`.
   - 0-12: Criança
   - 12-18: Adolescente
   - 18-60: Adulto
   - 60+: Idoso
3. Conte quantos passageiros há em cada faixa etária.
4. (Opcional) Qual faixa etária teve maior taxa de sobrevivência?

In [None]:
# Seu código para o desafio aqui


---
## 9. DESAFIO EXTRA: Integração SQL + Pandas
Para consolidar o conhecimento da Aula 03, vamos fazer uma análise misturando SQL e Pandas.

**Cenário:** Você é um analista de dados na Chinook Music Store. A gerência quer entender o perfil de vendas por **Gênero Musical**.

**Atividade:**
1.  **Conexão:** Conecte-se ao banco `chinook.db` (o mesmo da aula passada).
2.  **Extração (SQL):** Escreva uma query que retorne uma tabela contendo: o **Nome do Gênero** (`Genres.Name`), o **Nome da Faixa** (`Tracks.Name`) e o **Preço Unitário** (`Tracks.UnitPrice`).
    -   *Dica:* Você precisará fazer um `JOIN` entre a tabela `Tracks` e a tabela `Genres`.
3.  **Carga:** Carregue esse resultado num DataFrame chamado `df_musicas`.
4.  **Análise (Pandas):**
    -   Qual é a média de preço das músicas de 'Rock' comparada com 'Latin'? (Análise Numérica por Categoria)
    -   Quantas músicas existem em cada gênero no catálogo? (Análise Categórica)
    -   Converta a coluna `Genre` para o tipo `category` e verifique a economia de memória.

In [None]:
# 1. Conexão com o Banco (Copie o código de setup da Aula 03)


In [None]:
# 2. Query e Carga para DataFrame

# df_musicas = pd.read_sql...

In [None]:
# 3. Análise dos Dados
# Seu código Pandas aqui