# Lab 03 - Análise Exploratória de Dados (EDA): Variáveis Numéricas e Categóricas
**Disciplina:** Extração e Preparação de Dados | **Professor:** Luis Aramis

Neste laboratório, vamos aprender a diferenciar e tratar variáveis numéricas e categóricas usando a biblioteca Pandas. Utilizaremos o famoso dataset do **Titanic**.

## 1. Setup
Importe as bibliotecas necessárias.

In [30]:
import pandas as pd
import numpy as np
import seaborn as sns # Apenas para carregar o dataset, se necessário

## 2. Carregamento dos Dados
Vamos carregar o dataset do Titanic. O Pandas consegue ler diretamente de uma URL.

In [31]:
url = 'https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv'
df = pd.read_csv(url)
print('Dataset carregado com sucesso!')


Dataset carregado com sucesso!


## 3. Inspeção Inicial
Use `.head()`, `.info()` para entender a estrutura dos dados.

In [32]:
print(df.head())


   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                           Allen, Mr. William Henry    male  35.0      0   

   Parch            Ticket     Fare Cabin Embarked  
0      0         A/5 21171   7.2500   NaN        S  
1      0          PC 17599  71.2833   C85        C  
2      0  STON/O2. 3101282   7.9250   NaN        S  
3      0            113803  53.1000  C123        S  
4      0            373450   8.0500   NaN        S  


In [33]:
print(df.info())


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB
None


## 4. Análise de Variáveis Numéricas
Identifique as colunas numéricas (Age, Fare, etc.).
Use `.describe()` para ver estatísticas descritivas.

In [34]:
print(df.describe())


       PassengerId    Survived      Pclass         Age       SibSp  \
count   891.000000  891.000000  891.000000  714.000000  891.000000   
mean    446.000000    0.383838    2.308642   29.699118    0.523008   
std     257.353842    0.486592    0.836071   14.526497    1.102743   
min       1.000000    0.000000    1.000000    0.420000    0.000000   
25%     223.500000    0.000000    2.000000   20.125000    0.000000   
50%     446.000000    0.000000    3.000000   28.000000    0.000000   
75%     668.500000    1.000000    3.000000   38.000000    1.000000   
max     891.000000    1.000000    3.000000   80.000000    8.000000   

            Parch        Fare  
count  891.000000  891.000000  
mean     0.381594   32.204208  
std      0.806057   49.693429  
min      0.000000    0.000000  
25%      0.000000    7.910400  
50%      0.000000   14.454200  
75%      0.000000   31.000000  
max      6.000000  512.329200  


### Exercício 4.1
Qual é a média de idade (`Age`) dos passageiros? E a mediana?

In [35]:
media_idade = df['Age'].mean()
mediana_idade = df['Age'].median()

## 5. Análise de Variáveis Categóricas
Identifique as colunas categóricas (Sex, Embarked, Pclass).
Use `.value_counts()` para ver a frequência de cada categoria.

In [36]:
classes = df['Pclass'].value_counts()
print(classes)

sexo = df['Sex'].value_counts()
print(sexo)

embraque = df['Embarked'].value_counts()
print(embraque)

sobreviveu = df['Survived'].value_counts()
print(sobreviveu)


Pclass
3    491
1    216
2    184
Name: count, dtype: int64
Sex
male      577
female    314
Name: count, dtype: int64
Embarked
S    644
C    168
Q     77
Name: count, dtype: int64
Survived
0    549
1    342
Name: count, dtype: int64


## 6. Conversão de Tipos (Otimização)
Colunas como `Sex` e `Embarked` são lidas como `object` (string). Podemos converter para `category` para economizar memória e melhorar a semântica.

In [37]:
mem_sex = df['Sex'].memory_usage(deep=True)
print(mem_sex)

mem_emba = df['Embarked'].memory_usage(deep=True)
print(mem_emba)

47983
44646


In [38]:

df['Sex'] = df['Sex'].astype('category')
df['Embarked'] = df['Embarked'].astype('category')

mem_sex2 = df['Sex'].memory_usage(deep=True)
print(mem_sex2)

mem_emba2 = df['Embarked'].memory_usage(deep=True)
print(mem_emba2)


1239
1281


## 7. Análise Multivariada Simples (GroupBy)
Vamos cruzar variáveis numéricas e categóricas.
Qual a tarifa média (`Fare`) paga por cada classe (`Pclass`)?

In [44]:
media_por_classe = df.groupby('Pclass')['Fare'].mean()

print(media_por_classe)

Pclass
1    84.154687
2    20.662183
3    13.675550
Name: Fare, dtype: float64


### Exercício 7.1
Qual a taxa de sobrevivência (`Survived` média) por sexo (`Sex`)?

In [50]:
taxa_sobrevivencia_sexo = df.groupby('Sex')['Survived'].mean()

print(taxa_sobrevivencia_sexo)


Sex
female    0.742038
male      0.188908
Name: Survived, dtype: float64


  taxa_sobrevivencia_sexo = df.groupby('Sex')['Survived'].mean()


---
## 8. DESAFIO PARA CASA
Utilize o mesmo dataset do Titanic para responder:
1. Quantos nomes únicos existem (`Name`)? Há nomes repetidos?
2. Crie uma nova coluna `FaixaEtaria` usando `pd.cut` na coluna `Age`.
   - 0-12: Criança
   - 12-18: Adolescente
   - 18-60: Adulto
   - 60+: Idoso
3. Conte quantos passageiros há em cada faixa etária.
4. (Opcional) Qual faixa etária teve maior taxa de sobrevivência?

In [55]:
import pandas as pd

total_nomes = len(df['Name'])
nomes_unicos = df['Name'].nunique()
repetidos = total_nomes - nomes_unicos
print(nomes_unicos)
print(repetidos)



bins = [0, 12, 18, 60, 100]
labels = ['Criança', 'Adolescente', 'Adulto', 'Idoso']

df['FaixaEtaria'] = pd.cut(df['Age'], bins=bins, labels=labels)

contagem_faixa = df['FaixaEtaria'].value_counts()
print(contagem_faixa)


taxa_sobrevivencia = df.groupby('FaixaEtaria')['Survived'].mean() * 100
print(taxa_sobrevivencia)



891
0
FaixaEtaria
Adulto         553
Adolescente     70
Criança         69
Idoso           22
Name: count, dtype: int64
FaixaEtaria
Criança        57.971014
Adolescente    42.857143
Adulto         38.878843
Idoso          22.727273
Name: Survived, dtype: float64


  taxa_sobrevivencia = df.groupby('FaixaEtaria')['Survived'].mean() * 100


---
## 9. DESAFIO EXTRA: Integração SQL + Pandas
Para consolidar o conhecimento da Aula 03, vamos fazer uma análise misturando SQL e Pandas.

**Cenário:** Você é um analista de dados na Chinook Music Store. A gerência quer entender o perfil de vendas por **Gênero Musical**.

**Atividade:**
1.  **Conexão:** Conecte-se ao banco `chinook.db` (o mesmo da aula passada).
2.  **Extração (SQL):** Escreva uma query que retorne uma tabela contendo: o **Nome do Gênero** (`Genres.Name`), o **Nome da Faixa** (`Tracks.Name`) e o **Preço Unitário** (`Tracks.UnitPrice`).
    -   *Dica:* Você precisará fazer um `JOIN` entre a tabela `Tracks` e a tabela `Genres`.
3.  **Carga:** Carregue esse resultado num DataFrame chamado `df_musicas`.
4.  **Análise (Pandas):**
    -   Qual é a média de preço das músicas de 'Rock' comparada com 'Latin'? (Análise Numérica por Categoria)
    -   Quantas músicas existem em cada gênero no catálogo? (Análise Categórica)
    -   Converta a coluna `Genre` para o tipo `category` e verifique a economia de memória.

In [59]:
import pandas as pd
from sqlalchemy import create_engine
import os
import urllib.request

# Download do chinook.db se não existir
if not os.path.exists('chinook.db'):
    url = 'https://github.com/lerocha/chinook-database/raw/master/ChinookDatabase/DataSources/Chinook_Sqlite.sqlite'
    urllib.request.urlretrieve(url, 'chinook.db')
    print('Banco de dados baixado com sucesso!')

# Criando a conexão (Engine)
# Em bancos reais (Postgres, MySQL), a string seria: postgresql://usuario:senha@host:porta/banco
engine = create_engine('sqlite:///chinook.db')
print('Conexão estabelecida!')


Banco de dados baixado com sucesso!
Conexão estabelecida!
