# Aula: Classificação de Variáveis em Data Science

Nesta aula, vamos entender como as variáveis são classificadas em Data Science e aplicar esses conceitos utilizando o dataset do Titanic. Abordaremos desde a teoria sobre variáveis quantitativas (discretas e contínuas), qualitativas (nominais e ordinais) e binárias, até a aplicação prática na preparação, pré-processamento e visualização dos dados.

## 1. Introdução

As variáveis representam atributos dos dados e sua classificação é essencial para a escolha das técnicas de análise e modelagem. Em Data Science, classificamos as variáveis principalmente em duas categorias:

- **Quantitativas (Numéricas):** Representam quantidades. Podem ser **discretas** (valores contáveis, como número de irmãos) ou **contínuas** (valores que podem assumir qualquer valor dentro de um intervalo, como a idade).

- **Qualitativas (Categóricas):** Representam categorias ou grupos. Podem ser **nominais** (sem ordem, como sexo ou cor) ou **ordinais** (com ordem, como nível educacional).

Além disso, temos as **variáveis binárias**, que assumem apenas dois valores (por exemplo, 0 e 1, ou "sim/não").

## 2. Classificação das Variáveis

### 2.1 Variáveis Quantitativas

- **Discretas:** Valores contáveis (ex.: número de irmãos, número de itens). 
- **Contínuas:** Valores que podem assumir qualquer valor dentro de um intervalo (ex.: idade, altura, tarifa). 

### 2.2 Variáveis Qualitativas

- **Nominais:** Categorias sem ordem (ex.: sexo, porto de embarque).
- **Ordinais:** Categorias com uma ordem intrínseca (ex.: classes de passageiro: 1ª, 2ª, 3ª).

### 2.3 Variáveis Binárias

- Variáveis que assumem apenas dois valores, como a variável `Survived` no dataset do Titanic (0 = Não, 1 = Sim).

## 3. Aplicação Prática: Explorando o Dataset Titanic

Nesta seção, vamos aplicar os conceitos vistos para preparar e explorar o dataset do Titanic. O dataset contém variáveis como `PassengerId`, `Survived`, `Pclass`, `Sex`, `Age`, `SibSp`, `Parch`, `Fare`, `Cabin` e `Embarked`.

Vamos realizar as seguintes etapas:

1. **Carregar o dataset**
2. **Pré-processar os dados:** Tratar valores ausentes, converter variáveis e criar novas features.
3. **Visualizar os dados:** Criar gráficos para entender a distribuição das variáveis.

In [None]:
import pandas as pd

# Carregar o dataset (certifique-se de que o arquivo 'train.csv' esteja na pasta de trabalho)
df = pd.read_csv('train.csv')

# Exibir as primeiras linhas
df.head()

### 3.1 Pré-processamento dos Dados

Vamos tratar alguns valores ausentes e converter variáveis para facilitar a análise:

- Preencher os valores ausentes da coluna `Age` com a mediana.
- Preencher os valores ausentes da coluna `Embarked` com a moda.
- Remover colunas que não serão utilizadas (`Cabin`, `Ticket`, `Name`).
- Converter a variável `Sex` para numérico (1 para male, 0 para female).
- Criar uma nova feature `FamilySize` que é a soma de `SibSp` e `Parch`.

In [None]:
# Preencher valores ausentes
df['Age'].fillna(df['Age'].median(), inplace=True)
df['Embarked'].fillna(df['Embarked'].mode()[0], inplace=True)

# Remover colunas não utilizadas
df.drop(['Cabin', 'Ticket', 'Name'], axis=1, inplace=True)

# Converter 'Sex' para numérico
df['Sex'] = df['Sex'].map({'male': 1, 'female': 0})

# Criar a feature FamilySize
df['FamilySize'] = df['SibSp'] + df['Parch']

# Visualizar as primeiras linhas após o pré-processamento
df.head()

### 3.2 Visualizações

Vamos criar alguns gráficos para visualizar a distribuição de variáveis importantes, como a idade e a relação entre sexo e sobrevivência.

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Histograma da idade
plt.figure(figsize=(10,6))
sns.histplot(df['Age'], bins=30, kde=True)
plt.title('Distribuição de Idade')
plt.xlabel('Idade')
plt.ylabel('Frequência')
plt.show()

In [None]:
# Gráfico de barras para visualizar a sobrevivência por Sexo
plt.figure(figsize=(8,5))
sns.countplot(x='Sex', hue='Survived', data=df)
plt.title('Sobrevivência por Sexo (1 = Male, 0 = Female)')
plt.xlabel('Sexo')
plt.ylabel('Contagem')
plt.show()

## 4. Conclusão

Nesta aula, aprendemos a classificar variáveis em Data Science e vimos como aplicar esses conceitos no pré-processamento e visualização do dataset do Titanic. Compreender se uma variável é quantitativa ou qualitativa (nominal, ordinal ou binária) ajuda na escolha das técnicas de análise e visualização adequadas, além de influenciar na preparação dos dados para modelagem preditiva.

### Exercícios:

1. Identifique outras variáveis no dataset do Titanic e classifique-as como quantitativas ou qualitativas.
2. Aplique técnicas de visualização (como boxplots) para comparar a distribuição de `Fare` entre diferentes classes (`Pclass`).
3. Experimente aplicar outras transformações ou criar novas features, como a extração de títulos a partir de nomes (caso mantenha a coluna `Name`), e discuta como isso pode impactar na análise.