# Aula Open Day - Aprendizado de Máquina Clássico - Titanic

Nesta aula, vamos aprender a explorar e visualizar dados utilizando Python, tendo como base o clássico dataset do Titanic. Mais do que apenas gerar gráficos, vamos exercitar nossa capacidade analítica para interpretar visualmente os dados e compreender os principais fatores que influenciaram a sobrevivência dos passageiros.

## **Evolução da Análise: Visualização e Machine Learning**

Inicialmente, realizaremos uma análise exploratória por meio de gráficos e visualizações, utilizando bibliotecas como pandas, matplotlib e seaborn. Iremos usar essas ferramentas para entender como criar representações visuais eficazes, investigando aspectos como gênero, idade, classe social e tarifas pagas.

Em seguida, daremos um passo além ao aplicar técnicas básicas de aprendizado de máquina supervisionado — mais especificamente o algoritmo K-Nearest Neighbors (KNN). Utilizaremos o KNN para construir um modelo preditivo capaz de estimar a sobrevivência dos passageiros com base nas variáveis analisadas. Essa etapa permitirá aos alunos compreender como transformar dados brutos em features relevantes e como avaliar o desempenho de um modelo simples de classificação.

## **Objetivo da Atividade:**

O objetivo desta atividade é duplo: desenvolver habilidades sólidas tanto em análise visual quanto em fundamentos de machine learning. Ao final, os alunos serão capazes de:

* Explorar dados e gerar visualizações informativas;

* Interpretar criticamente os gráficos gerados, propondo ajustes quando necessário;

* Preparar dados para uso em modelos de ML;

* Aplicar o algoritmo KNN para classificar e prever resultados com base em dados históricos;

* Avaliar a acurácia e limitações do modelo construído.

Essa abordagem integrada reforça a importância de unir análise exploratória e técnicas preditivas no processo de tomada de decisão baseada em dados.


In [1]:
# Importando as bibliotecas necessárias
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# Carregar o dataset Titanic diretamente do Seaborn
titanic_data = sns.load_dataset('titanic')

In [None]:
# Exibir as primeiras linhas do dataset para entender sua estrutura
titanic_data.head()

In [None]:
# Exibir informações básicas sobre o dataset
titanic_data.info()


## Distribuição de Sobreviventes:

Primeiro, vamos visualizar a distribuição dos sobreviventes para entender a proporção entre aqueles que sobreviveram e aqueles que não sobreviveram:

In [None]:
plt.figure(figsize=(6, 4))
sns.countplot(x='survived', data=titanic_data)
plt.title('Distribuição de Sobreviventes')
plt.xlabel('Sobreviveu (0 = Não, 1 = Sim)')
plt.ylabel('Contagem')
plt.show()

**Interpretação**: Este gráfico de barras nos mostra a contagem absoluta de passageiros que sobreviveram versus aqueles que não sobreviveram. Uma visualização inicial como essa é essencial para entender o desbalanceamento dos dados, o que pode ser crucial ao construir modelos preditivos.

## Distribuição de Idade dos Passageiros:

Analisar a distribuição da idade pode revelar insights sobre a demografia dos passageiros e como ela se relaciona com a sobrevivência:

In [None]:
plt.figure(figsize=(8, 5))
sns.histplot(titanic_data['age'].dropna(), bins=30, kde=True)
plt.title('Distribuição de Idade dos Passageiros')
plt.xlabel('Idade')
plt.ylabel('Frequência')
plt.show()


**Interpretação**: O histograma com uma linha de densidade (KDE) ajuda a visualizar a distribuição de idades, identificando a presença de picos, como crianças pequenas e adultos em idade média. Análises adicionais poderiam investigar se certas faixas etárias tinham uma maior probabilidade de sobrevivência.

## Sobrevivência por Gênero:

Vamos explorar como o gênero influenciou a taxa de sobrevivência:

In [None]:
plt.figure(figsize=(6, 4))
sns.countplot(x='survived', hue='sex', data=titanic_data)
plt.title('Sobrevivência por Gênero')
plt.xlabel('Sobreviveu (0 = Não, 1 = Sim)')
plt.ylabel('Contagem')
plt.show()


**Interpretação**: Este gráfico de barras empilhadas destaca a diferença significativa nas taxas de sobrevivência entre homens e mulheres. No Titanic, havia uma regra de “mulheres e crianças primeiro” para os botes salva-vidas, o que explica a maior taxa de sobrevivência para mulheres. Esse insight é importante ao considerar variáveis de gênero em análises preditivas.

## Classe de Passageiros e Taxa de Sobrevivência:

Explorar a relação entre a classe social dos passageiros (1ª, 2ª, 3ª classe) e suas taxas de sobrevivência:

In [None]:
plt.figure(figsize=(8, 5))
sns.barplot(x='pclass', y='survived', data=titanic_data, ci=None)
plt.title('Taxa de Sobrevivência por Classe de Passageiros')
plt.xlabel('Classe do Passageiro')
plt.ylabel('Taxa de Sobrevivência')
plt.show()


**Interpretação**: Este gráfico de barras mostra que passageiros da 1ª classe tinham uma maior taxa de sobrevivência comparado com aqueles da 2ª e 3ª classe. Esse padrão provavelmente reflete o acesso mais rápido e fácil aos botes salva-vidas para passageiros em classes mais altas. Isso pode indicar que a classe social era um fator crítico na probabilidade de sobrevivência.

## Gráfico de Dispersão entre Idade e Tarifa:

A relação entre a idade dos passageiros e a tarifa paga, colorida pela sobrevivência, pode revelar tendências interessantes:

In [None]:
plt.figure(figsize=(8, 5))
sns.scatterplot(x='age', y='fare', hue='survived', data=titanic_data)
plt.title('Relação entre Idade e Tarifa')
plt.xlabel('Idade')
plt.ylabel('Tarifa')
plt.show()


**Interpretação**: Este gráfico de dispersão permite observar se há uma correlação entre a tarifa paga e a probabilidade de sobrevivência. Notamos que passageiros que pagaram tarifas mais altas (provavelmente da 1ª classe) tinham uma maior chance de sobrevivência, sugerindo uma correlação entre status econômico e sobrevivência. Outliers como tarifas muito altas e baixas podem indicar a presença de passageiros em cabines de luxo ou tarifas subsidiadas.

---

# **Introdução ao KNN (K-Nearest Neighbors)**

O KNN (K-Nearest Neighbors) é um dos algoritmos mais simples e intuitivos de aprendizado de máquina supervisionado. Ele é usado tanto para classificação (descobrir a qual grupo algo pertence) quanto para regressão (prever um valor numérico). Vamos focar no uso do KNN para classificação.

## **Como o KNN funciona?**

Imagine que você acabou de conhecer uma pessoa nova e quer adivinhar se ela gosta de esportes. Você olha para outras pessoas parecidas com ela (em idade, gênero, hábitos, etc.) e observa se essas pessoas gostam ou não de esportes.

### O KNN faz exatamente isso:

* Recebe um novo exemplo (por exemplo, um passageiro do Titanic).

* Procura os "K" vizinhos mais próximos dele no conjunto de dados — ou seja, os mais parecidos com base nas características (idade, classe, sexo, etc.).

* Vota entre os vizinhos: se a maioria sobreviveu, o novo exemplo provavelmente também sobreviveria. Se a maioria não sobreviveu, ele também não sobreviveria.

### Termos Importantes

* **K**: número de vizinhos considerados. Exemplo: K = 3 → o algoritmo olha os 3 mais próximos.

* **Distância**: é como o algoritmo mede quem está mais "próximo". A distância mais usada é a Euclidiana (como a régua entre dois pontos).

* **Classificação**: prever a categoria de algo (ex: sobreviveu ou não).

* **Regressão**: prever um valor numérico (ex: nota de um aluno).

### Exemplo simples

Imagine o gráfico abaixo, com pessoas que sobreviveram ou não no Titanic:

🟢 = Sobreviveu
🔴 = Não Sobreviveu
❓ = Novo passageiro

```
        🟢         🔴
          
    🔴     ❓      🟢
          
        🟢         🔴
```

Se K = 3, o algoritmo olha os 3 pontos mais próximos. Suponha que sejam dois 🟢 e um 🔴 → o novo passageiro será classificado como sobreviveu.

**Vantagens do KNN**

* Simples e fácil de entender.

* Não exige treinamento complexo (os dados são salvos e usados diretamente).

* Funciona bem quando as classes estão bem separadas.

**Desvantagens do KNN**

* Fica lento com muitos dados (porque precisa calcular a distância de todos os pontos).

* Sensível a dados irrelevantes ou com escalas diferentes.

* Não funciona bem em bases com muitos ruídos ou muitas variáveis (alta dimensionalidade).

## **KNN no Titanic**

No caso do dataset Titanic, podemos usar o KNN para prever se um passageiro sobreviveu ou não com base em:

* Idade

* Sexo

* Classe social

* Valor pago na passagem

* Número de familiares a bordo

Assim, ao receber os dados de um novo passageiro, o KNN buscará os passageiros mais parecidos no conjunto de dados e decidirá sua possível sobrevivência com base nisso.

## **Conclusão**

O KNN é como um “conselheiro por proximidade”: para tomar uma decisão, ele olha o que pessoas parecidas fizeram no passado. Por isso, ele é ótimo para começar no mundo do aprendizado de máquina.

In [None]:
# Importar bibliotecas adicionais
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import classification_report, confusion_matrix

# Selecionar features e target
features = ['sex', 'age', 'pclass', 'fare']
df = titanic_data[features + ['survived']].dropna()

# Transformar dados categóricos em numéricos
df['sex'] = df['sex'].map({'male': 0, 'female': 1})

# Separar variáveis independentes (X) e variável alvo (y)
X = df.drop('survived', axis=1)
y = df['survived']

# Dividir em conjunto de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Padronizar os dados (muito importante para o KNN)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Criar e treinar o modelo KNN
knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(X_train_scaled, y_train)

# Fazer previsões
y_pred = knn.predict(X_test_scaled)

# Avaliar desempenho
print("Matriz de Confusão:\n", confusion_matrix(y_test, y_pred))
print("\nRelatório de Classificação:\n", classification_report(y_test, y_pred))