# Titanic Dataset
## TP1 de Projeto de Bloco: Inteligência Artificial e Machine Learning [25E1_5]
### Aluno: Lucas de Souza Ferreira


| Variável  | Tipo de Dado | Descrição | Valores Possíveis |
|-----------|--------------|-----------|-------------------|
| Survival  | Integer      | Indica se o passageiro sobreviveu | 0: Não sobreviveu, 1: Sobreviveu |
| Pclass    | Integer      | Classe da passagem | 1: Primeira Classe, 2: Segunda Classe, 3: Terceira Classe |
| Sex       | String       | Gênero do passageiro | 'male', 'female' |
| Age       | Float        | Idade do passageiro | Valor em anos (pode conter valores nulos) |
| Sibsp     | Integer      | Quantidade de irmãos/cônjuges a bordo | Número inteiro ≥ 0 |
| Parch     | Integer      | Quantidade de pais/filhos a bordo | Número inteiro ≥ 0 |
| Ticket    | String       | Número do bilhete | Código alfanumérico |
| Fare      | Float        | Valor da tarifa | Valor em libras esterlinas (£) da época |
| Cabin     | String       | Número da cabine | Código alfanumérico (pode conter valores nulos) |
| Embarked  | String       | Porto de embarque | 'C': Cherbourg, 'Q': Queenstown, 'S': Southampton |

## Importações

In [None]:
# Import de Pandas, para manipulação de dados
import pandas as pd
# Import de Seaborn, para visualização de gráficos
import seaborn as sns
# Import de Matplotlib, para visualização de gráficos
import matplotlib.pyplot as plt
# Import de Sklearn.preprocessing LabelEncoder, para transformar variáveis categóricas em numéricas
from sklearn.preprocessing import LabelEncoder
# Import de Sklearn.model_selection train_test_split, para dividir os dados em conjuntos de treino e validação
from sklearn.model_selection import train_test_split
# Import de Sklearn.preprocessing StandardScaler, para padronizar os dados
from sklearn.preprocessing import StandardScaler
# Import de Sklearn.neighbors KNeighborsClassifier, para classificação com KNN
from sklearn.neighbors import KNeighborsClassifier
# Import de Numpy, para manipulação de arrays
import numpy as np

## Carregamento dos Dados

In [None]:
# Carregando os dados
df = pd.read_csv('datasets/train.csv')

print("Titanic // Primeiras linhas:")
df.head()

## Informações e Estatísticas Básicas do Dataset Titanic

In [None]:
df.info()

## Análise Estatística Descritiva

In [None]:
# Analise Estatisca Descritiva, utilizando o método describe()
df.describe()

## Visualizando Valores Nulos

### <em style="color:lightblue;">Verificando os valores Nulos por coluna</em>

In [None]:
# Verificando os valores nulos por coluna
df.isnull().sum()

## Visualizando Valores

### <em style="color:lightblue;">Idade (Age) </em>

In [None]:
# Verificando a quantidade de valores nulos na coluna 'Age' e a quantidade de linhas do dataset
df[df['Age'].isnull()].shape

### <em style="color:lightblue;">Visualizando a Destribuição de Idade </em>

In [None]:
#Visualizando distribuição de idade dos passageiros do Titanic (com valores nulos)
df.Age.plot.box()

### <em style="color:lightblue;">Contagem de pessoas por genero em cada classe</em>

In [None]:
# Contagem de pessoas por genero em cada classe
print("Contagem de pessoas por genero em cada classe:")
df.groupby(['Pclass', 'Sex'])['Pclass'].count()

### <em style="color:lightblue;">A porcentagem de pessoas por classe.</em>

In [None]:
df['Pclass'].value_counts(normalize=True).round(2)

plt.figure(figsize=(4, 3))
sns.barplot(data=df, x='Pclass', y='Pclass', estimator=lambda x: len(x) / len(df) * 100)
plt.title('Porcentagem de Pessoas por Classe')
plt.xlabel('Classe')
plt.ylabel('Porcentagem')
plt.show()


### <em style="color:lightblue;">A MÉDIA das idades de pessoas por classe</em>

In [None]:
# A média das idades de pessoas por classe
df.groupby(['Pclass', "Sex"])['Age'].mean().round()

## Tratamento de Valores Nulos (Age)

In [None]:
#
df['Age'] = df['Age'].fillna(df.groupby(['Pclass', 'Sex'])['Age'].transform('mean'))


## Deletando Colunas irrelevantes

As Colunas que serão utilizadas como features são:
- Pclass
- Sex
- Age

A coluna que será utilizada como target é:
- Survived

### <em style="color:lightblue;">Remoção das colunas irrelevantes</em>

In [None]:
# Removendo colunas irrelevantes
# Todas, exceto Pclass, Sex, Age e Survived

df.drop(['PassengerId', 'Name', 'SibSp', 'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'], axis=1, inplace=True)

### <em style="color:lightblue;">Verificando as primeiras linhas do dataset após a remoção das colunas</em>

In [None]:
# Verificando as primeiras linhas do dataset após a remoção das colunas
df.info()

## Visualizando Taxas de Sobrevivência

### <em style="color:lightblue;">Configurando Seaborn</em>

In [None]:
# Configurando estilo do seaborn
sns.set_style("darkgrid")

### <em style="color:lightblue;">Visualizando a Taxa de Sobrevivência por Classe</em>

In [None]:
# Gráfico de barras para taxa de sobrevivência por classe
plt.figure(figsize=(4, 3))
sns.barplot(data=df, x='Pclass', y='Survived', hue='Pclass', errorbar=None, legend=False)
plt.title('Taxa de Sobrevivência')
plt.xlabel('Classe')
plt.ylabel('Taxa de Sobrevivência')
plt.show()

Como na terceira classe existem mais pessoas, a taxa de sobrevivência é, consequentemente, menor.

### <em style="color:lightblue;">Visualizando a Taxa de Sobrevivência por Gênero</em>

In [None]:
plt.figure(figsize=(8, 6))
sns.barplot(data=df, x='Sex', y='Survived', hue='Sex', errorbar=None, legend=False)
plt.title('Taxa de Sobrevivência por Gênero')
plt.xlabel('Gênero')
plt.ylabel('Taxa de Sobrevivência')
plt.show()

# Preparação dos Dados para Machine Learning

### <em style="color:lightblue;">Transformando Variáveis Categóricas em Numéricas</em>

In [None]:
# Sex e Embarked são categóricas e precisam ser transformadas em numéricas
sex_encoder = LabelEncoder()

# Transformando variáveis categóricas em numéricas no conjunto de treino
df['Sex'] = sex_encoder.fit_transform(df['Sex'])


# Treinamento do modelo

### <em style="color:lightblue;">Separando features e target</em>

In [None]:
# Separando features= X e target= Y
X = df.drop('Survived', axis=1)
Y = df['Survived']

### <em style="color:lightblue;">Divisão em conjuntos de treino e validação (80/20)</em>

In [None]:
X_train, X_val, Y_train, Y_val = train_test_split(X, Y, test_size=0.2, random_state=42)

### <em style="color:lightblue;">Padronização dos Dados</em>

In [None]:
## StandardScaler por ser mais sensível a outliers
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_val_scaled = scaler.transform(X_val)

# Definindo K

### <em style="color:lightblue;">Definindo Diferentes Valores de K</em>

In [None]:
# Definindo os valores de K para testar (de 1 a 10)
k_values = range(1, 15)
val_scores = []

### <em style="color:lightblue;">Testando diferentes valores de K</em>

In [None]:
# Testando diferentes valores de K
for k in k_values:
    knn = KNeighborsClassifier(n_neighbors=k)
    knn.fit(X_train_scaled, Y_train)

    # Avaliando no conjunto de validação
    val_score = knn.score(X_val_scaled, Y_val)
    val_scores.append(val_score)

### <em style="color:lightblue;">Mostando gráfico para melhor visualizaçãp (1 a 15)</em>

In [None]:
# Plotando o gráfico
plt.rcParams['axes.prop_cycle'] = plt.cycler(color=plt.cm.viridis_r(np.linspace(0, 1, 15)))
plt.figure(figsize=(8, 5))
plt.plot(k_values, val_scores, marker='o', linestyle='-')
plt.xlabel('Vizinhos (K)')
plt.ylabel('Acurácia')
plt.title('Acurácia em diferentes valores de K (1 a 15)')
plt.grid(True)
plt.show()