# Titanic

### Explicação sobre o dataset: 

O  Dataset  consiste  em  dados  dos  passageiros  do  Titanic,  tais  como 
cabine, número de irmãos e pais, sexo, local de embarque, valor do ticket 
entre outros, totalizando 12 colunas e 891 linhas. 

### Objetivo do trabalho: 
 
Classificar passageiros que sobreviveram ou não a partir das relações de 
seus atributos. A partir destes mesmos atributos, realizar uma 
clusterização a fim de identificar grupos de pessoas com características 
semelhantes. 
 
 
### Atividades que serão realizadas sobre o dataset para atingir o objetivo: 
 
Classificação 

Clusterização 


In [25]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, classification_report
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import LabelEncoder, StandardScaler

In [26]:
titanic_data = pd.read_csv('./dataset/Titanic-Dataset.csv')
titanic_data.head()
titanic_data.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


### Atributos e valores faltantes

In [27]:
tipos_atributos = titanic_data.dtypes

valores_nulos = titanic_data.isnull().sum()

tipos_atributos, valores_nulos

(PassengerId      int64
 Survived         int64
 Pclass           int64
 Name            object
 Sex             object
 Age            float64
 SibSp            int64
 Parch            int64
 Ticket          object
 Fare           float64
 Cabin           object
 Embarked        object
 dtype: object,
 PassengerId      0
 Survived         0
 Pclass           0
 Name             0
 Sex              0
 Age            177
 SibSp            0
 Parch            0
 Ticket           0
 Fare             0
 Cabin          687
 Embarked         2
 dtype: int64)

### Lidando com valores ausentes
Baseado nas informações acima, temos valores ausentes para os atributos AGe, Cabin e Embarked. Para os atributos AGe e Cabin, vamos prencher os valores ausentes com o valor da média e o valor mais frequente, respectivamente. Já o atributo Cabin, vamos descartar, pois são muitos e não temos um mapa das cabines que pudesse afetar na predição

In [28]:
imputer_age = SimpleImputer(strategy='mean')
imputer_embarked = SimpleImputer(strategy='most_frequent')

titanic_data['Age'] = imputer_age.fit_transform(titanic_data[['Age']])
titanic_data['Embarked'] = imputer_embarked.fit_transform(titanic_data[['Embarked']]).ravel()

titanic_data = titanic_data.drop(columns=['PassengerId', 'Name', 'Ticket', 'Cabin'])

titanic_data.head()

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked
0,0,3,male,22.0,1,0,7.25,S
1,1,1,female,38.0,1,0,71.2833,C
2,1,3,female,26.0,0,0,7.925,S
3,1,1,female,35.0,1,0,53.1,S
4,0,3,male,35.0,0,0,8.05,S


### Categorização de atributos

In [29]:
label_encoder_sex = LabelEncoder()
label_encoder_embarked = LabelEncoder()

titanic_data['Sex'] = label_encoder_sex.fit_transform(titanic_data['Sex'])
titanic_data['Embarked'] = label_encoder_embarked.fit_transform(titanic_data['Embarked'])

titanic_data.head()

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked
0,0,3,1,22.0,1,0,7.25,2
1,1,1,0,38.0,1,0,71.2833,0
2,1,3,0,26.0,0,0,7.925,2
3,1,1,0,35.0,1,0,53.1,2
4,0,3,1,35.0,0,0,8.05,2


### Remover classe alvo

In [30]:
X = titanic_data.drop('Survived', axis=1)
y = titanic_data['Survived']

### Separar conjunto de treino e validação

In [31]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

### Treino

In [32]:
decision_tree = DecisionTreeClassifier(criterion='entropy')
decision_tree.fit(X_train, y_train)

### Métricas

In [33]:
y_pred = decision_tree.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
classification_rep = classification_report(y_test, y_pred)

print(f"Acurácia: {accuracy}")
print("Relatório de Classificação:")
print(classification_rep)

Acurácia: 0.7877094972067039
Relatório de Classificação:
              precision    recall  f1-score   support

           0       0.81      0.83      0.82       105
           1       0.75      0.73      0.74        74

    accuracy                           0.79       179
   macro avg       0.78      0.78      0.78       179
weighted avg       0.79      0.79      0.79       179



### Árvore de decisão