<h1>
    Predicción de Supervivientes del Titanic
</h1>

<h3>Importe de Herramientas</h3>

In [1]:
import numpy as np
import pandas as pd
import matplotlib as plt

from sklearn.tree.export import export_text
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import confusion_matrix, precision_score
from sklearn import preprocessing

<h3>Carga de datos desde CSV</h3>

In [2]:
Titanic = pd.read_csv('C:\Titanic.csv')
print(Titanic)

     PassengerId  Survived  Pclass  \
0              1         0       3   
1              2         1       1   
2              3         1       3   
3              4         1       1   
4              5         0       3   
..           ...       ...     ...   
886          887         0       2   
887          888         1       1   
888          889         0       3   
889          890         1       1   
890          891         0       3   

                                                  Name     Sex   Age  SibSp  \
0                              Braund, Mr. Owen Harris    male  22.0      1   
1    Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                               Heikkinen, Miss. Laina  female  26.0      0   
3         Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                             Allen, Mr. William Henry    male  35.0      0   
..                                                 ...     ...   ... 

<h3>Entendimiento de los datos</h3>

In [3]:
Titanic.count()

PassengerId    891
Survived       891
Pclass         891
Name           891
Sex            891
Age            714
SibSp          891
Parch          891
Ticket         891
Fare           891
Cabin          204
Embarked       889
dtype: int64

<p>Se elimina la columna de "Cabina" debido a la importante falta de datos en relación a las otras características</p>

In [4]:
Titanic = Titanic.drop(['Cabin'],axis=1)
Titanic.count()

PassengerId    891
Survived       891
Pclass         891
Name           891
Sex            891
Age            714
SibSp          891
Parch          891
Ticket         891
Fare           891
Embarked       889
dtype: int64

<h3>Preparación de los datos</h3>

<p>Se eliminan los datos que poseen registros faltantes debido a que varios algoritmos de ML tienen dificultadoes. Además, se elige eliminarlos en vez de completar con la media (o similar)para no influir sobre los datos. En este caso, la mayor pérdida de registros corresponde a la edad de los tripulantes.

In [5]:
Titanic = Titanic.dropna()
print(Titanic.count())
Titanic.head(5)

PassengerId    712
Survived       712
Pclass         712
Name           712
Sex            712
Age            712
SibSp          712
Parch          712
Ticket         712
Fare           712
Embarked       712
dtype: int64


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,S


<p>Se eliminan las variables que no son categóricas</p>

In [6]:
#Titanic = Titanic.drop(['PassengerId', 'Name' , 'Ticket', 'Parch'],axis=1)
Titanic = Titanic.drop(['PassengerId', 'Name' , 'Ticket'],axis=1)
Titanic.head(5)

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked
0,0,3,male,22.0,1,0,7.25,S
1,1,1,female,38.0,1,0,71.2833,C
2,1,3,female,26.0,0,0,7.925,S
3,1,1,female,35.0,1,0,53.1,S
4,0,3,male,35.0,0,0,8.05,S


<p>Transformacion de variables categóricas a numéricas</p>

In [7]:
Titanic_PP = Titanic

In [8]:
Encoder = preprocessing.LabelEncoder()

In [9]:
Titanic_PP.Sex = Encoder.fit_transform(Titanic.Sex)
Titanic_PP.Embarked = Encoder.fit_transform(Titanic.Embarked)

In [10]:
Titanic_PP.head(5)

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked
0,0,3,1,22.0,1,0,7.25,2
1,1,1,0,38.0,1,0,71.2833,0
2,1,3,0,26.0,0,0,7.925,2
3,1,1,0,35.0,1,0,53.1,2
4,0,3,1,35.0,0,0,8.05,2


In [11]:
Y_AAC = Titanic_PP['Survived'].values
X_AAC = Titanic_PP.drop(['Survived'], axis = 1).values

<h3>Implementación del Modelo</h3>

<p>Se importa el algoritmo de Árboles de Decision, para clasificación</p>

In [12]:
from sklearn.model_selection import train_test_split

<p>Se separan los datos para crear un conjunto de entrenamiento (Train) y un conjunto de pruebas (Test), en una proporcion de 80/20</p>

In [13]:
X_train, X_test, Y_train, Y_test = train_test_split(X_AAC, Y_AAC, test_size = 0.2)

<p>Se crea una instancia del modelo, se configuran sus parametros y luego se entrena utilizando el conjunto de "Train"</p>

In [14]:
Algoritmo_AAC = DecisionTreeClassifier(criterion='entropy', max_depth = 10)

Algoritmo_AAC.fit(X_train, Y_train)

DecisionTreeClassifier(class_weight=None, criterion='entropy', max_depth=10,
                       max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, presort=False,
                       random_state=None, splitter='best')

<p>Se realiza una predicción, utilizando un ejemplo del conjunto "Test"</p>

In [15]:
Prediccion = Algoritmo_AAC.predict(X_test)

<h3>Conclusiones del Modelo</h3>

In [16]:
#print(export_text(Algoritmo_AAC, ['Pclass','Sex','Age','SibSp','Fare','Embarked']))
print(export_text(Algoritmo_AAC, ['Pclass','Sex','Age','SibSp','Parch','Fare','Embarked']))

|--- Sex <= 0.50
|   |--- Pclass <= 2.50
|   |   |--- Fare <= 28.86
|   |   |   |--- Age <= 37.00
|   |   |   |   |--- Age <= 27.50
|   |   |   |   |   |--- Age <= 23.50
|   |   |   |   |   |   |--- class: 1
|   |   |   |   |   |--- Age >  23.50
|   |   |   |   |   |   |--- SibSp <= 1.50
|   |   |   |   |   |   |   |--- SibSp <= 0.50
|   |   |   |   |   |   |   |   |--- Fare <= 13.75
|   |   |   |   |   |   |   |   |   |--- Fare <= 11.75
|   |   |   |   |   |   |   |   |   |   |--- class: 1
|   |   |   |   |   |   |   |   |   |--- Fare >  11.75
|   |   |   |   |   |   |   |   |   |   |--- class: 0
|   |   |   |   |   |   |   |   |--- Fare >  13.75
|   |   |   |   |   |   |   |   |   |--- class: 1
|   |   |   |   |   |   |   |--- SibSp >  0.50
|   |   |   |   |   |   |   |   |--- Embarked <= 1.00
|   |   |   |   |   |   |   |   |   |--- class: 1
|   |   |   |   |   |   |   |   |--- Embarked >  1.00
|   |   |   |   |   |   |   |   |   |--- class: 0
|   |   |   |   |   |   |--- SibSp >  1

<p>Se verifica la matriz de confusión</p>

In [17]:
Matriz_C = confusion_matrix(Y_test, Prediccion)

In [18]:
print("Predicciones Correctas: ",(Matriz_C[0][0] + Matriz_C[1][1]))
print("Predicciones Correctas: ",(Matriz_C[1][0] + Matriz_C[0][1]))

Predicciones Correctas:  116
Predicciones Correctas:  27


In [19]:
Precision_Modelo = precision_score(Y_test, Prediccion)
print("Precisión del Modelo: ",Precision_Modelo)

Precisión del Modelo:  0.803921568627451


In [20]:
print("Resultados del Modelo Arbol de Decision de Clasificacion")
print()
print("Precision del Modelo: ", Algoritmo_AAC.score(X_test, Y_test))

Resultados del Modelo Arbol de Decision de Clasificacion

Precision del Modelo:  0.8111888111888111


<h3>Comentarios</h3>

<p>Despues de haber realizado la actividad, pude darme cuenta de que la mayor parte del trabajo se encuentra en el preprocesamiento de los datos, más que la implementación del algoritmo mismo. Además, en base a mi desarrollo, lo segundo con mayor importancia fue la selección de las características a ingresar el modelo, ya que, considerar unas u otras características, repercute fuertemente en la precisión lograda por el modelo</p>