#Importacion de librerias
##import pandas as pd:

pandas es una biblioteca de Python para la manipulación y análisis de datos. Se utiliza para trabajar con estructuras de datos como DataFrames. Aquí se importa con el alias pd para simplificar su uso.
##import numpy as np:

numpy es una biblioteca para operaciones matemáticas y científicas en Python, especialmente para trabajar con arrays y matrices. Se importa con el alias np.
##import matplotlib.pyplot as plt:

matplotlib.pyplot es un módulo de la biblioteca matplotlib que proporciona funciones para crear gráficos y visualizaciones. Se importa con el alias plt.
##import seaborn as sbn:

seaborn es una biblioteca para la visualización de datos basada en matplotlib, que ofrece una interfaz de alto nivel para crear gráficos estadísticos. Se importa con el alias sbn.

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sbn

Este código carga tres archivos CSV en DataFrames: gender_submission.csv en df_gender, train.csv en df_train, y test.csv en df_test. Luego, imprime la forma (número de filas y columnas) del DataFrame df_gender y muestra las primeras 5 filas de df_gender para inspeccionar su contenido y estructura.

In [2]:
df_gender = pd.read_csv('gender_submission.csv')
df_train = pd.read_csv('train.csv')
df_test = pd.read_csv('test.csv')
print(df_gender.shape)
df_gender.head()

(418, 2)


Unnamed: 0,PassengerId,Survived
0,892,0
1,893,1
2,894,0
3,895,0
4,896,1


In [3]:
print(df_train.shape)
df_train.head()

(891, 12)


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [4]:
print(df_test.shape)
df_test.head()

(418, 11)


Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
2,894,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S


In [5]:
count_na = df_train.isna().sum()
print('Cantidad de valores NaN en datos de entrenamiento:\n', count_na)

Cantidad de valores NaN en datos de entrenamiento:
 PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64


In [6]:
df_train.shape

(891, 12)

En la columna de edad, hay 177 valores faltantes de un total de 891, lo que equivale al 19.86% de los datos en esa columna. Se consideraron dos cursos de acción para abordar este problema: imputación de datos o eliminación. Tras evaluar el modelo en ambos escenarios, se escogerá el que tenga mejor precisión. Para la imputación, utilizamos la mediana, agrupando los datos por clase y sexo, y así obtener la mediana de cada grupo. Esta se usó para llenar los datos faltantes, con cerca de seis combinaciones diferentes. Este método se consideró adecuado debido a la menor proporción de información faltante en esta columna.

La columna de cabina se eliminará dado que faltan 687 de 891 datos (77.1%), además de que esta columna no tiene mucha relevancia en los datos como otras columnas como lo son la edad, nombre, clase, etc. Bajo este mismo concepto, se eliminarán las columnas "Ticket", "Fare" y "PassengerId".

In [7]:
df_train = df_train.drop(['Ticket', 'Cabin', 'PassengerId', 'Fare'], axis=1)

In [8]:
print(df_train.shape)
df_train.head()

(891, 8)


Unnamed: 0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Embarked
0,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,S
1,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,C
2,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,S
3,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,S
4,0,3,"Allen, Mr. William Henry",male,35.0,0,0,S


In [9]:
df_test = df_test.drop(['Ticket', 'Cabin', 'PassengerId', 'Fare'], axis=1)

In [10]:
print(df_test.shape)
df_test.head()

(418, 7)


Unnamed: 0,Pclass,Name,Sex,Age,SibSp,Parch,Embarked
0,3,"Kelly, Mr. James",male,34.5,0,0,Q
1,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,S
2,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,Q
3,3,"Wirz, Mr. Albert",male,27.0,0,0,S
4,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,S


In [11]:
# Mapear los valores de 'Sex' a 0 para 'male' y 1 para 'female'
df_train['Sex bool'] = df_train['Sex'].map({'male': 0, 'female': 1})
df_train.head()

Unnamed: 0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Embarked,Sex bool
0,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,S,0
1,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,C,1
2,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,S,1
3,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,S,1
4,0,3,"Allen, Mr. William Henry",male,35.0,0,0,S,0


Ahora que ya tenemos la columna 'Sex bool' con datos numéricos para categorizar el sexo en solo 0 o 1, se puede proceder a eliminar la columna 'sex' para evitar tener datos redundantes o repetidos, dejando solo lo necesario para que funcione de buena manera nuestro modelo.

In [12]:
df_train = df_train.drop(['Sex'], axis=1)
df_train.head()

Unnamed: 0,Survived,Pclass,Name,Age,SibSp,Parch,Embarked,Sex bool
0,0,3,"Braund, Mr. Owen Harris",22.0,1,0,S,0
1,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",38.0,1,0,C,1
2,1,3,"Heikkinen, Miss. Laina",26.0,0,0,S,1
3,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",35.0,1,0,S,1
4,0,3,"Allen, Mr. William Henry",35.0,0,0,S,0


Ahora que ya quitamos las columnas con datos redundantes o no relevantes, procedemos a probar el modelo. Como primera opción, lo probamos tras eliminar las instancias que tengan valores faltantes en la columna de edad, y como segunda opción lo probamos tras rellenar los valores faltantes de dicha columna.

Luego de esto, el modelo que demuestre mejor precisión será el que se va a utilizar.

In [13]:
# Eliminación de valores faltantes en la columna "Age"
df_train_limp = df_train.dropna(axis=0)

In [14]:
# Confirmamos que ya no haya valores faltantes
count_na = df_train_limp.isna().sum()
print('Valores faltantes por columna:/n', count_na)

Valores faltantes por columna:/n Survived    0
Pclass      0
Name        0
Age         0
SibSp       0
Parch       0
Embarked    0
Sex bool    0
dtype: int64


In [15]:
print(df_train_limp.shape)
df_train_limp

(712, 8)


Unnamed: 0,Survived,Pclass,Name,Age,SibSp,Parch,Embarked,Sex bool
0,0,3,"Braund, Mr. Owen Harris",22.0,1,0,S,0
1,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",38.0,1,0,C,1
2,1,3,"Heikkinen, Miss. Laina",26.0,0,0,S,1
3,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",35.0,1,0,S,1
4,0,3,"Allen, Mr. William Henry",35.0,0,0,S,0
...,...,...,...,...,...,...,...,...
885,0,3,"Rice, Mrs. William (Margaret Norton)",39.0,0,5,Q,1
886,0,2,"Montvila, Rev. Juozas",27.0,0,0,S,0
887,1,1,"Graham, Miss. Margaret Edith",19.0,0,0,S,1
889,1,1,"Behr, Mr. Karl Howell",26.0,0,0,C,0


Como se puede observar, se han eliminado las instancias que tenían valores faltantes, pues las dimensiones del dataseframe se han reduido acorde a ello. Ahora se procede con el desarrollo y entrenamiento del modelo para evaluar su desempeño y decidir si se va a utilizar este modelo o el que se hará a continuación con rellenado de edades faltantes.

In [16]:
# Antes hay que hacer lo mismo para el test set como lo hicimos para el train set.
df_test_limp = df_test.dropna(axis=0)

# Modelos

In [17]:
# Hay que actualizar el test set con la nueva columna tal como hicimos con el train set.
df_test['Sex bool'] = df_test['Sex'].apply(lambda x: 0 if x == 'male' else 1)

In [18]:
# Crear columna de 'Survived' en los datos de test para predecir dicha variable con nuestro modelo
df_test['Survived'] = 0

In [19]:
# Ahora si, se procede con el modelo de regresión lineal para predicción tras eliminar valores faltantes de edad
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

## Modelo tras eliminar edades faltantes

In [20]:
x = df_train_limp.iloc[:, :-1]
x = df_train_limp.drop(['Name', 'Embarked'], axis=1)
y = df_train_limp['Survived']
x_train = df_train_limp.iloc[:, :-1]
x_test = df_test_limp.iloc[:, :-1]
y_train = df_train_limp['Survived']
y_test = df_test['Survived']
x_train, x_test, y_train, y_test = train_test_split(x, y)
modelo_reg = LogisticRegression().fit(x_train, y_train)
modelo_reg.score(x_train, y_train)
modelo_reg.score(x_test, y_test)
modelo_reg.predict(x_test)

array([1, 1, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 1, 1,
       1, 0, 0, 0, 1, 1, 0, 1, 0, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 0, 1, 0,
       1, 1, 0, 1, 1, 0, 0, 0, 0, 1, 1, 0, 1, 1, 1, 0, 1, 1, 1, 1, 1, 0,
       1, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0,
       0, 1, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 1, 1, 0, 1, 0, 1,
       0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 1, 1, 0, 0, 0, 1, 0, 1, 1, 0,
       1, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0, 1, 0, 1, 0, 0, 1,
       0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 0, 0, 1,
       1, 0])

In [21]:
# Modelo de árboles de decisión tras eliminar instancias faltantes
from sklearn.tree import DecisionTreeClassifier
x_train, x_test, y_train, y_test = train_test_split(x, y)
modelo_arboles = DecisionTreeClassifier().fit(x_train, y_train)
modelo_arboles.score(x_train, y_train)
modelo_arboles.score(x_test, y_test)
modelo_arboles.predict(x_test)

array([1, 1, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0,
       0, 1, 0, 1, 1, 0, 1, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0,
       0, 0, 0, 1, 1, 0, 1, 1, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 1, 1,
       1, 1, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0,
       1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 1,
       1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 1, 1, 0,
       1, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1,
       1, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0,
       1, 0])

## Rellenado de edades faltantes

In [22]:
## Rellenado de valores faltantes en la columna "Age":
# Imputación basada en grupos rellenando los valores faltantes de manera condicional (en este caso según la clase o el género) mediante el
# agrupamiento de estas variables consideradas para aplicar el rellenado en base a esto y sea de manera más informada y no tan sesgada ni aleatoria.

df_train['Age'] = df_train.groupby(['Pclass', 'Sex bool'])['Age'].transform(lambda x: x.fillna(x.median()))
df_test['Age'] = df_test.groupby(['Pclass', 'Sex bool'])['Age'].transform(lambda x: x.fillna(x.median()))

In [23]:
# Imprimimos el dataframe tras el rellenado para confirmar que sus dimensiones se conservaron y que no se quitaron datos como en la primera solución
print(df_train.shape)
df_train

(891, 8)


Unnamed: 0,Survived,Pclass,Name,Age,SibSp,Parch,Embarked,Sex bool
0,0,3,"Braund, Mr. Owen Harris",22.0,1,0,S,0
1,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",38.0,1,0,C,1
2,1,3,"Heikkinen, Miss. Laina",26.0,0,0,S,1
3,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",35.0,1,0,S,1
4,0,3,"Allen, Mr. William Henry",35.0,0,0,S,0
...,...,...,...,...,...,...,...,...
886,0,2,"Montvila, Rev. Juozas",27.0,0,0,S,0
887,1,1,"Graham, Miss. Margaret Edith",19.0,0,0,S,1
888,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",21.5,1,2,S,1
889,1,1,"Behr, Mr. Karl Howell",26.0,0,0,C,0


In [24]:
count_na = df_train['Age'].isna().sum()
print('Valores faltantes en columna "Age":\n', count_na)

Valores faltantes en columna "Age":
 0


Como se puede observar, ya no hay valores faltantes, por lo que el rellenado de las edades faltantes fue realizado con éxito. Ahora se procede con el desarrollo y entrenamiento del modelo para evaluar su desempeño y decidir si se va a utilizar este modelo o el que se hizo anteriormente con eliminación de instancias faltantes.

### Modelo tras rellenado de edades faltantes

In [25]:
# Modelo de regresión lineal para predicción tras rellenar valores faltantes de edad
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

In [26]:
x = df_train.iloc[:, :-1]
x = df_train.drop(['Name', 'Embarked'], axis=1)
y = df_train['Survived']
x_train = df_train.iloc[:, :-1]
x_test = df_test.iloc[:, :-1]
y_train = df_train_limp['Survived']
y_test = ['Survived']
x_train, x_test, y_train, y_test = train_test_split(x, y)
modelo_reg = LogisticRegression().fit(x_train, y_train)
modelo_reg.score(x_train, y_train)
modelo_reg.score(x_test, y_test)
modelo_reg.predict(x_test)

array([0, 1, 1, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0,
       0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 1, 0, 0, 1,
       0, 0, 0, 1, 1, 0, 1, 1, 1, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0,
       1, 0, 1, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 1, 1, 1, 0,
       1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0,
       0, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 1, 0,
       0, 1, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1, 1, 1, 1, 1,
       0, 1, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 0, 0, 0,
       0, 1, 1, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 1,
       1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1,
       0, 0, 0])

In [27]:
# Modelo de árboles de decisión tras rellenado de edades
from sklearn.tree import DecisionTreeClassifier
x_train, x_test, y_train, y_test = train_test_split(x, y)
modelo_arboles = DecisionTreeClassifier().fit(x_train, y_train)
modelo_arboles.score(x_train, y_train)
modelo_arboles.score(x_test, y_test)
modelo_arboles.predict(x_test)

array([0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0,
       0, 0, 1, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 0, 1, 0, 0, 1,
       1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 1, 1, 1, 0,
       0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 0,
       0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0,
       0, 0, 1, 1, 0, 1, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0,
       1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       0, 1, 1, 0, 1, 0, 0, 0, 1, 0, 1, 0, 1, 1, 0, 1, 1, 1, 0, 0, 1, 0,
       0, 1, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 1, 0,
       0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 1, 1, 0,
       0, 0, 0])

## Procesamiento de datos

Como muchos modelos de aprendizaje no pueden trabajar directamente con categorias y nuestro feature de Embarked clasifica nuestras instancias dependiendo de la ciudad de embarque necesitamos un procesamiento que cambie las categorias por un dato mas facil de procesar


In [40]:
df_train_encoded = pd.get_dummies(df_train, columns=['Embarked'], dtype=int)
df_test_encoded = pd.get_dummies(df_test, columns=['Embarked'], dtype=int)
df_test_encoded

Unnamed: 0,Pclass,Name,Sex,Age,SibSp,Parch,Sex bool,Survived,Embarked_C,Embarked_Q,Embarked_S
0,3,"Kelly, Mr. James",male,34.5,0,0,0,0,0,1,0
1,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,1,0,0,0,1
2,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,0,0,0,1,0
3,3,"Wirz, Mr. Albert",male,27.0,0,0,0,0,0,0,1
4,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,1,0,0,0,1
...,...,...,...,...,...,...,...,...,...,...,...
413,3,"Spector, Mr. Woolf",male,24.0,0,0,0,0,0,0,1
414,1,"Oliva y Ocana, Dona. Fermina",female,39.0,0,0,1,0,1,0,0
415,3,"Saether, Mr. Simon Sivertsen",male,38.5,0,0,0,0,0,0,1
416,3,"Ware, Mr. Frederick",male,24.0,0,0,0,0,0,0,1
