# Titanic

En este proyecto vamos a realizar el primer ejercicio que por lo general se hace cuando se está comenzando en *Machine Learning* y es el de predecir la supervivencia del **Titanic**.

Los datos los vamos a obtener de la página de [*Kaggle*](https://www.kaggle.com/), para ello se debe estar suscrito para poder tener acceso a los mismos.

Nuestro proyecto lo vamos a dividir de la siguiente forma:

1. Importación de las librerías de Python que vamos a utilizar
2. Importación de los datos que vamos a utilizar dentro de nuestro análisis
3. Limpieza de los datos importados
4. Preprocesamiento de los datos
5. Aplicación de los algoritmos de *Machine Learning*
6. Realización de las predicciones correspondientes

Todo está basado en el trabajo realizado en esta [página](https://aprendeia.com/predecir-la-supervivencia-del-titanic-utilizando-python/).

### 1. Importación de las librerías de Python que vamos a utilizar

In [1]:
#Se importan la librerías que vamos a utilizar
import numpy as np
import pandas as pd

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier

### 2. Importación de los datos que vamos a utilizar dentro de nuestro análisis

Lo siguiente que vamos hacer es importar los datos desde la página de [*Kaggle*](https://www.kaggle.com/), guardarlos en nuestro ordenador y, a su vez, guardar dichos datos en variables Pandas para poderlos manipular a lo largo del programa. El archivo *test*, para las **pruebas**, y el archivo *train*, para el **entrenamiento**.

In [2]:
#Se importan los datos de los archivos .csv almacenados
df_train = pd.read_csv('c:/Titanic/train.csv')
df_test = pd.read_csv('c:/Titanic/test.csv')

In [3]:
df_train

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [4]:
df_test

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0000,,S
2,894,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S
...,...,...,...,...,...,...,...,...,...,...,...
413,1305,3,"Spector, Mr. Woolf",male,,0,0,A.5. 3236,8.0500,,S
414,1306,1,"Oliva y Ocana, Dona. Fermina",female,39.0,0,0,PC 17758,108.9000,C105,C
415,1307,3,"Saether, Mr. Simon Sivertsen",male,38.5,0,0,SOTON/O.Q. 3101262,7.2500,,S
416,1308,3,"Ware, Mr. Frederick",male,,0,0,359309,8.0500,,S


### 3. Limpieza de los datos importados

Para abordar la limpieza de datos, en primer lugar copiaremos los datos en nuevas variables. Así, siempre podremos recurrir a los datos originales.

In [5]:
df_train_l = df_train.copy()
df_test_l = df_test.copy()

In [6]:
df_train_l

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [7]:
df_test_l

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0000,,S
2,894,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S
...,...,...,...,...,...,...,...,...,...,...,...
413,1305,3,"Spector, Mr. Woolf",male,,0,0,A.5. 3236,8.0500,,S
414,1306,1,"Oliva y Ocana, Dona. Fermina",female,39.0,0,0,PC 17758,108.9000,C105,C
415,1307,3,"Saether, Mr. Simon Sivertsen",male,38.5,0,0,SOTON/O.Q. 3101262,7.2500,,S
416,1308,3,"Ware, Mr. Frederick",male,,0,0,359309,8.0500,,S


Una de las primeras acciones de limpieza de datos es eliminar la primera línea, que en ocasiones contiene texto extraño en lugar de los títulos de las columnas. Este texto evita que el conjunto de datos sea analizado correctamente por la librería de Pandas. Para eliminar esta información puedes implementar el siguiente código. En nuestro caso, no no es necesario.

In [8]:
#df_test = pd.read_csv('c:/Titanic/test.csv', skiprows = 1, low_memory = False)

También se pueden eliminar columnas con explicaciones de texto que no necesitaremos u otras columnas innecesarias. O aquellas columnas que consideremos que no son necesarias para el análisis:

In [9]:
df_train_l = df_train_l.drop(['PassengerId','Name','Ticket'], axis = 1)
df_test_l = df_test_l.drop(['Name','Ticket'], axis = 1)
df_train_l

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Cabin,Embarked
0,0,3,male,22.0,1,0,7.2500,,S
1,1,1,female,38.0,1,0,71.2833,C85,C
2,1,3,female,26.0,0,0,7.9250,,S
3,1,1,female,35.0,1,0,53.1000,C123,S
4,0,3,male,35.0,0,0,8.0500,,S
...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,,S
887,1,1,female,19.0,0,0,30.0000,B42,S
888,0,3,female,,1,2,23.4500,,S
889,1,1,male,26.0,0,0,30.0000,C148,C


In [10]:
df_test_l

Unnamed: 0,PassengerId,Pclass,Sex,Age,SibSp,Parch,Fare,Cabin,Embarked
0,892,3,male,34.5,0,0,7.8292,,Q
1,893,3,female,47.0,1,0,7.0000,,S
2,894,2,male,62.0,0,0,9.6875,,Q
3,895,3,male,27.0,0,0,8.6625,,S
4,896,3,female,22.0,1,1,12.2875,,S
...,...,...,...,...,...,...,...,...,...
413,1305,3,male,,0,0,8.0500,,S
414,1306,1,female,39.0,0,0,108.9000,C105,C
415,1307,3,male,38.5,0,0,7.2500,,S
416,1308,3,male,,0,0,8.0500,,S


Además, podemos ver si hay alguna columna con muchos datos faltantes:

In [11]:
#Verifico los datos faltantes de los dataset
print('Datos faltantes:')
pd.isnull(df_train_l).sum()

Datos faltantes:


Survived      0
Pclass        0
Sex           0
Age         177
SibSp         0
Parch         0
Fare          0
Cabin       687
Embarked      2
dtype: int64

In [12]:
print('Datos faltantes:')
pd.isnull(df_test_l).sum()

Datos faltantes:


PassengerId      0
Pclass           0
Sex              0
Age             86
SibSp            0
Parch            0
Fare             1
Cabin          327
Embarked         0
dtype: int64

Vemos que la columna 'Cabin' tiene muchos datos faltantes. Sí podría aportar información a nuestro estudio, pero no contamos con un criterio aplicable para completar los datos faltantes. Así que la eliminamos:

In [13]:
df_train_l = df_train_l.drop(['Cabin'], axis = 1)
df_test_l = df_test_l.drop(['Cabin'], axis = 1)

In [14]:
df_train_l

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked
0,0,3,male,22.0,1,0,7.2500,S
1,1,1,female,38.0,1,0,71.2833,C
2,1,3,female,26.0,0,0,7.9250,S
3,1,1,female,35.0,1,0,53.1000,S
4,0,3,male,35.0,0,0,8.0500,S
...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S
887,1,1,female,19.0,0,0,30.0000,S
888,0,3,female,,1,2,23.4500,S
889,1,1,male,26.0,0,0,30.0000,C


In [15]:
df_test_l

Unnamed: 0,PassengerId,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked
0,892,3,male,34.5,0,0,7.8292,Q
1,893,3,female,47.0,1,0,7.0000,S
2,894,2,male,62.0,0,0,9.6875,Q
3,895,3,male,27.0,0,0,8.6625,S
4,896,3,female,22.0,1,1,12.2875,S
...,...,...,...,...,...,...,...,...
413,1305,3,male,,0,0,8.0500,S
414,1306,1,female,39.0,0,0,108.9000,C
415,1307,3,male,38.5,0,0,7.2500,S
416,1308,3,male,,0,0,8.0500,S


Vemos también que la columna 'Age' tiene bastantes datos faltantes, pero esta indormación sí es significativa para nuestro estudio. Así que hallamos la media e incorporamos esos datos:

In [16]:
#Calculamos la media de esta columna
media1 = round(df_train_l["Age"].mean(),1)
media2 = round(df_test_l["Age"].mean(),1)

In [17]:
media1

29.7

In [18]:
media2

30.3

In [19]:
#Reemplazamos los datos faltantes en la edad por la media de esta columna
df_train_l['Age'] = df_train_l['Age'].replace(np.nan, media1)
df_test_l['Age'] = df_test_l['Age'].replace(np.nan, media2)
df_train_l

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked
0,0,3,male,22.0,1,0,7.2500,S
1,1,1,female,38.0,1,0,71.2833,C
2,1,3,female,26.0,0,0,7.9250,S
3,1,1,female,35.0,1,0,53.1000,S
4,0,3,male,35.0,0,0,8.0500,S
...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S
887,1,1,female,19.0,0,0,30.0000,S
888,0,3,female,29.7,1,2,23.4500,S
889,1,1,male,26.0,0,0,30.0000,C


In [20]:
df_test_l

Unnamed: 0,PassengerId,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked
0,892,3,male,34.5,0,0,7.8292,Q
1,893,3,female,47.0,1,0,7.0000,S
2,894,2,male,62.0,0,0,9.6875,Q
3,895,3,male,27.0,0,0,8.6625,S
4,896,3,female,22.0,1,1,12.2875,S
...,...,...,...,...,...,...,...,...
413,1305,3,male,30.3,0,0,8.0500,S
414,1306,1,female,39.0,0,0,108.9000,C
415,1307,3,male,38.5,0,0,7.2500,S
416,1308,3,male,30.3,0,0,8.0500,S


In [21]:
#Y comprobamos los datos faltantes:
print('Datos faltantes:')
pd.isnull(df_train_l).sum()

Datos faltantes:


Survived    0
Pclass      0
Sex         0
Age         0
SibSp       0
Parch       0
Fare        0
Embarked    2
dtype: int64

In [22]:
print('Datos faltantes:')
pd.isnull(df_test_l).sum()

Datos faltantes:


PassengerId    0
Pclass         0
Sex            0
Age            0
SibSp          0
Parch          0
Fare           1
Embarked       0
dtype: int64

Seguimos teniendo 2 datos faltantes en el campo 'Embarked' del *dataframe* 'train' y 1 dato faltante en el campo 'Fare' del *dataframe* 'test'. Para el campo 'Embarked' usaremos la moda, el valor más repetido, y para el campo 'Fare' usaremos la media.

In [23]:
#Calculamos la moda de la columna 'Embarked'
modaEmbarked = df_test_l["Embarked"].mode()

In [24]:
modaEmbarked[0]

'S'

In [25]:
#Reemplazamos los datos faltantes
df_train_l['Embarked'] = df_train_l['Embarked'].replace(np.nan, modaEmbarked[0])
print('Datos faltantes:')
pd.isnull(df_train_l).sum()

Datos faltantes:


Survived    0
Pclass      0
Sex         0
Age         0
SibSp       0
Parch       0
Fare        0
Embarked    0
dtype: int64

In [26]:
#Calculamos la media de la columna 'Fare'
mediaFare = round(df_test_l["Fare"].mean(),4)

In [27]:
mediaFare

35.6272

In [28]:
#Reemplazamos los datos faltantes
df_test_l['Fare'] = df_test_l['Fare'].replace(np.nan, mediaFare)
print('Datos faltantes:')
pd.isnull(df_test_l).sum()

Datos faltantes:


PassengerId    0
Pclass         0
Sex            0
Age            0
SibSp          0
Parch          0
Fare           0
Embarked       0
dtype: int64

También podríamos haber eliminado las filas con datos faltantes, si no queremos poner valores calculados:

In [29]:
#Se elimina las filas con los datos perdidos
df_train_l.dropna(axis=0, how='any', inplace=True)
df_test_l.dropna(axis=0, how='any', inplace=True)

Por otra parte, podemos eliminar todas las columnas con un solo valor, o con más de un 50% de valores faltantes, esto lo hacemos para trabajar más rápido. En cualqueir caso, hay que ver si el conjunto de datos es lo suficientemente grande como para que siga siendo significativo. El código que debes implementar es el siguiente. En nuestrto caso no es necesario.

In [30]:
#df_test_l
#half_count = 50
#df_test_l = df_test_l.dropna(thresh = half_count, axis = 1)
#df_test_l

### 4. Preprocesamiento de los datos

Posteriormente vamos a entender los datos que vamos a estar manejando, para ello verificamos la cantidad de datos con que contamos, el tipo de datos y, por último, las estadísticas del mismo.

In [31]:
#Verifico la cantidad de datos que hay en los dataset
print('Cantidad de datos:')
df_test_l.shape

Cantidad de datos:


(418, 8)

In [32]:
df_train_l.shape

(891, 8)

In [33]:
#Verifico el tipo de datos contenida en ambos dataset
print('Tipos de datos:')
df_test_l.info()

Tipos de datos:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 418 entries, 0 to 417
Data columns (total 8 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  418 non-null    int64  
 1   Pclass       418 non-null    int64  
 2   Sex          418 non-null    object 
 3   Age          418 non-null    float64
 4   SibSp        418 non-null    int64  
 5   Parch        418 non-null    int64  
 6   Fare         418 non-null    float64
 7   Embarked     418 non-null    object 
dtypes: float64(2), int64(4), object(2)
memory usage: 26.2+ KB


In [34]:
df_train_l.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 8 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Survived  891 non-null    int64  
 1   Pclass    891 non-null    int64  
 2   Sex       891 non-null    object 
 3   Age       891 non-null    float64
 4   SibSp     891 non-null    int64  
 5   Parch     891 non-null    int64  
 6   Fare      891 non-null    float64
 7   Embarked  891 non-null    object 
dtypes: float64(2), int64(4), object(2)
memory usage: 55.8+ KB


In [35]:
#Verifico las estadísticas del dataset
print('Estadísticas del dataset:')
df_test_l.describe()

Estadísticas del dataset:


Unnamed: 0,PassengerId,Pclass,Age,SibSp,Parch,Fare
count,418.0,418.0,418.0,418.0,418.0,418.0
mean,1100.5,2.26555,30.27823,0.447368,0.392344,35.627189
std,120.810458,0.841838,12.634539,0.89676,0.981429,55.8405
min,892.0,1.0,0.17,0.0,0.0,0.0
25%,996.25,1.0,23.0,0.0,0.0,7.8958
50%,1100.5,3.0,30.3,0.0,0.0,14.4542
75%,1204.75,3.0,35.75,1.0,0.0,31.5
max,1309.0,3.0,76.0,8.0,9.0,512.3292


In [36]:
print('Estadísticas del dataset:')
df_train_l.describe()

Estadísticas del dataset:


Unnamed: 0,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,891.0,891.0,891.0
mean,0.383838,2.308642,29.699293,0.523008,0.381594,32.204208
std,0.486592,0.836071,13.002015,1.102743,0.806057,49.693429
min,0.0,1.0,0.42,0.0,0.0,0.0
25%,0.0,2.0,22.0,0.0,0.0,7.9104
50%,0.0,3.0,29.7,0.0,0.0,14.4542
75%,1.0,3.0,35.0,1.0,0.0,31.0
max,1.0,3.0,80.0,8.0,6.0,512.3292


Cambiamos los datos cualitativos por cuantitativos para un mejor estuiso. Por ejomplo, de la columna 'Sex':

In [37]:
#Cambio los datos de sexos en números
df_train_l['Sex'].replace(['female','male'],[0,1],inplace=True)
df_test_l['Sex'].replace(['female','male'],[0,1],inplace=True)
df_train_l['Sex']

0      1
1      0
2      0
3      0
4      1
      ..
886    1
887    0
888    0
889    1
890    1
Name: Sex, Length: 891, dtype: int64

In [38]:
df_test_l['Sex']

0      1
1      0
2      1
3      1
4      0
      ..
413    1
414    0
415    1
416    1
417    1
Name: Sex, Length: 418, dtype: int64

Cambiamos los datos cualitativos de la columna 'Embarked' por cuantitativos:

In [39]:
#Cambio los datos de embarque en números
df_train_l['Embarked'].replace(['Q','S', 'C'],[0,1,2],inplace=True)
df_test_l['Embarked'].replace(['Q','S', 'C'],[0,1,2],inplace=True)
df_train_l['Embarked']

0      1
1      2
2      1
3      1
4      1
      ..
886    1
887    1
888    1
889    2
890    0
Name: Embarked, Length: 891, dtype: int64

In [40]:
df_test_l['Embarked']

0      0
1      1
2      0
3      1
4      1
      ..
413    1
414    2
415    1
416    1
417    2
Name: Embarked, Length: 418, dtype: int64

Creamos grupos de las edades de acuerdo a distintas bandas:

In [41]:
#Bandas: 0-8, 9-15, 16-18, 19-25, 26-40, 41-60, 61-100
bins = [0, 8, 15, 18, 25, 40, 60, 100]
names = ['1', '2', '3', '4', '5', '6', '7']
df_train_l['Age'] = pd.cut(df_train_l['Age'], bins, labels = names)
df_test_l['Age'] = pd.cut(df_test_l['Age'], bins, labels = names)

In [42]:
df_train_l

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked
0,0,3,1,4,1,0,7.2500,1
1,1,1,0,5,1,0,71.2833,2
2,1,3,0,5,0,0,7.9250,1
3,1,1,0,5,1,0,53.1000,1
4,0,3,1,5,0,0,8.0500,1
...,...,...,...,...,...,...,...,...
886,0,2,1,5,0,0,13.0000,1
887,1,1,0,4,0,0,30.0000,1
888,0,3,0,5,1,2,23.4500,1
889,1,1,1,5,0,0,30.0000,2


In [43]:
df_test_l

Unnamed: 0,PassengerId,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked
0,892,3,1,5,0,0,7.8292,0
1,893,3,0,6,1,0,7.0000,1
2,894,2,1,7,0,0,9.6875,0
3,895,3,1,5,0,0,8.6625,1
4,896,3,0,4,1,1,12.2875,1
...,...,...,...,...,...,...,...,...
413,1305,3,1,5,0,0,8.0500,1
414,1306,1,0,5,0,0,108.9000,2
415,1307,3,1,5,0,0,7.2500,1
416,1308,3,1,5,0,0,8.0500,1


### 5. Aplicación de los algoritmos de *Machine Learning*

En primer lugar, separamos la información de los Supervivientes, que es el dato que vamos a predecir. Por un lado, creamos la variable **X**, con los datos de *train* quitando el campo 'Survived'. Por otro lado, creamos la variable **y** con los datos del campo 'Survived' de *train*.

In [44]:
#Separo la columna con la información de los supervivientes
X = np.array(df_train_l.drop(['Survived'], axis = 1))
y = np.array(df_train_l['Survived'])

In [45]:
X

array([[3, 1, '4', ..., 0, 7.25, 1],
       [1, 0, '5', ..., 0, 71.2833, 2],
       [3, 0, '5', ..., 0, 7.925, 1],
       ...,
       [3, 0, '5', ..., 2, 23.45, 1],
       [1, 1, '5', ..., 0, 30.0, 2],
       [3, 1, '5', ..., 0, 7.75, 0]], dtype=object)

In [46]:
y

array([0, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 1, 0, 1, 0, 1, 0, 1,
       1, 1, 0, 1, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1,
       1, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0, 1, 1, 0, 1, 0, 0, 1, 0, 0, 0, 1,
       1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 0,
       1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 1, 0, 0, 0,
       0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0,
       0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 1, 0, 0, 1, 0, 1, 1, 1, 1, 0, 0,
       1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 1, 0, 1, 0, 0, 0, 1, 1, 0, 1, 0,
       1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1,
       0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 0, 1, 0, 0,
       0, 0, 0, 1, 1, 1, 0, 1, 1, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0,
       1, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 1, 1, 1,

Ahora, empleamos la función *train_test_split*, que es una función incluida en la librería *scikit.learn* y sirve para dividir arreglos o matrices en subconjuntos aleatorios de entrenamiento (*train*) y de prueba (*test*). Hay más información en esta [página](https://keepcoding.io/blog/para-que-sirve-el-train-test-split/).

In [47]:
#Separo los datos de "train" en entrenamiento y prueba para probar los algoritmos
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

In [48]:
X_train

array([[1, 1, '5', ..., 0, 0.0, 1],
       [1, 0, '4', ..., 0, 49.5042, 2],
       [3, 1, '5', ..., 1, 14.4, 1],
       ...,
       [3, 0, '3', ..., 2, 46.9, 1],
       [1, 0, '5', ..., 0, 90.0, 0],
       [2, 0, '3', ..., 0, 10.5, 1]], dtype=object)

In [49]:
X_test

array([[3, 1, '5', ..., 0, 7.8542, 1],
       [3, 1, '5', ..., 0, 7.125, 1],
       [1, 1, '4', ..., 0, 53.1, 1],
       ...,
       [2, 1, '3', ..., 0, 11.5, 1],
       [2, 1, '5', ..., 0, 0.0, 1],
       [1, 1, '5', ..., 0, 0.0, 1]], dtype=object)

In [50]:
y_train

array([0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 1, 0, 1, 1, 0, 1, 1,
       1, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1,
       1, 0, 1, 0, 1, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0,
       0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 1, 1, 0, 1, 0, 1, 0, 0, 0, 1,
       0, 0, 1, 0, 0, 1, 1, 0, 1, 1, 0, 1, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0,
       0, 1, 0, 1, 0, 0, 1, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 0, 1,
       0, 1, 1, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 1, 1,
       0, 1, 0, 0, 0, 0, 1, 1, 1, 0, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 1,
       0, 1, 1, 0, 1, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0,
       0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 1, 0, 0, 0, 0, 1, 1, 0,
       1, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 0, 0,
       0, 1, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 1, 1, 1, 1, 0, 1, 0, 0, 1, 0,
       0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 0, 0, 1,

In [51]:
y_test

array([1, 0, 0, 0, 0, 1, 1, 0, 1, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 1, 1, 1,
       0, 1, 0, 1, 1, 1, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0, 1, 1, 0, 0, 1, 1,
       1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 1, 1, 0, 0, 1,
       0, 1, 0, 0, 1, 1, 0, 1, 1, 1, 1, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0,
       0, 0, 1, 1, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 1, 0,
       1, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 1,
       1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0,
       0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1, 1, 0, 1, 0, 1,
       0, 0, 0], dtype=int64)