In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import KFold, StratifiedKFold, cross_val_score
from sklearn import linear_model, tree, ensemble

In [17]:
# Cargar el conjunto de datos Titanic
train_data = pd.read_csv('./Titanic/train.csv')

# Eliminar filas con valores faltantes en la columna 'Survived'
train_data.dropna(axis=0, subset=['Survived'], inplace=True)

# Definir la variable objetivo (target)
y = train_data.Survived  # Asigna la columna 'Survived' como la variable objetivo

# Eliminar la columna 'Survived' del conjunto de características (X)
train_data.drop(['Survived'], axis=1, inplace=True)

# Eliminar la columna 'Age' del conjunto de características (X)
train_data.drop(['Age'], axis=1, inplace=True)

# Seleccionar solo las columnas numéricas
numeric_cols = [cname for cname in train_data.columns if train_data[cname].dtype in ['int64', 'float64']]

# Crear el conjunto de características (X) utilizando solo columnas numéricas
X = train_data[numeric_cols].copy()

# Mostrar las dimensiones de X (características) y y (target)
print("Filas y Columnas de los datos: {} y de la variable target: {}".format(X.shape, y.shape))

# Mostrar las primeras filas del conjunto de datos combinado (X y y)
pd.concat([X, y], axis=1).head()

Filas y Columnas de los datos: (891, 5) y de la variable target: (891,)


Unnamed: 0,PassengerId,Pclass,SibSp,Parch,Fare,Survived
0,1,3,1,0,7.25,0
1,2,1,1,0,71.2833,1
2,3,3,0,0,7.925,1
3,4,1,1,0,53.1,1
4,5,3,0,0,8.05,0


In [7]:
kf =KFold(n_splits=5, shuffle=True, random_state=42)

cnt = 1

for train_index, test_index in kf.split(X, y):
    print(f'Fold:{cnt}, Train set: {len(train_index)}, Test set:{len(test_index)}')
    cnt += 1

Fold:1, Train set: 712, Test set:179
Fold:2, Train set: 713, Test set:178
Fold:3, Train set: 713, Test set:178
Fold:4, Train set: 713, Test set:178
Fold:5, Train set: 713, Test set:178


KFold divide los datos en 5 conjuntos o folds.
En cada iteración del bucle:

4 folds se utilizan para entrenamiento.

1 fold se utiliza para prueba.

El tamaño de los conjuntos de entrenamiento y prueba se imprime para cada fold.

In [8]:
def rmse(score):
    rmse = np.sqrt(-score)
    print(f'rmse= {"{:.2f}".format(rmse)}')

Esta línea define una función llamada rmse que toma un parámetro llamado score (el cual normalmente se espera que sea un valor de error negativo, como el error cuadrático medio negativo).

In [18]:
score = cross_val_score(linear_model.LinearRegression(), X, y, cv= kf, scoring="neg_mean_squared_error")
print(f'Scores por fold: {score}')
rmse(score.mean())

Scores por fold: [-0.20302482 -0.20808383 -0.20581155 -0.2097774  -0.21237468]
rmse= 0.46


In [19]:
score = cross_val_score(tree.DecisionTreeRegressor(random_state= 42), X, y, cv=kf, scoring="neg_mean_squared_error")
print(f'Scores por fold: {score}')
rmse(score.mean())

Scores por fold: [-0.3575419  -0.30898876 -0.36516854 -0.39325843 -0.39325843]
rmse= 0.60


In [20]:
score = cross_val_score(ensemble.RandomForestRegressor(random_state= 42), X, y, cv= kf, scoring="neg_mean_squared_error")
print(f'Scores por fold: {score}')
rmse(score.mean())

Scores por fold: [-0.22028045 -0.21442472 -0.22019831 -0.22728933 -0.24261404]
rmse= 0.47


In [21]:
estimators = [50, 100, 150, 200, 250, 300, 350, 700, 1000]

for count in estimators:
    score = cross_val_score(ensemble.RandomForestRegressor(n_estimators= count, random_state= 42), X, y, cv= kf, scoring="neg_mean_squared_error")
    print(f'Cantidad de Arboles: {count}')
    rmse(score.mean())

Cantidad de Arboles: 50
rmse= 0.48
Cantidad de Arboles: 100
rmse= 0.47
Cantidad de Arboles: 150
rmse= 0.47
Cantidad de Arboles: 200
rmse= 0.47
Cantidad de Arboles: 250
rmse= 0.47
Cantidad de Arboles: 300
rmse= 0.47
Cantidad de Arboles: 350
rmse= 0.47
Cantidad de Arboles: 700
rmse= 0.47
Cantidad de Arboles: 1000
rmse= 0.47
