# Introduccion

El modelado predictivo es una técnica utilizada en el campo de la ciencia de datos y la inteligencia artificial para predecir resultados futuros basados en datos históricos. Utiliza algoritmos estadísticos y de machine learning para crear modelos que puedan identificar patrones y relaciones en los datos, y luego aplicar estos modelos para hacer predicciones sobre datos nuevos e inéditos.

Importancia del Modelado Predictivo
El modelado predictivo es crucial en diversas industrias y aplicaciones debido a su capacidad para:

1. Tomar Decisiones Informadas:
    * Permite a las organizaciones tomar decisiones basadas en datos, mejorando la precisión y reduciendo la incertidumbre.

2. Optimizar Procesos:
    * Ayuda a optimizar operaciones y procesos, desde la gestión de la cadena de suministro hasta la personalización del marketing.

3. Detectar Anomalías:
    * Facilita la detección temprana de fraudes, fallos en sistemas y otros eventos inusuales que pueden requerir una intervención inmediata.

4. Mejorar la Eficiencia:
    * Incrementa la eficiencia al prever la demanda, gestionar recursos y planificar actividades futuras de manera más efectiva.

## 1. Preparacion y Carga de datos

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, StandardScaler

In [3]:
train_df = pd.read_csv('../data/clean_train.csv')
test_df = pd.read_csv('../data/clean_test.csv')

In [4]:
train_df.head()

Unnamed: 0,Survived,Pclass,Sex,Age,Fare,Embarked_C,Embarked_Q,Embarked_S,Family_Size,IsAlone
0,0,3,0,22.0,7.25,0,0,1,2,0
1,1,1,1,38.0,71.2833,1,0,0,2,0
2,1,3,1,26.0,7.925,0,0,1,1,1
3,1,1,1,35.0,53.1,0,0,1,2,0
4,0,3,0,35.0,8.05,0,0,1,1,1


In [5]:
test_df.head()

Unnamed: 0,Pclass,Sex,Age,Fare,Embarked_C,Embarked_Q,Embarked_S,Family_Size,IsAlone
0,3,0,34.5,7.8292,0,1,0,1,1
1,3,1,47.0,7.0,0,0,1,2,0
2,2,0,62.0,9.6875,0,1,0,1,1
3,3,0,27.0,8.6625,0,0,1,1,1
4,3,1,22.0,12.2875,0,0,1,3,0


In [6]:
train_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 10 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Survived     891 non-null    int64  
 1   Pclass       891 non-null    int64  
 2   Sex          891 non-null    int64  
 3   Age          891 non-null    float64
 4   Fare         891 non-null    float64
 5   Embarked_C   891 non-null    int64  
 6   Embarked_Q   891 non-null    int64  
 7   Embarked_S   891 non-null    int64  
 8   Family_Size  891 non-null    int64  
 9   IsAlone      891 non-null    int64  
dtypes: float64(2), int64(8)
memory usage: 69.7 KB


In [7]:

test_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 418 entries, 0 to 417
Data columns (total 9 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Pclass       418 non-null    int64  
 1   Sex          418 non-null    int64  
 2   Age          418 non-null    float64
 3   Fare         418 non-null    float64
 4   Embarked_C   418 non-null    int64  
 5   Embarked_Q   418 non-null    int64  
 6   Embarked_S   418 non-null    int64  
 7   Family_Size  418 non-null    int64  
 8   IsAlone      418 non-null    int64  
dtypes: float64(2), int64(7)
memory usage: 29.5 KB


**Al no tener valores nulos previamente gracias a a la limpieza, usaremos un escalador nuevamente solo para la columna edad y costo del boleto**

In [8]:
# Antes del escalador
train_df[['Age','Fare']].head()

Unnamed: 0,Age,Fare
0,22.0,7.25
1,38.0,71.2833
2,26.0,7.925
3,35.0,53.1
4,35.0,8.05


In [9]:
scaler = StandardScaler()
train_df[['Age','Fare']] = scaler.fit_transform(train_df[['Age','Fare']])

In [13]:
test_df[['Age','Fare']] = scaler.fit_transform(test_df[['Age','Fare']])

In [10]:
# Despues del escalador
train_df[['Age','Fare']].head()

Unnamed: 0,Age,Fare
0,-0.565736,-0.502445
1,0.663861,0.786845
2,-0.258337,-0.488854
3,0.433312,0.42073
4,0.433312,-0.486337


## 2. Seleccion de caracteristicas

In [21]:
X_train = train_df.drop(['Survived'],axis=1)
y_train = train_df['Survived']

In [22]:
X_test = test_df.copy()

In [23]:
# Dividir los datos en conjuntos de entrenamiento y validación
X_train_split, X_val_split, y_train_split, y_val_split = train_test_split(X_train, y_train, test_size=0.2, random_state=42)


## 3. Eleccion del modelo

1. Regresión Logística (Logistic Regression)
    * La regresión logística es un modelo de clasificación lineal que se utiliza para predecir la probabilidad de que una instancia pertenezca a una clase binaria (0 o 1). A diferencia de la regresión lineal, que predice valores continuos, la regresión logística utiliza una función logística (sigmoide) para limitar las predicciones a un rango entre 0 y 1.

Ventajas:

* Fácil de interpretar y entender.
* Funciona bien con conjuntos de datos pequeños y cuando las características son linealmente separables.
* Puede manejar relaciones no lineales mediante la adición de características polinomiales.

Desventajas:

* No es muy eficaz con datos no linealmente separables sin transformación de características.
* Sensible a outliers.

2. Árbol de Decisión (Decision Tree)
    * El árbol de decisión es un modelo de clasificación no paramétrico que utiliza una estructura de árbol para tomar decisiones basadas en las características de entrada. En cada nodo del árbol, se selecciona la característica que mejor divide los datos según una medida de impureza (como la ganancia de información o la reducción de la varianza).

Ventajas:

* Fácil de visualizar e interpretar.
* Capaz de manejar relaciones no lineales.
* No requiere normalización de características.

Desventajas:

* Propenso al sobreajuste (overfitting) si no se poda o se limita la profundidad del árbol.
* Sensible a pequeñas variaciones en los datos.

3. Bosque Aleatorio (Random Forest)
    * El bosque aleatorio es un modelo de clasificación basado en un conjunto (ensemble) de árboles de decisión. Utiliza la técnica de bagging (bootstrap aggregating) para construir múltiples árboles de decisión a partir de muestras aleatorias del conjunto de datos, y luego promedia las predicciones de estos árboles para obtener una predicción final más robusta.

Ventajas:

* Reduce el riesgo de sobreajuste en comparación con un único árbol de decisión.
* Capaz de manejar relaciones no lineales.
* Robusto ante outliers y datos ruidosos.

Desventajas:

* Más complejo y computacionalmente intensivo que un solo árbol de decisión.
* Menos interpretable que un solo árbol de decisión.

## 4. Entrenamiento del modelo

In [24]:
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

# Entrenar y evaluar modelos
models = {
    "Logistic Regression": LogisticRegression(max_iter=1000),
    "Decision Tree": DecisionTreeClassifier(),
    "Random Forest": RandomForestClassifier(n_estimators=100)
}

results = {}

for model_name, model in models.items():
    model.fit(X_train_split, y_train_split)
    y_val_pred = model.predict(X_val_split)
    accuracy = accuracy_score(y_val_split, y_val_pred)
    results[model_name] = accuracy
    print(f"{model_name} Accuracy: {accuracy:.4f}")
    print(confusion_matrix(y_val_split, y_val_pred))
    print(classification_report(y_val_split, y_val_pred))


Logistic Regression Accuracy: 0.7989
[[90 15]
 [21 53]]
              precision    recall  f1-score   support

           0       0.81      0.86      0.83       105
           1       0.78      0.72      0.75        74

    accuracy                           0.80       179
   macro avg       0.80      0.79      0.79       179
weighted avg       0.80      0.80      0.80       179

Decision Tree Accuracy: 0.7765
[[83 22]
 [18 56]]
              precision    recall  f1-score   support

           0       0.82      0.79      0.81       105
           1       0.72      0.76      0.74        74

    accuracy                           0.78       179
   macro avg       0.77      0.77      0.77       179
weighted avg       0.78      0.78      0.78       179

Random Forest Accuracy: 0.8212
[[90 15]
 [17 57]]
              precision    recall  f1-score   support

           0       0.84      0.86      0.85       105
           1       0.79      0.77      0.78        74

    accuracy              

## 5. Prueba del modelo

In [26]:
best_model = RandomForestClassifier(n_estimators=100, random_state=12)
best_model.fit(X_train, y_train)


In [27]:
passenger_ids = pd.read_csv('../notebook/passenger_id.csv')

In [28]:
passenger_ids.head()

Unnamed: 0,PassengerId
0,892
1,893
2,894
3,895
4,896


In [29]:
y_test_pred = best_model.predict(X_test)

In [30]:
submission = pd.DataFrame({
    "PassengerId": passenger_ids["PassengerId"],
    "Survived": y_test_pred
})

submission.head()

Unnamed: 0,PassengerId,Survived
0,892,0
1,893,0
2,894,0
3,895,0
4,896,1


In [31]:
# Guardar el archivo de resultados
submission.to_csv('submission.csv', index=False)

## 6. Mejora del modelo



### 6.1 Ajuste de Hiperparametros

In [32]:
from sklearn.model_selection import GridSearchCV

# Modelo a usar
rf_model = RandomForestClassifier(random_state=42)

# Definir los hiperparámetros a ajustar
param_grid = {
    'n_estimators': [100, 200, 300],
    'max_depth': [None, 10, 20, 30],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}

# Configurar Grid Search
grid_search = GridSearchCV(estimator=rf_model, param_grid=param_grid, cv=5, n_jobs=-1, verbose=2)

# Ejecutar Grid Search en el conjunto de entrenamiento
grid_search.fit(X_train, y_train)

# Imprimir los mejores parámetros
print("Best parameters found: ", grid_search.best_params_)

# Usar el mejor modelo encontrado para predecir
best_rf_model = grid_search.best_estimator_

# Hacer predicciones en el conjunto de prueba
y_test_pred = best_rf_model.predict(X_test)


Fitting 5 folds for each of 108 candidates, totalling 540 fits
Best parameters found:  {'max_depth': None, 'min_samples_leaf': 1, 'min_samples_split': 10, 'n_estimators': 100}


### 6.2 Validacion cruzada

In [33]:
from sklearn.model_selection import cross_val_score

# Evaluar el modelo con validación cruzada
cv_scores = cross_val_score(best_rf_model, X_train, y_train, cv=5)

# Imprimir las puntuaciones de validación cruzada
print(f"Cross-validation scores: {cv_scores}")
print(f"Mean cross-validation score: {cv_scores.mean()}")


Cross-validation scores: [0.78212291 0.80337079 0.90449438 0.8258427  0.85393258]
Mean cross-validation score: 0.833952670893227


### 6.3 Emsemble de modelos

In [34]:
from sklearn.ensemble import VotingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC

# Definir los modelos
model1 = LogisticRegression(max_iter=1000)
model2 = RandomForestClassifier(n_estimators=100, random_state=42)
model3 = SVC(probability=True)

# Configurar el ensemble
ensemble_model = VotingClassifier(estimators=[
    ('lr', model1),
    ('rf', model2),
    ('svc', model3)
], voting='soft')

# Entrenar el ensemble
ensemble_model.fit(X_train, y_train)

# Hacer predicciones en el conjunto de prueba
y_test_pred = ensemble_model.predict(X_test)


### 6.4 Seleccion de caracteristicas

In [35]:
from sklearn.feature_selection import SelectKBest, f_classif

# Seleccionar las mejores características
selector = SelectKBest(score_func=f_classif, k=5)
X_train_selected = selector.fit_transform(X_train, y_train)
X_test_selected = selector.transform(X_test)

# Entrenar el modelo con las características seleccionadas
best_rf_model.fit(X_train_selected, y_train)

# Hacer predicciones en el conjunto de prueba
y_test_pred = best_rf_model.predict(X_test_selected)


## Resultado final

In [37]:
# Cargar el archivo que contiene los PassengerId
passenger_ids = pd.read_csv('../notebook/passenger_id.csv')

# Crear un dataframe con los resultados
submission = pd.DataFrame({
    "PassengerId": passenger_ids["PassengerId"],
    "Survived": y_test_pred
})

# Guardar el archivo de resultados
submission.to_csv('submission.csv', index=False)


In [42]:
import joblib
import os

# Crear la carpeta 'modelo' si no existe
os.makedirs('../models', exist_ok=True)

# Guardar el modelo en la carpeta 'modelo'
joblib.dump(best_rf_model, '../models/best_rf_model.joblib')

print("Modelo guardado exitosamente en la carpeta 'models'.")

Modelo guardado exitosamente en la carpeta 'models'.


## Comparacion de resultados

In [38]:
# Cargar el archivo de resultados esperados
expected_results = pd.read_csv('../data/gender_submission.csv')

print(expected_results.head())


   PassengerId  Survived
0          892         0
1          893         1
2          894         0
3          895         0
4          896         1


In [39]:
# Cargar el archivo de resultados predichos
predicted_results = pd.read_csv('../notebook/submission.csv')

print(predicted_results.head())


   PassengerId  Survived
0          892         0
1          893         0
2          894         0
3          895         0
4          896         1


In [40]:
# Unir los resultados esperados y predichos en un solo DataFrame para comparación
comparison_df = expected_results.merge(predicted_results, on="PassengerId", suffixes=('_expected', '_predicted'))

# Calcular la precisión de las predicciones
accuracy = (comparison_df['Survived_expected'] == comparison_df['Survived_predicted']).mean()

# Imprimir la precisión
print(f"Precisión de las predicciones: {accuracy:.4f}")


Precisión de las predicciones: 0.8828
