# Módulo 2 Uso de framework o biblioteca de aprendizaje máquina para la implementación de una solución. (Portafolio Implementación)

En este proyecto, se propone crear un modelo de clasificación utilizando el algoritmo Random Forest. Para llevar a cabo este proceso, optamos por utilizar Python como lenguaje de programación y el framework de sklearn, ya que es conocido por su facilidad de uso y una amplia gama de bibliotecas disponibles para la manipulación y análisis de datos.

Se utilizara el dataset de **Titanic** donde, **se predece si una persona sobrevivió o no al desastre del Titanic**. Para conocer más sobre este proyecto se puede consultar el siguiente link: https://www.kaggle.com/competitions/titanic

El proceso estara documentado con comentarios en el codigo, y mostrara paso a paso el desarrollo del modelo con el uso del framework.

Para mas informacion de este proyecto, utiliza la liga del repositorio: https://github.com/lordschipper5/TC3006C.101-Portafolio-A01720253.git

Para este proceso se utilizaran archivos que fueron modificados con el proceso de ETL, este proceso se puede encontrar en: https://github.com/ArturoGarzaTec/TC3006C.101_Equipo.git

El archivo que estaremos utilizando del ETL se **llama train_transformed**.

Para los resultados, se hizo un split de los resultados con los datos de entrenamiento. Estos estaran incluidos en el archivo de

**Dataset:**

Registros: 891

Caracterisitcas: 6
Pclass, Age, Sex, Fam "Cant de Familia", Fare, y Embarked.

Clases: 1 "Sobrevivio", 0 "No sobrevivio"




In [8]:
#Importacion de librerias
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split,  GridSearchCV
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, make_scorer, precision_score, recall_score, f1_score, confusion_matrix


# Cargamos el archivo, utiliza otro ruteo en caso de almacenar el archivo en otro lado
data = pd.read_csv('train_transformed.csv')

# Separamos survived
X = data.drop(['Survived'], axis=1)
y = data['Survived']

# Dividimos los datos para tener un conjunto de entrenamiento y otro de prueba
X_train, X_prueba, y_train, y_prueba = train_test_split(X, y, test_size=0.3, random_state=42)

# Crear el modelo Random Forest
modeloRandomForest = RandomForestClassifier(random_state=42)

# Definimos parametros a probar para encontrar una mejor configuracion
param_grid = {
    'n_estimators': [10, 70, 100, 200], #Cant Arboles
    'max_depth': [2, 10, 20], #Profunidad de Arbol
    'min_samples_split': [2, 5, 10, 20] #cant muestras
}

# Definimos R al cuadrado
scorer = make_scorer(accuracy_score)

# Realizamos una busqueda de hiperparametros con gridSearch de sklearn
grid_search = GridSearchCV(modeloRandomForest, param_grid, scoring=scorer, cv=5)
grid_search.fit(X_train, y_train)

# Obtenemos los mejores parametros
params_optimo = grid_search.best_params_
precision_optima = grid_search.best_score_

print("Mejores parametros:", params_optimo)
print("Mejor precision:", precision_optima)

# Entrenamos el modelo con los mejores parametros obtenidos
modeloRandomForestConf = RandomForestClassifier(**params_optimo, random_state=42)
modeloRandomForestConf.fit(X_train, y_train)

# Predecir los valores de los datos prueba
y_pred = modeloRandomForestConf.predict(X_prueba)

# Calculamos la precision del modelo
precision = accuracy_score(y_prueba, y_pred)
print("Precision sin configuracion: {:.2f}%".format(precision * 100))

# Crear un DataFrame donde se compara los valores iniciales con los resultados
resultados_df = pd.DataFrame({'Valores Input': y_prueba, 'Valores Output': y_pred})
print(resultados_df)

# Guardamos el DataFrame en un archivo CSV
resultados_df.to_csv('predicciones.csv', index=False)

# Predecir los valores de los datos de prueba utilizando el modelo entrenado
predicciones_realizadas = modeloRandomForestConf.predict(X_prueba)

# Ahora, 'predicciones_realizadas' contiene las predicciones del modelo para los datos de prueba con de acuerdo al arreglo principal del split
print(predicciones_realizadas)

# Otras 3 predicciones sin archivo
# Datos de entrada para tres ejemplos
# Pclass, Age, Sex, Fam, Fare, Embarked
# Datos de entrada para el primer ejemplo
ejemplo1 = [3, 25, 0, 1, 4, 1]

# Convertir los datos de entrada en un DataFrame
ejemplo1_df = pd.DataFrame([ejemplo1], columns=X_train.columns)

# Predecir la supervivencia utilizando el modelo entrenado
prediccion_ejemplo1 = modeloRandomForestConf.predict(ejemplo1_df)

# Imprimir la prediccion
print("Ejemplo 1 - Prediccion:", prediccion_ejemplo1[0])

ejemplo2 = [2, 28, 1, 4, 4, 2]

# Convertir los datos de entrada en un DataFrame
ejemplo2_df = pd.DataFrame([ejemplo2], columns=X_train.columns)

# Predecir la supervivencia utilizando el modelo entrenado
prediccion_ejemplo2 = modeloRandomForestConf.predict(ejemplo2_df)

# Imprimir la prediccion
print("Ejemplo 2 - Prediccion:", prediccion_ejemplo2[0])

ejemplo3 = [1, 22, 0, 2, 3, 2]

# Convertir los datos de entrada en un DataFrame
ejemplo3_df = pd.DataFrame([ejemplo3], columns=X_train.columns)

# Predecir la supervivencia utilizando el modelo entrenado
prediccion_ejemplo3 = modeloRandomForestConf.predict(ejemplo3_df)

# Imprimir la prediccion
print("Ejemplo 3 - Prediccion:", prediccion_ejemplo3[0])


#Evaluacion con metricas
# Precision
precision = accuracy_score(y_prueba, y_pred)

# Otra forma de calcular la precisión (exactitud)
exactitud = modeloRandomForestConf.score(X_prueba, y_prueba)

# Matriz de confusion
matriz_confusion = confusion_matrix(y_prueba, y_pred)

# Precision, exhaustividad, F1-score y soporte
precision = precision_score(y_prueba, y_pred)
exhaustividad = recall_score(y_prueba, y_pred)
f1 = f1_score(y_prueba, y_pred)
soporte = len(y_prueba)

print("Precision:", precision)
print("Exactitud:", exactitud)
print("Matriz de Confusion:")
print(matriz_confusion)
print("Exhaustividad (Recall):", exhaustividad)
print("F1-score:", f1)
print("Soporte (Cantidad de muestras de prueba):", soporte)


Mejores parametros: {'max_depth': 10, 'min_samples_split': 10, 'n_estimators': 100}
Mejor precision: 0.8282322580645161
Precision sin configuracion: 80.60%
     Valores Input  Valores Output
709              1               1
439              0               0
840              0               0
720              1               1
39               1               1
..             ...             ...
821              1               0
633              0               0
456              0               0
500              0               0
430              1               0

[268 rows x 2 columns]
[1 0 0 1 1 1 1 0 1 1 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 1 0 0 0
 1 1 0 0 0 0 0 0 0 0 0 0 1 1 1 0 1 0 1 0 1 1 0 0 1 1 0 0 1 0 0 0 1 1 1 0 1
 0 0 1 1 1 0 0 1 1 0 0 0 1 1 0 0 1 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1
 0 1 0 0 0 0 0 1 0 0 1 1 1 0 0 1 0 1 0 1 1 0 1 1 0 1 0 0 0 0 1 0 0 0 1 0 0
 1 0 0 0 0 1 0 0 0 1 1 1 0 0 0 1 0 1 0 1 0 0 1 1 0 1 0 0 0 1 1 1 0 0 0 0 1
 1 0 0 0 1 0 0 0 0 1 1 1 