# A01753176 Gilberto André García Gaytán
# Momento de Retroalimentación: Módulo 2 Implementación de un modelo de deep learning. (Portafolio Implementación)


# Introducción
En este informe, presento el proceso que seguí para abordar el reto de predecir el ranking de clubes de fútbol. 
Este desafío es significativo ya que permite a los aficionados y analistas deportivos entender mejor las 
dinámicas y el rendimiento de los equipos en un contexto competitivo.



# Datos
A continuación muestro cómo analicé y preprocesé el conjunto de datos empleado. 
El análisis de datos es crucial ya que permite garantizar que el modelo de aprendizaje profundo reciba información 
de alta calidad para el entrenamiento y la evaluación.


In [2]:
# Importar las bibliotecas necesarias
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
import pandas as pd

# Cargar el conjunto de datos
df = pd.read_csv('Soccer_Football Clubs Ranking in june.csv')

# Limpiar los nombres de las columnas
df.columns = df.columns.str.strip().str.replace('\r\n', '', regex=True)

# Definir características y objetivo
features = ['point score', '1 year change', 'country']
target = 'ranking'

# Eliminar filas con valores faltantes
df_cleaned = df[features + [target]].dropna()

# Dividir los datos en características y objetivo
X = df_cleaned[features]
y = df_cleaned[target]

# Dividir los datos en conjuntos de entrenamiento y validación
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42)


# Crear un pipeline de preprocesamiento
numeric_features = ['point score', '1 year change']
numeric_transformer = StandardScaler()

categorical_features = ['country']
categorical_transformer = OneHotEncoder(handle_unknown='ignore')

preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features)])

# Aplicar transformaciones a los conjuntos de entrenamiento y validación
# y convertir el resultado a una matriz densa
X_train = preprocessor.fit_transform(X_train).toarray()
X_val = preprocessor.transform(X_val).toarray()

In [None]:
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Conv1D, MaxPooling1D, Flatten, Dense, Dropout

# Definir la arquitectura mejorada del modelo convolutivo 1D
model = Sequential([
    # Capa convolutiva 1D con 32 filtros, tamaño del filtro 3, función de activación ReLU y entrada de forma (número de características, 1)
    Conv1D(32, 3, activation='relu', input_shape=(X_train.shape[1], 1)),
    # Capa de max pooling 1D con tamaño de ventana 2
    MaxPooling1D(2),
    # Capa de aplanado para convertir los mapas de características 1D en un vector 1D
    Flatten(),
    # Capa completamente conectada (densa) con 128 neuronas y función de activación ReLU
    Dense(128, activation='relu'),
    # Dropout del 50% para prevenir el sobreajuste
    Dropout(0.5),
    # Capa completamente conectada (densa) con 64 neuronas y función de activación ReLU
    Dense(64, activation='relu'),
    # Dropout del 50% para prevenir el sobreajuste
    Dropout(0.5),
    # Capa de salida con una neurona para la regresión
    Dense(1)
])

# Compilar el modelo
model.compile(optimizer='adam', loss='mean_squared_error')

# Entrenar el modelo con las mejoras
history = model.fit(X_train, y_train, epochs=100, batch_size=32, validation_data=(X_val, y_val), verbose=1)

In [5]:
from tensorflow.keras.layers import Dropout

# Nueva arquitectura con Dropout para regularización
model = Sequential([
    Dense(128, activation='relu', input_shape=(X_train.shape[1],)),
    Dropout(0.5),
    Dense(64, activation='relu'),
    Dropout(0.5),
    Dense(1)
])

# Compilar el modelo
model.compile(optimizer=Adam(0.001), loss='mean_squared_error')

# Entrenar el modelo
history = model.fit(X_train, y_train, epochs=100, batch_size=32, validation_data=(X_val, y_val), verbose=1)

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78

In [6]:
## Guardar el modelo
model.save('modelo_mejorado.h5')

  saving_api.save_model(



# Desarrollo del Modelo
Describo aquí la arquitectura de la red neuronal que diseñé y utilicé para el entrenamiento, así como la 
evaluación inicial de su desempeño.


In [7]:
## Cargar modelo en la GUI
modelo_cargado = tf.keras.models.load_model('modelo_mejorado.h5')

In [8]:
import pandas as pd

# Recargamos el dataset para extraer la lista de países
file_path = 'Soccer_Football Clubs Ranking in june.csv'
df_countries = pd.read_csv(file_path)
# Limpiamos los nombres de las columnas
df_countries.columns = df_countries.columns.str.strip().str.replace('\r\n', '', regex=True)

# Extraemos la lista única de países
list_of_countries = df_countries['country'].unique().tolist()
list_of_countries[:5]  # Mostramos los primeros 5 para verificar

['Germany', 'Paraguay', 'Angola', 'Denmark', 'Norway']

In [9]:
import numpy as np
from sklearn.preprocessing import OneHotEncoder

# Asumiendo que 'list_of_countries' es una lista de todos los países únicos en tu conjunto de datos
countries = np.array(list_of_countries).reshape(-1, 1)
encoder = OneHotEncoder(sparse=False)
encoder.fit(countries)

# Función para transformar la entrada del país
def transform_country_input(country_name):
    # El país ingresado por el usuario se convierte en un array para que coincida con el ajuste del encoder
    country_array = np.array([country_name]).reshape(-1, 1)
    # Codificar el país utilizando el encoder ajustado y devolver el array codificado
    country_encoded = encoder.transform(country_array)
    return country_encoded.flatten()



In [11]:
import tkinter as tk
from tkinter import ttk, messagebox
import numpy as np
import tensorflow as tf

# Cargar el modelo entrenado (ajusta la ruta según sea necesario)
modelo_cargado = tf.keras.models.load_model('modelo_mejorado.h5')

# Definir la función para hacer predicciones
def hacer_prediccion():
    try:
        # Asegurarse de que el usuario ingresó números válidos
        point_score = float(entry_point_score.get())
        year_change = float(entry_year_change.get())
    except ValueError:
        messagebox.showerror('Error', 'Por favor, introduce datos numéricos válidos para el puntaje y el cambio anual.')
        return  # Salir de la función si los datos no son válidos

    # Asegurarse de que el país está en la lista de países conocidos
    country_input = country_var.get()
    if country_input not in list_of_countries:
        messagebox.showerror('Error', 'Por favor, selecciona un país de la lista.')
        return

    # Procesar la entrada del país
    country_encoded = transform_country_input(country_input)

    # Asegurarse de que el array de entrada tenga la forma correcta antes de hacer la predicción
    input_data = np.hstack([np.array([point_score, year_change]), country_encoded]).reshape(1, -1)

    # Verificar la longitud de input_data
    if input_data.shape[1] == 136:  # Si la longitud es 136, eliminar una característica extra
        # Eliminar la última característica como ejemplo, ajustar según sea necesario
        input_data = input_data[:, :-1]

    # Realizar la predicción utilizando el modelo cargado
    prediction = modelo_cargado.predict(input_data)
    messagebox.showinfo('Predicción', f'La predicción del ranking es: {prediction[0][0]}')

# Crear la ventana principal
root = tk.Tk()
root.title('Predicción del Ranking de Clubes de Fútbol')

# Crear y posicionar los elementos de la interfaz
tk.Label(root, text='Point Score:').pack()
entry_point_score = tk.Entry(root)
entry_point_score.pack()

tk.Label(root, text='1 Year Change:').pack()
entry_year_change = tk.Entry(root)
entry_year_change.pack()

tk.Label(root, text='Country:').pack()
country_var = tk.StringVar()
country_combobox = ttk.Combobox(root, textvariable=country_var)
country_combobox['values'] = list_of_countries
country_combobox.pack()

# Botón para realizar la predicción
predict_button = tk.Button(root, text='Predecir Ranking', command=hacer_prediccion)
predict_button.pack()

# Iniciar la interfaz gráfica
root.mainloop()




# Ajuste del Modelo
Explico los ajustes de hiperparámetros y cambios arquitectónicos realizados para mejorar los resultados iniciales.
# Mejora del modelo
## Mejoras en el Modelo de Deep Learning

### Regularización:
- **Dropout**: Se introdujo Dropout con una tasa de 0.5 en dos capas para prevenir el sobreajuste. El Dropout "apaga" aleatoriamente un conjunto de neuronas durante el entrenamiento, lo que ayuda a que el modelo sea menos sensible a las características específicas de los datos de entrenamiento.

### Ajuste de Arquitectura:
- **Capas y Neuronas**: Se aumentó el número de neuronas en la primera capa oculta a 128 para permitir que el modelo capture mejor la complejidad de los datos. Se mantuvo una segunda capa de 64 neuronas para una representación más rica y se añadió Dropout después de cada capa.

### Expectativas:
Estos cambios están destinados a mejorar la generalización del modelo y reducir el riesgo de sobreajuste. El Dropout debería permitir que el modelo sea más robusto al ruido en los datos de entrada.



# Resultados
Evalué el modelo final utilizando el conjunto de datos de prueba y aquí presento los hallazgos.
## Análisis de resultados
- **Regularización efectiva**: La introducción de capas de Dropout ha ayudado a prevenir el sobreajuste, lo cual se evidencia por la pérdida de validación que continúa disminuyendo en conjunto con la pérdida de entrenamiento.

- **Disminución de la pérdida**:  La pérdida de validación final es significativamente más baja que en el primer modelo, lo que indica que el modelo está generalizando mejor a nuevos datos.

- **Estabilidad del entrenamiento**:   Aunque hay fluctuaciones en la pérdida de validación, la tendencia general es decreciente, lo que es un buen indicador de que el modelo no está memorizando los datos de entrenamiento.


# Resultados
Se obtuvo la predicción del modelo a través del modelo mejorado y la interfaz

![image-2.png](attachment:image-2.png)
![image.png](attachment:image.png)


# Conclusiones

En este proyecto, abordé la tarea de predecir el ranking de clubes de fútbol utilizando aprendizaje profundo. Comenzamos con un modelo de perceptrón multicapa, pero luego mejoramos la arquitectura utilizando una red convolutiva 1D con capas Dropout para prevenir el sobreajuste.

Durante el proceso, realizamos un preprocesamiento de datos que incluyó la normalización de características y la codificación one-hot de la variable categórica. Luego, entrenamos el modelo con un conjunto de entrenamiento y evaluamos su rendimiento en un conjunto de validación.

Las mejoras en la arquitectura y la incorporación de Dropout mejoraron la capacidad del modelo para generalizar, lo que debería traducirse en predicciones más precisas. Sin embargo, aún hay margen para la optimización y la exploración de otras arquitecturas.

En resumen, este proyecto destaca la importancia de la elección de arquitectura en el aprendizaje profundo y cómo pequeños ajustes pueden tener un gran impacto en el rendimiento del modelo.
