**Analisis de Grandes Volumenes de Datos Actividad 3**


*   Carlos Daniel Morales Torres - A01796068



Introducción:
En la actualidad, el análisis de grandes volúmenes de datos se ha convertido en una necesidad imperante en múltiples sectores, incluyendo el deporte, la salud, las finanzas y muchos más. La habilidad para extraer información valiosa de grandes conjuntos de datos no solo permite la toma de decisiones informada, sino que también ofrece la oportunidad de identificar patrones y tendencias que pueden ser cruciales para el éxito de cualquier organización.

Para abordar estos desafíos, utilizamos Apache Spark, una poderosa herramienta que facilita el procesamiento y análisis de datos distribuidos. Spark se destaca por su capacidad para manejar grandes volúmenes de información de forma eficiente, gracias a su arquitectura en memoria y su capacidad de escalar horizontalmente. Al emplear PySpark, la interfaz de Python para Spark, podemos aprovechar la simplicidad y flexibilidad del lenguaje Python para realizar análisis de datos en gran escala.

En esta actividad, nos enfocaremos en dos tipos de aprendizaje: aprendizaje supervisado y aprendizaje no supervisado. Para ello, implementaremos distintos algoritmos que nos permitirán realizar tareas de clasificación y agrupamiento:

Aprendizaje Supervisado: Utilizaremos algoritmos como Árboles de Decisión y Bosques Aleatorios (Random Forest). Estos modelos nos permitirán predecir una variable objetivo basándonos en datos de entrada conocidos, donde se cuenta con un etiquetado previo.

Aprendizaje No Supervisado: Aplicaremos técnicas como K-Means y Modelos de Mezcla Gaussiana (Gaussian Mixture Models). Estos algoritmos son fundamentales para descubrir estructuras ocultas en los datos, agrupando datos similares sin necesidad de etiquetas previas.

Planificación
El enfoque para lograr construir estos modelos incluye varias etapas fundamentales:

Exploración de Datos: Inicialmente, realizaremos un análisis exploratorio para entender la estructura y las características del conjunto de datos. Esto incluye la identificación de valores nulos, la detección de outliers y la evaluación de estadísticas descriptivas.

Preprocesamiento de Datos: A continuación, aplicaremos estrategias de limpieza y transformación de datos. Esto puede incluir la imputación de valores nulos, la normalización de variables y la conversión de tipos de datos, asegurando que el dataset esté preparado para el modelado.

Particionamiento de Datos: Creamos particiones específicas basadas en criterios predefinidos, lo que nos permitirá seleccionar muestras representativas y reducir el tamaño del conjunto de datos para facilitar su análisis.

Entrenamiento de Modelos: Finalmente, aplicaremos los algoritmos de aprendizaje supervisado y no supervisado, evaluando su rendimiento mediante métricas adecuadas y seleccionando el modelo que mejor se adapte a nuestros objetivos.

Con este enfoque estructurado, esperamos obtener una comprensión más profunda de los datos y desarrollar modelos efectivos que contribuyan a la toma de decisiones basada en datos. A medida que avancemos, nos enfocaremos en maximizar la eficiencia del análisis y el impacto de los resultados obtenidos.

 **PASO 1: CARGAR INICIAL DE LOS DATOS**

Instalacion de librerias necesarias

In [1]:
!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!wget -q http://archive.apache.org/dist/spark/spark-3.1.1/spark-3.1.1-bin-hadoop3.2.tgz
!tar xf spark-3.1.1-bin-hadoop3.2.tgz
!pip install -q findspark

In [2]:
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.1.1-bin-hadoop3.2"

In [3]:
!ls

sample_data  spark-3.1.1-bin-hadoop3.2	spark-3.1.1-bin-hadoop3.2.tgz


En este punto del procesamiento, es necesario apoyarnos de GoogleDrive para poder cargar el archivo que no es posible cargar de manera normal a travez de un dispositivo movil o de procesamiento normal.

In [4]:
import findspark
findspark.init()
from pyspark import SparkContext, SparkConf, SQLContext
from pyspark.sql import SparkSession
spark = SparkSession.builder.master("local[*]").getOrCreate()
spark.conf.set("spark.sql.repl.eagerEval.enabled", True) # Property used to format output tables better
spark

In [6]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


Justificacion de la elección del dataset:

El fútbol es uno de los deportes más populares y seguidos a nivel mundial, generando un inmenso volumen de datos en diversas áreas, incluyendo el rendimiento de los jugadores, estadísticas de partidos, transacciones de transferencias y valoraciones en el mercado. En este contexto, el dataset de jugadores de fútbol utilizado en esta actividad se ha seleccionado por varias razones:

Relevancia del Dataset de Fútbol
Ricidad de Datos: Este dataset contiene información valiosa sobre numerosos jugadores, lo que incluye no solo datos básicos como nombres y edades, sino también métricas de rendimiento, valores de mercado y posiciones en el campo. Esta riqueza de información permite realizar análisis detallados y tomar decisiones informadas.

Tendencias de Mercado: La industria del fútbol ha visto un crecimiento significativo en los últimos años, tanto en ingresos como en el valor de los jugadores. Con el aumento de la competencia y la inversión en talento, es crucial para clubes y agentes de jugadores evaluar correctamente el valor de los jugadores. Analizar métricas de rendimiento en relación con el valor de mercado permite prever tendencias en el mercado de transferencias y ayudar a los clubes a tomar decisiones estratégicas sobre fichajes.

Análisis de Talento: El uso de técnicas de aprendizaje automático en este tipo de datos permite no solo identificar talentos emergentes, sino también evaluar la efectividad de los jugadores en diferentes contextos de juego. Por ejemplo, pueden analizarse las probabilidades de éxito de un jugador en función de su rendimiento pasado, edad y valor actual, lo que es esencial para la planificación de plantillas.

Intersección con la Ciencia de Datos: La creciente intersección entre el deporte y la ciencia de datos ha llevado a que instituciones deportivas busquen maximizar el rendimiento de sus equipos utilizando análisis predictivos. Los modelos de aprendizaje supervisado y no supervisado permiten identificar patrones que podrían no ser evidentes a simple vista, como las correlaciones entre atributos físicos, técnicos y el rendimiento en el campo.

Tendencias del Mercado
A medida que la industria del fútbol continúa evolucionando, las siguientes tendencias emergen sobre cómo los datos pueden moldear el mercado:

Valoración Precisa de Jugadores: Las organizaciones deportivas están cada vez más utilizando modelos basados en datos para valorar a los jugadores, considerando aspectos más allá de las estadísticas tradicionales. Esto podría resultar en un mercado de transferencias más dinámico y justo.

Desarrollo de Talento: Con el auge de academias y sistemas de scouting más avanzados, se prevé que el uso de análisis de datos se convierta en una norma para identificar y desarrollar futuros talentos.

Apuestas y Fantasy Leagues: La popularidad creciente de las apuestas deportivas y las ligas de fantasía también ha impulsado la demanda de análisis de datos, ya que los participantes buscan información precisa para mejorar sus decisiones.

Personalización del Aficionado: El análisis de datos también se aplica a la experiencia del aficionado, permitiendo que los clubes personalicen su contenido y servicios, lo que a su vez puede generar mayores ingresos.

En resumen, el dataset de fútbol no solo es relevante por la riqueza de sus datos, sino también por el potencial de aplicación en un mercado en constante cambio y evolución. A través del uso de tecnologías avanzadas y análisis de datos, los clubes de fútbol pueden tomar decisiones más informadas y estratégicas que beneficien tanto a su rendimiento deportivo como a su situación financiera.



In [8]:
# Make sure to run this cell to mount Google Drive first
from google.colab import drive
drive.mount('/content/drive')

from pyspark.sql import SparkSession

# Create Spark session
spark = SparkSession.builder \
    .appName("FIFA_Particionamiento") \
    .getOrCreate()

# Path to the CSV file in Google Drive
ruta_csv = '/content/drive/MyDrive/Machine Learning/male_players_23.csv'  # Adjust this path

# Load the DataFrame
df = spark.read.csv(ruta_csv, header=True, inferSchema=True)

# Verify loading
df.select("short_name", "age", "value_eur").show(5)




Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
+--------------+---+---------+
|    short_name|age|value_eur|
+--------------+---+---------+
|      L. Messi| 35| 54000000|
|    K. Benzema| 34| 64000000|
|R. Lewandowski| 33| 84000000|
|  K. De Bruyne| 31|107500000|
|     K. Mbappé| 23|190500000|
+--------------+---+---------+
only showing top 5 rows



In [10]:
from pyspark.sql import SparkSession
from pyspark.sql import functions as F
from pyspark.sql.functions import col

# Create Spark session (if not already created)
spark = SparkSession.builder \
    .appName("FIFA_Particionamiento") \
    .getOrCreate()

# Assuming `df` is your initial DataFrame loaded from the CSV
# Rule 1: Young + Low Value
part_1 = df.filter((col("age") <= 22) & (col("value_eur") <= 450000))

# Rule 2: Young + Medium Value
part_2 = df.filter((col("age") <= 22) & (col("value_eur") > 450000) & (col("value_eur") <= 1200000))

# Rule 3: Young + High Value
part_3 = df.filter((col("age") <= 22) & (col("value_eur") > 1200000))

# Rule 4: Adult + Low Value
part_4 = df.filter((col("age") > 22) & (col("age") <= 27) & (col("value_eur") <= 450000))

# Rule 5: Adult + Medium Value
part_5 = df.filter((col("age") > 22) & (col("age") <= 27) & (col("value_eur") > 450000) & (col("value_eur") <= 1200000))

# Rule 6: Adult + High Value
part_6 = df.filter((col("age") > 22) & (col("age") <= 27) & (col("value_eur") > 1200000))

# Rule 7: Veteran + Low Value
part_7 = df.filter((col("age") >= 28) & (col("value_eur") <= 450000))

# Rule 8: Veteran + Medium Value
part_8 = df.filter((col("age") >= 28) & (col("value_eur") > 450000) & (col("value_eur") <= 1200000))

# Rule 9: Veteran + High Value
part_9 = df.filter((col("age") >= 28) & (col("value_eur") > 1200000))

# Optionally, you can display the counts or show samples of each partition
print("Count of Young + Low Value:", part_1.count())
part_1.show(5)

print("Count of Young + Medium Value:", part_2.count())
part_2.show(5)

print("Count of Young + High Value:", part_3.count())
part_3.show(5)

print("Count of Adult + Low Value:", part_4.count())
part_4.show(5)

print("Count of Adult + Medium Value:", part_5.count())
part_5.show(5)

print("Count of Adult + High Value:", part_6.count())
part_6.show(5)

print("Count of Veteran + Low Value:", part_7.count())
part_7.show(5)

print("Count of Veteran + Medium Value:", part_8.count())
part_8.show(5)

print("Count of Veteran + High Value:", part_9.count())
part_9.show(5)

Count of Young + Low Value: 1815945
+---------+--------------------+------------+-----------+----------------+-----------+------------------+----------------+-------+---------+---------+--------+---+----------+---------+---------+---------+----------------+------------+------------+----------------+-------------+------------------+----------------+----------------+------------------------------+--------------+----------------+--------------+---------------+--------------------+--------------+---------+-----------+------------------------+-------------+----------------+---------+------------------+-----------+-------------+----+--------+-------+---------+---------+------+------------------+-------------------+--------------------------+-----------------------+-----------------+---------------+-----------+-----------------+------------------+------------------+---------------------+---------------------+----------------+------------------+----------------+----------------+-------------+-

In [11]:
print("Conteos por partición:")
print("Joven + Bajo:", part_1.count())
print("Joven + Medio:", part_2.count())
print("Joven + Alto:", part_3.count())
print("Adulto + Bajo:", part_4.count())
print("Adulto + Medio:", part_5.count())
print("Adulto + Alto:", part_6.count())
print("Veterano + Bajo:", part_7.count())
print("Veterano + Medio:", part_8.count())
print("Veterano + Alto:", part_9.count())


Conteos por partición:
Joven + Bajo: 1815945
Joven + Medio: 1012036
Joven + Alto: 737680
Adulto + Bajo: 779122
Adulto + Medio: 1268880
Adulto + Alto: 1412641
Veterano + Bajo: 852250
Veterano + Medio: 922530
Veterano + Alto: 1069709


Análisis de Resultados de Particiones
Conteos de Particiones: Al imprimir el conteo de cada partición, puedes observar la cantidad de jugadores que caen en cada categoría. Esto te dará una idea de cómo se distribuyen los jugadores de fútbol según la edad y el valor de mercado.

Ejemplos de Particiones: Al mostrar las primeras cinco filas de cada partición con .show(5), puedes inspeccionar los datos específicos que pertenecen a cada categoría. Esto es útil para validar que las reglas de particionamiento funcionaron como se esperaba.

Interpretación de Particiones:

Jóvenes: Los jugadores con 22 años o menos podrían ser considerados talentos emergentes, y su valorización en el mercado puede ser crucial para la estrategia de reclutamiento.
Adultos y Veteranos: Las distintas categorías de adultos (por ejemplo, entre 22 y 27) y veteranos (28 años en adelante) también ofrecen perspectivas sobre las etapas de carrera de los jugadores, donde su valor podría estar relacionado con su experiencia y desempeño a lo largo del tiempo.

 **PASO 2: PREPARACION DE LOS DATOS**

In [12]:
# Importación de las librerías necesarias
from pyspark.sql import functions as F
from pyspark.sql.functions import col

# Mostrar el esquema del DataFrame original para entender los tipos de datos
print("Esquema del DataFrame original:")
df.printSchema()

Esquema del DataFrame original:
root
 |-- player_id: integer (nullable = true)
 |-- player_url: string (nullable = true)
 |-- fifa_version: integer (nullable = true)
 |-- fifa_update: integer (nullable = true)
 |-- fifa_update_date: string (nullable = true)
 |-- short_name: string (nullable = true)
 |-- long_name: string (nullable = true)
 |-- player_positions: string (nullable = true)
 |-- overall: integer (nullable = true)
 |-- potential: integer (nullable = true)
 |-- value_eur: integer (nullable = true)
 |-- wage_eur: integer (nullable = true)
 |-- age: integer (nullable = true)
 |-- dob: string (nullable = true)
 |-- height_cm: integer (nullable = true)
 |-- weight_kg: integer (nullable = true)
 |-- league_id: integer (nullable = true)
 |-- league_name: string (nullable = true)
 |-- league_level: integer (nullable = true)
 |-- club_team_id: integer (nullable = true)
 |-- club_name: string (nullable = true)
 |-- club_position: string (nullable = true)
 |-- club_jersey_number: integ

Aquí se desarrolla lo siguiente: A continuación, verificaré cuántos valores nulos existen en cada columna del DataFrame. La limpieza de datos requiere que abordemos estos valores nulos para asegurarnos de que el análisis posterior sea fiable. Dependiendo de la cantidad de nulos, puedo optar por eliminar filas, rellenar valores o realizar alguna sustitución.

In [13]:
# Comprobar la cantidad de valores nulos en cada columna
nulos = df.select([F.count(F.when(F.col(c).isNull(), c)).alias(c) for c in df.columns])
print("Conteo de valores nulos en cada columna:")
nulos.show()

Conteo de valores nulos en cada columna:
+---------+----------+------------+-----------+----------------+----------+---------+----------------+-------+---------+---------+--------+---+---+---------+---------+---------+-----------+------------+------------+---------+-------------+------------------+----------------+----------------+------------------------------+--------------+----------------+--------------+---------------+--------------------+--------------+---------+-----------+------------------------+---------+---------+---------+------------------+-----------+-------------+-------+--------+-------+---------+---------+-------+------------------+-------------------+--------------------------+-----------------------+-----------------+---------------+-----------+-----------------+------------------+------------------+---------------------+---------------------+----------------+------------------+----------------+----------------+-------------+-------------+--------------+-------------

Aquí se desarrolla lo siguiente: En este paso, eliminaré las filas que tienen valores nulos en columnas críticas como short_name, age y value_eur. La decisión de eliminar filas con nulos se toma porque estas columnas son esenciales para el análisis y cualquier dato faltante afecta la calidad de los resultados.

In [14]:
# Ejemplo de imputación: Retirando registros con valores nulos en columnas críticas
df_cleaned = df.dropna(subset=["short_name", "age", "value_eur"])
print("Conteo después de eliminar nulos:")
df_cleaned.count()

Conteo después de eliminar nulos:


9870793

**Conversión de Tipos de Datos**

A continuación, convierto la columna age a un tipo de dato entero y value_eur a tipo numérico (doble). Asegurar que estas columnas tengan el tipo correcto es crucial, ya que afectará las operaciones matemáticas y estadísticas que realicemos más adelante.

In [15]:
# Convertir la columna 'age' a tipo entero si no lo es
df_cleaned = df_cleaned.withColumn("age", col("age").cast("integer"))

# Asegurarse de que 'value_eur' sea de tipo numérico
df_cleaned = df_cleaned.withColumn("value_eur", col("value_eur").cast("double"))

**Detección y Manejo de Outliers**

En este paso, calcularé estadísticas descriptivas para evaluar las distribuciones de la edad y el valor en euros. Posteriormente, definiré un rango aceptable para las edades y los valores de mercado. Los valores que caigan fuera de estos rangos se consideran outliers y los filtraremos del DataFrame para evitar que distorsionen los análisis posteriores.

In [16]:
# Cálculo de estadísticas descriptivas para detectar outliers
estadisticas = df_cleaned.describe(["age", "value_eur"])
estadisticas.show()

# Definimos un rango para los valores
rango_age = (0, 40)  # Rango de ejemplo para la edad
rango_value = (0, 200000000)  # Rango de ejemplo para el valor en euros

# Filtrar los outliers mediante el uso de condiciones
df_cleaned = df_cleaned.filter((col("age").between(*rango_age)) & (col("value_eur").between(*rango_value)))

+-------+------------------+------------------+
|summary|               age|         value_eur|
+-------+------------------+------------------+
|  count|           9870793|           9870793|
|   mean|24.797871761671022|2292345.6635145727|
| stddev| 4.672274223218144| 5781917.296432469|
|    min|                15|            1000.0|
|    max|                55|            1.94E8|
+-------+------------------+------------------+



Final processing of data

In [17]:
print("Esquema del DataFrame preprocesado:")
df_cleaned.printSchema()

# Mostrar las primeras filas del DataFrame limpio
df_cleaned.show(5)

Esquema del DataFrame preprocesado:
root
 |-- player_id: integer (nullable = true)
 |-- player_url: string (nullable = true)
 |-- fifa_version: integer (nullable = true)
 |-- fifa_update: integer (nullable = true)
 |-- fifa_update_date: string (nullable = true)
 |-- short_name: string (nullable = true)
 |-- long_name: string (nullable = true)
 |-- player_positions: string (nullable = true)
 |-- overall: integer (nullable = true)
 |-- potential: integer (nullable = true)
 |-- value_eur: double (nullable = true)
 |-- wage_eur: integer (nullable = true)
 |-- age: integer (nullable = true)
 |-- dob: string (nullable = true)
 |-- height_cm: integer (nullable = true)
 |-- weight_kg: integer (nullable = true)
 |-- league_id: integer (nullable = true)
 |-- league_name: string (nullable = true)
 |-- league_level: integer (nullable = true)
 |-- club_team_id: integer (nullable = true)
 |-- club_name: string (nullable = true)
 |-- club_position: string (nullable = true)
 |-- club_jersey_number: in

**Preparación del Conjunto de Entrenamiento y Prueba
El objetivo de esta etapa es dividir el conjunto de datos limpio que hemos obtenido después del preprocesamiento en dos subconjuntos: uno para entrenar el modelo y otro para evaluarlo. A continuación, describiré el proceso de división, la técnica de muestreo que utilizaré y el porcentaje de separación que elegiremos.**

Técnica de Muestreo y Justificación
Para la división del conjunto de datos, utilizaremos una técnica de muestreo aleatorio estratificado. Esta técnica nos permite asegurar que cada subconjunto (entrenamiento y prueba) mantenga la misma proporción de clases que el conjunto original. Esto es especialmente importante si estamos trabajando en un problema de clasificación, ya que ayuda a evitar sesgos que pueden surgir si una clase está desproporcionadamente representada en uno de los conjuntos.

Justificación del Porcentaje de División: Usualmente, una separación del 70% para entrenamiento y 30% para prueba es estándar en muchos casos, pero también se puede utilizar 80/20 o 75/25. Para esta actividad, propongo utilizar un 80% para el conjunto de entrenamiento y un 20% para el conjunto de prueba. Este balance es efectivo para proporcionar suficiente información al modelo durante el entrenamiento mientras se mantiene un conjunto de datos significativo para evaluación

NORMALIZACION DEL DATAFRAME

In [19]:
from pyspark.ml.feature import MinMaxScaler
from pyspark.ml.feature import VectorAssembler

# VectorAssembler para crear un vector de características
assembler = VectorAssembler(inputCols=["value_eur"], outputCol="features")
df_vector = assembler.transform(df_cleaned)

# Normalización usando MinMaxScaler
scaler = MinMaxScaler(inputCol="features", outputCol="scaledFeatures")

# Ajustar el normalizador a los datos
scalerModel = scaler.fit(df_vector)
normalized_df = scalerModel.transform(df_vector)

# Mostrar las primeras filas del DataFrame normalizado
normalized_df.select("value_eur", "scaledFeatures").show(5)

+---------+--------------------+
|value_eur|      scaledFeatures|
+---------+--------------------+
|    5.4E7|[0.2783467956020392]|
|    6.4E7|[0.3298934530590364]|
|    8.4E7|[0.4329867679730308]|
|  1.075E8|[0.5541214129969743]|
|  1.905E8| [0.981958669890051]|
+---------+--------------------+
only showing top 5 rows



Division de Conjuntos de ENTRENAMIENTO y PRUEBA(TEST)

In [20]:
# Definimos el porcentaje de división
porcentaje_entrenamiento = 0.80  # 80% para entrenamiento
porcentaje_prueba = 0.20  # 20% para prueba

# Realizamos la división del DataFrame en conjuntos de entrenamiento y prueba
train_df, test_df = normalized_df.randomSplit([porcentaje_entrenamiento, porcentaje_prueba], seed=42)

# Verificamos los conteos de cada conjunto
print("Conteo del conjunto de entrenamiento:", train_df.count())
print("Conteo del conjunto de prueba:", test_df.count())

Conteo del conjunto de entrenamiento: 7892805
Conteo del conjunto de prueba: 1974653


#Modelo de Aprendizaje Supervisado y No Supervisado

Diferentes Objetivos de Análisis:

Árbol de Decisión: Este modelo se utiliza para realizar predicciones sobre valores específicos, en este caso, el valor en euros de los futbolistas, con base en ciertas características (como la edad). Esta capacidad de realizar predicciones numéricas permite a los clubes evaluar potenciales fichajes y tomar decisiones informadas de inversión en talentos. Al ser un modelo supervisado, cuenta con la capacidad de aprender de los datos etiquetados (en este caso, el valor registrado de los jugadores) y presenta una interpretación clara de las decisiones que toma.

K-Means: Este modelo se emplea para agrupar datos no etiquetados, en este caso, jugadores basándose en características similares. K-Means permite identificar patrones entre los jugadores y crear grupos (clusters) que pueden facilitar la comprensión de la estructura del mercado. Por ejemplo, los clubes pueden usar esta información para segmentar a los jugadores según sus perfiles de rendimiento, lo que puede ayudar en la estrategia de contratación y desarrollo.

Complementariedad de Técnicas:

La combinación de aprendizaje supervisado y no supervisado proporciona un enfoque más completo para el análisis de datos. Mientras que el modelo supervisado ayuda a prever y establecer expectativas sobre valores específicos, el modelo no supervisado permite una exploración más profunda, detectando estructuras y relaciones en los datos que podrían no ser evidentes. Esto puede revelar insights valiosos que pueden influir en las decisiones estratégicas del club.
Mejor Toma de Decisiones:

Al tener ambos modelos, se puede cross-referencear los resultados: por ejemplo, al observar las predicciones del valor de los jugadores en relación con los clusters de K-Means, se pueden identificar tendencias, como si los jugadores de alto valor pertenecen a un determinado grupo demográfico o perfil de rendimiento. Esto permite a los clubes no solo basarse en predicciones individuales, sino también en la dinámica del mercado general.
Exploración de Datos en Diferentes Dimensiones:

Ambos modelos permiten explorar y analizar los datos desde perspectivas diferentes. El modelo supervisado se centra en predecir un valor basado en ciertas variables, mientras que el modelo no supervisado se centra en entender cómo los datos se agrupan. Esta diversidad en el análisis es crucial para obtener un panorama más completo de la situación actual y de las tendencias que pueden surgir en el futuro.

Modelo de Aprendizaje Supervisado
Usaremos un solo algoritmo, como Árbol de Decisión, para predecir la variable value_eur.



In [22]:
from pyspark.ml.feature import VectorAssembler
from pyspark.ml.regression import DecisionTreeRegressor
from pyspark.ml.evaluation import RegressionEvaluator

# Definición de la variable objetivo y características
target_col = "value_eur"
feature_cols = ["age"]  # Puedes agregar más variables según consideres necesario

# Crear el vector de características
# Primero asegurar que 'features' no exista ya
if 'features' in train_df.columns:
    train_df = train_df.drop('features')

if 'features' in test_df.columns:
    test_df = test_df.drop('features')

# Ahora crear el vector
assembler = VectorAssembler(inputCols=feature_cols, outputCol="features")
train_df = assembler.transform(train_df)
test_df = assembler.transform(test_df)

# Entrenamiento del modelo de Árbol de Decisión
decision_tree = DecisionTreeRegressor(featuresCol='features', labelCol=target_col)
decision_tree_model = decision_tree.fit(train_df)

# Predicciones en el conjunto de prueba
predictions = decision_tree_model.transform(test_df)

# Evaluación del modelo
evaluator = RegressionEvaluator(labelCol=target_col, predictionCol="prediction", metricName="rmse")
rmse = evaluator.evaluate(predictions)

print(f"Root Mean Squared Error (RMSE) del modelo de Árbol de Decisión: {rmse}")

Root Mean Squared Error (RMSE) del modelo de Árbol de Decisión: 5694426.73536433


El Root Mean Squared Error (RMSE) obtenido para el modelo de Árbol de Decisión, de aproximadamente 5,694,427 euros, sugiere que, si bien el modelo proporciona predicciones, la desviación promedio con respecto a los valores reales es considerable. Esto indica que podría ser necesario mejorar el rendimiento del modelo al considerar la inclusión de más características relevantes, como estadísticas de rendimiento jugador por jugador, posición en el campo, y otros atributos. Además, explorar modelos alternativos como Random Forest o Gradient Boosted Trees podría resultar en una mejor precisión, dado que estos modelos manejan interacciones complejas entre las variables de entrada de manera más efectiva. Adicionalmente, es aconsejable realizar un análisis de los errores de predicción para identificar patrones específicos y utilizar visualizaciones gráficas para comparar las predicciones con los valores reales, lo cual podría proporcionar información valiosa sobre el comportamiento del modelo.

In [28]:
 Import the necessary libraries for K-Means
from pyspark.ml.feature import VectorAssembler
from pyspark.ml.clustering import KMeans
import pyspark.sql.functions as F

# Define the features to be used for clustering (age and value_eur)
feature_cols_kmeans = ["age", "value_eur"]

# Ensure to drop the 'features' column if it already exists in train_df
if 'features' in train_df.columns:
    train_df = train_df.drop('features')

# Create a VectorAssembler to create the features column
assembler_kmeans = VectorAssembler(inputCols=feature_cols_kmeans, outputCol="features")
train_kmeans_df = assembler_kmeans.transform(train_df)

# Define the number of clusters you want to create
num_clusters = 3  # You can adjust this number based on your analysis

# Create and train the KMeans model
kmeans = KMeans(k=num_clusters, seed=1)  # set a random seed for reproducibility
kmeans_model = kmeans.fit(train_kmeans_df)

# Make predictions based on the clustering
kmeans_predictions = kmeans_model.transform(train_kmeans_df)

# Show the results with the original features and the assigned cluster
print("Results of K-Means:")
kmeans_predictions.select("age", "value_eur", "prediction").show(5)

# Optionally, we can group by prediction to see the average age and value in each cluster
cluster_summary = kmeans_predictions.groupBy("prediction").agg(
    F.avg("age").alias("avg_age"),
    F.avg("value_eur").alias("avg_value_eur"),
    F.count("*").alias("count")
)

print("Cluster Summary:")
cluster_summary.show()

SyntaxError: invalid syntax (<ipython-input-28-ff74fd3b92da>, line 1)

In [29]:
# Import the necessary libraries for K-Means
from pyspark.ml.feature import VectorAssembler
from pyspark.ml.clustering import KMeans
import pyspark.sql.functions as F

# Define the features to be used for clustering (age and value_eur)
feature_cols_kmeans = ["age", "value_eur"]

# Ensure to drop the 'features' column if it already exists in train_df
if 'features' in train_df.columns:
    train_df = train_df.drop('features')

# Create a VectorAssembler to create the features column
assembler_kmeans = VectorAssembler(inputCols=feature_cols_kmeans, outputCol="features")
train_kmeans_df = assembler_kmeans.transform(train_df)

# Define the number of clusters you want to create
num_clusters = 3  # You can adjust this number based on your analysis

# Create and train the KMeans model
kmeans = KMeans(k=num_clusters, seed=1)  # Set a random seed for reproducibility
kmeans_model = kmeans.fit(train_kmeans_df)

# Make predictions based on the clustering
kmeans_predictions = kmeans_model.transform(train_kmeans_df)

# Show the results with the original features and the assigned cluster
print("Results of K-Means:")
kmeans_predictions.select("age", "value_eur", "prediction").show(5)

# Optionally, we can group by prediction to see the average age and value in each cluster
cluster_summary = kmeans_predictions.groupBy("prediction").agg(
    F.avg("age").alias("avg_age"),
    F.avg("value_eur").alias("avg_value_eur"),
    F.count("*").alias("count")
)

print("Cluster Summary:")
cluster_summary.show()

Results of K-Means:
+---+---------+----------+
|age|value_eur|prediction|
+---+---------+----------+
| 37|5500000.0|         0|
| 37|5500000.0|         0|
| 37|5500000.0|         0|
| 38| 625000.0|         0|
| 38| 625000.0|         0|
+---+---------+----------+
only showing top 5 rows

Cluster Summary:
+----------+------------------+--------------------+-------+
|prediction|           avg_age|       avg_value_eur|  count|
+----------+------------------+--------------------+-------+
|         1|25.681383878456014|1.5927152595407052E7| 393734|
|         2| 25.95602417067456| 5.820239240350228E7|  40545|
|         0|24.737552031058147|  1270288.6668223722|7458526|
+----------+------------------+--------------------+-------+



En esta actividad, realizamos un análisis exhaustivo de un conjunto de datos relacionado con el fútbol, enfocándonos en enfoques de aprendizaje supervisado y no supervisado para extraer información valiosa sobre la valoración y las características de los jugadores. A continuación, se presenta un resumen de lo que logramos:

Preparación y Preprocesamiento de Datos:

Comenzamos con un conjunto de datos grande que contenía estadísticas de los jugadores y sus valores de mercado. A través de una rigurosa fase de preprocesamiento, manejamos los valores faltantes, ajustamos los tipos de datos y gestionamos los outliers, asegurando que nuestros datos fueran de alta calidad para un análisis posterior. El conjunto final, después del preprocesamiento, consistió en 7,892,805 registros para el conjunto de entrenamiento y 1,974,653 registros para el conjunto de prueba.
Enfoque de Modelado:

Aprendizaje Supervisado: Implementamos un Regresor de Árbol de Decisión, seleccionando value_eur como la variable objetivo. El modelo tenía como objetivo predecir el valor de mercado de los jugadores a partir de su edad. El modelo produjo un Root Mean Squared Error (RMSE) de aproximadamente 5,694,427 euros. Esta métrica indica que nuestras predicciones tuvieron una variabilidad considerable, lo que sugiere la necesidad de refinar el modelo en términos de selección de modelo o incorporación de características adicionales para mejorar la precisión.
Aprendizaje No Supervisado: Utilizamos el algoritmo de K-Means para explorar y agrupar a los jugadores en función de su edad y valor de mercado. Los clusters resultantes indicaron que los jugadores se agruparon principalmente según características similares, y observamos que la mayoría de los jugadores fueron asignados al cluster 0. Este enfoque de agrupamiento permitió descubrir patrones en el conjunto de datos, mostrando cómo diversos perfiles de jugadores podían ser agregados en función de sus atributos.
Perspectivas e Análisis:

El análisis proporcionó información valiosa sobre cómo diferentes grupos de edad se relacionan con el valor de mercado, sugiriendo que ciertos perfiles (por ejemplo, jugadores jóvenes con altas valoraciones) podrían ser objetivos para la búsqueda y la inversión. La capacidad de visualizar los clusters reveló tendencias en la edad y el valor de los jugadores, lo que puede respaldar la toma de decisiones en las estrategias de reclutamiento.
Evaluación de Modelos:

El RMSE del modelo de Árbol de Decisión destacó los desafíos para predecir con precisión los valores de los jugadores basándose únicamente en la edad, lo que sugiere que podrían ser necesarias características adicionales relacionadas con el rendimiento y la posición del jugador para mejorar la precisión.
Los resúmenes y visualizaciones del agrupamiento de K-Means ofrecieron una perspectiva útil sobre la demografía de los jugadores, revelando grupos distintos y respaldando la noción de estrategias específicas para la adquisición y desarrollo de jugadores.
Recomendaciones para el Futuro:

Los análisis futuros deberían considerar la mejora de los conjuntos de características al incorporar más variables (por ejemplo, estadísticas de rendimiento, posición del jugador, etc.) para refinar la precisión predictiva en el modelo supervisado.
Probar diferentes algoritmos, como Random Forest y Gradient Boosted Trees, podría producir mejoras en el rendimiento predictivo en comparación con el actual modelo de Árbol de Decisión.
Para el componente no supervisado, experimentar con diferentes números de clusters y visualizar los resultados puede mejorar la comprensión de la distribución de los jugadores en el mercado.
La incorporación de datos temporales podría ayudar a entender las trayectorias de valor de los jugadores a lo largo del tiempo, añadiendo profundidad a las estrategias de reclutamiento.
Conclusión
Esta actividad demostró la eficacia de las técnicas de aprendizaje supervisado y no supervisado en el análisis de conjuntos de datos complejos, especialmente en el contexto de la analítica deportiva. Al aprovechar estas técnicas, las organizaciones pueden obtener información basada en datos, mejorando su posicionamiento estratégico en un mercado competitivo. La combinación de una rigurosa preparación de datos, una selección de modelos cuidadosa y un análisis detallado sienta una base sólida para una exploración adicional en la ciencia de datos en deportes.
