PREPARACIÓN DE DATOS PARA SU MODELADO

 Identificación del Problema de Negocio

Contexto:
 
 El mercado de apuestas deportivas, en particular el de la NBA, es altamente competitivo y dinámico. Casas de apuestas y apostadores individuales buscan obtener una ventaja para tomar decisiones informadas y minimizar riesgos. Con la creciente cantidad de datos sobre el rendimiento individual de los jugadores como puntos anotados, asistencias, rebotes y otros indicadores la toma de decisiones basada únicamente en intuiciones o análisis superficiales puede resultar en apuestas desfavorables.

Problema de Negocio:

 Existe una dificultad para identificar de manera precisa y oportuna el rendimiento esperado de los jugadores en cada partido. La complejidad y el volumen de información que involucra estadísticas individuales, condiciones físicas y el contexto del juego dificultan la interpretación correcta de los datos. Esto impacta la rentabilidad de las apuestas, ya que decisiones basadas en análisis inexactos pueden llevar a pérdidas económicas.

Objetivo del Negocio:
 Reducir el riesgo y aumentar la rentabilidad en las apuestas sobre el rendimiento individual de los jugadores mediante el análisis profundo de datos de la temporada, centrándose en métricas que permitan predecir, por ejemplo, la cantidad de puntos anotados y otros indicadores clave de desempeño.



![image.png](attachment:image.png)

Identificación del Problema de Minería de Datos
Enfoque de la Minería de Datos:
 El análisis de datos mediante técnicas de minería puede transformar grandes volúmenes de información en insights valiosos para la toma de decisiones. En este proyecto se utilizarán métodos de limpieza, integración, transformación y modelado de datos para extraer patrones y generar predicciones sobre el desempeño individual de los jugadores, lo que apoyará la toma de decisiones en apuestas deportivas.
Problema de Minería de Datos:
 ¿Cómo se pueden extraer y modelar patrones significativos a partir de datos históricos y actuales de la NBA para predecir el rendimiento individual de los jugadores, especialmente en cuanto a puntos anotados y otras métricas relevantes?
Componentes del Análisis:
Limpieza e integración de datos:
 Recolectar información para transformarlos en un formato homogéneo y analizable. Este paso es fundamental para asegurar la calidad y consistencia de la información.


Transformación de los datos:
 Aplicar técnicas de normalización y selección de variables relevantes que permitan resaltar indicadores clave del rendimiento individual. Esto puede incluir escalado de variables numéricas o la creación de variables derivadas que capten tendencias en el desempeño.


Modelado y análisis:
 Utilizar algoritmos de machine learning (por ejemplo, regresión, clasificación o clustering) para identificar patrones y tendencias que se correlacionen con el rendimiento esperado de los jugadores. El objetivo es generar modelos predictivos robustos que ayuden a anticipar el desempeño en futuros partidos.


Visualización:
 Emplear herramientas como matplotlib, seaborn y streamlit para representar gráficamente los hallazgos, facilitando así la interpretación y la toma de decisiones basada en evidencia.


Contribución del Análisis de Datos al Problema de Negocio:
 El modelo de minería de datos permitirá:
Detectar variables que influyen significativamente en el rendimiento individual de los jugadores.
Identificar patrones que ayuden a predecir el desempeño en partidos futuros.
Proveer una base sólida para la toma de decisiones en apuestas deportivas, ofreciendo una perspectiva basada en evidencia y análisis cuantitativo.


![image.png](attachment:image.png)

Entendimiento de los datos

DATASET: Logramos obtener los datos de la plataforma de Kaggle, donde nos da un archivo csv, de las estadísticas de los jugadores de la NBA del año 2024, donde estas estadísticas abarcan nombre, posición, equipo, edad, minutos jugados, puntos, rebotes, asistencias, robos, bloqueos, entre otros. Abarca más de 530 jugadores. 
 
 EXCEL = [2024_nba_player_stats.csv ]

Creacion de nuestro dataframe con nuestras librerias necesarias...
Librerías y su uso
 pandas: Para cargar, manipular y explorar los datos en forma de DataFrame. 
 numpy: Para operaciones matemáticas 
seaborn: Para crear gráficos estadísticos 

In [1]:
#Importacion de librerias
import pandas as pd
import numpy as np
import seaborn as sns

#Creacion del dataframe

df_stats = pd.read_csv("2024_nba_player_stats.csv")

#Visualizacion de las primeras 5 filas
print(df_stats.head())

                     PName POS Team  Age  GP   W   L     Min   PTS  FGM  ...  \
0             Jayson Tatum  SF  BOS   25  74  52  22  2732.2  2225  727  ...   
1              Joel Embiid   C  PHI   29  66  43  23  2284.1  2183  728  ...   
2              Luka Doncic  PG  DAL   24  66  33  33  2390.5  2138  719  ...   
3  Shai Gilgeous-Alexander  PG  OKC   24  68  33  35  2416.0  2135  704  ...   
4    Giannis Antetokounmpo  PF  MIL   28  63  47  16  2023.6  1959  707  ...   

   AST  TOV  STL  BLK   PF    FP  DD2  TD3  +/-  Year  
0  342  213   78   51  160  3691   31    1  470  2023  
1  274  226   66  112  205  3706   39    1  424  2023  
2  529  236   90   33  166  3747   36   10  128  2023  
3  371  192  112   65  192  3425    3    0  149  2023  
4  359  246   52   51  197  3451   46    6  341  2023  

[5 rows x 31 columns]


INCONSISTENCIAS Y MEJORAS

In [2]:
#Renombramos las columnas para una mejor comprension

# Renombrar columnas a español
df_stats.rename(columns={
    'PName': 'Nombre_Jugador',
    'POS': 'Posición',
    'Team': 'Equipo',
    'Age': 'Edad',
    'GP': 'Partidos_Jugados',
    'W': 'Victorias',
    'L': 'Derrotas',
    'Min': 'Minutos_Jugados',
    'PTS': 'Puntos_Totales',
    'FGM': 'Tiros_Campo_Encestados',
    'FGA': 'Tiros_Campo_Intentados',
    'FG%': 'Porcentaje_Tiros_Campo',
    '3PM': 'Triples_Encestados',
    '3PA': 'Triples_Intentados',
    '3P%': 'Porcentaje_Triples',
    'FTM': 'Tiros_Libres_Encestados',
    'FTA': 'Tiros_Libres_Intentados',
    'FT%': 'Porcentaje_Tiros_Libres',
    'OREB': 'Rebotes_Ofensivos',
    'DREB': 'Rebotes_Defensivos',
    'REB': 'Rebotes_Totales',
    'AST': 'Asistencias',
    'TOV': 'Pérdidas',
    'STL': 'Robos',
    'BLK': 'Bloqueos',
    'PF': 'Faltas_Personales',
    'FP': 'Puntos_Fantasy_NBA',
    'DD2': 'Doble_Dobles',
    'TD3': 'Triple_Dobles',
    '+/-': 'Más_Menos',
    'Year': 'Año'
}, inplace=True)

#Visualizacion de las primeras 5 filas
print(df_stats.head())

            Nombre_Jugador Posición Equipo  Edad  Partidos_Jugados  Victorias  \
0             Jayson Tatum       SF    BOS    25                74         52   
1              Joel Embiid        C    PHI    29                66         43   
2              Luka Doncic       PG    DAL    24                66         33   
3  Shai Gilgeous-Alexander       PG    OKC    24                68         33   
4    Giannis Antetokounmpo       PF    MIL    28                63         47   

   Derrotas  Minutos_Jugados  Puntos_Totales  Tiros_Campo_Encestados  ...  \
0        22           2732.2            2225                     727  ...   
1        23           2284.1            2183                     728  ...   
2        33           2390.5            2138                     719  ...   
3        35           2416.0            2135                     704  ...   
4        16           2023.6            1959                     707  ...   

   Asistencias  Pérdidas  Robos  Bloqueos  Faltas_

In [3]:
# Verificar valores nulos
valores_nulos = df_stats.isnull().sum()
print(valores_nulos)


# Verificar valores duplicados y eliminarlos
duplicados = df_stats.duplicated().sum()
print(f"TOTAL DE DUPLICADOS: {duplicados}")

Nombre_Jugador             0
Posición                   5
Equipo                     0
Edad                       0
Partidos_Jugados           0
Victorias                  0
Derrotas                   0
Minutos_Jugados            0
Puntos_Totales             0
Tiros_Campo_Encestados     0
Tiros_Campo_Intentados     0
Porcentaje_Tiros_Campo     0
Triples_Encestados         0
Triples_Intentados         0
Porcentaje_Triples         0
Tiros_Libres_Encestados    0
Tiros_Libres_Intentados    0
Porcentaje_Tiros_Libres    0
Rebotes_Ofensivos          0
Rebotes_Defensivos         0
Rebotes_Totales            0
Asistencias                0
Pérdidas                   0
Robos                      0
Bloqueos                   0
Faltas_Personales          0
Puntos_Fantasy_NBA         0
Doble_Dobles               0
Triple_Dobles              0
Más_Menos                  0
Año                        0
dtype: int64
TOTAL DE DUPLICADOS: 0


In [4]:
#Borrar columnas inecesarias
df_stats.drop(columns=["Más_Menos", "Puntos_Fantasy_NBA"], inplace=True)

#Guardar el archivo en un nuevo archivo csv
df_stats.to_csv(r"C:\Users\sergi\OneDrive\Desktop\ProyectoNBA\NuevoArchivo.csv", index=False, encoding="utf-8")


Logramos crear nuestro dataset con las columnas mas importantes, pero el tamaño de este es muy pequeño para generar una prediccion y no hay suficiente cantidad de jugadores para poderlo hacer, por lo tanto agregamos un csv que tiene jugadores y sus estadisticas desde 1991, e intentamos que se transforme y tenga una forma igual que el primer dataset para poderlos unir.

In [27]:
import pandas as pd

# Leer el archivo CSV original
df = pd.read_csv("players.csv", sep=";", encoding="ISO-8859-1")

# Convertir las columnas relevantes a numéricas, forzando los valores no numéricos a NaN
df["MP"] = pd.to_numeric(df["MP"], errors='coerce')
df["PTS"] = pd.to_numeric(df["PTS"], errors='coerce')
df["FG"] = pd.to_numeric(df["FG"], errors='coerce')
df["FGA"] = pd.to_numeric(df["FGA"], errors='coerce')
df["3P"] = pd.to_numeric(df["3P"], errors='coerce')
df["3PA"] = pd.to_numeric(df["3PA"], errors='coerce')
df["FT"] = pd.to_numeric(df["FT"], errors='coerce')
df["FTA"] = pd.to_numeric(df["FTA"], errors='coerce')
df["ORB"] = pd.to_numeric(df["ORB"], errors='coerce')
df["DRB"] = pd.to_numeric(df["DRB"], errors='coerce')
df["TRB"] = pd.to_numeric(df["TRB"], errors='coerce')
df["AST"] = pd.to_numeric(df["AST"], errors='coerce')
df["STL"] = pd.to_numeric(df["STL"], errors='coerce')
df["BLK"] = pd.to_numeric(df["BLK"], errors='coerce')
df["TOV"] = pd.to_numeric(df["TOV"], errors='coerce')
df["PF"] = pd.to_numeric(df["PF"], errors='coerce')
df["G"] = pd.to_numeric(df["G"], errors='coerce')

# Multiplicar las estadísticas por partido por los juegos jugados para obtener totales
df["Minutos_Jugados"] = df["MP"] * df["G"]
df["Puntos_Totales"] = df["PTS"] * df["G"]
df["Tiros_Campo_Encestados"] = df["FG"] * df["G"]
df["Tiros_Campo_Intentados"] = df["FGA"] * df["G"]
df["Triples_Encestados"] = df["3P"] * df["G"]
df["Triples_Intentados"] = df["3PA"] * df["G"]
df["Tiros_Libres_Encestados"] = df["FT"] * df["G"]
df["Tiros_Libres_Intentados"] = df["FTA"] * df["G"]
df["Rebotes_Ofensivos"] = df["ORB"] * df["G"]
df["Rebotes_Defensivos"] = df["DRB"] * df["G"]
df["Rebotes_Totales"] = df["TRB"] * df["G"]
df["Asistencias"] = df["AST"] * df["G"]
df["Robos"] = df["STL"] * df["G"]
df["Bloqueos"] = df["BLK"] * df["G"]
df["Pérdidas"] = df["TOV"] * df["G"]
df["Faltas_Personales"] = df["PF"] * df["G"]

# Agregar victorias y derrotas (estos datos no están en el CSV original, se dejan en 0)
df["Victorias"] = 0
df["Derrotas"] = 0

# Calcular doble-dobles y triple-dobles
def calcular_doble_triple_doble(row):
    stats = [row["Puntos_Totales"], row["Rebotes_Totales"], row["Asistencias"], row["Robos"], row["Bloqueos"]]
    conteo = sum(1 for stat in stats if stat >= 10)
    return conteo >= 2, conteo >= 3

df[["Doble_Dobles", "Triple_Dobles"]] = df.apply(lambda row: pd.Series(calcular_doble_triple_doble(row)), axis=1)

# Mantener las columnas "Edad", "Equipo" y "Posición" y agrupar por jugador y año
df_grouped = df.groupby(['Player', 'Year']).agg({
    "MP": "sum",  # Sumar minutos jugados
    "PTS": "sum",  # Sumar puntos totales
    "FG": "sum",  # Sumar tiros de campo
    "FGA": "sum",  # Sumar intentos de tiros de campo
    "3P": "sum",  # Sumar triples encestados
    "3PA": "sum",  # Sumar intentos de triples
    "FT": "sum",  # Sumar tiros libres encestados
    "FTA": "sum",  # Sumar intentos de tiros libres
    "ORB": "sum",  # Sumar rebotes ofensivos
    "DRB": "sum",  # Sumar rebotes defensivos
    "TRB": "sum",  # Sumar rebotes totales
    "AST": "sum",  # Sumar asistencias
    "STL": "sum",  # Sumar robos
    "BLK": "sum",  # Sumar bloqueos
    "TOV": "sum",  # Sumar pérdidas
    "PF": "sum",  # Sumar faltas personales
    "Victorias": "sum",  # Sumar victorias
    "Derrotas": "sum",  # Sumar derrotas
    "Doble_Dobles": "sum",  # Sumar doble-dobles
    "Triple_Dobles": "sum",  # Sumar triple-dobles
    "Age": "first",  # Mantener la primera edad para cada jugador (suponiendo que es constante)
    "Tm": "first",  # Mantener el primer equipo para cada jugador
    "Pos": "first",  # Mantener la primera posición para cada jugador
}).reset_index()

# Renombrar las columnas según el formato final
df_final = df_grouped.rename(columns={
    "MP": "Minutos_Jugados",
    "PTS": "Puntos_Totales",
    "FG": "Tiros_Campo_Encestados",
    "FGA": "Tiros_Campo_Intentados",
    "3P": "Triples_Encestados",
    "3PA": "Triples_Intentados",
    "FT": "Tiros_Libres_Encestados",
    "FTA": "Tiros_Libres_Intentados",
    "ORB": "Rebotes_Ofensivos",
    "DRB": "Rebotes_Defensivos",
    "TRB": "Rebotes_Totales",
    "AST": "Asistencias",
    "STL": "Robos",
    "BLK": "Bloqueos",
    "TOV": "Pérdidas",
    "PF": "Faltas_Personales",
    "Victorias": "Victorias",
    "Derrotas": "Derrotas",
    "Doble_Dobles": "Doble_Dobles",
    "Triple_Dobles": "Triple_Dobles",
    "Age": "Edad",
    "Tm": "Equipo",
    "Pos": "Posición",
    "Year": "Año"
})

# Guardar el nuevo CSV
df_final.to_csv("estadisticas_convertidas2.csv", index=False, sep=",")

print("Conversión completada. CSV guardado como 'estadisticas_convertidas2.csv'.")


Conversión completada. CSV guardado como 'estadisticas_convertidas2.csv'.


Con el archivo convertido, ahora intentamos concatenar nuestros dos archivos para tener solo uno, que abarque con todos los datos relevantes y que ahora abarcara con un mejor contexto

In [32]:


# Leer ambos archivos CSV
archivo1 = pd.read_csv('NuevoArchivo.csv')
archivo2 = pd.read_csv('estadisticas_convertidas2.csv')

# Eliminar las columnas 'Victorias' y 'Derrotas' de ambos archivos
archivo1 = archivo1.drop(columns=['Victorias', 'Derrotas', 'Porcentaje_Tiros_Campo', 'Partidos_Jugados', "Porcentaje_Tiros_Libres"], errors='ignore')
archivo2 = archivo2.drop(columns=['Victorias', 'Derrotas', 'Porcentaje_Tiros_Campo', 'Partidos_Jugados', "Porcentaje_Tiros_Libres"], errors='ignore')


# Renombrar columnas del segundo archivo para que coincidan con el primer archivo
archivo2.rename(columns={
    'Player': 'Nombre_Jugador',
    'Year': 'Año',
    'Minutos_Jugados': 'Minutos_Jugados',
    'Puntos_Totales': 'Puntos_Totales',
    'Tiros_Campo_Encestados': 'Tiros_Campo_Encestados',
    'Tiros_Campo_Intentados': 'Tiros_Campo_Intentados',
    'Triples_Encestados': 'Triples_Encestados',
    'Triples_Intentados': 'Triples_Intentados',
    'Tiros_Libres_Encestados': 'Tiros_Libres_Encestados',
    'Tiros_Libres_Intentados': 'Tiros_Libres_Intentados',
    'Rebotes_Ofensivos': 'Rebotes_Ofensivos',
    'Rebotes_Defensivos': 'Rebotes_Defensivos',
    'Rebotes_Totales': 'Rebotes_Totales',
    'Asistencias': 'Asistencias',
    'Robos': 'Robos',
    'Bloqueos': 'Bloqueos',
    'Pérdidas': 'Pérdidas',
    'Faltas_Personales': 'Faltas_Personales',
    'Doble_Dobles': 'Doble_Dobles',
    'Triple_Dobles': 'Triple_Dobles'
}, inplace=True)

# Concatenar los archivos por filas (si no necesitas una fusión exacta)
archivo_unido = pd.concat([archivo1, archivo2], ignore_index=True)

# Guardar el nuevo archivo CSV
archivo_unido.to_csv('Archivo_Unido.csv', index=False)

print("Archivos concatenados correctamente.")


Archivos concatenados correctamente.


In [33]:
# Leer el archivo CSV
archivo = pd.read_csv('Archivo_Unido.csv')

# Obtener el número de filas y columnas
filas, columnas = archivo.shape

# Imprimir el resultado
print(f"El archivo tiene {filas} filas y {columnas} columnas.")

El archivo tiene 14667 filas y 24 columnas.
