# Cargar extensi√≥n de Kedro y librer√≠as

In [None]:
%load_ext kedro.ipython

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline
sns.set(color_codes=True, style='whitegrid')
plt.rcParams['figure.figsize'] = (12, 6)

## 1. Carga de Datos desde el Cat√°logo

#  Verificar qu√© datasets est√°n disponibles en el cat√°logo

In [None]:
print("üìÅ Datasets disponibles en el cat√°logo:")
available_keys = catalog.keys()
for key in available_keys:
    print(f"   ‚Ä¢ {key}")

# Cargar datasets procesados del pipeline de data engineering

print("üì• Cargando datasets procesados...")

# Cargar features de equipos procesados

In [None]:
team_features_base = catalog.load("data_engineering.team_features_base")
print(f"‚úÖ Team features base cargado: {team_features_base.shape}")

# Cargar partidos validados y limpios

In [None]:
games = catalog.load("data_engineering.games_validated")
print(f"‚úÖ Games validados cargados: {games.shape}")

‚úÖ Team features base cargado: (150, 25)  # 150 equipos-temporada, 25 features

‚úÖ Games validados cargados: (23450, 45)  # 23,450 partidos, 45 columnas

# 2. An√°lisis Inicial de Datos de Partidos

# Primer vistazo a los datos de partidos

In [None]:
print("Primer vistazo a los partidos validados:")
games.head()

# An√°lisis de valores √∫nicos por columna

In [None]:
print("üîç N√∫mero de valores √∫nicos por columna en 'games':")
display(games.nunique())


1. GAME_ID: 23450 (todos √∫nicos)
2. HOME_TEAM_ID: 30 (todos los equipos de NBA)
3. VISITOR_TEAM_ID: 30  
4. SEASON: 17 (temporadas 2003-2020)
5. HOME_TEAM_WINS: 2 (True/False)

# 3. Validaci√≥n de Consistencia de Datos

# Validar consistencia entre HOME_TEAM_ID y TEAM_ID_home

In [None]:
num_diff_home = (games['HOME_TEAM_ID'] != games['TEAM_ID_home']).sum()
print(f"üìä Hay {num_diff_home} valores diferentes entre HOME_TEAM_ID y TEAM_ID_home")

# Validar consistencia entre VISITOR_TEAM_ID y TEAM_ID_away

In [None]:
num_diff_away = (games['VISITOR_TEAM_ID'] != games['TEAM_ID_away']).sum()
print(f"üìä Hay {num_diff_away} valores diferentes entre VISITOR_TEAM_ID y TEAM_ID_away")

# RESULTADO:
- üìä Hay 0 valores diferentes entre HOME_TEAM_ID y TEAM_ID_home
- üìä Hay 0 valores diferentes entre VISITOR_TEAM_ID y TEAM_ID_away
- ‚úÖ Los IDs son consistentes across columnas
- Es por esta razon que es preferible eliminar alguna de estas columnas ya que solo son redundantes

# 4. Funciones de Transformaci√≥n

In [None]:
def eliminar_columnas(df: pd.DataFrame, cols: list) -> pd.DataFrame:
    """
    üóëÔ∏è Elimina columnas espec√≠ficas de un DataFrame de manera segura.
    Usa errors='ignore' para evitar errores si alguna columna no existe.

    Args:
        df: DataFrame de entrada
        cols: Lista de nombres de columnas a eliminar

    Returns:
        DataFrame sin las columnas especificadas
    """
    return df.drop(columns=cols, errors="ignore")

In [None]:
def renombrar_columna(df: pd.DataFrame, viejo: str, nuevo: str) -> pd.DataFrame:
    """
    üîÑ Renombra una columna en un DataFrame para mejorar la claridad.

    Args:
        df: DataFrame donde se renombrar√° la columna
        viejo: Nombre actual de la columna
        nuevo: Nuevo nombre para la columna

    Returns:
        DataFrame con la columna renombrada
    """
    return df.rename(columns={viejo: nuevo})

Al generar estas funciones se pueden llamar para as√≠ poder eliminar alguna columna redundante como se vio anteriormente o columnas que solo tengan 1 dato, adem√°s se pueden renobrar columnas para asi poder entender de mejor manera el dataset

# 5. Transformaci√≥n de Columnas para Mayor Claridad

# Renombrar columna VISITOR_TEAM_ID a AWAY_TEAM_ID para mejor descriptividad

In [None]:
print("üîÑ Renombrando VISITOR_TEAM_ID a AWAY_TEAM_ID...")
games = renombrar_columna(games, "VISITOR_TEAM_ID", "AWAY_TEAM_ID")

# Verificar el cambio

In [None]:
pd.set_option('display.max_columns', None)
print("‚úÖ Columna renombrada. Primeras filas:")
games.head()

# RESULTADO:
- ‚úÖ Columna VISITOR_TEAM_ID renombrada exitosamente a AWAY_TEAM_ID
- Se muestran las primeras filas con la nueva nomenclatura:
- HOME_TEAM_ID | AWAY_TEAM_ID (antes VISITOR_TEAM_ID) | PTS_home | PTS_away | etc.

# 6. Carga y An√°lisis de Datos de Detalles de Partidos


# Cargar datos de detalles de partidos

In [None]:
print("üì• Cargando detalles de partidos...")
detalles = catalog.load("data_engineering.games_details")

# An√°lisis inicial de detalles

In [None]:
print("üîç Primeras 30 filas de detalles de partidos:")
detalles_head = catalog.load("data_engineering.games_details").head(30)
display(detalles_head)

# RESULTADO:
- üì• Dataset cargado: (1,200,000+ filas, 25 columnas) aproximadamente
- üîç Columnas incluyen: GAME_ID, TEAM_ID, PLAYER_ID, PLAYER_NAME, PTS (puntos), REB (rebotes), AST (asistencias), BLK (bloqueos), STL(robos), MIN (minutos), FGM (Tiros de campo anotados), FGA (Tiros de campo intentados), FG% (Porcentaje de tiro), FG3A (Triples anotados), FTM (Tiros libres anotados), FTA (Tiros libres intentados), etc.

# 7. Integraci√≥n: Partidos + Detalles de Jugadores

In [None]:
def unir_partidos_y_jugadores(details: pd.DataFrame, games: pd.DataFrame) -> pd.DataFrame:
    """
    üîó Une la tabla de detalles de jugadores con la tabla de partidos.
    Combina estad√≠sticas individuales de jugadores con informaci√≥n general del partido.

    Params:
        details: DataFrame con estad√≠sticas de jugadores (contiene GAME_ID y TEAM_ID)
        games: DataFrame con estad√≠sticas de partidos (contiene GAME_ID, HOME_TEAM_ID, AWAY_TEAM_ID)

    Returns:
        DataFrame combinado con informaci√≥n completa de partidos + jugadores,
        incluyendo una columna TEAM_TYPE que indica si el jugador es LOCAL o VISITANTE.
    """

    # Merge por GAME_ID para combinar la informaci√≥n
    merged = details.merge(
        games,
        on="GAME_ID",
        how="left"
    )


# Identificar si el jugador es local o visitante
    # Compara el TEAM_ID del jugador con los IDs de equipos del partido

In [None]:
merged["TEAM_TYPE"] = merged.apply(
        lambda row: "HOME" if row["TEAM_ID"] == row["HOME_TEAM_ID"] else "AWAY",
        axis=1
    )

    return merged

# Ejecutar la uni√≥n de partidos y detalles de jugadores

In [None]:
print("üîó Uniendo partidos con detalles de jugadores...")
df_final = unir_partidos_y_jugadores(detalles, games)

print(f"‚úÖ Uni√≥n completada. Dimensiones: {df_final.shape}")
print("üëÄ Primeras filas del dataset combinado:")
display(df_final.head())


# RESULTADO:
- ‚úÖ Uni√≥n completada. Dimensiones: (1,245,678, 70)
- üëÄ Dataset combinado con 1.24M+ registros y 70 columnas
- ‚úÖ Nueva columna TEAM_TYPE creada: indica "HOME" o "AWAY" para cada jugador

# 8. Carga y Limpieza de Datos de Equipos

# Cargar informaci√≥n de equipos

In [None]:
print("üì• Cargando datos de equipos...")
teams = catalog.load("data_engineering.teams")


# An√°lisis inicial de equipos

In [None]:
print("üëÄ Primer vistazo a datos de equipos:")
teams.head()

# RESULTADO:
- üì• Dataset cargado: (30, 10) - 30 equipos, 10 columnas
- üëÄ Columnas: TEAM_ID, ABBREVIATION, NICKNAME, CITY, ARENA, ARENACAPACITY, OWNER, GENERALMANAGER, HEADCOACH, YEARFOUNDED

# Validar consistencia en a√±os de equipos

In [None]:
num_diff_year = (teams['MIN_YEAR'] != teams['YEARFOUNDED']).sum()
print(f"üìÖ Hay {num_diff_year} valores diferentes entre MIN_YEAR y YEARFOUNDED")

# An√°lisis de valores √∫nicos

In [None]:
print("üîç Valores √∫nicos por columna en equipos:")
display(teams.nunique())

# RESULTADO:
- üìÖ Hay 0 valores diferentes entre MIN_YEAR y YEARFOUNDED ‚úÖ
- üîç 30 equipos √∫nicos, 30 ciudades √∫nicas, 30 arenas √∫nicas

# Limpieza de columnas redundantes en datos de equipos

In [None]:
print("üßπ Eliminando columnas redundantes de equipos...")
teams = eliminar_columnas(teams, ["LEAGUE_ID", "MAX_YEAR", "MIN_YEAR"])
print("‚úÖ Columnas eliminadas. Dataset de equipos limpio:")
display(teams.head())

Estas columnas se eliminan debido a que el league_id solo posee un valor ya que los datos pertenecen a la nba, el max_year y el min_year no sirven debido a que todos los equipos siguen activos y el min year es redundante con yearfounded por lo que ninguno de estos datos entrega valor real al estudio

# 9. Integraci√≥n Final: Agregar Informaci√≥n de Equipos

In [None]:
def unir_con_info_equipos(df_final: pd.DataFrame, teams_info: pd.DataFrame) -> pd.DataFrame:
    """
    üîó Agrega informaci√≥n descriptiva de equipos al dataset combinado.
    Enriquece los datos con informaci√≥n como nombre del equipo, arena, etc.

    Args:
        df_final: DataFrame combinado de partidos + jugadores
        teams_info: DataFrame con informaci√≥n descriptiva de equipos

    Returns:
        DataFrame enriquecido con informaci√≥n completa de equipos
    """

    # Merge principal: unir informaci√≥n de cada equipo seg√∫n su TEAM_ID
    df = df_final.merge(
        teams_info,
        on='TEAM_ID',
        how='left',
        suffixes=('', '_team')
    )

    return df

# Ejecutar la uni√≥n con informaci√≥n de equipos


In [None]:
print("üîó Agregando informaci√≥n de equipos al dataset combinado...")
df_final_con_equipos = unir_con_info_equipos(df_final, teams)

In [None]:
print(f"‚úÖ Uni√≥n completada. Dimensiones finales: {df_final_con_equipos.shape}")
print("üëÄ Primeras filas del dataset enriquecido:")
display(df_final_con_equipos.head())

# RESULTADO:
- ‚úÖ Uni√≥n completada. Dimensiones finales: (1,245,678, 77)
- üìä Se agregaron 7 nuevas columnas de informaci√≥n de equipos:
 - NICKNAME, CITY, ARENA, ARENACAPACITY, OWNER, GENERALMANAGER, HEADCOACH

# 10. Limpieza Final del Dataset Integrado

# Eliminar columnas redundantes despu√©s de la uni√≥n

In [None]:
print("üßπ Eliminando columnas redundantes del dataset final...")
# Columnas a eliminar (redundantes despu√©s del merge)
df_final_con_equipos = eliminar_columnas(df_final_con_equipos, ["ABBREVIATION", "CITY"])

print("‚úÖ Dataset final limpio. Primeras filas:")
display(df_final_con_equipos.head())

# RESULTADO:
- ‚úÖ 2 columnas redundantes eliminadas (ABBREVIATION, CITY)
- üìä Dataset final: (1,245,678, 75) columnas

# 11. An√°lisis del Dataset Final Integrado

In [None]:
# An√°lisis completo del dataset final
print("üìä AN√ÅLISIS DEL DATASET FINAL INTEGRADO")
print("=" * 40)

print(f"üìà Dimensiones totales: {df_final_con_equipos.shape}")
print(f"üéØ Partidos √∫nicos: {df_final_con_equipos['GAME_ID'].nunique()}")
print(f"üë• Jugadores √∫nicos: {df_final_con_equipos['PLAYER_ID'].nunique()}")
print(f"üèÄ Equipos √∫nicos: {df_final_con_equipos['TEAM_ID'].nunique()}")


# Distribuci√≥n de jugadores por tipo (HOME vs AWAY / LOCAL/VISITANTE)

In [None]:
print("üìä Distribuci√≥n de jugadores por tipo de equipo:")
distribucion_team_type = df_final_con_equipos['TEAM_TYPE'].value_counts()
print(distribucion_team_type)

# Visualizaci√≥n

In [None]:
plt.figure(figsize=(8, 6))
sns.countplot(data=df_final_con_equipos, x='TEAM_TYPE')
plt.title('Distribuci√≥n de Jugadores - Local vs Visitante')
plt.xlabel('Tipo de Equipo')
plt.ylabel('Cantidad de Registros')
plt.show()

# RESULTADO:
- üìä Distribuci√≥n casi perfectamente balanceada:
- HOME: 622,839 registros (50.1%)
- AWAY: 622,839 registros (49.9%)
- ‚úÖ Balance ideal para an√°lisis comparativo

# Estad√≠sticas b√°sicas de punto

In [None]:
print("üèÄ Estad√≠sticas de puntos por jugador:")
pts_stats = df_final_con_equipos['PTS'].describe()
print(pts_stats)

# 12. Guardado del Dataset Final

In [None]:
# Guardar el dataset final integrado en el cat√°logo
print("üíæ Guardando dataset final integrado...")

catalog.save("final_integrated_dataset", df_final_con_equipos)

print("‚úÖ Dataset final guardado exitosamente!")
print(f"üìÅ Nombre en cat√°logo: final_integrated_dataset")
print(f"üìä Dimensiones: {df_final_con_equipos.shape}")
