# Cargar extensión de Kedro y librerí

In [None]:
%load_ext kedro.ipython
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline
sns.set(color_codes=True, style='whitegrid')
plt.rcParams['figure.figsize'] = (12, 6)

# Verificar las keys disponibles en el catálogo

In [None]:
print("Keys disponibles en el catálogo:")
catalog.keys()

# --- Cargar datasets ---

In [None]:
games = catalog.load("games")
details = catalog.load("games_details")
teams = catalog.load("teams")

print(f"Dimensiones de los datasets:")
print(f"games: {games.shape}")
print(f"details: {details.shape}")
print(f"teams: {teams.shape}")

# Análisis del Dataset 'games'

# Este dataset contiene información sobre los partidos de la NBA, incluyendo resultados, estadísticas básicas y metadatos.

# Primer vistazo a los datos de partidos

In [None]:
print("Primeras 5 filas del dataset 'games':")
display(games.head())

# Información del dataset

In [None]:
print("Información del dataset 'games':")
games.info()

# Estadísticas descriptivas

In [None]:
print("Estadísticas descriptivas de 'games':")
display(games.describe().T)

# Últimas filas del dataset

In [None]:
print("Últimas 5 filas del dataset 'games':")
display(games.tail())

# Número de valores únicos por columna

In [None]:
print("Número de valores únicos por columna en 'games':")
display(games.nunique())

# Estadísticas descriptivas completas

In [None]:
print("Estadísticas descriptivas completas:")
display(games.describe())

# Análisis de la variable HOME_TEAM_WINS

In [None]:
print("Distribución de victorias locales:")
display(games['HOME_TEAM_WINS'].value_counts())

# Función para convertir a booleano

In [None]:
def _is_true(x: pd.Series) -> pd.Series:
    return x == 1

# Aplicar la conversión

In [None]:
games['HOME_TEAM_WINS'] = _is_true(games['HOME_TEAM_WINS'])
print("Variable HOME_TEAM_WINS convertida a booleano:")
display(games['HOME_TEAM_WINS'].value_counts())

# Análisis de valores missing

In [None]:
print("Porcentaje de valores missing por columna (ordenado descendente):")
missing_percentage = games.isna().mean().sort_values(ascending=False) * 100
display(missing_percentage[missing_percentage > 0])

## Análisis Temporal de los Partidos

# Distribución de partidos por temporada

In [None]:
plt.figure(figsize=(14, 6))
sns.countplot(x="SEASON", data=games)
plt.title("Cantidad de juegos por temporada", fontsize=16, fontweight='bold')
plt.xlabel("Temporada")
plt.ylabel("Número de Partidos")
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

# Distribución de puntos anotados

In [None]:
plt.figure(figsize=(12, 6))
sns.histplot(games["PTS_home"], kde=True, label="Local", color="blue", alpha=0.7)
sns.histplot(games["PTS_away"], kde=True, label="Visitante", color="red", alpha=0.7)
plt.legend()
plt.title("Distribución de puntos anotados (Local vs Visitante)", fontsize=16, fontweight='bold')
plt.xlabel("Puntos Anotados")
plt.ylabel("Frecuencia")
plt.show()

# Calcular diferencia de puntos

In [None]:
games["DIFF"] = games["PTS_home"] - games["PTS_away"]

# Distribución de la diferencia de puntos

In [None]:
plt.figure(figsize=(12, 6))
sns.histplot(games["DIFF"], kde=True, color="green")
plt.title("Distribución de la diferencia de puntos (Local - Visitante)", fontsize=16, fontweight='bold')
plt.xlabel("Diferencia de Puntos")
plt.ylabel("Frecuencia")
plt.axvline(x=0, color='red', linestyle='--', label='Empate')
plt.legend()
plt.show()

## Análisis por Equipos

# Puntos promedio como local por equipo


In [None]:
home_points = games.groupby("HOME_TEAM_ID")["PTS_home"].agg(['mean', 'std', 'count']).sort_values(by='mean', ascending=False)
print("Top 10 equipos con más puntos en casa:")
display(home_points.head(10))

# Puntos promedio como visitante por equipo

In [None]:
away_points = games.groupby("VISITOR_TEAM_ID")["PTS_away"].agg(['mean', 'std', 'count']).sort_values(by='mean', ascending=False)
print("Top 10 equipos con más puntos como visitante:")
display(away_points.head(10))

# Porcentaje de victorias en casa por equipo

In [None]:
home_wins = games.groupby("HOME_TEAM_ID")["HOME_TEAM_WINS"].mean().sort_values(ascending=False) * 100
print("Top 10 equipos con mejor porcentaje de victorias en casa:")
display(home_wins.head(10).round(2))

## Análisis del Dataset 'games_details'

# Este dataset contiene estadísticas detalladas por jugador en cada partido.

# Configurar para mostrar todas las columnas

In [None]:
pd.set_option('display.max_columns', None)

print("Primeras 5 filas del dataset 'games_details':")
display(details.head())

# Información del dataset

In [None]:
print("Información del dataset 'games_details':")
details.info()


# Estadísticas descriptivas

In [None]:
print("Estadísticas descriptivas de 'games_details':")
display(details.describe().T)

# Número de valores únicos por columna

In [None]:
print("Número de valores únicos por columna en 'games_details':")
display(details.nunique())

# Análisis de valores missing

In [None]:
print("Porcentaje de valores missing en 'games_details' (top 10):")
missing_details = details.isna().mean().sort_values(ascending=False) * 100
display(missing_details.head(10))

# Estadísticas de minutos jugados

In [None]:
print("Estadísticas de minutos jugados por jugador:")
display(details['MIN'].describe())

# Distribución de puntos por jugador

In [None]:
plt.figure(figsize=(12, 6))
sns.histplot(details['PTS'].dropna(), kde=True, bins=30)
plt.title("Distribución de puntos por jugador por partido", fontsize=16, fontweight='bold')
plt.xlabel("Puntos")
plt.ylabel("Frecuencia")
plt.show()

## Análisis del Dataset 'teams'

# Este dataset contiene información sobre los equipos de la NBA.

In [None]:
print("Primeras 5 filas del dataset 'teams':")
display(teams.head())

# Información del dataset

In [None]:
print("Información del dataset 'teams':")
teams.info()

# Estadísticas descriptivas

In [None]:
print("Estadísticas descriptivas de 'teams':")
display(teams.describe().T)

# Número de valores únicos por columna

In [None]:
print("Número de valores únicos por columna en 'teams':")
display(teams.nunique())

## Análisis de Correlaciones

# Seleccionar variables numéricas para correlación

In [None]:
numeric_cols = games.select_dtypes(include=[np.number]).columns
correlation_matrix = games[numeric_cols].corr()

# Mapa de calor de correlaciones

In [None]:
plt.figure(figsize=(16, 12))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', center=0, fmt='.2f')
plt.title("Matriz de Correlación - Variables Numéricas", fontsize=16, fontweight='bold')
plt.tight_layout()
plt.show()

# Correlaciones con HOME_TEAM_WINS

In [None]:
print("Correlaciones con HOME_TEAM_WINS (ordenadas por valor absoluto):")
win_correlations = correlation_matrix['HOME_TEAM_WINS'].abs().sort_values(ascending=False)
display(win_correlations.head(10))

## Análisis de Outliers

# Detección de outliers en puntos anotados

In [None]:
plt.figure(figsize=(12, 6))
sns.boxplot(data=games[['PTS_home', 'PTS_away']])
plt.title("Distribución de Puntos - Detección de Outliers", fontsize=16, fontweight='bold')
plt.ylabel("Puntos")
plt.show()

# Partidos con mayor diferencia de puntos

In [None]:
extreme_games = games.nlargest(10, 'DIFF')[['GAME_DATE_EST', 'HOME_TEAM_ID', 'VISITOR_TEAM_ID', 'PTS_home', 'PTS_away', 'DIFF']]
print("Partidos con mayor diferencia de puntos a favor del local:")
display(extreme_games)

# Partidos con menor diferencia de puntos

In [None]:
close_games = games.nsmallest(10, abs(games['DIFF']))[['GAME_DATE_EST', 'HOME_TEAM_ID', 'VISITOR_TEAM_ID', 'PTS_home', 'PTS_away', 'DIFF']]
print("Partidos más ajustados (menor diferencia absoluta):")
display(close_games)

## Hallazgos Principales y Conclusiones

# 1. **Distribución de Partidos**: La cantidad de partidos por temporada es consistente
# 2. **Ventaja Local**: Existe una clara ventaja de jugar en casa (∼60% de victorias)
# 3. **Distribución de Puntos**: Los equipos locales tienden a anotar más puntos
# 4. **Calidad de Datos**: Los datasets principales tienen buena calidad con pocos valores missing
# 5. **Correlaciones**: Variables como FG_PCT y REB muestran alta correlación con las victorias
# 6. **Equipos Dominantes**: Se identifican equipos consistentemente buenos tanto locales como visitantes