# ETL1

## Funciones auxiliares

Con el fin de estandarizar el tipo de datos que se tiene por columna se definen funcione auxiliares que convierten a tipo numerico, string, int, float, datetime, bit y una funci√≥n que verifica que no haya ningun id nulo.

In [5]:
import sqlite3
import pandas as pd
import sys 
import io # Para capturar la salida de df.info()

# --- Configuraci√≥n ---
sqlite_db_file = 'nba.sqlite'

# --- Funciones Auxiliares (COMPLETAS) ---

def safe_to_numeric(series, errors='coerce'):
    series = series.replace(r'^\s*$', pd.NA, regex=True)
    return pd.to_numeric(series, errors=errors)

def convert_to_string(df, columns):
    for col in columns:
        if col in df.columns:
            df[col] = df[col].astype(str).replace({
                'None': pd.NA, 'nan': pd.NA, '<NA>': pd.NA
            }, regex=False)
            df[col] = df[col].str.replace(r'\.0$', '', regex=True)
    return df

def convert_to_int64(df, columns):
    for col in columns:
        if col in df.columns: df[col] = safe_to_numeric(df[col]).astype('Int64')
    return df

def convert_to_float(df, columns):
    for col in columns:
        if col in df.columns: df[col] = safe_to_numeric(df[col]).astype('float64')
    return df

def convert_to_datetime(df, columns):
    for col in columns:
        if col in df.columns: df[col] = pd.to_datetime(df[col], errors='coerce')
    return df

def convert_to_bit(df, columns):
    for col in columns:
        if col in df.columns:
            df[col] = df[col].astype(str).str.strip().str.lower().map({
                '1': 1, 'true': 1, 't': 1, '0': 0, 'false': 0, 'f': 0
            }).fillna(pd.NA).astype('Int64')
    return df

def check_pk_not_null(df, pk_columns):
    pk_list = [pk_columns] if isinstance(pk_columns, str) else list(pk_columns)
    for col in pk_list:
        if col in df.columns and df[col].isnull().any():
            print(f"   üö® ¬°ADVERTENCIA! La columna PK '{col}' contiene NULOS. ¬°Esto podr√≠a causar problemas al cargar!")            
    return df



## Funciones de limpieza

Para cada una de las tablas se hace un filtrado y limpieza, se tiene en cuenta que para la tablas que no son estaticas sino transaccionales como play_by_play se filtra para las √∫ltimas 5 temporadas.

In [6]:
def limpiar_team(df):
    print("   üßπ Limpiando Team...")
    df = convert_to_string(df, ['id'])
    df = convert_to_int64(df, ['year_founded'])
    df = check_pk_not_null(df, 'id')
    return df

def limpiar_team_details(df):
    print("   üßπ Limpiando team_details...")
    df = convert_to_string(df, ['team_id'])
    df = convert_to_int64(df, ['yearfounded', 'arenacapacity'])
    df = check_pk_not_null(df, 'team_id')
    return df

def limpiar_draft_history(df):
    print("   üßπ Limpiando draft_history...")
    str_ids = ['person_id', 'team_id']
    int_cols = ['season', 'round_number', 'round_pick', 'overall_pick']
    bit_cols = ['player_profile_flag']
    if '_rowid' in df.columns: int_cols.append('_rowid')
    df = convert_to_string(df, str_ids)
    df = convert_to_int64(df, int_cols)
    df = convert_to_bit(df, bit_cols)
    df = check_pk_not_null(df, ['person_id', 'season'])
    return df

def limpiar_game(df):
    print("   üßπ Limpiando game...")
    str_ids = ['game_id', 'team_id_home', 'team_id_away']
    int_cols = ['fgm_home', 'fga_home', 'fg3m_home', 'fg3a_home', 'ftm_home', 'fta_home', 'oreb_home', 'dreb_home', 'reb_home', 'ast_home', 'stl_home', 'blk_home', 'tov_home', 'pf_home', 'pts_home', 'plus_minus_home', 'fgm_away', 'fga_away', 'fg3m_away', 'fg3a_away', 'ftm_away', 'fta_away', 'oreb_away', 'dreb_away', 'reb_away', 'ast_away', 'stl_away', 'blk_away', 'tov_away', 'pf_away', 'pts_away', 'plus_minus_away']
    float_cols = ['min', 'fg_pct_home', 'fg3_pct_home', 'ft_pct_home', 'fg_pct_away', 'fg3_pct_away', 'ft_pct_away']
    bit_cols = ['wl_home', 'video_available_home', 'wl_away', 'video_available_away']
    df = convert_to_string(df, str_ids)
    df = convert_to_int64(df, int_cols)
    df = convert_to_float(df, float_cols)
    df = convert_to_bit(df, bit_cols)
    df = convert_to_datetime(df, ['game_date'])
    df = check_pk_not_null(df, 'game_id')
    return df

Se hace la limpieza (quitar filas vacias, estandarizar formatos) de las tablas team, game, team_details y draft history.

In [8]:
# --- Diccionario de Tablas a Procesar ---
tables_to_process = {
    'team': (('id'), limpiar_team),
    'game': (('game_id'), limpiar_game),
    'team_details': (('team_id'), limpiar_team_details),
    'draft_history': (('person_id', 'season'), limpiar_draft_history),
}

# --- Orden de Carga (Respetando Dependencias L√≥gicas) ---
load_order = [
    'team', 
    'game', 
    'team_details', 
    'draft_history'
]

# --- Proceso Principal ET ---

sqlite_conn = None

print(f"--- üöÄ Iniciando Proceso ET Tablas Seleccionadas ---")

try:
    # --- Conectar a SQLite ---
    print(f"üîå Conectando a SQLite: {sqlite_db_file}...")
    sqlite_conn = sqlite3.connect(sqlite_db_file)
    
    # --- Bucle para Procesar Cada Tabla en Orden ---
    for table_name in load_order:
        pk_info, clean_func = tables_to_process[table_name]

        print(f"\n=======================================================")
        print(f"--- ‚è≥ Procesando Tabla: {table_name} ---")
        print(f"=======================================================")
        
        # 1. EXTRAER
        print(f"   üìä Extrayendo datos de '{table_name}'...")
        try:
            # Usamos pd.read_sql_query para leer toda la tabla
            df_sqlite = pd.read_sql_query(f"SELECT * FROM \"{table_name}\"", sqlite_conn)
            if df_sqlite.empty:
                print(f"   ‚ö†Ô∏è No se encontraron datos para '{table_name}'. Saltando...")
                continue
            rows_before = len(df_sqlite)
            print(f"   ‚úÖ Se extrajeron {rows_before} filas.")
        except Exception as e:
            print(f"   ‚ùå Error al extraer '{table_name}': {e}. Saltando...")
            continue

        # 2. TRANSFORMAR


        df_cleaned = clean_func(df_sqlite.copy()) # Aplicamos limpieza


        # 3. ELIMINAR FILAS VAC√çAS
        rows_before_drop = len(df_cleaned)
        df_cleaned.dropna(how='all', inplace=True)
        rows_after_drop = len(df_cleaned)
        rows_removed = rows_before_drop - rows_after_drop
        if rows_removed > 0:
            print(f"   üóëÔ∏è Se eliminaron {rows_removed} filas completamente vac√≠as.")
        
        print(f"   ‚ú® {table_name} procesada. {rows_after_drop} filas listas.")

        # 4. MOSTRAR MUESTRA
        print("\n   --- MUESTRA DE DATOS LIMPIOS (Primeras 3 filas) ---")
        print(df_cleaned.head(3).to_string())

except Exception as e:
    print(f"‚ùå Ocurri√≥ un error general durante el proceso: {e}")

finally:
    # --- Cerrar Conexi√≥n ---
    if sqlite_conn:
        sqlite_conn.close()
        print("\n\nüö™ Conexi√≥n a SQLite cerrada.")

--- üöÄ Iniciando Proceso ET Tablas Seleccionadas ---
üîå Conectando a SQLite: nba.sqlite...

--- ‚è≥ Procesando Tabla: team ---
   üìä Extrayendo datos de 'team'...
   ‚úÖ Se extrajeron 30 filas.
   üßπ Limpiando Team...
   ‚ú® team procesada. 30 filas listas.

   --- MUESTRA DE DATOS LIMPIOS (Primeras 3 filas) ---
           id            full_name abbreviation   nickname       city          state  year_founded
0  1610612737        Atlanta Hawks          ATL      Hawks    Atlanta        Georgia          1949
1  1610612738       Boston Celtics          BOS    Celtics     Boston  Massachusetts          1946
2  1610612739  Cleveland Cavaliers          CLE  Cavaliers  Cleveland           Ohio          1970

--- ‚è≥ Procesando Tabla: game ---
   üìä Extrayendo datos de 'game'...
   ‚úÖ Se extrajeron 65698 filas.
   üßπ Limpiando game...
   ‚ú® game procesada. 65698 filas listas.

   --- MUESTRA DE DATOS LIMPIOS (Primeras 3 filas) ---
  season_id team_id_home team_abbreviation_home  

## Limpieza play_by_play √∫ltimas 5 temporadas

Se calcula los a√±os de las ultimas 5 temporadas de la NBA para los datos disponibles, y se muestra un resumen de la tabla procesada.

In [9]:
# --- Configuraci√≥n ---
sqlite_db_file = 'nba.sqlite'
table_to_process = 'play_by_play'
game_info_table = 'game_info' # Usaremos esta tabla para las fechas/a√±os

# --- Nombres de columnas ASUMIDOS en game_info (¬°AJUSTA SI ES NECESARIO!) ---
# Si tus columnas se llaman diferente, c√°mbialas aqu√≠:
GAME_INFO_ID_COLUMN = 'game_id' # Columna de ID de juego en game_info
GAME_INFO_DATE_COLUMN = 'game_date' # Columna de fecha en game_info

def limpiar_play_by_play(df):
    """Limpia y convierte tipos para la tabla play_by_play."""
    print("   üßπ Limpiando play_by_play...")
    # Asumimos que la columna GAME_INFO_ID_COLUMN se mapea a 'game_id' en play_by_play
    # o que tienen el mismo nombre. Ajusta si 'game_id' en PBP tiene otro nombre.
    str_ids = [
        'game_id', 'player1_id', 'player1_team_id', 
        'player2_id', 'player2_team_id', 'player3_id', 'player3_team_id'
    ]
    # Si GAME_INFO_ID_COLUMN no es 'game_id', y 'game_id' existe en df, se limpiar√°.
    # Si GAME_INFO_ID_COLUMN es el nombre usado en df_sqlite, no hay problema.
    
    int_cols = [
        'eventnum', 'eventmsgtype', 'eventmsgactiontype', 'period',
        'person1type', 'person2type', 'person3type'
    ]
    bit_cols = ['video_available_flag']
    df = convert_to_string(df, str_ids)
    df = convert_to_int64(df, int_cols)
    df = convert_to_bit(df, bit_cols)
    df = check_pk_not_null(df, ['game_id', 'eventnum'])
    return df

# --- Proceso Principal ET ---

sqlite_conn = None

print(f"--- üöÄ Iniciando Proceso ET para: {table_to_process} (Temporadas Din√°micas desde {game_info_table}) ---")

try:
    # --- 1. EXTRAER ---
    print(f"üîå Conectando a SQLite: {sqlite_db_file}...")
    sqlite_conn = sqlite3.connect(sqlite_db_file)
    
    # === PASO 1.1: OBTENER A√ëOS DE TEMPORADA DESDE game_info ===
    print(f"   üìä Obteniendo fechas de juego desde '{game_info_table}' para determinar temporadas...")
    try:
        # Leemos solo las columnas necesarias de game_info
        game_info_query = f"SELECT \"{GAME_INFO_ID_COLUMN}\" AS game_id, \"{GAME_INFO_DATE_COLUMN}\" AS game_date FROM {game_info_table}"
        df_game_info = pd.read_sql_query(game_info_query, sqlite_conn)
    except Exception as e:
        print(f"   ‚ùå Error al leer la tabla '{game_info_table}'. Verifica el nombre y las columnas.")
        print(f"   Error: {e}")
        sys.exit()

    if df_game_info.empty:
        print(f"   ‚ùå La tabla '{game_info_table}' est√° vac√≠a o no se pudieron leer datos. No se puede continuar.")
        sys.exit()

    # Convertimos la columna de fecha y derivamos el a√±o de inicio de la temporada
    df_game_info['game_date'] = pd.to_datetime(df_game_info['game_date'], errors='coerce')
    df_game_info.dropna(subset=['game_date'], inplace=True) # Eliminamos filas sin fecha v√°lida

    if df_game_info.empty:
        print(f"   ‚ùå No hay fechas v√°lidas en '{GAME_INFO_DATE_COLUMN}' en '{game_info_table}'. No se puede continuar.")
        sys.exit()
        
    # Una temporada NBA (ej: 2023-24) usualmente empieza en Oct del primer a√±o.
    # Por lo tanto, si mes < Octubre, pertenece a la temporada que empez√≥ el a√±o anterior.
    df_game_info['season_start_year'] = df_game_info['game_date'].dt.year - (df_game_info['game_date'].dt.month < 10).astype(int)
    
    unique_season_years = sorted(df_game_info['season_start_year'].unique(), reverse=True)
    last_5_season_years = tuple(unique_season_years[:5])

    if not last_5_season_years:
        print("   ‚ùå No se pudieron determinar las √∫ltimas 5 temporadas desde game_info. No se puede continuar.")
        sys.exit()
    print(f"   ‚úÖ √öltimos 5 a√±os de inicio de temporada determinados: {last_5_season_years}")
    
    # Paso 1.2: Obtener game_ids para ESAS 5 temporadas/a√±os
    game_ids_to_fetch_df = df_game_info[df_game_info['season_start_year'].isin(last_5_season_years)]
    game_ids_list = game_ids_to_fetch_df['game_id'].astype(str).unique().tolist()

    if not game_ids_list:
        print("   ‚ö†Ô∏è No se encontraron juegos para las temporadas/a√±os especificados. Finalizando.")
        sys.exit()
    print(f"   ‚úÖ Se encontraron {len(game_ids_list)} game_ids para procesar.")

    # Paso 1.3: Obtener datos de play_by_play para esos game_ids
    print(f"   üìä Extrayendo datos de '{table_to_process}' (puede tardar un poco)...")
    placeholders = ', '.join(['?'] * len(game_ids_list))
    # Aseg√∫rate que la columna 'game_id' en play_by_play coincida con GAME_INFO_ID_COLUMN si usas este filtro
    pbp_query = f"SELECT * FROM \"{table_to_process}\" WHERE game_id IN ({placeholders})" 
    
    df_sqlite = pd.read_sql_query(pbp_query, sqlite_conn, params=game_ids_list)

    if df_sqlite.empty:
        print(f"   ‚ö†Ô∏è No se encontraron datos de Play-by-Play para los {len(game_ids_list)} juegos. Finalizando.")
        sys.exit()
        
    rows_before = len(df_sqlite)
    print(f"   ‚úÖ Se extrajeron {rows_before} filas de Play-by-Play.")

    # 2. TRANSFORMAR

    df_cleaned = limpiar_play_by_play(df_sqlite.copy())
    
    # 3. ELIMINAR FILAS VAC√çAS
    rows_before_drop = len(df_cleaned)
    df_cleaned.dropna(how='all', inplace=True)
    rows_after_drop = len(df_cleaned)
    rows_removed = rows_before_drop - rows_after_drop
    if rows_removed > 0:
        print(f"   üóëÔ∏è Se eliminaron {rows_removed} filas completamente vac√≠as.")
    
    print(f"   ‚ú® {table_to_process} procesada. {rows_after_drop} filas listas.")

    # 4. MOSTRAR MUESTRA
    print("\n   --- MUESTRA DE DATOS LIMPIOS (Primeras 3 filas) ---")
    print(df_cleaned.head(3).to_string())

except sqlite3.Error as e:
    print(f"‚ùå Error de SQLite: {e}")
except KeyError as e:
    print(f"‚ùå Error de Columna: ¬°La columna {e} no se encontr√≥ como se esperaba! Verifica los nombres en `GAME_INFO_ID_COLUMN` o `GAME_INFO_DATE_COLUMN` o en tu tabla SQLite.")
except Exception as e:
    print(f"‚ùå Ocurri√≥ un error general durante el proceso: {e}")

finally:
    # --- Cerrar Conexi√≥n ---
    if sqlite_conn:
        sqlite_conn.close()
        print("\n\nüö™ Conexi√≥n a SQLite cerrada.")

--- üöÄ Iniciando Proceso ET para: play_by_play (Temporadas Din√°micas desde game_info) ---
üîå Conectando a SQLite: nba.sqlite...
   üìä Obteniendo fechas de juego desde 'game_info' para determinar temporadas...
   ‚úÖ √öltimos 5 a√±os de inicio de temporada determinados: (np.int64(2022), np.int64(2021), np.int64(2020), np.int64(2019), np.int64(2018))
   ‚úÖ Se encontraron 5855 game_ids para procesar.
   üìä Extrayendo datos de 'play_by_play' (puede tardar un poco)...
   ‚úÖ Se extrajeron 2494547 filas de Play-by-Play.
   üßπ Limpiando play_by_play...
   ‚ú® play_by_play procesada. 2494547 filas listas.

   --- MUESTRA DE DATOS LIMPIOS (Primeras 3 filas) ---
      game_id  eventnum  eventmsgtype  eventmsgactiontype  period wctimestring pctimestring                               homedescription                 neutraldescription                visitordescription score scoremargin  person1type player1_id      player1_name player1_team_id player1_team_city player1_team_nickname play