In [None]:
# CELDA 1
# -*- coding: utf-8 -*-
# ---
# Powerlifting Data Analysis
# An√°lisis completo de datos de OpenPowerlifting

import pandas as pd
import numpy as np
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import requests
import zipfile
from pathlib import Path
from datetime import datetime
import warnings

# (Opcional) Carga remota a BigQuery
USE_BIGQUERY = True

if USE_BIGQUERY:
    from google.cloud import bigquery
    from google.oauth2 import service_account

warnings.filterwarnings('ignore')

# Setup directorios
BASE_DIR = Path.cwd().parent if Path.cwd().name == 'notebooks' else Path.cwd()
DATA_DIR = BASE_DIR / "data"
RAW_DIR = DATA_DIR / "raw"
PROCESSED_DIR = DATA_DIR / "processed"

# Crear directorios si no existen
for d in [DATA_DIR, RAW_DIR, PROCESSED_DIR]:
    d.mkdir(parents=True, exist_ok=True)

print(f"üìÇ Base directory: {BASE_DIR}")
print("‚úÖ Configuraci√≥n lista para an√°lisis")


In [None]:
# CELDA 2 (versi√≥n mejorada)
# -*- coding: utf-8 -*-
# ---
# Descarga y conversi√≥n eficiente a Parquet desde OpenPowerlifting

import pandas as pd
import requests
import zipfile
from pathlib import Path
import os

# Rutas
RAW_DIR = Path("data/raw")
PROCESSED_DIR = Path("data/processed")
ZIP_URL = "https://openpowerlifting.gitlab.io/opl-csv/files/openpowerlifting-latest.zip"
ZIP_PATH = RAW_DIR / "openpowerlifting-latest.zip"
EXTRACT_PATH = RAW_DIR / "extracted"
PARQUET_PATH = PROCESSED_DIR / "powerlifting_raw.parquet"

# Crear carpetas necesarias
RAW_DIR.mkdir(parents=True, exist_ok=True)
EXTRACT_PATH.mkdir(parents=True, exist_ok=True)
PROCESSED_DIR.mkdir(parents=True, exist_ok=True)

def download_and_convert():
    """Descargar ZIP, extraer CSV y convertir a Parquet."""
    
    if PARQUET_PATH.exists():
        print(f"üì¶ Archivo Parquet ya existe: {PARQUET_PATH.name} ({round(os.path.getsize(PARQUET_PATH)/1e6, 1)} MB)")
        return PARQUET_PATH

    if not ZIP_PATH.exists():
        print("üì• Descargando datos de OpenPowerlifting...")
        r = requests.get(ZIP_URL, stream=True)
        total = int(r.headers.get('content-length', 0))
        with open(ZIP_PATH, 'wb') as f:
            for chunk in r.iter_content(chunk_size=8192):
                if chunk:
                    f.write(chunk)
        print("‚úÖ Descarga completada.")
    
    print("üóÇÔ∏è Extrayendo archivo ZIP...")
    with zipfile.ZipFile(ZIP_PATH, 'r') as zip_ref:
        zip_ref.extractall(EXTRACT_PATH)
    
    print("üîç Buscando archivo CSV...")
    csv_files = list(EXTRACT_PATH.glob("**/*.csv"))
    main_csv = [f for f in csv_files if 'openpowerlifting' in f.name and f.suffix == '.csv']
    
    if not main_csv:
        raise FileNotFoundError("‚ùå No se encontr√≥ el archivo CSV principal.")
    
    csv_path = main_csv[0]
    print(f"üìÑ CSV detectado: {csv_path.name}")
    
    print("‚öôÔ∏è Cargando CSV y convirtiendo a Parquet...")
    df = pd.read_csv(csv_path, low_memory=False)
    
    print(f"‚úÖ Datos cargados: {len(df):,} filas. Guardando como Parquet...")
    df.to_parquet(PARQUET_PATH, index=False)
    print(f"üéâ Parquet guardado en: {PARQUET_PATH} ({round(os.path.getsize(PARQUET_PATH)/1e6, 1)} MB)")

    return PARQUET_PATH

# Ejecutar
parquet_file = download_and_convert()
print(f"üì¶ Archivo Parquet listo: {parquet_file.name} ({round(os.path.getsize(parquet_file)/1e6, 1)} MB)")

In [None]:
# CELDA 3 (mejorada)
# -*- coding: utf-8 -*-
# ---
# Powerlifting Data Analysis
# Carga de datos desde archivo Parquet

from pathlib import Path
import pandas as pd

# Ruta al archivo Parquet ya procesado
parquet_path = Path("data/processed/powerlifting_raw.parquet")

# Validar existencia
if not parquet_path.exists():
    raise FileNotFoundError("‚ùå Archivo Parquet no encontrado. Ejecuta la Celda 2 para generarlo.")

# Cargar datos en memoria eficiente
print("üìÇ Cargando datos desde archivo Parquet optimizado...")
df = pd.read_parquet(parquet_path)
print(f"‚úÖ Datos cargados correctamente:")
print(f"   - Filas:     {df.shape[0]:,}")
print(f"   - Columnas:  {df.shape[1]:,}")
print(f"   - Columnas disponibles: {', '.join(df.columns[:8])}... (+{len(df.columns)-8} m√°s)" if len(df.columns) > 8 else f"   - Columnas: {df.columns.tolist()}")
print(f"   - Memoria usada: {df.memory_usage(deep=True).sum() / 1e6:.2f} MB")

In [None]:
# CELDA 4 (mejorada)
# -*- coding: utf-8 -*-
# ---
# Powerlifting Data Analysis
# An√°lisis exploratorio inicial

print("üìä INFORMACI√ìN B√ÅSICA DEL DATASET\n" + "-"*40)
print(f"‚úîÔ∏è Filas         : {df.shape[0]:,}")
print(f"‚úîÔ∏è Columnas      : {df.shape[1]:,}")

# Vista preliminar de datos
print("\nüîç PRIMERAS 3 FILAS:")
try:
    display(df.head(3))  # Jupyter o Streamlit
except Exception:
    print(df.head(3).to_string(index=False))

# Tipos de datos
print("\nüß† TIPOS DE DATOS:")
print(df.dtypes.value_counts())
print("\nTipos espec√≠ficos:")
print(df.dtypes.sort_values().astype(str).to_string())

# Valores faltantes
print("\n‚ö†Ô∏è VALORES FALTANTES (TOP 10):")
missing = df.isna().sum()
missing = missing[missing > 0].sort_values(ascending=False)
if not missing.empty:
    print(missing.head(10))
else:
    print("‚úÖ No hay valores faltantes significativos.")

# Estad√≠sticas descriptivas
print("\nüìà ESTAD√çSTICAS DESCRIPTIVAS (num√©ricas):")
print(df.describe(include=[np.number]).T.round(2))

print("\nüìã ESTAD√çSTICAS DESCRIPTIVAS (categ√≥ricas):")
print(df.describe(include=['object', 'category']).T)
print("\n‚úÖ An√°lisis exploratorio inicial completado.")

In [None]:
# CELDA 5 (mejorada)
# -*- coding: utf-8 -*-
# ---
# Powerlifting Data Analysis
# Top atletas por total y pa√≠ses con m√°s registros

# 1. Top 5 atletas con mayores totales
print("üèãÔ∏è‚Äç‚ôÇÔ∏è TOP 5 ATLETAS CON TOTALES M√ÅS ALTOS\n" + "-"*40)
if 'TotalKg' in df.columns and df['TotalKg'].notna().sum() > 0:
    top_athletes = df[df['TotalKg'].notna()].nlargest(5, 'TotalKg')[
        ['Name', 'Sex', 'Equipment', 'Best3SquatKg', 'Best3BenchKg', 'Best3DeadliftKg', 'TotalKg', 'Country', 'Date']
    ]
    try:
        display(top_athletes)
    except Exception:
        print(top_athletes.to_string(index=False))
else:
    print("‚ùå No se encontraron registros v√°lidos en 'TotalKg'.")

# 2. Pa√≠ses con m√°s registros
print("\nüåç TOP 10 PA√çSES CON M√ÅS REGISTROS\n" + "-"*40)
if 'Country' in df.columns:
    country_counts = df['Country'].value_counts(dropna=True).head(10)
    print(country_counts)
else:
    print("‚ùå La columna 'Country' no est√° presente en el dataset.")


In [None]:
# CELDA 6 (optimizada)
# -*- coding: utf-8 -*-
# ---
# Powerlifting Data Analysis
# Evaluaci√≥n de calidad y estructura del dataset

print("üîé AN√ÅLISIS DE CALIDAD DE DATOS")
print("="*50)

print(f"üìÑ Dataset original: {len(df):,} filas")
print(f"üß© Columnas totales: {len(df.columns)}\n")

# Columnas clave esperadas
key_columns = [
    'Name', 'Sex', 'Equipment', 'Age', 'BodyweightKg', 'WeightClassKg',
    'Best3SquatKg', 'Best3BenchKg', 'Best3DeadliftKg', 'TotalKg',
    'Country', 'Federation', 'Date', 'Dots', 'Wilks'
]
existing_cols = [col for col in key_columns if col in df.columns]

print("üìå COLUMNAS PRINCIPALES PRESENTES:")
for col in existing_cols:
    print(f"  - {col}")
print()

# Valores faltantes (%)
print("üö® VALORES FALTANTES (%):")
missing = df[existing_cols].isnull().sum()
for col in missing.index:
    nulls = missing[col]
    pct = (nulls / len(df)) * 100
    print(f"  - {col}: {nulls:,} nulos ({pct:.1f}%)")
print()

# Fechas
if 'Date' in df.columns:
    df['Date'] = pd.to_datetime(df['Date'], errors='coerce')
    min_date, max_date = df['Date'].min(), df['Date'].max()
    print("üìÜ RANGO DE FECHAS:")
    print(f"  Desde: {min_date.date() if pd.notna(min_date) else 'N/D'}")
    print(f"  Hasta: {max_date.date() if pd.notna(max_date) else 'N/D'}\n")

# TotalKg
if 'TotalKg' in df.columns:
    print("üìä ESTAD√çSTICAS DE 'TotalKg':")
    print(df['TotalKg'].describe(percentiles=[.25, .5, .75]).round(1))
    print()

# WeightClassKg
if 'WeightClassKg' in df.columns:
    print("‚öñÔ∏è VALORES √öNICOS EN 'WeightClassKg':")
    values = df['WeightClassKg'].dropna().astype(str).unique().tolist()

    def parse_wclass(x):
        try:
            return float(x.replace("kg", "").replace("+", "").replace(",", ".").strip())
        except:
            return float('inf')

    sorted_values = sorted(values, key=parse_wclass)
    print(f"  Total √∫nicos: {len(sorted_values)}")
    print("  Ejemplos:", sorted_values[:15])

    invalid = df[~df['WeightClassKg'].astype(str).str.contains(r'^\d+(\.\d+)?\+?$', na=False, regex=True)]
    if not invalid.empty:
        print(f"\n‚ö†Ô∏è Valores no est√°ndar detectados en 'WeightClassKg': {len(invalid):,} filas")
else:
    print("‚ùå No se encontr√≥ la columna 'WeightClassKg'")


In [None]:
# CELDA 7 (optimizada)
# -*- coding: utf-8 -*-
# ---
# Powerlifting Data Analysis
# LIMPIEZA Y TRANSFORMACI√ìN DE DATOS

print("üßπ INICIANDO LIMPIEZA DE DATOS...")
print(f"üìä Filas iniciales: {len(df):,}")

# 1. Filtrar TotalKg > 0
df_clean = df[df['TotalKg'].gt(0)].copy()
print(f"‚úÖ Total > 0: {len(df_clean):,} filas")

# 2. Filtrar fechas desde 1980
df_clean = df_clean[df_clean['Date'] >= pd.to_datetime('1980-01-01')]
print(f"‚úÖ Fechas desde 1980: {len(df_clean):,} filas")

# 3. Filtrar totales realistas
df_clean = df_clean[df_clean['TotalKg'].between(50, 1500)]
print(f"‚úÖ Totales entre 50 y 1500 kg: {len(df_clean):,} filas")

# 4. Estad√≠sticas por categor√≠a
print("\nüìä DISTRIBUCI√ìN CATEG√ìRICA:")

if 'Sex' in df_clean.columns:
    print("üë§ Sexo:")
    print(df_clean['Sex'].value_counts())

if 'Equipment' in df_clean.columns:
    print("\nüèãÔ∏è Equipamiento:")
    print(df_clean['Equipment'].value_counts().head(8))

# 5. Columnas derivadas
print("\nüß† CREANDO COLUMNAS DERIVADAS...")

# Funci√≥n para clasificar peso corporal
def classify_weight(bw):
    if pd.isna(bw): return "Desconocido"
    try:
        bw = float(bw)
        if bw < 59: return "-59"
        elif bw < 66: return "59-65"
        elif bw < 74: return "66-73"
        elif bw < 83: return "74-82"
        elif bw < 93: return "83-92"
        elif bw < 105: return "93-104"
        elif bw < 120: return "105-119"
        else: return "120+"
    except:
        return "Desconocido"

# Agregar columnas usando assign (m√°s seguro)
df_clean = df_clean.assign(
    Year = df_clean['Date'].dt.year,
    Decade = (df_clean['Date'].dt.year // 10) * 10,
    RelativeStrength = df_clean['TotalKg'] / df_clean['BodyweightKg'].replace({0: np.nan}),
    AgeGroup = pd.cut(
        df_clean['Age'],
        bins=[0, 23, 35, 45, 55, 100],
        labels=['Youth', 'Open', 'Masters1', 'Masters2', 'Masters3+'],
        include_lowest=True
    ),
    WeightClass = df_clean['BodyweightKg'].apply(classify_weight)
)

# Resultado final
print(f"\nüßº Dataset limpio: {len(df_clean):,} filas")
reduction_pct = ((len(df) - len(df_clean)) / len(df)) * 100
print(f"üìâ Reducci√≥n total: {reduction_pct:.1f}%")


In [None]:
# CELDA 8 (optimizada)
# -*- coding: utf-8 -*-
# ---
# Powerlifting Data Analysis
# Normalizaci√≥n de nombres de atletas

print("üî§ NORMALIZACI√ìN DE NOMBRES DE ATLETAS")
print("="*60)

# -------------------------
# Mostrar ejemplos crudos
# -------------------------
sample_names = df_clean['Name'].dropna().astype(str).unique().tolist()[:30]
print("üìå EJEMPLOS ORIGINALES:")
for i, name in enumerate(sample_names, 1):
    print(f"{i:2d}. '{name}'")

original_unique_names = df_clean['Name'].nunique()
print(f"\nüî¢ Nombres √∫nicos (originales): {original_unique_names:,}")

# -------------------------
# Funci√≥n de normalizaci√≥n
# -------------------------
import unicodedata
import re

def normalize_name(name, remove_accents=False):
    """Normalizar nombres de atletas para an√°lisis y agrupaci√≥n"""
    if pd.isna(name): return name
    name_clean = str(name).strip().title()
    name_clean = re.sub(r'\s+', ' ', name_clean)                             # Espacios m√∫ltiples
    name_clean = re.sub(r"[^\w\s\-\'√Å√â√ç√ì√ö√ë√°√©√≠√≥√∫√±]", '', name_clean)          # Eliminar s√≠mbolos raros
    if remove_accents:
        name_clean = ''.join(
            c for c in unicodedata.normalize('NFD', name_clean)
            if unicodedata.category(c) != 'Mn'
        )
    return name_clean

# -------------------------
# Aplicar normalizaci√≥n
# -------------------------
print("\nüîÅ Aplicando normalizaci√≥n...")
df_clean['NameNormalized'] = df_clean['Name'].apply(normalize_name)

normalized_unique_names = df_clean['NameNormalized'].nunique()
delta = original_unique_names - normalized_unique_names
print(f"‚úÖ Nombres √∫nicos (normalizados): {normalized_unique_names:,}")
print(f"üìâ Reducci√≥n de duplicados por formato: {delta:,} nombres unificados")

# -------------------------
# Comparar ejemplos
# -------------------------
print("\nüîç COMPARACI√ìN DE NOMBRES:")
changed = df_clean[['Name', 'NameNormalized']].drop_duplicates()
changed = changed[changed['Name'] != changed['NameNormalized']].head(15)

if changed.empty:
    print("No se encontraron diferencias entre nombres originales y normalizados.")
else:
    for _, row in changed.iterrows():
        print(f"'{row['Name']}' ‚Üí '{row['NameNormalized']}'")

# -------------------------
# Atletas con m√°s competencias
# -------------------------
print("\nüèãÔ∏è TOP 10 ATLETAS CON M√ÅS COMPETENCIAS:")
athlete_counts = df_clean['NameNormalized'].value_counts().head(10)

for name, count in athlete_counts.items():
    atleta_df = df_clean[df_clean['NameNormalized'] == name]
    year_min = atleta_df['Year'].min()
    year_max = atleta_df['Year'].max()
    main_country = atleta_df['Country'].mode()[0] if not atleta_df['Country'].isna().all() else "Desconocido"
    print(f"üîπ {name}: {count:,} competencias ({year_min}‚Äì{year_max}) ‚Äì {main_country}")


In [None]:
# CELDA 9
# -*- coding: utf-8 -*-
# ---
# Powerlifting Data Analysis
# Limpieza de pa√≠ses, federaciones y agregado de continentes

print("üåç NORMALIZACI√ìN DE PA√çSES Y FEDERACIONES")
print("="*60)

# -------------------------
# Normalizar nombres de pa√≠ses
# -------------------------
print("üîÅ Limpiando columna 'Country'...")
df_clean['Country'] = df_clean['Country'].fillna("Unknown").str.strip()

# Mostrar los m√°s frecuentes
print("\nüåê TOP 10 PA√çSES M√ÅS FRECUENTES:")
print(df_clean['Country'].value_counts().head(10))

# -------------------------
# Limpiar valores poco frecuentes o sospechosos
# -------------------------
rare_countries = df_clean['Country'].value_counts()[df_clean['Country'].value_counts() < 5]
df_clean['Country'] = df_clean['Country'].apply(lambda x: "Other" if x in rare_countries else x)

# -------------------------
# Normalizar nombre de federaciones
# -------------------------
print("\nüè¢ TOP 10 FEDERACIONES M√ÅS FRECUENTES:")
df_clean['Federation'] = df_clean['Federation'].fillna("Unknown").str.strip()
print(df_clean['Federation'].value_counts().head(10))

# -------------------------
# Agregar columna 'Continent' desde pa√≠s (con ayuda de pycountry_convert)
# -------------------------
try:
    import pycountry_convert as pc

    def country_to_continent(country):
        try:
            # Conversi√≥n pa√≠s ‚Üí c√≥digo alpha-2 ‚Üí continente
            country_code = pc.country_name_to_country_alpha2(country, cn_name_format="default")
            continent_code = pc.country_alpha2_to_continent_code(country_code)
            continent_map = {
                "AF": "√Åfrica",
                "AS": "Asia",
                "EU": "Europa",
                "NA": "Am√©rica del Norte",
                "OC": "Ocean√≠a",
                "SA": "Am√©rica del Sur",
                "AN": "Ant√°rtida"
            }
            return continent_map.get(continent_code, "Desconocido")
        except:
            return "Desconocido"

    print("\nüó∫Ô∏è Asignando continentes...")
    df_clean['Continent'] = df_clean['Country'].apply(country_to_continent)
    print("‚úÖ Continentes asignados.")
    print(df_clean['Continent'].value_counts())

except ImportError:
    print("‚ö†Ô∏è No se encontr√≥ pycountry_convert. Ejecuta: pip install pycountry-convert")
    df_clean['Continent'] = "Desconocido"

print(f"\n‚úÖ Total final de filas: {len(df_clean):,}")


In [None]:
# CELDA 10
# -*- coding: utf-8 -*-
# ---
# Powerlifting Data Analysis
# An√°lisis de anomal√≠as en edades y totales

print("üîé INVESTIGANDO ANOMAL√çAS EN LOS DATOS...")
print("="*60)

# -------------------------
# Ni√±os con totales altos
# -------------------------
print("\nüö® CASOS SOSPECHOSOS: <15 a√±os con >300 kg")
young_heavy = df_clean[(df_clean['Age'] < 15) & (df_clean['TotalKg'] > 300)]

if young_heavy.empty:
    print("‚úÖ No se encontraron casos extremos en esta categor√≠a.")
else:
    print(f"üîç {len(young_heavy)} casos detectados:\n")
    for _, row in young_heavy[['NameNormalized', 'Age', 'TotalKg', 'BodyweightKg', 'Country', 'Date', 'Federation']].head(10).iterrows():
        print(f"üîπ {row['NameNormalized']}: {row['Age']} a√±os ‚Äî {row['TotalKg']}kg (peso: {row['BodyweightKg']}kg) ‚Äì {row['Country']}")

# -------------------------
# Resumen de distribuci√≥n de edad
# -------------------------
print("\nüìä DISTRIBUCI√ìN DE EDADES:")
print(df_clean['Age'].describe().round(1))

# Casos extremos
print("\nüìç CASOS EXTREMOS:")
print(f"üë∂ Menores de 10 a√±os: {len(df_clean[df_clean['Age'] < 10]):,}")
print(f"üë¥ Mayores de 80 a√±os: {len(df_clean[df_clean['Age'] > 80]):,}")

# -------------------------
# An√°lisis por grupo etario detallado
# -------------------------
print("\nüìà TOTALES PROMEDIO POR GRUPO DE EDAD:")
age_bins = [0, 12, 18, 25, 35, 45, 55, 65, 100]
age_labels = ['<12', '12-17', '18-24', '25-34', '35-44', '45-54', '55-64', '65+']
df_clean['AgeGroupDetailed'] = pd.cut(df_clean['Age'], bins=age_bins, labels=age_labels)

age_analysis = df_clean.groupby('AgeGroupDetailed')['TotalKg'].agg(['count', 'mean', 'std', 'min', 'max']).round(1)
print(age_analysis)

# -------------------------
# Casos realmente extremos (error probable)
# -------------------------
print("\nüßØ POSIBLES ERRORES (Ej. Ni√±os con +200 kg o Adultos Mayores con +600 kg):")
extreme_cases = df_clean[
    ((df_clean['Age'] < 12) & (df_clean['TotalKg'] > 200)) |
    ((df_clean['Age'] > 80) & (df_clean['TotalKg'] > 600))
]

if extreme_cases.empty:
    print("‚úÖ Sin casos extremos evidentes.")
else:
    for _, row in extreme_cases[['NameNormalized', 'Age', 'TotalKg', 'Date', 'Federation']].head(5).iterrows():
        print(f"‚ö†Ô∏è {row['NameNormalized']}: {row['Age']} a√±os ‚Äì {row['TotalKg']}kg ({row['Federation']})")


In [None]:
# CELDA 11
# -*- coding: utf-8 -*-
# ---
# Powerlifting Data Analysis
# An√°lisis por clasificaci√≥n etaria oficial (AgeClass)

print("üß¨ ANALIZANDO DATOS CON CLASIFICACIONES DE EDAD OFICIALES")
print("=" * 60)

# -------------------------
# Conteo de categor√≠as
# -------------------------
print("\nüìö CATEGOR√çAS DE EDAD DISPONIBLES:")
age_class_counts = df_clean['AgeClass'].value_counts()
print(age_class_counts.head(15))

print(f"\n‚úÖ Registros con AgeClass: {df_clean['AgeClass'].notna().sum():,}")
print(f"‚ùå Registros sin AgeClass: {df_clean['AgeClass'].isna().sum():,}")

# -------------------------
# Filtrar registros v√°lidos
# -------------------------
df_clean_age = df_clean[df_clean['AgeClass'].notna()].copy()
print(f"\nüì¶ Dataset con AgeClass v√°lido: {len(df_clean_age):,} registros")

# -------------------------
# Totales por AgeClass
# -------------------------
print("\nüìä TOTALES POR CATEGOR√çA DE EDAD:")
age_class_stats = df_clean_age.groupby('AgeClass')['TotalKg'].agg(['count', 'mean', 'std', 'min', 'max']).round(1)
age_class_stats = age_class_stats.sort_values('count', ascending=False)
print(age_class_stats.head(10))

# -------------------------
# Totales por AgeClass y Sexo
# -------------------------
print("\n‚öñÔ∏è TOTALES POR CATEGOR√çA DE EDAD Y SEXO:")
age_sex_stats = df_clean_age.groupby(['AgeClass', 'Sex'])['TotalKg'].agg(['count', 'mean']).round(1)

if 'M' in df_clean_age['Sex'].unique():
    print("\nüë® CATEGOR√çAS MASCULINAS M√ÅS COMUNES:")
    male_stats = age_sex_stats.xs('M', level='Sex').sort_values('count', ascending=False).head(8)
    print(male_stats)

if 'F' in df_clean_age['Sex'].unique():
    print("\nüë© CATEGOR√çAS FEMENINAS M√ÅS COMUNES:")
    female_stats = age_sex_stats.xs('F', level='Sex').sort_values('count', ascending=False).head(8)
    print(female_stats)

# -------------------------
# Actualizar df_clean principal
# -------------------------
df_clean = df_clean_age.copy()
print(f"\nüîÅ Dataset actualizado: {len(df_clean):,} registros con AgeClass")
# CELDA 12

In [None]:
# CELDA 12
# -*- coding: utf-8 -*-
# ---
# Powerlifting Data Analysis
# Eliminaci√≥n de registros con AgeClass vac√≠os o no realistas

print("üßπ ELIMINANDO CATEGOR√çAS DE EDAD NO REALISTAS...")
print("=" * 60)

# Estado inicial
total_before = len(df_clean)
print(f"üî¢ Registros iniciales: {total_before:,}")

# 1. Eliminar AgeClass == '5-12'
df_clean = df_clean[df_clean['AgeClass'] != '5-12']

# 2. Eliminar registros sin AgeClass
df_clean = df_clean[df_clean['AgeClass'].notna()]

# Estado final
total_after = len(df_clean)
removed = total_before - total_after
pct_removed = (removed / total_before) * 100

print(f"\n‚úÖ Registros despu√©s del filtro: {total_after:,}")
print(f"‚ùå Eliminados: {removed:,} ({pct_removed:.2f}%)")

# Verificar categor√≠as finales
print(f"\nüìö CATEGOR√çAS RESTANTES:")
remaining_categories = df_clean['AgeClass'].value_counts().sort_index()
for cat, count in remaining_categories.items():
    avg_total = df_clean[df_clean['AgeClass'] == cat]['TotalKg'].mean()
    print(f"  {cat}: {count:,} registros ‚Äì Promedio TotalKg: {avg_total:.1f}kg")

# Estad√≠sticas de TotalKg
print(f"\nüìä ESTAD√çSTICAS DE TOTALES (POST-FILTRO):")
print(df_clean['TotalKg'].describe().round(1))


In [None]:
# CELDA 13
# -*- coding: utf-8 -*-
# ---
# Powerlifting Data Analysis
# Muestra aleatoria de 20 filas con todas las columnas

print("üîç MUESTRA ALEATORIA DEL DATASET LIMPIO")
print("=" * 60)

# Verificaci√≥n de columnas
print(f"üß© Total columnas: {len(df_clean.columns)}")
print("üìù Columnas disponibles:")
for col in df_clean.columns:
    print(f"  - {col}")
print()

# Mostrar 20 filas aleatorias
print("üìã Muestra aleatoria de 20 filas:")
sample_df = df_clean.sample(n=20, random_state=42)  # Fijamos seed para reproducibilidad

try:
    display(sample_df)  # Solo si est√°s en Jupyter o Streamlit
except NameError:
    print(sample_df.to_string(index=False))


In [None]:
# CELDA 14
# -*- coding: utf-8 -*-
# ---
# Powerlifting Data Analysis
# Limpieza avanzada y estandarizaci√≥n de campos

print("üßº LIMPIEZA AVANZADA DE DATOS")
print("="*60)

# ------------------------------
# 1. Normalizar campos categ√≥ricos
# ------------------------------
print("üî† Normalizando columnas categ√≥ricas...")

df_clean['Sex'] = df_clean['Sex'].str.upper().str.strip()
df_clean['Equipment'] = df_clean['Equipment'].str.title().str.strip()
df_clean['Tested'] = df_clean['Tested'].astype(str).str.upper().str.strip()
df_clean['Federation'] = df_clean['Federation'].astype(str).str.strip()
df_clean['Event'] = df_clean['Event'].astype(str).str.title().str.strip()

# ------------------------------
# 2. Corregir eventos inconsistentes
# ------------------------------
print("üéØ Corrigiendo valores en 'Event'...")

event_map = {
    'Sbd': 'Full Power',
    'Fullpower': 'Full Power',
    'Full Powerlifting': 'Full Power',
    'Bench': 'Bench Only',
    'Deadlift': 'Deadlift Only',
    'Push Pull': 'Push-Pull',
    'Pushpull': 'Push-Pull',
}
df_clean['Event'] = df_clean['Event'].replace(event_map)

# ------------------------------
# 3. Limpiar federaciones nulas o inv√°lidas
# ------------------------------
print("üèõÔ∏è Normalizando federaciones...")

df_clean['Federation'] = df_clean['Federation'].replace(
    ['', '-', 'N/A', 'na', 'NaN', 'None'], 'Desconocida'
)

# ------------------------------
# 4. Detectar fechas en el futuro
# ------------------------------
print("üïì Verificando fechas futuras...")

today = pd.Timestamp.now()
future_dates = df_clean[df_clean['Date'] > today]
print(f"üîÆ Registros con fecha en el futuro: {len(future_dates)}")

# ------------------------------
# 5. Eliminar duplicados exactos
# ------------------------------
print("üìé Eliminando duplicados exactos por Nombre + Fecha + Federaci√≥n...")

before_dupes = len(df_clean)
df_clean = df_clean.drop_duplicates(subset=['NameNormalized', 'Date', 'Federation'])
after_dupes = len(df_clean)
print(f"üóëÔ∏è Registros eliminados por duplicados: {before_dupes - after_dupes:,}")

# ------------------------------
# 6. Normalizar pa√≠ses (opcional manual)
# ------------------------------
print("üåç Normalizando nombres de pa√≠ses...")

country_map = {
    'USA': 'United States',
    'UK': 'United Kingdom',
    'Korea': 'South Korea',
    'UAE': 'United Arab Emirates',
    'PR': 'Puerto Rico',
    'TR': 'Turkey',
    'IR': 'Iran',
    # Agrega m√°s seg√∫n lo que detectes
}
df_clean['Country'] = df_clean['Country'].replace(country_map)

# ------------------------------
# 7. Crear clasificaci√≥n Raw vs Equipado simplificada
# ------------------------------
print("üèãÔ∏è Clasificando Raw vs Equipado...")

def classify_equipment(e):
    if pd.isna(e): return "Desconocido"
    e = str(e).lower()
    if "raw" in e: return "Raw"
    if "wraps" in e: return "Raw"
    if "single" in e or "multi" in e or "equipped" in e: return "Equipped"
    return "Otro"

df_clean['RawOrEquipped'] = df_clean['Equipment'].apply(classify_equipment)

# ------------------------------
# 8. Validaci√≥n final de columnas
# ------------------------------
print("\n‚úÖ LIMPIEZA AVANZADA COMPLETADA")
print(f"üß© Columnas disponibles: {len(df_clean.columns)}")
print("üîé Nuevas columnas agregadas: ['RawOrEquipped']")

# Opcional: ver una muestra final
print("\nüìã Muestra final tras limpieza:")
print(df_clean.sample(5)[['NameNormalized', 'Sex', 'Equipment', 'RawOrEquipped', 'Country', 'Event', 'Federation']])


In [None]:
# CELDA 15
# -*- coding: utf-8 -*-
# ---
# Powerlifting Data Analysis
# Normalizaci√≥n y modelo estrella (dimensiones + hechos)

print("üîÅ NORMALIZANDO Y CREANDO MODELO ESTRELLA")
print("="*60)

# -----------------------------
# Crear tabla DIM_MEET
# -----------------------------
print("üß± Creando DIM_MEET...")
dim_meet = df_clean[['MeetName', 'MeetTown', 'MeetState', 'MeetCountry', 'Date']].drop_duplicates().reset_index(drop=True)
dim_meet['MeetID'] = range(1, len(dim_meet) + 1)
print(f"Dimensi√≥n MEET: {len(dim_meet):,} filas")

# -----------------------------
# Crear tabla DIM_FEDERATION
# -----------------------------
print("üß± Creando DIM_FEDERATION...")
dim_fed = df_clean[['Federation', 'ParentFederation']].drop_duplicates().reset_index(drop=True)
dim_fed['FederationID'] = range(1, len(dim_fed) + 1)
print(f"Dimensi√≥n FEDERATION: {len(dim_fed):,} filas")

# -----------------------------
# Crear tabla DIM_ATLETA
# -----------------------------
print("üß± Creando DIM_ATLETA...")
dim_atleta = df_clean[['NameNormalized', 'Sex', 'Age', 'AgeClass', 'AgeGroup', 'AgeGroupDetailed', 'BodyweightKg', 'WeightClass']].drop_duplicates().reset_index(drop=True)
dim_atleta['AthleteID'] = range(1, len(dim_atleta) + 1)
print(f"Dimensi√≥n ATLETA: {len(dim_atleta):,} filas")

# -----------------------------
# Reemplazar en tabla de hechos (df_fact)
# -----------------------------
print("üì¶ Construyendo tabla de hechos...")

# Merge federaciones
df_fact = df_clean.merge(dim_fed, on=['Federation', 'ParentFederation'], how='left')

# Merge meet
df_fact = df_fact.merge(dim_meet, on=['MeetName', 'MeetTown', 'MeetState', 'MeetCountry', 'Date'], how='left')

# Merge atleta
df_fact = df_fact.merge(dim_atleta, on=['NameNormalized', 'Sex', 'Age', 'AgeClass', 'AgeGroup', 'AgeGroupDetailed', 'BodyweightKg', 'WeightClass'], how='left')

# Seleccionar columnas finales
fact_cols = [
    'AthleteID', 'FederationID', 'MeetID',
    'Event', 'Equipment', 'Tested',
    'Best3SquatKg', 'Best3BenchKg', 'Best3DeadliftKg', 'TotalKg',
    'Dots', 'Wilks', 'Glossbrenner', 'Goodlift',
    'Year', 'Decade', 'RelativeStrength', 'Place'
]

df_fact = df_fact[fact_cols].copy()

# Mostrar estructura
print(f"\nüìà TABLA DE HECHOS: {len(df_fact):,} filas √ó {len(df_fact.columns)} columnas")
print("üß± Listo para exportar a modelo estrella en GCP BigQuery o Snowflake üöÄ")


In [None]:
# CELDA 16 - Configuraci√≥n segura para carga a BigQuery (.env en ra√≠z del proyecto)
# -*- coding: utf-8 -*-

import os
from google.cloud import bigquery
from google.oauth2 import service_account
from dotenv import load_dotenv
from pathlib import Path

# --------------------------
# Ruta base del proyecto
# --------------------------
BASE_DIR = Path.cwd().parent if Path.cwd().name == 'notebooks' else Path.cwd()

# --------------------------
# Cargar variables desde el archivo .env en la ra√≠z del proyecto
# --------------------------
load_dotenv(dotenv_path=BASE_DIR / ".env")

PROJECT_ID = os.getenv("PROJECT_ID")
DATASET_ID = os.getenv("DATASET_ID")
CREDENTIALS_PATH = os.getenv("CREDENTIALS_PATH")  # Aseg√∫rate de usar esta clave en el .env

# --------------------------
# Crear cliente BigQuery
# --------------------------
if not all([PROJECT_ID, DATASET_ID, CREDENTIALS_PATH]):
    raise ValueError("‚ùå Faltan variables de entorno. Verifica tu archivo .env en la ra√≠z del proyecto.")

credentials = service_account.Credentials.from_service_account_file(BASE_DIR / CREDENTIALS_PATH)
client = bigquery.Client(credentials=credentials, project=PROJECT_ID)

print(f"‚úÖ Cliente BigQuery creado con proyecto: {PROJECT_ID}")


In [None]:
# CELDA 17 - Cargar df_clean a BigQuery
# -*- coding: utf-8 -*-

from google.cloud import bigquery

# --------------------------
# Verificar DataFrame
# --------------------------
if 'df_clean' not in locals():
    raise ValueError("‚ùå df_clean no est√° definido. Aseg√∫rate de haber ejecutado el procesamiento anterior.")

# --------------------------
# Nombre completo de la tabla
# --------------------------
TABLE_ID = f"{PROJECT_ID}.{DATASET_ID}.results_clean"

print(f"üì¶ Preparando carga a tabla: {TABLE_ID}")
print(f"üî¢ Filas: {len(df_clean):,} | Columnas: {len(df_clean.columns)}")

# --------------------------
# Cargar a BigQuery
# --------------------------
job_config = bigquery.LoadJobConfig(
    write_disposition=bigquery.WriteDisposition.WRITE_TRUNCATE,
    autodetect=True
)

job = client.load_table_from_dataframe(df_clean, TABLE_ID, job_config=job_config)
job.result()  # Esperar a que termine

print("‚úÖ Carga completada con √©xito")
