# Data Processing

In [3]:
import os
import pandas as pd

In [20]:
# Define la ruta a la carpeta donde se guardan los archivos
output_dir = "../data/scrapped"

try:
    # 1. Lista todos los archivos en la carpeta
    all_files = os.listdir(output_dir)

    # 2. Filtra solo los archivos que terminan en '.parquet'
    parquet_files = [os.path.join(output_dir, f) for f in all_files if f.endswith('.parquet')]

    # 3. Verifica si hay archivos para procesar
    if not parquet_files:
        print("No se encontraron archivos .parquet en la carpeta especificada.")
    else:
        print(f"Se encontraron {len(parquet_files)} archivos .parquet. Concatenando...")

        # 4. Lee cada archivo Parquet en un DataFrame y los guarda en una lista
        list_of_dfs = [pd.read_parquet(f) for f in parquet_files]

        # 5. Concatena todos los DataFrames de la lista
        combined_df = pd.concat(list_of_dfs, ignore_index=True)

        print("¡Concatenación exitosa! Los archivos se han unido en un solo DataFrame.")
        print("Se ha creado un DataFrame con las siguientes dimensiones:")
        print(f"Filas: {combined_df.shape[0]}, Columnas: {combined_df.shape[1]}")

except FileNotFoundError:
    print("Error: No se encontró la carpeta especificada.")
    print(f"Por favor, revisa que la carpeta '{output_dir}' exista.")
except ImportError:
    print("Error: La librería 'pyarrow' o 'fastparquet' no está instalada.")
    print("Para leer archivos .parquet, necesitas instalar una de estas librerías. Puedes usar el siguiente comando: pip install pyarrow")
except Exception as e:
    print(f"Ocurrió un error inesperado: {e}")

Se encontraron 378 archivos .parquet. Concatenando...
¡Concatenación exitosa! Los archivos se han unido en un solo DataFrame.
Se ha creado un DataFrame con las siguientes dimensiones:
Filas: 9033, Columnas: 35


## Nacionalidad de Jugadores

Los extrangeros de la temporada 24/25 son:
- Marcos Chacón Tirado: Español
- Carlos Manuel Buendía: Mexicano
- Tavario Earnest Miller: Estadounidense
- Kelvin Leandro Ramírez Alcántara: Dominicano
- Demarco Rashad Owens: Estadounidense
- Marcus Wiley Thomas Jr.: Estadounidense
- William Leonard-Deubler Vorhees: Estadounidense
- Romeao Venill Ferguson: Estadounidense
- Phillip Dominique Daniel Lockett: Estadounidense
- Christopher Ashton Clarke: Estadounidense
- Willie Alford Thornton: Estadounidense
- Travis Dorrel Daniels: Estadounidense
- Avery Gerell Diggs: Estadounidense
- Reginald Gequan Becton: Estadounidense
- Xavier Manuel Carreras Peguero: Dominicano
- Charles Price Thomas III: Estadounidense
- Lee Abraham Aaliya: Estadounidense
- Kelby John Kramer: Estadounidense
- Samuel Jamal Givens: Estadounidense
- Alex Negrete: Panameño
- Julius R. Bowie Jr.: Estadounidense
- Mathias Keny Calfani Persincula: Uruguayo
- Dominique Montel Morrison: Estadounidense
- Quintin Immanuel Alexander: Estadounidense
- Jordan Israel Cárdenas Zamora: Colombiano
- José Gregorio Ascanio Solorzano: Venezolano
- Zachery Christopher Walton: Estadounidense
- Dischon Kyir Thomas: Estadounidense
- Nathan Wayne Priddy: Estadounidense
- Robert Jamarcus Whitfield III: Estadounidense
- Kenneth Wilcher Horton: Estadounidense
- Emmitt Dwight Holt: Estadounidense
- Jalen Kemal Jenkins: Estadounidense
- Nakie Gerald Sanders: Estadounidense
- Timothy Lamont Bond Jr.: Estadounidense
- Brandon Lamar Robinson: Estadounidense
- Yaw Obeng Mensah: Ghanés
- Tonny José Trocha Morelos: Colombiano
- Michael Joe Craion Jr.: Estadounidense
- Randy Tyree Bell: Estadounidense
- Deandre Martise Daniels: Estadounidense
- James Lanard Reese V: Estadounidense
- Earl Ovrel Watson: Estadounidense
- Romario José Roque Martínez: Colombiano
- Emmanuel Travon Payton Clottey: Estadounidense
- Caleb Joseph Fields: Estadounidense
- Alphonso Jordan Anderson: Estadounidense
- Raymon Scarlin Bastardo José: Dominicano
- Nicholas Ryan Banyard: Estadounidense
- Du'Vaughn Elisha Maxwell: Estadounidense
- José Daniel Ruiz Ruiz: Colombiano
- Yasmani Fundora Arrechavaleta: Cubano
- Omar Nabil Krayem: Colombiano
- Devante Rashad-Keith Wallace: Estadounidense
- Kamau Thutmoses Stokes: Estadounidense
- Dishon Lurell Lowery: Estadounidense
- Prince Adams Ali: Estadounidense
- Ítalo Bonizioli Honorato: Brasileño
- Myles Justin Carter: Estadounidense
- Christopher Jaleel Hooper: Estadounidense
- Nana Kwasi Hyeakuro Opoku: Ghanés
- Isaac Brandon Hamilton: Estadounidense
- Cameron Levele Naylor: Estadounidense
- Juan Esteban Madrigal Renteria: Colombiano
- Edwin José Niebles Herrera: Colombiano
- Nicholas Petri: Estadounidense
- Néstor Fabian González Gayoso: Uruguayo
- Juan Martín Guerrero Margarit: Venezolano
- Juan Manuel González Llaena: Colombiano
- Gustavo Aguirre: Colombiano
- Juan Sebastián Morales: Colombiano
- Rodrigo Hernán Sánchez: Dominicano
- Federico Matías Aguerre: Uruguayo
- Yeferson Antonio Guerra Cañate: Colombiano
- Carlos Luis García Guerrero: Venezolano
- Manuel Alonso Hernández: Español
- Santiago Pérez Douthat: Uruguayo

In [21]:
import pandas as pd

extranjeros_data = [
    {"NombreCompleto": "CHACÓN TIRADO, MARCOS", "nacionalidad": "Español"},
    {"NombreCompleto": "BUENDÍA, CARLOS MANUEL", "nacionalidad": "Mexicano"},
    {"NombreCompleto": "MILLER, TAVARIO EARNEST", "nacionalidad": "Estadounidense"},
    {"NombreCompleto": "RAMÍREZ ALCÁNTARA, KELVIN LEANDRO", "nacionalidad": "Dominicano"},
    {"NombreCompleto": "OWENS, DEMARCO RASHAD", "nacionalidad": "Estadounidense"},
    {"NombreCompleto": "THOMAS JR., MARCUS WILEY", "nacionalidad": "Estadounidense"},
    {"NombreCompleto": "VORHEES, WILLIAM LEONARD-DEUBLER", "nacionalidad": "Estadounidense"},
    {"NombreCompleto": "FERGUSON, ROMEAO VENILL", "nacionalidad": "Estadounidense"},
    {"NombreCompleto": "LOCKETT, PHILLIP DOMINIQUE DANIEL", "nacionalidad": "Estadounidense"},
    {"NombreCompleto": "CLARKE, CHRISTOPHER ASHTON", "nacionalidad": "Estadounidense"},
    {"NombreCompleto": "THORNTON, WILLIE ALFORD", "nacionalidad": "Estadounidense"},
    {"NombreCompleto": "DANIELS, TRAVIS DORREL", "nacionalidad": "Estadounidense"},
    {"NombreCompleto": "DIGGS, AVERY GERELL", "nacionalidad": "Estadounidense"},
    {"NombreCompleto": "BECTON, REGINALD GEQUAN", "nacionalidad": "Estadounidense"},
    {"NombreCompleto": "CARRERAS PEGUERO, XAVIER MANUEL", "nacionalidad": "Dominicano"},
    {"NombreCompleto": "THOMAS III, CHARLES PRICE", "nacionalidad": "Estadounidense"},
    {"NombreCompleto": "AALIYA, LEE ABRAHAM", "nacionalidad": "Estadounidense"},
    {"NombreCompleto": "KRAMER, KELBY JOHN", "nacionalidad": "Estadounidense"},
    {"NombreCompleto": "GIVENS, SAMUEL JAMAL", "nacionalidad": "Estadounidense"},
    {"NombreCompleto": "NEGRETE, ALEX", "nacionalidad": "Panameño"},
    {"NombreCompleto": "BOWIE JR., JULIUS R.", "nacionalidad": "Estadounidense"},
    {"NombreCompleto": "CALFANI PERSINCULA, MATHIAS KENY", "nacionalidad": "Uruguayo"},
    {"NombreCompleto": "MORRISON, DOMINIQUE MONTEL", "nacionalidad": "Estadounidense"},
    {"NombreCompleto": "ALEXANDER, QUINTIN IMMANUEL", "nacionalidad": "Estadounidense"},
    {"NombreCompleto": "CÁRDENAS ZAMORA, JORDAN ISRAEL", "nacionalidad": "Colombiano"},
    {"NombreCompleto": "ASCANIO SOLORZANO, JOSÉ GREGORIO", "nacionalidad": "Venezolano"},
    {"NombreCompleto": "WALTON, ZACHERY CHRISTOPHER", "nacionalidad": "Estadounidense"},
    {"NombreCompleto": "THOMAS, DISCHON KYIR", "nacionalidad": "Estadounidense"},
    {"NombreCompleto": "PRIDDY, NATHAN WAYNE", "nacionalidad": "Estadounidense"},
    {"NombreCompleto": "WHITFIELD III, ROBERT JAMARCUS", "nacionalidad": "Estadounidense"},
    {"NombreCompleto": "HORTON, KENNETH WILCHER", "nacionalidad": "Estadounidense"},
    {"NombreCompleto": "HOLT, EMMITT DWIGHT", "nacionalidad": "Estadounidense"},
    {"NombreCompleto": "JENKINS, JALEN KEMAL", "nacionalidad": "Estadounidense"},
    {"NombreCompleto": "SANDERS, NAKIE GERALD", "nacionalidad": "Estadounidense"},
    {"NombreCompleto": "BOND JR., TIMOTHY LAMONT", "nacionalidad": "Estadounidense"},
    {"NombreCompleto": "ROBINSON, BRANDON LAMAR", "nacionalidad": "Estadounidense"},
    {"NombreCompleto": "OBENG MENSAH, YAW", "nacionalidad": "Ghanés"},
    {"NombreCompleto": "TROCHA MORELOS, TONNY JOSÉ", "nacionalidad": "Colombiano"},
    {"NombreCompleto": "CRAION JR., MICHAEL JOE", "nacionalidad": "Estadounidense"},
    {"NombreCompleto": "BELL, RANDY TYREE", "nacionalidad": "Estadounidense"},
    {"NombreCompleto": "DANIELS, DEANDRE MARTISE", "nacionalidad": "Estadounidense"},
    {"NombreCompleto": "REESE V, JAMES LANARD", "nacionalidad": "Estadounidense"},
    {"NombreCompleto": "WATSON, EARL OVREL", "nacionalidad": "Estadounidense"},
    {"NombreCompleto": "ROQUE MARTÍNEZ, ROMARIO JOSÉ", "nacionalidad": "Colombiano"},
    {"NombreCompleto": "PAYTON CLOTTEY, EMMANUEL TRAVON", "nacionalidad": "Estadounidense"},
    {"NombreCompleto": "FIELDS, CALEB JOSEPH", "nacionalidad": "Estadounidense"},
    {"NombreCompleto": "ANDERSON, ALPHONSO JORDAN", "nacionalidad": "Estadounidense"},
    {"NombreCompleto": "BASTARDO JOSÉ, RAYMON SCARLIN", "nacionalidad": "Dominicano"},
    {"NombreCompleto": "BANYARD, NICHOLAS RYAN", "nacionalidad": "Estadounidense"},
    {"NombreCompleto": "MAXWELL, DU'VAUGHN ELISHA", "nacionalidad": "Estadounidense"},
    {"NombreCompleto": "RUIZ RUIZ, JOSÉ DANIEL", "nacionalidad": "Colombiano"},
    {"NombreCompleto": "FUNDORA ARRECHAVALETA, YASMANI", "nacionalidad": "Cubano"},
    {"NombreCompleto": "KRAYEM, OMAR NABIL", "nacionalidad": "Colombiano"},
    {"NombreCompleto": "WALLACE, DEVANTE RASHAD-KEITH", "nacionalidad": "Estadounidense"},
    {"NombreCompleto": "STOKES, KAMAU THUTMOSES", "nacionalidad": "Estadounidense"},
    {"NombreCompleto": "LOWERY, DISHON LURELL", "nacionalidad": "Estadounidense"},
    {"NombreCompleto": "ALI, PRINCE ADAMS", "nacionalidad": "Estadounidense"},
    {"NombreCompleto": "HONORATO, ÍTALO BONIZIOLI", "nacionalidad": "Brasileño"},
    {"NombreCompleto": "CARTER, MYLES JUSTIN", "nacionalidad": "Estadounidense"},
    {"NombreCompleto": "HOOPER, CHRISTOPHER JALEEL", "nacionalidad": "Estadounidense"},
    {"NombreCompleto": "OPOKU, NANA KWASI HYEAKURO", "nacionalidad": "Ghanés"},
    {"NombreCompleto": "HAMILTON, ISAAC BRANDON", "nacionalidad": "Estadounidense"},
    {"NombreCompleto": "NAYLOR, CAMERON LEVELE", "nacionalidad": "Estadounidense"},
    {"NombreCompleto": "MADRIGAL RENTERIA, JUAN ESTEBAN", "nacionalidad": "Colombiano"},
    {"NombreCompleto": "NIEBLES HERRERA, EDWIN JOSÉ", "nacionalidad": "Colombiano"},
    {"NombreCompleto": "PETRI, NICHOLAS", "nacionalidad": "Estadounidense"},
    {"NombreCompleto": "GONZÁLEZ GAYOSO, NÉSTOR FABIAN", "nacionalidad": "Uruguayo"},
    {"NombreCompleto": "GUERRERO MARGARIT, JUAN MARTÍN", "nacionalidad": "Venezolano"},
    {"NombreCompleto": "GONZÁLEZ LLAENA, JUAN MANUEL", "nacionalidad": "Colombiano"},
    {"NombreCompleto": "AGUIRRE, GUSTAVO", "nacionalidad": "Colombiano"},
    {"NombreCompleto": "MORALES, JUAN SEBASTIÁN", "nacionalidad": "Colombiano"},
    {"NombreCompleto": "SÁNCHEZ, RODRIGO HERNÁN", "nacionalidad": "Dominicano"},
    {"NombreCompleto": "AGUERRE, FEDERICO MATÍAS", "nacionalidad": "Uruguayo"},
    {"NombreCompleto": "GUERRA CAÑATE, YEFERSON ANTONIO", "nacionalidad": "Colombiano"},
    {"NombreCompleto": "GARCÍA GUERRERO, CARLOS LUIS", "nacionalidad": "Venezolano"},
    {"NombreCompleto": "HERNÁNDEZ, MANUEL ALONSO", "nacionalidad": "Español"},
    {"NombreCompleto": "PÉREZ DOUTHAT, SANTIAGO", "nacionalidad": "Uruguayo"},
]

df_extranjeros = pd.DataFrame(extranjeros_data)

# Merge con combined_df
combined_df = combined_df.merge(df_extranjeros, on="NombreCompleto", how="left")
combined_df["nacionalidad"] = combined_df["nacionalidad"].fillna("Argentina")

In [22]:
combined_df['nacionalidad'].value_counts()

nacionalidad
Argentina         8067
Estadounidense     801
Colombiano          45
Dominicano          35
Panameño            33
Uruguayo            31
Ghanés              21
Name: count, dtype: int64