## PRÁCTICA 1

In [83]:
import pandas as pd
import numpy as np

## Preprocesado

In [84]:
DATA = pd.read_csv('./club-games.csv')

In [85]:
import pandas as pd
import re

DATA['resultado'] = DATA['resultado'].str.replace(' ganó', '')

def extraer_expansiones(texto):
    if not isinstance(texto, str):
        return np.nan, np.nan, np.nan
    
    expansiones = re.findall(r'([^(]+)\s*\(coste:\s*(\d+)€,\s*copia:\s*(\d+)\)', texto)
    
    nombres = '; '.join([exp[0].strip() for exp in expansiones])
    precios = '; '.join([exp[1] for exp in expansiones])
    copias = '; '.join([exp[2] for exp in expansiones])
    
    return nombres, precios, copias

expansiones_procesadas = DATA['expansiones'].apply(extraer_expansiones)

DATA['nombre_expansion'] = expansiones_procesadas.apply(lambda x: x[0])
DATA['precio_expansion'] = expansiones_procesadas.apply(lambda x: x[1])
DATA['copia_expansion'] = expansiones_procesadas.apply(lambda x: x[2])

DATA = DATA.drop('expansiones', axis=1)

In [86]:
DATA = DATA.drop(['nombre_expansion', 'precio_expansion', 'copia_expansion'], axis=1, errors='ignore')

idx = DATA.columns.get_loc('copia_juego') + 1

DATA.insert(idx, 'copia_expansion', expansiones_procesadas.apply(lambda x: x[2]))
DATA.insert(idx, 'precio_expansion', expansiones_procesadas.apply(lambda x: x[1]))
DATA.insert(idx, 'nombre_expansion', expansiones_procesadas.apply(lambda x: x[0]))

In [87]:
DATA = DATA.rename(columns= {'resultado': 'ganador',
                             'personal': 'supervisor',
                             'copia_juego': 'ID_copia_juego',
                             'copia_expansion': 'ID_copia_expansion',
                            'coste_juego': 'precio_juego'})

In [88]:
DATA.sample(5)

Unnamed: 0,partida_id,fecha,hora,juego,precio_juego,ID_copia_juego,nombre_expansion,precio_expansion,ID_copia_expansion,jugadores,supervisor,ganador
4082,4083,2024-03-07,12:39,Memoir '44,50€,1,,,,Noa de Rocha; Gregorio del Antón,Eustaquio del Manjón,Gregorio del Antón
6762,6763,2024-04-28,22:46,Betrayal at House on the Hill,35€,8,,,,Jerónimo del Noriega; Gabriel Casanova-Armas; ...,Josué Amador Peinado Jódar,Oriana Gargallo Beltrán
24140,24141,2024-07-10,09:42,Memoir '44,50€,1,Campaigns; ; Battles of the Bulge,18; 20,3; 3,Soraya Trillo Alcázar; Hermenegildo Berenguer;...,Edgardo Egea Donoso,Iker Vila-Gimeno
8441,8442,2024-03-19,07:29,Gloomhaven,70€,5,,,,Áurea Castañeda Lopez; Lidia Pedrosa Santamarí...,Pedro Raya Royo,Áurea Castañeda Lopez
36123,36124,2020-01-28,21:55,Scythe,60€,10,,,,Valero Miranda; Bernardita Gil Rincón; Toribio...,Gisela Jover Bonet,Bernardita Gil Rincón


## Creacion de subdataframes

### Juego de mesa

In [89]:
df_juego_mesa = pd.DataFrame({'Nombre_juego': DATA['juego'].unique()})

df_juego_mesa = df_juego_mesa.rename(columns={
    'Nombre_juego_mesa': 'Nombre_juego',
})

In [90]:
df_juego_mesa

Unnamed: 0,Nombre_juego
0,Scythe
1,Betrayal at House on the Hill
2,Catan
3,Agricola
4,Arkham Horror: The Card Game
5,Codenames
6,Memoir '44
7,Pandemic
8,Dominion
9,Ajedrez


### Copia de juego de mesa

In [91]:
df_copia_juego_mesa = DATA[['ID_copia_juego', 'precio_juego', 'juego']].drop_duplicates()
df_copia_juego_mesa.precio_juego = df_copia_juego_mesa.precio_juego.str.replace('€', '')

df_copia_juego_mesa = df_copia_juego_mesa.rename(columns={
    'ID_copia_juego': 'ID_copia_juego',
    'precio_juego': 'Precio_copia_juego',
    'juego': 'Nombre_juego'
})

In [92]:
df_copia_juego_mesa

Unnamed: 0,ID_copia_juego,Precio_copia_juego,Nombre_juego
0,10,60,Scythe
1,8,35,Betrayal at House on the Hill
2,8,45,Catan
3,2,55,Agricola
4,4,55,Arkham Horror: The Card Game
5,9,25,Codenames
6,1,50,Memoir '44
7,4,50,Pandemic
8,6,45,Dominion
9,6,5,Ajedrez


### Expansiones

In [93]:
expansiones_unicas = set()

for exp in DATA['nombre_expansion'].dropna():
    if isinstance(exp, str) and exp != 'NaN':
        expansiones = [e.strip() for e in exp.split(';')]
        expansiones_unicas.update(expansiones)

df_expansion = pd.DataFrame({'Nombre_expansion': list(expansiones_unicas)})

In [94]:
df_expansion

Unnamed: 0,Nombre_expansion
0,
1,Battles of the Bulge
2,América del Sur
3,Campaigns
4,Comerciantes y Constructores
5,Forgotten Circles
6,Exploradores y Piratas
7,Edición Limitada
8,Adventures
9,Duet


### Copia de expansion

In [95]:
registros_copia_expansion = []

expansion_to_ids = {}
expansion_to_prices = {}

for _, row in DATA.iterrows():
    if isinstance(row['nombre_expansion'], str) and row['nombre_expansion'] != 'NaN':
        nombres = [n.strip() for n in row['nombre_expansion'].split(';')]
        
        precios = []
        if pd.notna(row['precio_expansion']):
            precios_str = str(row['precio_expansion'])
            precios = [p.strip() for p in precios_str.split(';')] if ';' in precios_str else [precios_str]
        
        ids = []
        if pd.notna(row['ID_copia_expansion']):
            ids_str = str(row['ID_copia_expansion'])
            ids = [i.strip() for i in ids_str.split(';')] if ';' in ids_str else [ids_str]
        
        for i, nombre in enumerate(nombres):
            if nombre and nombre != 'NaN':
                precio = None
                if i < len(precios) and precios[i] != 'NaN':
                    try:
                        precio = float(precios[i])
                    except ValueError:
                        pass
                
                id_copia = None
                if i < len(ids) and ids[i] != 'NaN':
                    try:
                        id_copia = int(ids[i])
                    except ValueError:
                        pass
                
                if id_copia is not None:
                    if nombre not in expansion_to_ids:
                        expansion_to_ids[nombre] = []
                    if id_copia not in expansion_to_ids[nombre]:
                        expansion_to_ids[nombre].append(id_copia)
                    
                    if nombre not in expansion_to_prices:
                        expansion_to_prices[nombre] = {}
                    expansion_to_prices[nombre][id_copia] = precio

for nombre, ids in expansion_to_ids.items():
    for id_copia in ids:
        precio = expansion_to_prices.get(nombre, {}).get(id_copia, None)
        if precio is not None:
            registros_copia_expansion.append({
                'ID_copia_expansion': id_copia,
                'Precio_expansion': precio,
                'Nombre_expansion': nombre
            })


df_copia_expansion = pd.DataFrame(registros_copia_expansion)

df_copia_expansion = df_copia_expansion.rename(columns={
    'Precio_expansion': 'Precio_copia_expansion'
})

In [96]:
df_copia_expansion

Unnamed: 0,ID_copia_expansion,Precio_copia_expansion,Nombre_expansion
0,4,30.0,Invaders from Afar
1,9,30.0,Ciudades y Caballeros
2,8,25.0,Ciudades y Caballeros
3,10,27.0,Ciudades y Caballeros
4,8,13.0,Imágenes
...,...,...,...
169,10,26.0,Estado de Emergencia
170,2,20.0,Prelude
171,6,23.0,Prelude
172,10,25.0,Prelude


### Persona (tanto jugadores como supervisores)

In [97]:
jugadores_unicos = set()
for jugadores in DATA['jugadores'].dropna():
    if isinstance(jugadores, str):
        jugadores_lista = [j.strip() for j in jugadores.split(';') if j.strip()]
        jugadores_unicos.update(jugadores_lista)

supervisores_unicos = set(DATA['supervisor'].dropna().unique())

personas_unicas = jugadores_unicos.union(supervisores_unicos)

df_persona = pd.DataFrame({'Nombre_persona': list(personas_unicas)})
df_persona.drop_duplicates(subset=['Nombre_persona'], inplace=True)

In [98]:
df_persona.value_counts()

Nombre_persona                  
Úrsula Ángel Sáez                   1
Aarón Acuña Jiménez                 1
Aarón Albert Valenciano Rocamora    1
Aarón Alcalde Tamayo                1
Aarón Alegre Borrego                1
                                   ..
Aarón Ayuso Calleja                 1
Aarón Azorin-Andrés                 1
Aarón Barranco                      1
Aarón Batalla Borrego               1
Aarón Bayón Salgado                 1
Name: count, Length: 249526, dtype: int64

### Partida

In [99]:
df_partida = DATA[['partida_id', 'fecha', 'hora', 'juego', 'ID_copia_juego', 'supervisor','ganador']].drop_duplicates()

df_partida = df_partida.rename(columns={
    'partida_id': 'ID_partida',
    'fecha': 'Fecha',
    'hora': 'Hora',
    'juego': 'Nombre_juego',
    'ID_copia_juego': 'ID_copia_juego',
    'supervisor': 'Supervisor',
    'ganador': 'Ganador'
})

df_partida = df_partida.rename(columns={'Ganador': 'Resultado'})

df_partida_reorganizado = df_partida[['ID_partida', 
                                     'Resultado', 
                                     'Hora', 
                                     'Fecha', 
                                     'Nombre_juego', 
                                     'ID_copia_juego', 
                                     'Supervisor']]

df_partida = df_partida_reorganizado

In [100]:
df_partida

Unnamed: 0,ID_partida,Resultado,Hora,Fecha,Nombre_juego,ID_copia_juego,Supervisor
0,1,María Del Carmen Caballero Caparrós,14:44,2021-08-24,Scythe,10,Alberto Torralba Sierra
1,2,René Valentín Catalá,18:43,2023-07-02,Betrayal at House on the Hill,8,Joel Ángel Campillo
2,3,Haroldo Saez-Blanca,14:46,2021-04-06,Catan,8,Julio Luján Valderrama
3,4,Juan Manuel Oller Palomo,02:20,2020-10-02,Agricola,2,Amado del Piñeiro
4,5,Alonso Victor Anaya Borrell,14:09,2024-01-30,Arkham Horror: The Card Game,4,Débora Escolano Martinez
...,...,...,...,...,...,...,...
49995,49996,Íñigo Badía Talavera,14:25,2022-02-19,Agricola,2,Nélida Bauzà Porras
49996,49997,Gerónimo Expósito Carreras,05:18,2024-10-15,Pandemic,4,Régulo del Coca
49997,49998,Alondra Lara Llamas,13:36,2024-09-16,Ticket to Ride,8,Rosalva Fuente-Herrera
49998,49999,Gertrudis de Manrique,08:48,2020-05-02,Terraforming Mars,1,Jose Luis Reig


### Utiliza

In [101]:
utiliza_rows = []

for _, row in DATA[['partida_id', 'nombre_expansion', 'ID_copia_expansion']].dropna().iterrows():
    if isinstance(row['nombre_expansion'], str) and isinstance(row['ID_copia_expansion'], str):
        expansiones = [e.strip() for e in row['nombre_expansion'].split(';') if e.strip()]
        ids_expansion = [int(e.strip()) for e in row['ID_copia_expansion'].split(';') if e.strip()]
        
        utiliza_rows.extend([
            {'ID_partida': row['partida_id'], 'Nombre_expansion': exp, 'ID_copia_expansion': id_exp}
            for exp, id_exp in zip(expansiones, ids_expansion)
        ])

df_utiliza = pd.DataFrame(utiliza_rows)

In [102]:
df_utiliza

Unnamed: 0,ID_partida,Nombre_expansion,ID_copia_expansion
0,1,Invaders from Afar,4
1,3,Ciudades y Caballeros,9
2,3,Navegadores,8
3,6,Imágenes,8
4,6,Duet,3
...,...,...,...
50989,49988,Turmoil,6
50990,49992,In the Lab,10
50991,49992,On the Brink,10
50992,49996,Farmers of the Moor,4


### Participa

In [103]:
participa_rows = []

for _, row in DATA[['partida_id', 'jugadores', 'ganador']].dropna().iterrows():
    if isinstance(row['jugadores'], str):
        jugadores = [j.strip() for j in row['jugadores'].split(';') if j.strip()]
        
        for jugador in jugadores:
            participa_rows.append({
                'ID_partida': row['partida_id'],
                'Nombre_persona': jugador,
                'es_ganador': jugador == row['ganador']
            })

df_participa = pd.DataFrame(participa_rows)

In [104]:
df_participa

Unnamed: 0,ID_partida,Nombre_persona,es_ganador
0,1,Melisa de Barrera,False
1,1,Toño Arroyo Vilalta,False
2,1,María Del Carmen Caballero Caparrós,True
3,1,Ariadna Calvo,False
4,1,Moisés Álamo-Llano,False
...,...,...,...
200012,50000,Cesar Escribano Adán,False
200013,50000,Rubén Conesa Arcos,False
200014,50000,Jennifer Bello Casares,True
200015,50000,Jacinta Castilla Amaya,False


### Una vez tenemos todos los dataframes en formatos correctos, los guardamos

In [105]:
df_juego_mesa.to_csv('./subdataframes/juego_mesa.csv', 
                 index=False,
                 sep=',',
                 quoting=1,           
                 encoding='utf-8')

df_copia_juego_mesa.to_csv('./subdataframes/copia_juego_mesa.csv',
                 index=False,
                 sep=',',
                 quoting=1,           
                 encoding='utf-8')
df_expansion.to_csv('./subdataframes/expansion.csv',
                 index=False,
                 sep=',',
                 quoting=1,           
                 encoding='utf-8')

df_copia_expansion.to_csv('./subdataframes/copia_expansion.csv',
                 index=False,
                 sep=',',
                 quoting=1,           
                 encoding='utf-8')

df_persona.to_csv('./subdataframes/persona.csv',
                 index=False,
                 sep=',',
                 quoting=1,           
                 encoding='utf-8')

df_partida.to_csv('./subdataframes/partida.csv',
                 index=False,
                 sep=',',
                 quoting=1,           
                 encoding='utf-8')

df_utiliza.to_csv('./subdataframes/utiliza.csv',
                 index=False,
                 sep=',',
                 quoting=1,           
                 encoding='utf-8')

df_participa.to_csv('./subdataframes/participa.csv',
                 index=False,
                 sep=',',
                 quoting=1,           
                 encoding='utf-8')


### Insertamos los datos desde python con el siguiente codigo

In [None]:

import pandas as pd
from sqlalchemy import create_engine
from urllib.parse import quote_plus

password = quote_plus("Tu contraseña") #Tuve que usar esto porque la contraseña del workbench contenía arroba y daba problemas

engine = create_engine(f'mysql+pymysql://root:{password}@localhost:3306/practica_bd')

df_juego_mesa.to_sql('juego_mesa', con=engine, if_exists='append', index=False, schema='practica_bd')
df_copia_juego_mesa.to_sql('copia_juego_mesa', con=engine, if_exists='append', index=False, schema='practica_bd')
df_expansion.to_sql('expansion', con=engine, if_exists='append', index=False, schema='practica_bd')
df_copia_expansion.to_sql('copia_expansion', con=engine, if_exists='append', index=False, schema='practica_bd')
df_persona.to_sql('persona', con=engine, if_exists='append', index=False, schema='practica_bd')
df_partida.to_sql('partida', con=engine, if_exists='append', index=False, schema='practica_bd')
df_participa.to_sql('participa', con=engine, if_exists='append', index=False, schema='practica_bd')
df_utiliza.to_sql('utiliza', con=engine, if_exists='append', index=False, schema='practica_bd')

50994