# Proyecto 'Football Picks Analytics'

## Limpieza y consolidación de datos

### Instalación y carga de paquetes

In [1]:
%pip install pandas


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m25.2[0m[39;49m -> [0m[32;49m25.3[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m
Note: you may need to restart the kernel to use updated packages.


In [2]:
# Importar librerias
import pandas as pd
from pathlib import Path

### Carga de datos

In [3]:
# Verificación y carga del archivo .csv
ruta_base = Path.cwd()
ruta_csv = ruta_base.parent.parent.parent.parent / 'data' / 'Phase 2' / 'raw' / '2024_puntuacion.csv'

print(f'Buscando archivo en: {ruta_csv}')

if ruta_csv.exists():
    df = pd.read_csv(ruta_csv)
    print("Archivo cargado existosamente.")
else:
    print("El archivo NO existe en la ruta especificada.")

Buscando archivo en: /home/fer_barrera/Football-picks-analytics/data/Phase 2/raw/2024_puntuacion.csv
Archivo cargado existosamente.


### Verificación del contenido

In [4]:
# Analisis inicial del dataframe. Verificamos la estructura de los datos.
print(df.head())

       Fecha  Partido              Formato                Tipo         Etapa  \
0   5/3/2024        1               Vuelta                Club       Octavos   
1   6/3/2024        2               Vuelta                Club       Octavos   
2   6/3/2024        3  Eliminación Directa  Selección Nacional   Semifinales   
3  10/3/2024        4             Matchday                Club  Fase regular   
4  31/3/2024        5             Matchday                Club  Fase regular   

             Torneo             Local         Visitante Resultado  \
0  Champions League    Bayern München             Lazio     Local   
1  Champions League       Real Madrid         RB Lepzig     Local   
2  Copa Oro Femenil  Brasil (Femenil)  México (Femenil)     Local   
3    Premier League         Liverpool   Manchester City    Empate   
4    Premier League   Manchester City           Arsenal    Empate   

  Condición primera Condición segunda Estado Barrera Estado Chochos  \
0            Avanza     Indetermi

In [15]:
# Verificamos la información del dataframe.
# Búsqueda de valores nulos y comprensión del tipo de datos.
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1189 entries, 0 to 1188
Data columns (total 19 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   Fecha              1189 non-null   object
 1   Partido            1189 non-null   int64 
 2   Formato            1189 non-null   object
 3   Tipo               1189 non-null   object
 4   Etapa              1189 non-null   object
 5   Torneo             1189 non-null   object
 6   Local              1189 non-null   object
 7   Visitante          1189 non-null   object
 8   Resultado          1189 non-null   object
 9   Condición primera  1189 non-null   object
 10  Condición segunda  1189 non-null   object
 11  Estado Barrera     1189 non-null   object
 12  Estado Chochos     1189 non-null   object
 13  Estado Dani        1189 non-null   object
 14  Estado Vélez       1189 non-null   object
 15  Puntos Barrera     1189 non-null   int64 
 16  Puntos Chochos     1189 non-null   int64 


### Consolidación del contenido

In [16]:
# Eliminación de columnas innecesarias

# Creación de una copia del daraframe original para preservar los datso originales.
df_cleaned = df.copy()

# Eliminación
columnas_a_eliminar = ['Partido', 'Condición primera', 'Condición segunda']
df_cleaned = df.drop(columns = columnas_a_eliminar)

# Verificación
#print(df_cleaned.columns.tolist())
#print(df_cleaned.info())
# df_cleaned.head()

In [17]:
# Verificar valores únicos en columnas clave
print("=== VALORES ÚNICOS EN COLUMNAS CLAVE===\n")

columnas_clave = ['Formato', 'Tipo', 'Etapa', 'Torneo', 'Resultado', 
                'Estado Barrera', 'Estado Chochos', 'Estado Dani', 'Estado Vélez']

for columna in columnas_clave:
    print(f"{columna}:")
    print(f"Valores: {df_cleaned[columna].unique().tolist()}")
    print(f"Cantidad: {df_cleaned[columna].nunique()}")
    print()
    


=== VALORES ÚNICOS EN COLUMNAS CLAVE===

Formato:
Valores: ['Vuelta', 'Eliminación Directa', 'Matchday', 'Ida', 'Amistoso']
Cantidad: 5

Tipo:
Valores: ['Club', 'Selección Nacional']
Cantidad: 2

Etapa:
Valores: ['Octavos', 'Semifinales', 'Fase regular', 'Final', 'Cuartos', 'Repesca', 'Preparación', 'Tercer Lugar', 'Dieciseisavos', 'Clasificación', 'Playoff']
Cantidad: 11

Torneo:
Valores: ['Champions League', 'Copa Oro Femenil', 'Premier League', 'Copa del Rey', 'Europa League', 'Bundesliga', 'Liga MX', 'La Liga', 'Serie A', 'Champions Cup', 'Conference', 'Coppa Italia', 'RPL', 'FA Cup', 'AFC Champions League', 'CAF Champions League', 'Pokal', "The Custodian of the Two Holy Mosques' Cup", 'Sin torneo', 'Eurocopa', 'Copa América', 'OFC Nations Cup', 'Supercopa MX', 'Sudamericana', 'Liga Profesional de Argentina', 'Brasileirão Série A', 'Nile League', 'Leagues Cup', 'Liga 1', 'Categoría Primera A', 'UEFA Nations League', 'Eliminatorias Conmebol', 'Libertadores', 'SüperLig', 'Saudi Pro L

In [None]:
# Verificación del contenido de las puntuiaciones
print("===VERIFICACIÓN DE PUNTOS ===\n")

columnas_puntos = ['Puntos Barrera', 'Puntos Chochos', 'Puntos Dani', 'Puntos Vélez']

for columna in columnas_puntos:
    print(f"{columna}:")
    valores_unicos = df_cleaned[columna].value_counts().sort_index()
    for valor, cantidad in valores_unicos.items():
        print(f"{valor}: {cantidad} veces")
    print()

===VERIFICACIÓN DE PUNTOS ===

Puntos Barrera:
0: 600 veces
1: 589 veces

Puntos Chochos:
0: 601 veces
1: 588 veces

Puntos Dani:
0: 598 veces
1: 591 veces

Puntos Vélez:
0: 683 veces
1: 506 veces



In [None]:
# Consolidación de datos de equipos locales

print("\nEQUIPOS ÚNICOS (LOCAL):")
equipos_local = df_cleaned['Local'].unique()
equipos_local.sort()
for i, equipo in enumerate(equipos_local[320:328]):
    print(f"  {i+1}. {equipo}")

print(f"\nTotal de equipos distintos (local): {len(equipos_local)}")


EQUIPOS ÚNICOS (LOCAL):
  1. AEK
  2. APOEL
  3. AZ
  4. Ajax
  5. Al Ahli
  6. Al Ahly
  7. Al Ain
  8. Al Hilal
  9. Al Ittihad
  10. Al Masry
  11. Al Nassr
  12. Al Sadd
  13. Albania
  14. Alemania
  15. Always Ready
  16. América
  17. América de Cali
  18. Anderlecht
  19. Angola
  20. Arabia Saudí
  21. Argentina
  22. Argentinos Juniors
  23. Arsenal
  24. Astana
  25. Aston Villa
  26. Atalanta
  27. Athletic Club
  28. Athletico Paranaense
  29. Atlanta United
  30. Atlas
  31. Atlético Goianiense
  32. Atlético Mineiro
  33. Atlético Nacional
  34. Atlético San Luis
  35. Atlético Tucumán
  36. Atlético de Madrid
  37. Augsburg
  38. Australia
  39. Austria
  40. Bahia
  41. Banfield
  42. Barcelona
  43. Barcelona de Guayaquil
  44. Barracas Central
  45. Baréin
  46. Bayer Leverkusen
  47. Bayern München
  48. Benfica
  49. Beşiktaş
  50. Boca Juniors
  51. Bochum
  52. Bodø/Glimt
  53. Bolivia
  54. Bologna
  55. Borussia Dortmund
  56. Borussia Mönchengladbach
  57. Bo

In [74]:
# Consolidación de datos de equipos visitantes

print("\nEQUIPOS ÚNICOS (VISITANTE):")
equipos_visitante = df_cleaned['Visitante'].unique()

equipos_visitante.sort()
for i, equipo in enumerate(equipos_visitante):
    print(f" {i+1}.{equipo}")

print(f"\nTotal de equipos distintos (visitante): {len(equipos_visitante)}")


EQUIPOS ÚNICOS (VISITANTE):
 1.AZ
 2.Ajax
 3.Al Ahli
 4.Al Ahly
 5.Al Ain
 6.Al Hilal
 7.Al Ittihad
 8.Al Nassr
 9.Al Sadd
 10.Albania
 11.Alemania
 12.Alianza Lima
 13.Almería
 14.Always Ready
 15.América
 16.América de Cali
 17.Anderlecht
 18.Andorra
 19.Arabia Saudí
 20.Argelia
 21.Argentina
 22.Arsenal
 23.Aston Villa
 24.Atalanta
 25.Athletic Club
 26.Athletico Paranaense
 27.Atlas
 28.Atlético Goianiense
 29.Atlético Mineiro
 30.Atlético Nacional
 31.Atlético San Luis
 32.Atlético de Madrid
 33.Auckland City
 34.Augsburg
 35.Austin
 36.Australia
 37.Austria
 38.Azerbaiyán
 39.Bahia
 40.Banfield
 41.Barcelona
 42.Barcelona de Guayaquil
 43.Baréin
 44.Bayer Leverkusen
 45.Bayern München
 46.Başakşehir
 47.Belgrano
 48.Benfica
 49.Beşiktaş
 50.Boca Juniors
 51.Bochum
 52.Bodø/Glimt
 53.Bolivia
 54.Bologna
 55.Borussia Dortmund
 56.Borussia Mönchengladbach
 57.Bosnia y Herzegovina
 58.Botafogo
 59.Bournemouth
 60.Braga
 61.Brasil
 62.Brentford
 63.Brighton and Hove Albion
 64.Bulgar

In [None]:
# Consolidación de datos de la columna Torneo

torneos = df_cleaned['Torneo'].unique()

torneos.sort()
for i, torneo in enumerate(torneos):
    print(f"{i+1}.{torneo}")

print(f"Torneos totales: {len(torneos)}")


1.AFC Asian Qualifiers
2.AFC Champions League
3.AFC Champions League Elite
4.Brasileirão Série A
5.Bundesliga
6.CAF Champions League
7.CAN Qualifiers
8.CONCACAF Nations League
9.Campeonato Uruguayo de Primera División
10.Categoría Primera A
11.Champions Cup
12.Champions League
13.Conference
14.Copa América
15.Copa Colombia
16.Copa Oro Femenil
17.Copa de la Liga Profesional
18.Copa del Rey
19.Copa do Brasil
20.Coppa Italia
21.Coupe de France
22.EFL Cup
23.Eliminatorias Conmebol
24.Eredivisie
25.Eurocopa
26.Europa League
27.FA Cup
28.Intercontinental
29.J League
30.K League 1
31.La Liga
32.Leagues Cup
33.Libertadores
34.Liga 1
35.Liga MX
36.Liga Portugal
37.Liga Profesional de Argentina
38.Ligue 1
39.MLS
40.Nile League
41.OFC Nations Cup
42.OFC WC Qualifiers
43.Pokal
44.Premier League
45.Primera División de Chile
46.RPL
47.Saudi Pro League
48.Scottish Cup
49.Scottish Premiership
50.Serie A
51.Sin torneo
52.Soúper Ligk Elladas
53.Sudamericana
54.Supercopa MX
55.SüperLig
56.The Custodian o

In [91]:
# Estandarización de nombres de equipos

correcciones_de_equipos = {
    'Esperance de Tunis': 'Espérance de Tunis',
    'Ferencvaros': 'Ferenváros', 
    'Shanghai': 'Shanghai Shenhua',
    'Shandong': 'Shandong Luneng',
    'Shakhtar': 'Shakhtar Donetsk',
    'San Luis': 'Atlético San Luis',
    'Wolfsburgo': 'Wolfsburg',
    'Slovan': 'Slovan Bratislava'
}

print("=== APLICANDO CORRECCIONES ===\n")

# Correción de la columna 'Local'
correcciones_aplicadas_local = 0

for nombre_incorrecto, nombre_correcto in correcciones_de_equipos.items():
    if nombre_incorrecto in df_cleaned['Local'].values:
        mascara = df_cleaned['Local'] == nombre_incorrecto
        df_cleaned.loc[mascara, 'Local'] = nombre_correcto
        correcciones_aplicadas_local += mascara.sum()
        print(f"Local: '{nombre_incorrecto}' -> '{nombre_correcto}' ({mascara.sum()}) correcciones")

# Correción de la columna 'Local'
correcciones_aplicadas_visitante = 0

for nombre_incorrecto, nombre_correcto in correcciones_de_equipos.items():
    if nombre_incorrecto in df_cleaned['Visitante'].values:
        mascara = df_cleaned['Visitante'] == nombre_incorrecto
        df_cleaned.loc[mascara, 'Visitante'] = nombre_correcto
        correcciones_aplicadas_visitante += mascara.sum()
        print(f"Visitante: '{nombre_incorrecto}' -> '{nombre_correcto}' ({mascara.sum()}) correcciones")

print(f"\nTotal correcciones aplicadas:")
print(f"  - Local: {correcciones_aplicadas_local}")
print(f"  - Visitante: {correcciones_aplicadas_visitante}")

=== APLICANDO CORRECCIONES ===


Total correcciones aplicadas:
  - Local: 0
  - Visitante: 0


In [92]:
# Verificación sobre la aplicación de correcciones

print("\n=== VERIFICACIÓN POST-CORRECCIÓN ===\n")

nombres_que_ya_no_deberian_existir = ['Esperance de Tunis', 'Ferencvaros', 'Shanghai', 'Shandong', 'Shakhtar', 'San Luis', 'Wolfsburgo', 'Slovan']

print("Nombres que NO deberían existir (verificación):")
for nombre in nombres_que_ya_no_deberian_existir:
    existe_local = nombre in df_cleaned['Local'].values
    existe_visitante = nombre in df_cleaned['Visitante'].values
    print(f"'{nombre}': Local={existe_local}, Vistante:={existe_visitante}")


=== VERIFICACIÓN POST-CORRECCIÓN ===

Nombres que NO deberían existir (verificación):
'Esperance de Tunis': Local=False, Vistante:=False
'Ferencvaros': Local=False, Vistante:=False
'Shanghai': Local=False, Vistante:=False
'Shandong': Local=False, Vistante:=False
'Shakhtar': Local=False, Vistante:=False
'San Luis': Local=False, Vistante:=False
'Wolfsburgo': Local=False, Vistante:=False
'Slovan': Local=False, Vistante:=False


In [93]:
# Quitar espacios en blanco

# Guardar este dataframe para trabajar con él

### Apunte Métodos

Riesgo -> Es necesario la información previa

Matriz de doble entrada

Vertical: Alternativas (A)
Horizontal: Estado de la naturaleza (E)

Calculo de la matriz: (A*Cantidad) - (E*Costo)

Frecuencia relativa = Probabilidades

Cada resultado * Probabilidad = Matriz de valor esperado

Resultado = Suma (Búsqueda del mejor estado)

 ** Evaluar riesgo de inversiones**

 Tarea #8. Desarrollar un ejemplo de toma de  decisiones en condiciones de riesgo
En Power Point
