In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
#read de files
csv_2015_to_2022 = pd.read_csv('afa_2015_2022_spa.csv')
csv_2015_to_2022.head()

In [None]:
# describe the csv_2015_to_2022
describe = csv_2015_to_2022.describe() 
describe.loc['Nan'] = csv_2015_to_2022.isna().sum()
describe.loc['%Nan'] = (csv_2015_to_2022.isna().mean())*100
describe

In [None]:
df = pd.DataFrame(csv_2015_to_2022)
df.columns.values

In [None]:
# Total of rows and columns to be analysed
df.shape

In [None]:
# I keep only the columns that interest me
df_copy_1 = df.drop(columns=['posesion_local','torneo', 'fecha', 'partido', 'fecha_encuentro',
       'tiros_arco_local', 'intentos_local', 'faltas_local',
       'tiro_esquina_local', 'posesion_visitante', 'tiros_arco_visitante',
       'intentos_visitante', 'faltas_visitante', 'tiro_esquina_visitante',
       'amarillas_local', 'amarillas_visitante', 'rojas_local',
       'rojas_visitante', 'valor_mercado_local', 'altura_media_local',
       'edad_media_local', 'proporcion_zurdos_local',
       'valor_mercado_visitante', 'altura_media_visitante',
       'edad_media_visitante', 'proporcion_zurdos_visitante', 'apuesta_local', 'apuesta_visitante',
       'apuesta_empate'])

# Crear una columna para indicar si el equipo ganó como local o visitante
df_copy_1['ganador_local'] = df_copy_1['resultado'].apply(lambda x: x.startswith('L'))
df_copy_1['ganador_visitante'] = df_copy_1['resultado'].apply(lambda x: x.startswith('V'))

# Agrupar los datos por equipo y sumar los partidos ganados como local y visitante
ganados_local = df_copy_1.groupby('equipo_local')['ganador_local'].sum()
ganados_visitante = df_copy_1.groupby('equipo_visitante')['ganador_visitante'].sum()

# Calcular el total de partidos jugados como local y visitante
jugados_local = df_copy_1['equipo_local'].value_counts()
jugados_visitante = df_copy_1['equipo_visitante'].value_counts()

# Calcular el porcentaje de partidos ganados como local y visitante para cada equipo
porcentaje_ganados_local = ganados_local / jugados_local * 100
porcentaje_ganados_visitante = ganados_visitante / jugados_visitante * 100

# Calcular el porcentaje total de partidos ganados por cada equipo
partidos_ganados = ganados_local.add(ganados_visitante, fill_value=0)
partidos_jugados = jugados_local.add(jugados_visitante, fill_value=0)
porcentaje_ganados_total = partidos_ganados / partidos_jugados * 100

# Unir los resultados en un único DataFrame
porcentaje_ganados = pd.concat([porcentaje_ganados_local, porcentaje_ganados_visitante, porcentaje_ganados_total], axis=1)
porcentaje_ganados.columns = ['Porcentaje de partidos ganados como local', 'Porcentaje de partidos ganados como visitante', 'Porcentaje de partidos ganados total']

porcentaje_ganados

In [None]:
# Crear el gráfico de barras
porcentaje_ganados.plot(kind='bar', figsize=(12,8))

# Agregar título y etiquetas de los ejes
plt.title('Porcentaje de partidos ganados')
plt.xlabel('Equipo')
plt.ylabel('Porcentaje')

# Mostrar el gráfico
plt.show()

In [None]:
# creo las columnas para indicar si el equipo perdió como local o visitante
df_copy_1['perdedor_local'] = df_copy_1['resultado'].apply(lambda x: x.startswith('V'))
df_copy_1['perdedor_visitante'] = df_copy_1['resultado'].apply(lambda x: x.startswith('L'))

# agrupamos los datos por equipo y sumamos los partidos perdidos como local y visitante
perdidos_local = df_copy_1.groupby('equipo_local')['perdedor_local'].sum()
perdidos_visitante = df_copy_1.groupby('equipo_visitante')['perdedor_visitante'].sum()

#calculo el total de partidos jugados como local y visitante
jugados_local = df_copy_1['equipo_local'].value_counts()
jugados_visitante = df_copy_1['equipo_visitante'].value_counts()

#calculo el porcentaje total de partidos perdidos por cada equipo y uno todos los resultados en un único DataFrame
porcentaje_perdidos_local = perdidos_local / jugados_local * 100
porcentaje_perdidos_visitante = perdidos_visitante / jugados_visitante * 100
partidos_perdidos = perdidos_local.add(perdidos_visitante, fill_value=0)
porcentaje_perdidos_total = partidos_perdidos / partidos_jugados * 100

porcentaje_perdidos = pd.concat([porcentaje_perdidos_local, porcentaje_perdidos_visitante, porcentaje_perdidos_total], axis=1)
porcentaje_perdidos.columns = ['Porcentaje de partidos perdidos como local', 'Porcentaje de partidos perdidos como visitante', 'Porcentaje de partidos perdidos total']

porcentaje_perdidos



In [None]:
# Crear el gráfico de barras
porcentaje_perdidos.plot(kind='bar', figsize=(12,8))

# Agregar título y etiquetas de los ejes
plt.title('Porcentaje de partidos perdidos')
plt.xlabel('Equipo')
plt.ylabel('Porcentaje')

# Mostrar el gráfico
plt.show()

In [None]:
from sklearn.preprocessing import LabelEncoder

In [None]:
df_copy_2 = df_copy_1.copy()

In [None]:
df_copy_2['ganados'] = df_copy_2.apply(lambda x: x['equipo_local'] if x['resultado'].startswith('L') else x['equipo_visitante'], axis=1)
ganados = pd.DataFrame({'ganados': df_copy_2['ganados'].value_counts()})
#porcentaje_ganados = ganados['porcentaje_ganados'] = ganados['ganados%'] / (ganados['ganados%'].sum()) * 100
ganados['porcentaje_ganados'] = ganados['ganados'] / ganados['ganados'].sum() * 100
ganados

In [None]:
# I transform the 
le = LabelEncoder()
data_copy['resultado_le'] = data_copy['resultado']
label_encoding = le.fit_transform(data_copy['resultado_le'])
data_copy['resultado_le'] = label_encoding
data_copy.head(30)

In [None]:
le.classes_

In [None]:
data_copy['resultado'].value_counts()

In [None]:
fig = plt.figure(figsize=(16, 9))
ax = fig.add_subplot()
sns.boxplot(x=data_copy['porcentaje_ganados'], ax=ax)
ax.grid('dashed')

In [None]:
# Save as afa_2015_2022_sorted.csv
df_clean_one.to_csv("afa_2015_2022_sorted.csv", index=False)

In [None]:
river_puntos = 0
for i in df_clean_one.iloc:
    if (i['torneo']=='Campeonato 2021'):
        if ((i['equipo_visitante']=='River Plate') and (i['resultado']=='V')) or ((i['equipo_local']=='River Plate') and (i['resultado']=='L')):
            river_puntos = river_puntos + 3
        elif (i['equipo_visitante']=='River Plate' or i['equipo_local']=='River Plate' )and (i['resultado']=='E'):
            river_puntos = river_puntos + 1
river_puntos

In [None]:
partidos_jugados = 0
torneos=[]
boca_g=0
boca_p=0
empates=0
for i in df_clean_one.iloc:
    if ((i['equipo_visitante']=='Racing Club') and  (i['equipo_local']=='Estudiantes (LP)')) or ((i['equipo_visitante']=='Estudiantes (LP)') and  (i['equipo_local']=='Racing Club')):
        if (i['resultado']=='V') and (i['equipo_visitante']=='Estudiantes (LP)'):
            boca_g+=1
        if (i['resultado']=='L') and (i['equipo_local']=='Estudiantes (LP)'):
            boca_g+=1
        if (i['resultado']=='E'): 
            empates+=1
        partidos_jugados+=1    
procentaje_g = boca_g/partidos_jugados
procentaje_g
partidos_jugados


In [None]:
def resultados_partidos (equipo, rival):
    partidos_jugados = 0
    ganados = 0
    empates=0
    
    for i in df_clean_one.iloc:
        if ((i['equipo_visitante']==equipo) and  (i['equipo_local']==rival)) or ((i['equipo_visitante']==rival) and  (i['equipo_local']==equipo)):
            if (i['resultado']=='V') and (i['equipo_visitante']==equipo):
                ganados+=1
            if (i['resultado']=='L') and (i['equipo_local']==equipo):
                ganados+=1
            if (i['resultado']=='E'): 
                empates+=1
            partidos_jugados+=1
    perdidos = partidos_jugados - (ganados + empates)    
    return ganados, perdidos, empates, partidos_jugados

g,p,e,pj = resultados_partidos('Boca Juniors','River Plate')


In [None]:
river_l = 0
river_v = 0
river_e = 0
for i in df_clean_one.iloc:
    if (i['torneo']=='Campeonato 2021'):
        if ((i['equipo_visitante']=='River Plate') and (i['resultado']=='V')) or ((i['equipo_local']=='River Plate') and (i['resultado']=='L')):
            river_puntos = river_puntos + 3
        elif (i['equipo_visitante']=='River Plate' or i['equipo_local']=='River Plate' )and (i['resultado']=='E'):
            river_puntos = river_puntos + 1
river_puntos