**Ejercicio Análisis Liga Española**

In [26]:
import pandas as pd

# ===================================================================
# a. Carga y exploración de datos
# ===================================================================

# Importa el conjunto de datos desde el archivo CSV, usando ';' como delimitador.
df = pd.read_csv('../M3 Ejercicios Lección 3/LigaEspanola2023-2024-Resultados.csv', delimiter=';')

# Renombras las columnas específicas que deseas
df.rename(columns={
    'Ronda': 'Round',
    'Fecha': 'Date',
    'Local': 'HomeTeam',
    'Vistante': 'AwayTeam',
    'Goles Local': 'HG',
    'Goles Visitante': 'AG',
    'Total Goles': 'TotalGoals',
    'Resultado': 'Res'
}, inplace=True)

# Verificas el cambio
print(df.head())

# Muestra las primeras y últimas 5 filas.
print("--- Primeras 5 filas ---")
display(df.head())
print("\n--- Últimas 5 filas ---")
display(df.tail())

# Obtén información general del DataFrame.
# Se observa que algunas columnas como 'HG', 'AG', 'Res' tienen valores nulos.
print("\n--- Información General del DataFrame ---")
df.info()

# Calcula estadísticas descriptivas generales para las columnas numéricas.
print("\n--- Estadísticas Descriptivas ---")
display(df.describe())


# ===================================================================
# b. Manejo de valores nulos y duplicados
# ===================================================================

# Identifica y cuenta los valores nulos en el conjunto de datos.
print("\n--- Conteo de Valores Nulos por Columna ---")
print(df.isnull().sum())

# Imputa los valores faltantes.
# Para las columnas numéricas ('HG', 'AG') se usa la media.
# Para la columna categórica ('Res') se usa la moda.

df.fillna({'HG': df['HG'].mean()}, inplace=True)
df.fillna({'AG': df['AG'].mean()}, inplace=True)
df.fillna({'Res': df['Res'].mode()[0]}, inplace=True)

print("\n--- Verificación de nulos después de la imputación ---")
print(df.isnull().sum())

# Elimina las filas duplicadas (si existen).
# Primero se verifica si hay duplicados y luego se eliminan.
print(f"\nFilas duplicadas encontradas: {df.duplicated().sum()}")
df.drop_duplicates(inplace=True)


# ===================================================================
# c. Filtrado y selección de datos
# ===================================================================

# Filtra los datos: partidos con más de 3 goles en total.
# Se crea primero una columna 'TotalGoals'.
df['TotalGoals'] = df['HG'] + df['AG']
df_goleadas = df[df['TotalGoals'] > 3]
print("\n--- Partidos con más de 3 goles ---")
display(df_goleadas.head())

# Selecciona solo columnas relevantes para el análisis.
columnas_relevantes = ['Date', 'HomeTeam', 'AwayTeam', 'HG', 'AG', 'Res']
df_seleccionado = df[columnas_relevantes]
print("\n--- DataFrame con columnas seleccionadas ---")
display(df_seleccionado.head())

# Ordena los datos por el número de goles del equipo local (HG) de mayor a menor.
df_ordenado = df.sort_values(by='HG', ascending=False)
print("\n--- Partidos ordenados por goles del equipo local ---")
display(df_ordenado.head())


# ===================================================================
# d. Agrupamiento y operaciones estadísticas
# ===================================================================

# Agrupa los datos por equipo local y calcula el promedio de goles a favor (HG) y en contra (AG).
goles_por_equipo = df.groupby('HomeTeam').agg({
    'HG': 'mean', # Promedio de goles marcados en casa
    'AG': 'mean'  # Promedio de goles recibidos en casa
})
print("\n--- Promedio de goles a favor y en contra por equipo local ---")
display(goles_por_equipo.head())


# ===================================================================
# e. Creación de nuevas columnas y transformación de datos
# ===================================================================

# Crea una nueva columna 'Winner' para identificar al ganador.
# La columna 'Res' indica si ganó el local (Home), el visitante (Away) o fue empate (Tie).
def definir_ganador(row):
    if row['Res'] == 'Home':
        return row['HomeTeam']
    elif row['Res'] == 'Away':
        return row['AwayTeam']
    else:
        return 'Empate'
df['Winner'] = df.apply(definir_ganador, axis=1)

# Renombra columnas para mejorar la legibilidad.
df.rename(columns={
    'Round': 'Ronda',
    'Date': 'Fecha',
    'HomeTeam': 'EquipoLocal',
    'AwayTeam': 'EquipoVisitante',
    'HG': 'GolesLocal',
    'AG': 'GolesVisitante',
    'TotalGoals': 'GolesTotales',
    'Res': 'Resultado',
    'Winner': 'Ganador'
}, inplace=True)
print("\n--- DataFrame con columnas renombradas ---")
display(df.head())


   Round                 Date    HomeTeam        AwayTeam  HG  AG  TotalGoals  \
0     33  2024-04-29 00:00:00   Barcelona        Valencia   4   2           6   
1     33  2024-04-28 00:00:00       Betis         Sevilla   1   1           2   
2     33  2024-04-28 00:00:00  Villarreal  Rayo Vallecano   3   0           3   
3     33  2024-04-28 00:00:00  Granada CF         Osasuna   3   0           3   
4     33  2024-04-28 00:00:00    Cadiz CF        Mallorca   1   1           2   

    Res  
0  Home  
1   Tie  
2  Home  
3  Home  
4   Tie  
--- Primeras 5 filas ---


Unnamed: 0,Round,Date,HomeTeam,AwayTeam,HG,AG,TotalGoals,Res
0,33,2024-04-29 00:00:00,Barcelona,Valencia,4,2,6,Home
1,33,2024-04-28 00:00:00,Betis,Sevilla,1,1,2,Tie
2,33,2024-04-28 00:00:00,Villarreal,Rayo Vallecano,3,0,3,Home
3,33,2024-04-28 00:00:00,Granada CF,Osasuna,3,0,3,Home
4,33,2024-04-28 00:00:00,Cadiz CF,Mallorca,1,1,2,Tie



--- Últimas 5 filas ---


Unnamed: 0,Round,Date,HomeTeam,AwayTeam,HG,AG,TotalGoals,Res
325,1,2023-08-12 00:00:00,Ath Bilbao,Real Madrid,0,2,2,Away
326,1,2023-08-12 00:00:00,Las Palmas,Mallorca,1,1,2,Tie
327,1,2023-08-12 00:00:00,Real Sociedad,Girona,1,1,2,Tie
328,1,2023-08-11 00:00:00,Sevilla,Valencia,1,2,3,Away
329,1,2023-08-11 00:00:00,Almeria,Rayo Vallecano,0,2,2,Away



--- Información General del DataFrame ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 330 entries, 0 to 329
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Round       330 non-null    int64 
 1   Date        330 non-null    object
 2   HomeTeam    330 non-null    object
 3   AwayTeam    330 non-null    object
 4   HG          330 non-null    int64 
 5   AG          330 non-null    int64 
 6   TotalGoals  330 non-null    int64 
 7   Res         330 non-null    object
dtypes: int64(4), object(4)
memory usage: 20.8+ KB

--- Estadísticas Descriptivas ---


Unnamed: 0,Round,HG,AG,TotalGoals
count,330.0,330.0,330.0,330.0
mean,17.0,1.475758,1.142424,2.618182
std,9.536365,1.257568,1.119469,1.757218
min,1.0,0.0,0.0,0.0
25%,9.0,1.0,0.0,1.0
50%,17.0,1.0,1.0,2.0
75%,25.0,2.0,2.0,4.0
max,33.0,5.0,7.0,8.0



--- Conteo de Valores Nulos por Columna ---
Round         0
Date          0
HomeTeam      0
AwayTeam      0
HG            0
AG            0
TotalGoals    0
Res           0
dtype: int64

--- Verificación de nulos después de la imputación ---
Round         0
Date          0
HomeTeam      0
AwayTeam      0
HG            0
AG            0
TotalGoals    0
Res           0
dtype: int64

Filas duplicadas encontradas: 0

--- Partidos con más de 3 goles ---


Unnamed: 0,Round,Date,HomeTeam,AwayTeam,HG,AG,TotalGoals,Res
0,33,2024-04-29 00:00:00,Barcelona,Valencia,4,2,6,Home
5,33,2024-04-27 00:00:00,Atl. Madrid,Ath Bilbao,3,1,4,Home
7,33,2024-04-27 00:00:00,Almeria,Getafe,1,3,4,Away
11,32,2024-04-21 00:00:00,Real Madrid,Barcelona,3,2,5,Home
15,32,2024-04-20 00:00:00,Girona,Cadiz CF,4,1,5,Home



--- DataFrame con columnas seleccionadas ---


Unnamed: 0,Date,HomeTeam,AwayTeam,HG,AG,Res
0,2024-04-29 00:00:00,Barcelona,Valencia,4,2,Home
1,2024-04-28 00:00:00,Betis,Sevilla,1,1,Tie
2,2024-04-28 00:00:00,Villarreal,Rayo Vallecano,3,0,Home
3,2024-04-28 00:00:00,Granada CF,Osasuna,3,0,Home
4,2024-04-28 00:00:00,Cadiz CF,Mallorca,1,1,Tie



--- Partidos ordenados por goles del equipo local ---


Unnamed: 0,Round,Date,HomeTeam,AwayTeam,HG,AG,TotalGoals,Res
234,10,2023-10-22 00:00:00,Girona,Almeria,5,2,7,Home
286,5,2023-09-16 00:00:00,Barcelona,Betis,5,0,5,Home
297,4,2023-09-02 00:00:00,Real Sociedad,Granada CF,5,3,8,Home
124,21,2024-01-21 00:00:00,Girona,Sevilla,5,1,6,Home
205,13,2023-11-11 00:00:00,Real Madrid,Valencia,5,1,6,Home



--- Promedio de goles a favor y en contra por equipo local ---


Unnamed: 0_level_0,HG,AG
HomeTeam,Unnamed: 1_level_1,Unnamed: 2_level_1
Alaves,1.176471,1.0
Almeria,0.941176,1.941176
Ath Bilbao,2.235294,0.941176
Atl. Madrid,2.352941,1.058824
Barcelona,2.235294,1.235294



--- DataFrame con columnas renombradas ---


Unnamed: 0,Ronda,Fecha,EquipoLocal,EquipoVisitante,GolesLocal,GolesVisitante,GolesTotales,Resultado,Ganador
0,33,2024-04-29 00:00:00,Barcelona,Valencia,4,2,6,Home,Barcelona
1,33,2024-04-28 00:00:00,Betis,Sevilla,1,1,2,Tie,Empate
2,33,2024-04-28 00:00:00,Villarreal,Rayo Vallecano,3,0,3,Home,Villarreal
3,33,2024-04-28 00:00:00,Granada CF,Osasuna,3,0,3,Home,Granada CF
4,33,2024-04-28 00:00:00,Cadiz CF,Mallorca,1,1,2,Tie,Empate
