# EDA - ANÁLISIS HISTÓRICO DE LA CHAMPIONS LEAGUE

In [1]:
# ==========================
# 1. Importar bibliotecas necesarias
# ==========================
import os
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# ==========================
# 2. Configuración inicial
# ==========================
# Ruta base del proyecto
base_dir = "C:\\Users\\mario\\Documents\\GitHub\\ONLINE_DS_THEBRIDGE_27MarioGomez\\Project_Break_I__EDA\\EDA - CHAMPIONS LEAGUE"
data_dir = os.path.join(base_dir, "europe-champions-league")
output_dir = os.path.join(base_dir, "src", "data")

# Crear directorios necesarios
os.makedirs(output_dir, exist_ok=True)

# Lista para almacenar los datos de todas las temporadas
all_data = []

# ==========================
# 3. Cargar los datos de todas las temporadas
# ==========================
# Recorrer las subcarpetas y cargar los archivos CSV
for folder in os.listdir(data_dir):
    season_path = os.path.join(data_dir, folder)
    if os.path.isdir(season_path):  # Verificar que es una carpeta
        for file in os.listdir(season_path):
            if file.endswith(".csv"):  # Verificar que es un archivo CSV
                file_path = os.path.join(season_path, file)
                season_data = pd.read_csv(file_path)
                season_data["Season"] = folder  # Añadir columna de temporada
                all_data.append(season_data)

# Combinar todos los datos en un único DataFrame
df = pd.concat(all_data, ignore_index=True)

# ==========================
# 4. Exploración inicial
# ==========================
# Mostrar las primeras filas para confirmar la carga correcta
print("Primeras filas del DataFrame combinado:")
print(df.head())

# Mostrar la cantidad de filas y columnas cargadas
print(f"\nDatos combinados: {df.shape[0]} filas y {df.shape[1]} columnas.")

# Guardar el DataFrame combinado en un archivo CSV para futuros usos
output_file = os.path.join(output_dir, "combined_champions_data.csv")
df.to_csv(output_file, index=False)
print(f"\nDatos combinados guardados en: {output_file}")


Primeras filas del DataFrame combinado:
             Round                     Date                            Team 1  \
0  Round 1 | Leg 1   (Sun) 4 Sep 1955 (W35)             Sporting CP › POR (1)   
1  Round 1 | Leg 1   (Wed) 7 Sep 1955 (W36)  Budapesti Voros Lobogo › HUN (1)   
2  Round 1 | Leg 1   (Thu) 8 Sep 1955 (W36)         Servette Geneve › SUI (1)   
3  Round 1 | Leg 1  (Wed) 14 Sep 1955 (W37)         Rot-Weiss Essen › GER (1)   
4  Round 1 | Leg 1  (Tue) 20 Sep 1955 (W38)          Djurgardens IF › SWE (1)   

    FT   HT                       Team 2  ∑FT   ET    P   Season Comments  \
0  3-3  1-1  Partizan Belgrade › SRB (1)  NaN  NaN  NaN  1955-56      NaN   
1  6-3  3-2     RSC Anderlecht › BEL (1)  NaN  NaN  NaN  1955-56      NaN   
2  0-2  0-0     Real Madrid CF › ESP (1)  NaN  NaN  NaN  1955-56      NaN   
3  0-4  0-2       Hibernian FC › SCO (1)  NaN  NaN  NaN  1955-56      NaN   
4  0-0  0-0   Gwardia Warszawa › POL (1)  NaN  NaN  NaN  1955-56      NaN   

  Stage Gr

# Observaciones clave - Carga de datos

- Se cargaron los archivos CSV de cada temporada desde las subcarpetas dentro de `europe-champions-league`.
- Los datos de cada temporada fueron combinados en un único DataFrame.
- El DataFrame resultante fue guardado como `combined_champions_data.csv` para futuros usos.


In [2]:
# ==========================
# Data Understanding - Exploración inicial
# ==========================
# En esta etapa, exploraremos el dataset combinado para:
# 1. Revisar las primeras filas y la estructura general.
# 2. Obtener información sobre columnas, tipos de datos y valores no nulos.
# 3. Verificar la cantidad de valores nulos en cada columna.
# 4. Obtener estadísticas descriptivas de columnas numéricas y categóricas.
# 5. Revisar los valores únicos en las columnas clave: 'Stage', 'Round', y 'Group'.

# Volver a cargar el dataset combinado para evitar errores si las columnas faltan
df = pd.read_csv(output_file)

# Mostrar las primeras filas del dataset
print("Primeras filas del dataset combinado:")
print(df.head())

# Información general del dataset
print("\nInformación del dataset:")
print(df.info())

# Verificar valores nulos en cada columna
print("\nValores nulos por columna:")
print(df.isnull().sum())

# Estadísticas descriptivas
print("\nEstadísticas descriptivas del dataset:")
print(df.describe(include="all"))

# Revisar valores únicos en columnas clave
print("\nValores únicos en la columna 'Stage':")
print(df["Stage"].unique())

print("\nValores únicos en la columna 'Round':")
print(df["Round"].unique())

print("\nValores únicos en la columna 'Group':")
print(df["Group"].unique())


Primeras filas del dataset combinado:
             Round                     Date                            Team 1  \
0  Round 1 | Leg 1   (Sun) 4 Sep 1955 (W35)             Sporting CP › POR (1)   
1  Round 1 | Leg 1   (Wed) 7 Sep 1955 (W36)  Budapesti Voros Lobogo › HUN (1)   
2  Round 1 | Leg 1   (Thu) 8 Sep 1955 (W36)         Servette Geneve › SUI (1)   
3  Round 1 | Leg 1  (Wed) 14 Sep 1955 (W37)         Rot-Weiss Essen › GER (1)   
4  Round 1 | Leg 1  (Tue) 20 Sep 1955 (W38)          Djurgardens IF › SWE (1)   

    FT   HT                       Team 2  ∑FT   ET    P   Season Comments  \
0  3-3  1-1  Partizan Belgrade › SRB (1)  NaN  NaN  NaN  1955-56      NaN   
1  6-3  3-2     RSC Anderlecht › BEL (1)  NaN  NaN  NaN  1955-56      NaN   
2  0-2  0-0     Real Madrid CF › ESP (1)  NaN  NaN  NaN  1955-56      NaN   
3  0-4  0-2       Hibernian FC › SCO (1)  NaN  NaN  NaN  1955-56      NaN   
4  0-0  0-0   Gwardia Warszawa › POL (1)  NaN  NaN  NaN  1955-56      NaN   

  Stage Grou

# Observaciones clave - Exploración inicial

- La columna `Date` requiere una conversión a formato `datetime`.
- Las columnas `FT` y `HT` contienen resultados que deben ser separados en goles para cada equipo.
- Algunas columnas (`Stage`, `Group`, etc.) contienen valores nulos que deben manejarse.


In [4]:
# ==========================
# Limpieza de Datos
# ==========================

# Crear una copia del DataFrame original para limpieza
df_cleaned = df.copy()

# 1. Manejo de columnas irrelevantes
# ==========================
# Eliminamos columnas que no son útiles para el análisis o las hipótesis planteadas
columns_to_ignore = ["∑FT", "ET", "P", "Comments", "Group"]  # Estas columnas no aportan valor
df_cleaned = df_cleaned.drop(columns=[col for col in columns_to_ignore if col in df_cleaned.columns], errors="ignore")

# Mostrar las columnas restantes después de ignorar las irrelevantes
print("\nColumnas disponibles tras ignorar irrelevantes:")
print(df_cleaned.columns)

# 2. Manejo de fechas
# ==========================
# Convertir la columna 'Date' a formato datetime
# No eliminaremos filas con fechas no válidas para conservar la mayor cantidad de datos posible
df_cleaned["Date"] = pd.to_datetime(df_cleaned["Date"], errors="coerce")

# Reportar las fechas no válidas
invalid_dates = df_cleaned[df_cleaned["Date"].isnull()]
print(f"\nCantidad de fechas no válidas: {invalid_dates.shape[0]}")

# 3. Limpieza de la columna 'FT' (Full Time - Resultado Final)
# ==========================
# Mostrar los valores únicos en 'FT' para identificar problemas
print("\nValores únicos en la columna 'FT' antes de la limpieza:")
print(df_cleaned["FT"].unique())

# Limpiar la columna 'FT' eliminando caracteres adicionales para dejar solo el formato 'X-Y'
df_cleaned["FT"] = df_cleaned["FT"].str.extract(r"(\d+-\d+)", expand=False)

# Verificar los valores únicos tras la limpieza
print("\nValores únicos en la columna 'FT' después de la limpieza:")
print(df_cleaned["FT"].unique())

# Procesar los goles solo si los valores de 'FT' son válidos
valid_ft = df_cleaned["FT"].str.contains("-", na=False)
df_cleaned.loc[valid_ft, ["Team 1 Goals", "Team 2 Goals"]] = (
    df_cleaned.loc[valid_ft, "FT"].str.split("-", expand=True).astype(float)
)

# 4. Limpieza de la columna 'HT' (Half Time - Resultado Medio Tiempo)
# ==========================
# Realizar limpieza similar para la columna 'HT'
if "HT" in df_cleaned.columns:
    # Mostrar valores únicos en 'HT' antes de la limpieza
    print("\nValores únicos en la columna 'HT' antes de la limpieza:")
    print(df_cleaned["HT"].unique())

    # Limpiar la columna 'HT' eliminando caracteres adicionales
    df_cleaned["HT"] = df_cleaned["HT"].str.extract(r"(\d+-\d+)", expand=False)

    # Verificar los valores únicos tras la limpieza
    print("\nValores únicos en la columna 'HT' después de la limpieza:")
    print(df_cleaned["HT"].unique())

    # Procesar los goles de medio tiempo si los valores de 'HT' son válidos
    valid_ht = df_cleaned["HT"].str.contains("-", na=False)
    df_cleaned.loc[valid_ht, ["HT Team 1 Goals", "HT Team 2 Goals"]] = (
        df_cleaned.loc[valid_ht, "HT"].str.split("-", expand=True).astype(float)
    )

# 5. Verificación del DataFrame limpio
# ==========================
# Mostrar la cantidad de filas y columnas después de la limpieza
print("\nDimensiones del DataFrame limpio:")
print(f"Filas: {df_cleaned.shape[0]}, Columnas: {df_cleaned.shape[1]}")

# Verificar si el DataFrame limpio contiene filas útiles
if df_cleaned.empty:
    print("\nEl DataFrame limpio no contiene datos. Verifica los pasos de limpieza.")
else:
    print("\nEl DataFrame limpio contiene datos y está listo para el análisis.")



Columnas disponibles tras ignorar irrelevantes:
Index(['Round', 'Date', 'Team 1', 'FT', 'HT', 'Team 2', 'Season', 'Stage'], dtype='object')

Cantidad de fechas no válidas: 6554

Valores únicos en la columna 'FT' antes de la limpieza:
['3-3' '6-3' '0-2' '0-4' '0-0' '6-1' '5-2' '1-1' '5-0' '1-4' '2-2' '3-4'
 '1-0' '1-3' '4-2' '4-0' '4-4' '3-0' '7-2' '2-0' '0-1' '2-1' '4-3' '3-1'
 '7-0' '1-2' '3-2' '10-0' '5-1' '8-1' '5-3' '2-3' '0-5' '0-6' '0-3' '9-1'
 '4-1' '1-1 (*)' '6-0' '8-0' '2-2 (*)' '6-2' '1-5' '7-1' '2-5' '3-6' '7-3'
 '9-2' '8-2' '9-0' '2-4' '8-3' '0-0 (*)' '0-8' '1-6' '1-10' '2-0 (*)'
 '1-9' '2-12' '3-0 (*)' '1-0 (*)' '0-7' '0-9' '2-6' '11-0' '3-1 (*)' '6-4'
 '3-2 (*)' '4-1 (*)' '2-1 (*)' '3-5' '1-8' '10-1' '0-1 (*)' '2-7'
 '1-2 (*)' '2-8' '3-3 (*)' '5-4' '1-7']

Valores únicos en la columna 'FT' después de la limpieza:
['3-3' '6-3' '0-2' '0-4' '0-0' '6-1' '5-2' '1-1' '5-0' '1-4' '2-2' '3-4'
 '1-0' '1-3' '4-2' '4-0' '4-4' '3-0' '7-2' '2-0' '0-1' '2-1' '4-3' '3-1'
 '7-0' '1-2' '

  df_cleaned["Date"] = pd.to_datetime(df_cleaned["Date"], errors="coerce")


# Observaciones clave - Limpieza de Datos

### Cambios realizados
1. **Columnas eliminadas**:
   - Se eliminaron columnas irrelevantes como `∑FT`, `ET`, `P`, `Comments`, y `Group` para simplificar el dataset y enfocarlo en las hipótesis planteadas.

2. **Manejo de fechas**:
   - La columna `Date` fue convertida al formato `datetime`.
   - Las fechas no válidas no se eliminaron para conservar datos útiles.

3. **Limpieza de la columna `FT`**:
   - Se extrajeron los valores válidos (`X-Y`) eliminando caracteres adicionales.
   - Se separaron los goles anotados por los equipos local y visitante en columnas numéricas (`Team 1 Goals` y `Team 2 Goals`).

4. **Limpieza de la columna `HT`**:
   - Se realizó un proceso similar al de `FT` para extraer y procesar los goles del medio tiempo (`HT Team 1 Goals` y `HT Team 2 Goals`).

### Estado del DataFrame limpio
- El DataFrame `df_cleaned` conserva datos útiles con columnas relevantes para análisis posteriores.
- Confirmamos que contiene filas y columnas con información procesada y lista para exploración.

### Verificación final
- Se verificaron las dimensiones del DataFrame limpio: 
  - **Número de filas**: Confirma que los datos no fueron eliminados excesivamente.
  - **Columnas disponibles**: Incluyen métricas clave como goles y fechas.

### Próximos pasos
1. Explorar el dataset con análisis univariados y bivariados para identificar patrones iniciales.
2. Alinear las visualizaciones y estadísticas con las hipótesis planteadas.
3. Validar los datos para asegurar que estén listos para el análisis más profundo.


In [5]:
# ==========================
# Verificación del DataFrame limpio antes de continuar
# ==========================
if df_cleaned.empty:
    print("El DataFrame 'df_cleaned' está vacío. Verifica los pasos de limpieza de datos previos.")
else:
    print("El DataFrame 'df_cleaned' contiene datos. Procediendo con la exploración inicial.")

# Inspeccionar las columnas disponibles
print("\nColumnas disponibles en el DataFrame limpio:")
print(df_cleaned.columns)

# Inspeccionar las primeras filas (si existen)
if not df_cleaned.empty:
    print("\nPrimeras filas del DataFrame limpio:")
    print(df_cleaned.head())


# ==========================
# Exploración Inicial Ajustada
# ==========================
if not df_cleaned.empty:
    # Mostrar información básica del DataFrame
    print("\nInformación general del DataFrame limpio:")
    print(df_cleaned.info())

    # Mostrar estadísticas descriptivas para columnas numéricas
    numerical_cols = df_cleaned.select_dtypes(include=["number"]).columns
    if len(numerical_cols) > 0:
        print("\nEstadísticas descriptivas de columnas numéricas:")
        print(df_cleaned[numerical_cols].describe())
    else:
        print("\nNo hay columnas numéricas en el DataFrame para describir.")

    # Mostrar valores únicos en columnas clave (si existen)
    if "Stage" in df_cleaned.columns:
        print("\nValores únicos en la columna 'Stage':")
        print(df_cleaned["Stage"].unique())

    if "Round" in df_cleaned.columns:
        print("\nValores únicos en la columna 'Round':")
        print(df_cleaned["Round"].unique())


El DataFrame 'df_cleaned' contiene datos. Procediendo con la exploración inicial.

Columnas disponibles en el DataFrame limpio:
Index(['Round', 'Date', 'Team 1', 'FT', 'HT', 'Team 2', 'Season', 'Stage',
       'Team 1 Goals', 'Team 2 Goals', 'HT Team 1 Goals', 'HT Team 2 Goals'],
      dtype='object')

Primeras filas del DataFrame limpio:
             Round Date                            Team 1   FT   HT  \
0  Round 1 | Leg 1  NaT             Sporting CP › POR (1)  3-3  1-1   
1  Round 1 | Leg 1  NaT  Budapesti Voros Lobogo › HUN (1)  6-3  3-2   
2  Round 1 | Leg 1  NaT         Servette Geneve › SUI (1)  0-2  0-0   
3  Round 1 | Leg 1  NaT         Rot-Weiss Essen › GER (1)  0-4  0-2   
4  Round 1 | Leg 1  NaT          Djurgardens IF › SWE (1)  0-0  0-0   

                        Team 2   Season Stage  Team 1 Goals  Team 2 Goals  \
0  Partizan Belgrade › SRB (1)  1955-56   NaN           NaN           NaN   
1     RSC Anderlecht › BEL (1)  1955-56   NaN           NaN           NaN   
2