# Exploraci√≥n del Dataset "Champs" - An√°lisis de Resultados en F√∫tbol

## Objetivos del Notebook

Este notebook gu√≠a a trav√©s del an√°lisis completo del dataset "champs" de Kaggle, cubriendo desde la exploraci√≥n inicial hasta la creaci√≥n de dashboards interactivos. Est√° dise√±ado para seguir el programa de estudio detallado del curso.

### Contenido:
1. **Importar librer√≠as y cargar datos**
2. **Exploraci√≥n y consultas b√°sicas**
3. **Estad√≠stica descriptiva y visualizaci√≥n**
4. **Visualizaciones comparativas**
5. **Preparaci√≥n de datos para modelado**
6. **Implementaci√≥n de regresi√≥n log√≠stica**
7. **Evaluaci√≥n de m√©tricas del modelo**
8. **An√°lisis de KPIs**
9. **Creaci√≥n de dashboards interactivos**

---

## 1. Importar Librer√≠as y Cargar el Dataset "Champs"

Comenzamos importando las librer√≠as necesarias para el an√°lisis y cargando el dataset desde un archivo CSV.

In [None]:
# Importar librer√≠as esenciales
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, precision_score, recall_score, confusion_matrix
import warnings
warnings.filterwarnings('ignore')

# Configurar visualizaci√≥n
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (12, 8)

In [None]:
# Cargar el dataset "champs" desde archivo CSV
# Nota: Aseg√∫rate de que el archivo champs.csv est√© en la carpeta recursos
try:
    df = pd.read_csv('../recursos/champs.csv')
    print("‚úÖ Dataset cargado exitosamente")
    print(f"üìä Dimensiones: {df.shape}")
except FileNotFoundError:
    print("‚ùå Error: No se encontr√≥ el archivo champs.csv")
    print("üìÅ Aseg√∫rate de que el archivo est√© en la carpeta recursos")
    # Crear un dataset de ejemplo para demostraci√≥n
    df = pd.DataFrame({
        'date': pd.date_range('2023-01-01', periods=100),
        'home_team': np.random.choice(['Team A', 'Team B', 'Team C'], 100),
        'away_team': np.random.choice(['Team A', 'Team B', 'Team C'], 100),
        'home_goals': np.random.poisson(1.5, 100),
        'away_goals': np.random.poisson(1.2, 100),
        'league': np.random.choice(['Liga 1', 'Liga 2'], 100)
    })
    print("üìä Usando dataset de ejemplo")

## 2. Exploraci√≥n y Consultas B√°sicas del Dataset

Realizamos una exploraci√≥n inicial para entender la estructura, tipos de datos y contenido del dataset.

In [None]:
# Exploraci√≥n b√°sica del dataset
print("üìà INFORMACI√ìN GENERAL DEL DATASET")
print("=" * 50)
print(f"N√∫mero de filas: {len(df)}")
print(f"N√∫mero de columnas: {len(df.columns)}")
print(f"Columnas: {list(df.columns)}")
print("\nüìä PRIMERAS 5 FILAS:")
print(df.head())

print("\nüîç INFORMACI√ìN DETALLADA:")
print(df.info())

print("\nüìã ESTAD√çSTICAS DESCRIPTIVAS:")
print(df.describe())

In [None]:
# Ejercicio: Conteo y filtrado de partidos por liga/temporada
print("üèÜ AN√ÅLISIS POR LIGA")
print("=" * 30)

# Conteo de partidos por liga (si existe la columna)
if 'league' in df.columns:
    partidos_por_liga = df['league'].value_counts()
    print("Partidos por liga:")
    print(partidos_por_liga)
    
    # Visualizaci√≥n del conteo por liga
    plt.figure(figsize=(10, 6))
    partidos_por_liga.plot(kind='bar')
    plt.title('N√∫mero de Partidos por Liga')
    plt.xlabel('Liga')
    plt.ylabel('N√∫mero de Partidos')
    plt.xticks(rotation=45)
    plt.tight_layout()
    plt.show()

# An√°lisis temporal (si existe columna de fecha)
if 'date' in df.columns:
    df['date'] = pd.to_datetime(df['date'])
    df['year'] = df['date'].dt.year
    df['month'] = df['date'].dt.month
    
    print("\nüìÖ AN√ÅLISIS TEMPORAL:")
    partidos_por_a√±o = df['year'].value_counts().sort_index()
    print("Partidos por a√±o:")
    print(partidos_por_a√±o)
    
    # Visualizaci√≥n temporal
    plt.figure(figsize=(12, 6))
    partidos_por_a√±o.plot(kind='line', marker='o')
    plt.title('Evoluci√≥n del N√∫mero de Partidos por A√±o')
    plt.xlabel('A√±o')
    plt.ylabel('N√∫mero de Partidos')
    plt.grid(True)
    plt.tight_layout()
    plt.show()

## 3. Estad√≠stica Descriptiva y Visualizaci√≥n de Goles

Calculamos estad√≠sticas descriptivas b√°sicas y creamos visualizaciones para entender la distribuci√≥n de goles.

In [None]:
# Estad√≠stica descriptiva de goles
print("‚öΩ ESTAD√çSTICAS DE GOLES")
print("=" * 40)

# Verificar si existen las columnas de goles
goles_columns = [col for col in df.columns if 'goal' in col.lower()]
if not goles_columns:
    # Crear columnas de ejemplo si no existen
    df['home_goals'] = np.random.poisson(1.5, len(df))
    df['away_goals'] = np.random.poisson(1.2, len(df))
    goles_columns = ['home_goals', 'away_goals']

# Calcular estad√≠sticas descriptivas
for col in goles_columns:
    print(f"\nüìä {col.upper()}:")
    print(f"Media: {df[col].mean():.2f}")
    print(f"Mediana: {df[col].median():.2f}")
    print(f"Moda: {df[col].mode().iloc[0] if not df[col].mode().empty else 'N/A'}")
    print(f"Desviaci√≥n est√°ndar: {df[col].std():.2f}")
    print(f"M√≠nimo: {df[col].min()}")
    print(f"M√°ximo: {df[col].max()}")

# Crear columna de goles totales
df['total_goals'] = df['home_goals'] + df['away_goals']
print(f"\nüéØ GOLES TOTALES POR PARTIDO:")
print(f"Media: {df['total_goals'].mean():.2f}")
print(f"Mediana: {df['total_goals'].median():.2f}")
print(f"Desviaci√≥n est√°ndar: {df['total_goals'].std():.2f}")