# **Semana 5: Mi Primer Análisis de Datos**

## Introducción a la Ciencia de Datos - Nivel Preparatoria

### **Bloque 2: Analizando Datos de Fútbol**

---

**Lo que vamos a aprender:**
- Calcular promedios y comparar números
- Hacer gráficos simples con nuestros datos
- Encontrar patrones básicos
- Sacar conclusiones de lo que vemos

**¿Qué necesitas saber?**
- Matemáticas básicas (promedios, sumas)
- Saber usar una computadora
- ¡Ganas de aprender!

---

## 1. ¿Qué es Analizar Datos?

### 1.1 Es como ser detective

Cuando analizamos datos, somos como detectives que buscan pistas para resolver un misterio.

**En el fútbol, las pistas son:**
- ¿Cuántos goles se anotan?
- ¿Qué equipo gana más?
- ¿Es mejor jugar en casa?

### 1.2 Pasos simples para analizar

**Paso 1: Contar y sumar**
- Contar cuántos goles hay
- Calcular promedios (como sacar tu promedio en la escuela)

**Paso 2: Comparar**
- ¿Qué equipo es mejor?
- ¿Hay diferencias?

**Paso 3: Hacer gráficos**
- Los gráficos nos ayudan a ver mejor los números
- Es más fácil que leer una tabla llena de números

**Paso 4: Contar la historia**
- ¿Qué aprendimos?
- ¿Qué significa?

### 1.3 Importante recordar

- No todos los números son perfectos
- A veces los datos tienen errores
- Siempre pregunta: "¿Esto tiene sentido?"

---

## 2. Preparando Nuestra Computadora

### 2.1 Herramientas que vamos a usar

Vamos a usar programas especiales que nos ayuden:

- **pandas**: Para organizar nuestros datos (como Excel, pero más poderoso)
- **seaborn**: Para hacer gráficos bonitos y fáciles

### ¿Por qué seaborn?
- Hace gráficos bonitos automáticamente
- Es fácil de usar para principiantes
- Con poco código hacemos cosas increíbles

In [None]:
# Importar las herramientas que vamos a usar
import pandas as pd  # Para organizar datos
import seaborn as sns  # Para hacer gráficos bonitos
import matplotlib.pyplot as plt  # Para mostrar gráficos
import numpy as np  # Para matemáticas

# Configurar para que se vea bonito
sns.set_theme(style="whitegrid")  # Tema bonito
plt.rcParams['figure.figsize'] = (8, 5)  # Tamaño de gráficos

# Para que todos tengamos los mismos números
np.random.seed(42)

# Verificar que todo funciona
print("¡Herramientas listas!")
print("- pandas: Para organizar datos")
print("- seaborn: Para gráficos bonitos")
print("- matplotlib: Para mostrar gráficos")
print("\n¡Ya podemos empezar!")

## 3. Creando Datos de Fútbol

### 3.1 Vamos a inventar partidos de fútbol

Para practicar, vamos a crear datos falsos de partidos. Es como un videojuego donde nosotros controlamos todo.

**Nuestros datos van a tener:**
- Equipos famosos (Real Madrid, Barcelona, etc.)
- Cuántos goles anotó cada equipo
- Quién ganó el partido

### ¿Por qué usar datos falsos?
- Para practicar sin complicaciones
- Podemos controlar qué pasa
- Nos enfocamos en aprender, no en conseguir datos reales

In [None]:
# Crear datos simples de fútbol
print("Creando partidos de fútbol...")

# Equipos famosos
equipos = ['Real Madrid', 'Barcelona', 'Manchester City', 'Liverpool', 'Bayern Munich', 'Chelsea']

# Crear 30 partidos simples
partidos = []

for i in range(30):
    # Elegir dos equipos diferentes
    equipo1 = np.random.choice(equipos)
    equipo2 = np.random.choice([e for e in equipos if e != equipo1])
    
    # Simular goles (números del 0 al 3)
    goles1 = np.random.randint(0, 4)
    goles2 = np.random.randint(0, 4)
    
    # Ver quién ganó
    if goles1 > goles2:
        ganador = equipo1
    elif goles2 > goles1:
        ganador = equipo2
    else:
        ganador = "Empate"
    
    # Guardar el partido
    partidos.append({
        'Equipo_A': equipo1,
        'Equipo_B': equipo2,
        'Goles_A': goles1,
        'Goles_B': goles2,
        'Ganador': ganador,
        'Total_Goles': goles1 + goles2
    })

# Convertir a tabla de datos
df_partidos = pd.DataFrame(partidos)

# Ver qué creamos
print(f"\n¡Listo! Creamos {len(df_partidos)} partidos")
print(f"Equipos: {len(equipos)}")
print(f"Promedio de goles por partido: {df_partidos['Total_Goles'].mean():.1f}")

print(f"\nPrimeros 5 partidos:")
print(df_partidos[['Equipo_A', 'Equipo_B', 'Goles_A', 'Goles_B', 'Ganador']].head())

## 4. Nuestro Primer Análisis

### 4.1 Vamos a ser detectives de datos

Ahora vamos a analizar nuestros partidos. Vamos a buscar pistas interesantes en los números.

In [None]:
# Analizar nuestros partidos
print("ANALIZANDO NUESTROS PARTIDOS")
print("=" * 30)

# Estadísticas básicas (como sacar promedio en la escuela)
total_partidos = len(df_partidos)
promedio_goles = df_partidos['Total_Goles'].mean()
maximo_goles = df_partidos['Total_Goles'].max()
minimo_goles = df_partidos['Total_Goles'].min()

print(f"Total de partidos: {total_partidos}")
print(f"Promedio de goles: {promedio_goles:.1f}")
print(f"Máximo goles en un partido: {maximo_goles}")
print(f"Mínimo goles en un partido: {minimo_goles}")

# ¿Qué significa esto?
print(f"\n¿QUÉ SIGNIFICA?")
if promedio_goles > 2.5:
    print("¡Fueron partidos muy emocionantes!")
elif promedio_goles > 1.5:
    print("Partidos normales con buenos goles")
else:
    print("Partidos defensivos, pocos goles")

# Contar resultados
print(f"\n¿QUIÉN GANA MÁS?")
resultados = df_partidos['Ganador'].value_counts()
print(resultados)

# Hacer un gráfico simple
plt.figure(figsize=(10, 6))

# Gráfico 1: ¿Cuántos goles por partido?
plt.subplot(1, 2, 1)
sns.histplot(data=df_partidos, x='Total_Goles', bins=5)
plt.title('¿Cuántos Goles por Partido?')
plt.xlabel('Total de Goles')
plt.ylabel('Cantidad de Partidos')

# Gráfico 2: ¿Quién gana más?
plt.subplot(1, 2, 2)
sns.countplot(data=df_partidos, x='Ganador')
plt.title('¿Quién Gana Más?')
plt.xlabel('Resultado')
plt.ylabel('Cantidad')
plt.xticks(rotation=45)

plt.tight_layout()
plt.show()

print(f"\nCONCLUSIONES:")
print(f"1. En promedio hubo {promedio_goles:.1f} goles por partido")
print(f"2. El partido más emocionante tuvo {maximo_goles} goles")
print(f"3. Algunos partidos no tuvieron goles" if minimo_goles == 0 else f"3. Todos los partidos tuvieron al menos {minimo_goles} gol(es)")

## 5. Comparando Equipos

### 5.1 ¿Qué equipo es el mejor?

Vamos a ver cuál equipo anota más goles y cuál gana más partidos.

In [None]:
# Analizar cada equipo
print("ANALIZANDO CADA EQUIPO")
print("=" * 25)

# Crear datos de cada equipo
datos_equipos = []

for _, partido in df_partidos.iterrows():
    # Datos del equipo A
    datos_equipos.append({
        'Equipo': partido['Equipo_A'],
        'Goles': partido['Goles_A'],
        'Ganó': 1 if partido['Ganador'] == partido['Equipo_A'] else 0
    })
    
    # Datos del equipo B
    datos_equipos.append({
        'Equipo': partido['Equipo_B'],
        'Goles': partido['Goles_B'],
        'Ganó': 1 if partido['Ganador'] == partido['Equipo_B'] else 0
    })

df_equipos = pd.DataFrame(datos_equipos)

# Calcular estadísticas por equipo
estadisticas = df_equipos.groupby('Equipo').agg({
    'Goles': 'mean',  # Promedio de goles
    'Ganó': 'sum'     # Total de victorias
}).round(2)

estadisticas.columns = ['Goles_Promedio', 'Victorias']

print("ESTADÍSTICAS POR EQUIPO:")
print(estadisticas.sort_values('Goles_Promedio', ascending=False))

# Encontrar al mejor equipo
mejor_goleador = estadisticas['Goles_Promedio'].idxmax()
mas_victorias = estadisticas['Victorias'].idxmax()

print(f"\nEQUIPO MÁS GOLEADOR: {mejor_goleador}")
print(f"EQUIPO CON MÁS VICTORIAS: {mas_victorias}")

# Hacer gráfico comparativo
plt.figure(figsize=(12, 5))

# Gráfico 1: Promedio de goles
plt.subplot(1, 2, 1)
sns.barplot(data=estadisticas.reset_index(), x='Equipo', y='Goles_Promedio')
plt.title('Promedio de Goles por Equipo')
plt.xticks(rotation=45)
plt.ylabel('Goles Promedio')

# Gráfico 2: Victorias
plt.subplot(1, 2, 2)
sns.barplot(data=estadisticas.reset_index(), x='Equipo', y='Victorias')
plt.title('Victorias por Equipo')
plt.xticks(rotation=45)
plt.ylabel('Número de Victorias')

plt.tight_layout()
plt.show()

print(f"\nCONCLUSIONES:")
print(f"1. {mejor_goleador} es el más goleador")
print(f"2. {mas_victorias} tiene más victorias")
if mejor_goleador == mas_victorias:
    print(f"3. ¡{mejor_goleador} es el mejor en ambas categorías!")
else:
    print(f"3. Diferentes equipos destacan en diferentes áreas")

## 6. Buscando Patrones

### 6.1 ¿Hay algo interesante en nuestros datos?

Como buenos detectives, vamos a buscar patrones o cosas curiosas en nuestros datos.

In [None]:
# Buscar patrones simples
print("BUSCANDO PATRONES")
print("=" * 20)

# Patrón 1: ¿Los partidos con más goles son más emocionantes?
partidos_emocionantes = df_partidos[df_partidos['Total_Goles'] >= 3]
print(f"Partidos con 3+ goles: {len(partidos_emocionantes)}")
print(f"Porcentaje de partidos emocionantes: {len(partidos_emocionantes)/len(df_partidos)*100:.1f}%")

# Patrón 2: ¿Hay equipos que empatan mucho?
empates_por_equipo = []
for equipo in equipos:
    empates = len(df_partidos[(df_partidos['Ganador'] == 'Empate') & 
                              ((df_partidos['Equipo_A'] == equipo) | 
                               (df_partidos['Equipo_B'] == equipo))])
    empates_por_equipo.append({'Equipo': equipo, 'Empates': empates})

df_empates = pd.DataFrame(empates_por_equipo)
equipo_mas_empates = df_empates.loc[df_empates['Empates'].idxmax(), 'Equipo']

print(f"\nEquipo que más empata: {equipo_mas_empates}")

# Patrón 3: ¿Cuál es el resultado más común?
resultado_mas_comun = df_partidos['Total_Goles'].mode()[0]
print(f"Número de goles más común: {resultado_mas_comun}")

# Hacer gráfico de patrones
plt.figure(figsize=(10, 6))

# Gráfico 1: Distribución de goles totales
plt.subplot(2, 2, 1)
sns.countplot(data=df_partidos, x='Total_Goles')
plt.title('¿Cuántos Goles Son Normales?')

# Gráfico 2: Empates por equipo
plt.subplot(2, 2, 2)
sns.barplot(data=df_empates, x='Equipo', y='Empates')
plt.title('Empates por Equipo')
plt.xticks(rotation=45)

# Gráfico 3: Partidos por goles (colores)
plt.subplot(2, 2, 3)
colores = ['red' if goles >= 3 else 'blue' for goles in df_partidos['Total_Goles']]
plt.scatter(range(len(df_partidos)), df_partidos['Total_Goles'], c=colores)
plt.title('Partidos: Azul=Normal, Rojo=Emocionante')
plt.xlabel('Número de Partido')
plt.ylabel('Total de Goles')

# Gráfico 4: Comparación simple
plt.subplot(2, 2, 4)
datos_simple = ['Emocionantes', 'Normales']
cantidades = [len(partidos_emocionantes), len(df_partidos) - len(partidos_emocionantes)]
plt.pie(cantidades, labels=datos_simple, autopct='%1.1f%%')
plt.title('¿Emocionantes vs Normales?')

plt.tight_layout()
plt.show()

print(f"\nPATRONES ENCONTRADOS:")
print(f"1. {len(partidos_emocionantes)/len(df_partidos)*100:.1f}% de partidos son emocionantes")
print(f"2. {equipo_mas_empates} empata más que otros")
print(f"3. Lo más común son partidos con {resultado_mas_comun} goles")

---

## Resumen: ¡Lo que aprendiste!

### Lo que ahora sabes hacer

1. **Organizar datos**
   - Usar pandas para manejar información
   - Calcular promedios y totales
   - Comparar números

2. **Hacer gráficos**
   - Usar seaborn para gráficos bonitos
   - Mostrar información de manera visual
   - Hacer que los datos se vean mejor

3. **Ser detective de datos**
   - Buscar patrones interesantes
   - Hacer preguntas sobre los números
   - Sacar conclusiones

### Herramientas que usaste

- **pandas**: Tu nueva calculadora súper poderosa
- **seaborn**: Tu artista de gráficos automático
- **Tu cerebro**: El detector de patrones más importante

### Lo más importante que aprendiste

- Los números cuentan historias
- Los gráficos ayudan a ver mejor
- Hacer preguntas es importante
- Mantener todo simple funciona mejor

### ¿Qué sigue?

Ahora puedes:
- Analizar datos de cualquier tema
- Hacer presentaciones con gráficos
- Ayudar a otros a entender números
- ¡Impresionar a tus amigos con tus habilidades!

### Reflexión final

Analizar datos es como:
- Ser detective: buscas pistas en los números
- Ser artista: haces gráficos bonitos
- Ser contador de historias: explicas qué significan los datos

### Para recordar

- **Simple es mejor**: No compliques las cosas
- **Los gráficos ayudan**: Una imagen vale más que mil números
- **Haz preguntas**: Siempre pregunta "¿qué significa esto?"
- **Práctica**: Mientras más practiques, mejor serás

---

**¡Felicitaciones! Ya sabes analizar datos como un profesional.**

**Ahora puedes encontrar historias increíbles escondidas en cualquier conjunto de números.**