# Clase 2: Proyecto final en grupo – Análisis de datos abiertos del festival NYS Polígon Arts

Objetivo: Trabajar en grupo un proyecto de análisis de datos reales o simulados relacionados con un festival local. Cargar, limpiar, analizar y visualizar datos.

**Datasets para trabajar:**
- `asistencia_festival_sucio.csv`
- `encuestas_festival_sucio.csv`

En este notebook practicaremos:
- Carga de datos en Pandas
- Limpieza básica: nulos, duplicados, tipos incorrectos
- Análisis exploratorio
- Creación de nuevas columnas
- Visualización de resultados
- Documentación de hallazgos

In [None]:
# Librerías necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
plt.style.use('seaborn-v0_8-whitegrid')

# Configuración visual
plt.rcParams['figure.figsize'] = [10, 6]
plt.rcParams['figure.dpi'] = 100

## Carga de datos sucios

In [None]:
# Cargar datasets
df_asistencia = pd.read_csv('asistencia_festival_sucio.csv')

In [None]:

df_encuestas = pd.read_csv('encuestas_festival_sucio.csv')

In [None]:
df_asistencia.head(), df_encuestas.head()

## 1. Limpieza de datos – Asistencia

In [None]:
# Ver información básica
df_asistencia.info()

In [None]:
# Eliminar duplicados
df_asistencia = df_asistencia.drop_duplicates()

In [None]:
# Rellenar nulos en asistentes (rellenamos con la media)
media_asistentes = df_asistencia['asistentes'].mean()
df_asistencia['asistentes'] = df_asistencia['asistentes'].fillna(media_asistentes)

In [None]:

# Convertir fecha a formato datetime
df_asistencia['fecha'] = pd.to_datetime(df_asistencia['fecha'])

In [None]:
# Resultado limpio
df_asistencia.head()

## 2. Limpieza de datos – Encuestas

In [None]:
# Ver información básica
df_encuestas.info()

In [None]:

# Eliminar duplicados
df_encuestas = df_encuestas.drop_duplicates()

In [None]:

# Rellenar nulos en satisfacción con la media
media_satisfaccion = df_encuestas['satisfaccion'].mean()
df_encuestas['satisfaccion'] = df_encuestas['satisfaccion'].fillna(media_satisfaccion)

In [None]:

# Corrección de edades: convertir strings no numéricos en NaN
def limpiar_edad(x):
    try:
        return int(x)
    except:
        return np.nan

df_encuestas['edad'] = df_encuestas['edad'].apply(limpiar_edad)

# Resultado limpio
df_encuestas.head()

## 3. Análisis de asistencia

In [None]:
# Promedio de asistentes
print(f"Promedio de asistentes: {df_asistencia['asistentes'].mean():.2f}")

# Día con máxima asistencia
dia_max = df_asistencia.loc[df_asistencia['asistentes'].idxmax()]
print(f"Máxima asistencia: {dia_max['asistentes']} personas el {dia_max['fecha'].strftime('%d/%m/%Y')}")

## 4. Visualización de asistencia

In [None]:
df_asistencia.plot(kind='line', x='fecha', y='asistentes', marker='o', color='purple')
plt.title('Tendencia de Asistencia')
plt.xlabel('Fecha')
plt.ylabel('Asistentes')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

## 5. Análisis de satisfacción del público

In [None]:
# Satisfacción media general
print(f"Satisfacción media: {df_encuestas['satisfaccion'].mean():.2f}")

# Agrupación por edades (tramos)
df_encuestas['grupo_edad'] = pd.cut(df_encuestas['edad'], bins=[0, 24, 34, 44, 54, 100], labels=['18-24','25-34','35-44','45-54','55+'])
satisfaccion_por_edad = df_encuestas.groupby('grupo_edad')['satisfaccion'].mean()

satisfaccion_por_edad.plot(kind='bar', color='skyblue')
plt.title('Satisfacción media por grupo de edad')
plt.xlabel('Grupo de Edad')
plt.ylabel('Satisfacción Media')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

## 6. Ejercicios prácticos abiertos

Ahora que hemos trabajado los datos, resuelve los siguientes ejercicios en grupo.

### Ejercicio 1: Crear una columna 'asistencia_categoria' en el DataFrame de asistencia

- Si asistentes > 500, valor = 'Alta'
- Si asistentes entre 300 y 500, valor = 'Media'
- Si asistentes < 300, valor = 'Baja'

Después, muestra cuántos días hubo de cada categoría.

In [None]:
# Tu código aquí


### Ejercicio 2: ¿Qué día de la semana tuvo en promedio más asistentes?

Agrupa por 'dia_semana' y muestra el día más concurrido en promedio.

In [None]:
# Tu código aquí


### Ejercicio 3: Analizar satisfacción por sexo (nivel opcional si da tiempo)

Suponiendo que agregamos una columna 'sexo' al dataset de encuestas (por ejemplo aleatoriamente hombre/mujer), analiza:
- La satisfacción media de hombres y mujeres.
- Muestra el resultado en un gráfico de barras.

In [None]:
# Tu código aquí (puedes crear una columna ficticia si quieres)


### Ejercicio 4: Extra Challenge 🚀

Crear un gráfico de dispersión que muestre la relación entre edad y satisfacción.

- ¿Hay alguna tendencia visual?
- Agrega etiquetas y título.

In [None]:
# Tu código aquí
