# Clase 2: Proyecto final en grupo â€“ AnÃ¡lisis de datos abiertos del festival NYS PolÃ­gon Arts

Objetivo: Trabajar en grupo un proyecto de anÃ¡lisis de datos reales o simulados relacionados con un festival local. Cargar, limpiar, analizar y visualizar datos.

**Datasets para trabajar:**
- `asistencia_festival_sucio.csv`
- `encuestas_festival_sucio.csv`

En este notebook practicaremos:
- Carga de datos en Pandas
- Limpieza bÃ¡sica: nulos, duplicados, tipos incorrectos
- AnÃ¡lisis exploratorio
- CreaciÃ³n de nuevas columnas
- VisualizaciÃ³n de resultados
- DocumentaciÃ³n de hallazgos

In [None]:
# LibrerÃ­as necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
plt.style.use('seaborn-v0_8-whitegrid')

# ConfiguraciÃ³n visual
plt.rcParams['figure.figsize'] = [10, 6]
plt.rcParams['figure.dpi'] = 100

## Carga de datos sucios

In [None]:
# Cargar datasets
df_asistencia = pd.read_csv('asistencia_festival_sucio.csv')

In [None]:

df_encuestas = pd.read_csv('encuestas_festival_sucio.csv')

In [None]:
df_asistencia.head(), df_encuestas.head()

## 1. Limpieza de datos â€“ Asistencia

In [None]:
# Ver informaciÃ³n bÃ¡sica
df_asistencia.info()

In [None]:
# Eliminar duplicados
df_asistencia = df_asistencia.drop_duplicates()

In [None]:
# Rellenar nulos en asistentes (rellenamos con la media)
media_asistentes = df_asistencia['asistentes'].mean()
df_asistencia['asistentes'] = df_asistencia['asistentes'].fillna(media_asistentes)

In [None]:

# Convertir fecha a formato datetime
df_asistencia['fecha'] = pd.to_datetime(df_asistencia['fecha'])

In [None]:
# Resultado limpio
df_asistencia.head()

## 2. Limpieza de datos â€“ Encuestas

In [None]:
# Ver informaciÃ³n bÃ¡sica
df_encuestas.info()

In [None]:

# Eliminar duplicados
df_encuestas = df_encuestas.drop_duplicates()

In [None]:

# Rellenar nulos en satisfacciÃ³n con la media
media_satisfaccion = df_encuestas['satisfaccion'].mean()
df_encuestas['satisfaccion'] = df_encuestas['satisfaccion'].fillna(media_satisfaccion)

In [None]:

# CorrecciÃ³n de edades: convertir strings no numÃ©ricos en NaN
def limpiar_edad(x):
    try:
        return int(x)
    except:
        return np.nan

df_encuestas['edad'] = df_encuestas['edad'].apply(limpiar_edad)

# Resultado limpio
df_encuestas.head()

## 3. AnÃ¡lisis de asistencia

In [None]:
# Promedio de asistentes
print(f"Promedio de asistentes: {df_asistencia['asistentes'].mean():.2f}")

# DÃ­a con mÃ¡xima asistencia
dia_max = df_asistencia.loc[df_asistencia['asistentes'].idxmax()]
print(f"MÃ¡xima asistencia: {dia_max['asistentes']} personas el {dia_max['fecha'].strftime('%d/%m/%Y')}")

## 4. VisualizaciÃ³n de asistencia

In [None]:
df_asistencia.plot(kind='line', x='fecha', y='asistentes', marker='o', color='purple')
plt.title('Tendencia de Asistencia')
plt.xlabel('Fecha')
plt.ylabel('Asistentes')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

## 5. AnÃ¡lisis de satisfacciÃ³n del pÃºblico

In [None]:
# SatisfacciÃ³n media general
print(f"SatisfacciÃ³n media: {df_encuestas['satisfaccion'].mean():.2f}")

# AgrupaciÃ³n por edades (tramos)
df_encuestas['grupo_edad'] = pd.cut(df_encuestas['edad'], bins=[0, 24, 34, 44, 54, 100], labels=['18-24','25-34','35-44','45-54','55+'])
satisfaccion_por_edad = df_encuestas.groupby('grupo_edad')['satisfaccion'].mean()

satisfaccion_por_edad.plot(kind='bar', color='skyblue')
plt.title('SatisfacciÃ³n media por grupo de edad')
plt.xlabel('Grupo de Edad')
plt.ylabel('SatisfacciÃ³n Media')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

## 6. Ejercicios prÃ¡cticos abiertos

Ahora que hemos trabajado los datos, resuelve los siguientes ejercicios en grupo.

### Ejercicio 1: Crear una columna 'asistencia_categoria' en el DataFrame de asistencia

- Si asistentes > 500, valor = 'Alta'
- Si asistentes entre 300 y 500, valor = 'Media'
- Si asistentes < 300, valor = 'Baja'

DespuÃ©s, muestra cuÃ¡ntos dÃ­as hubo de cada categorÃ­a.

In [None]:
# Tu cÃ³digo aquÃ­


### Ejercicio 2: Â¿QuÃ© dÃ­a de la semana tuvo en promedio mÃ¡s asistentes?

Agrupa por 'dia_semana' y muestra el dÃ­a mÃ¡s concurrido en promedio.

In [None]:
# Tu cÃ³digo aquÃ­


### Ejercicio 3: Analizar satisfacciÃ³n por sexo (nivel opcional si da tiempo)

Suponiendo que agregamos una columna 'sexo' al dataset de encuestas (por ejemplo aleatoriamente hombre/mujer), analiza:
- La satisfacciÃ³n media de hombres y mujeres.
- Muestra el resultado en un grÃ¡fico de barras.

In [None]:
# Tu cÃ³digo aquÃ­ (puedes crear una columna ficticia si quieres)


### Ejercicio 4: Extra Challenge ğŸš€

Crear un grÃ¡fico de dispersiÃ³n que muestre la relaciÃ³n entre edad y satisfacciÃ³n.

- Â¿Hay alguna tendencia visual?
- Agrega etiquetas y tÃ­tulo.

In [None]:
# Tu cÃ³digo aquÃ­
