# Análisis de datos de eventos deportivos con Pandas en Python

## Importar las librerías necesarias

In [17]:
import pandas as pd

## Cargar los datos desde los archivos CSV

In [18]:
aficionados_df = pd.read_csv('./workspace/aficionados.csv')
eventos_df = pd.read_csv('./workspace/eventos.csv')
promociones_df = pd.read_csv('./workspace/promociones.csv')

In [19]:
aficionados_df.head()


Unnamed: 0,id_aficionado,nombre_aficionado,edad,género,ubicación_residencia,id_evento
0,1,Aficionado 1,45,F,Ciudad B,41
1,2,Aficionado 2,20,F,Ciudad D,3
2,3,Aficionado 3,20,F,Ciudad A,25
3,4,Aficionado 4,36,F,Ciudad B,33
4,5,Aficionado 5,36,M,Ciudad C,14


In [30]:
eventos_df.head()


Unnamed: 0,id_evento,nombre_evento,fecha_evento,ubicación_evento,asistentes_totales
0,1,Evento 1,2023-01-01,Ciudad C,1292
1,2,Evento 2,2023-01-02,Ciudad A,9629
2,3,Evento 3,2023-01-03,Ciudad A,254
3,4,Evento 4,2023-01-04,Ciudad D,8914
4,5,Evento 5,2023-01-05,Ciudad C,7647


In [21]:
promociones_df.head()

Unnamed: 0,id_promocion,medio_publicitario,presupuesto,fecha_inicio,fecha_fin,id_evento
0,1,Radio,8880,2023-01-01,2023-01-06,23
1,2,Radio,15767,2023-01-06,2023-01-11,23
2,3,Internet,6804,2023-01-11,2023-01-16,3
3,4,Redes Sociales,5520,2023-01-16,2023-01-21,7
4,5,Radio,19598,2023-01-21,2023-01-26,17


## Limpieza de datos: Eliminar filas con valores nulos

In [22]:
aficionados_df_clean = aficionados_df.dropna()
eventos_df_clean = eventos_df.dropna()
promociones_df_clean = promociones_df.dropna()

## Combinación de los DataFrames usando 'id_evento'

In [23]:
merged_df = pd.merge(aficionados_df_clean, eventos_df_clean, on='id_evento', how='inner')
merged_df = pd.merge(merged_df, promociones_df_clean, on='id_evento', how='inner')

## Responde las siguientes preguntas de negocio

### 1. ¿Cuál es el evento con mayor asistencia total?

In [41]:
evento_mayor_asistencia = merged_df.loc[merged_df['asistentes_totales'].idxmax()]
print("Evento con mayor asistencia total:\n", evento_mayor_asistencia[['nombre_evento','asistentes_totales']])

Evento con mayor asistencia total:
 nombre_evento         Evento 29
asistentes_totales         9879
Name: 36, dtype: object


### 2. ¿Cuál es el rango de edad que asiste más frecuentemente a los eventos?

In [42]:
bins = [0, 18, 25, 35, 45, 60, 100]
labels = ['0-18', '19-25', '26-35', '36-45', '46-60', '60+']
merged_df['rango_edad'] = pd.cut(merged_df['edad'], bins=bins, labels=labels)
rango_edad_mas_frecuente = merged_df['rango_edad'].value_counts().idxmax()
print("Rango de edad más frecuente:", rango_edad_mas_frecuente)

Rango de edad más frecuente: 19-25


### # 3. ¿Qué medio publicitario ha generado mayor impacto en términos de asistencia?

In [44]:
merged_df['impacto_promocion'] = merged_df['asistentes_totales'] / merged_df['presupuesto']
impacto_medio_publicitario = merged_df.groupby('medio_publicitario')['impacto_promocion'].mean().idxmax()
print("Medio publicitario con mayor impacto:", impacto_medio_publicitario)

Medio publicitario con mayor impacto: TV


### 4. ¿Cuál es la ubicación de residencia que más aficionados aporta a los eventos?

In [45]:
ubicacion_mas_aficionados = merged_df['ubicación_residencia'].value_counts().idxmax()
print("Ubicación de residencia que más aporta", ubicacion_mas_aficionados)

Ubicación de residencia que más aporta Ciudad A


## Exportar el DataFrame resultante a un archivo CSV
Guarda el DataFrame resultante con todas las transformaciones y análisis en un archivo CSV llamado reporte_eventos.csv utilizando la función df.to_csv()

In [47]:
merged_df.to_csv('./workspace/reporte_eventos.csv', index=False)
print("Datos exportados a reporte_events.csv")

Datos exportados a reporte_events.csv
