# Qué dicen los datos sobre los festivales de Barcelona
 ### Análisis sobre los eventos artísticos más populares entre 2013 - 2022

## Índice:<br>

1. Introducción<br>
2. Aclaraciones iniciales
3. Importación de bibliotecas
4. Importación y limpieza de datos
5. Hipótesis: <br>
* El sector público programa festivales de ámbitos desatendidos por los programadores privados <br>
* La mayoría de los festivales se concentra justo antes y después de los meses de calor y playa <br>
* Los festivales gratuitos son los que convocan mayor número de asistentes <br>
* En Barcelona ha crecido la tendencia a programar macrofestivales <br>
* La pandemia marcó un quiebre en el tipo de programación, que ya se ha superado <br>

#### Introducción:

En este EDA he buscado hacer una aproximación al estudio de la oferta d fetsivales artísticos en Barcelona, atendiendo a sus ámbitos artísticos, cantidad de asistentes, la época del año en que tienen lugar, así como si son organizados por organismos públicos o empresas privados, si cobran o no entrada, entre otras cosas.<br><br>
Mediante el análisis de datos he buscado entender qué diferencias hay entre los festivales programados por la administración pública frente a los gestionados por iniciativas privadas, así como entender la distribución de los eventos a lo largo del año, y ver posibles relaciones entre esta distribución y los ámbitos artísticos.<br><br>
Otra inquietud ha sido indagar si los fetsivales con entrada de pago presentan una barrera de acceso que influya en el número de asistentes, o si es en ciertos sectores culturales donde hay mayor hábito de pagar por las entradas, frente a otros sectores con mayor tendencia a los eventos gratuitos.<br><br>
Finalmente, he querido entender cómo ha sido la evolución de los festivales a lo largo de una década, con el ojo puesto en las tendencias, tanto de ámbito artístico como de la envergadura de los propios festivales. En esta evolución también me ha parecido interesante atender a los posibles cambios que se desataron por la pandemia, y en qué medida éstos se han mantendo o han vuelto a su cauce inicial pasados un par de años.<br><br>

##### Fuentes de datos

Los datos que he usado para el presente EDA son de carácter público, y están disponibles en una serie de webs de las administraciones públicas, tanto del [Ajuntamiento de Barcelona](https://opendata-ajuntament.barcelona.cat/data/es/dataset/dades-festivals), de donde los he tomado, como de las administraciones que la engloban a nivel autonómico y nacional.

#### Aclaraciones iniciales

Creo importante destacar el recorte conceptual a la hora de incluir, o no, determinados eventos incluidos en los datos recogidos.<br>
En primer lugar, he dejado fuera aquellas entradas que estaban clasificadas como ferias. <br>
Y en segundo, dentro delas clasificadas como festivales, he hecho también un recorte a favor de aquellos eventos considerdos festivales en el sentido más próximo a fiesta, y descartando, en cambio, aquellos que por el contrario se acercan más a conferencias o mesas redondas. En consecuencia, una buena parte de los eventos catalogados en la base de datos como fetsivales de Letras han quedado fuera.<br>
También he decidido quitar aquellos eventos que por el formato eran solo ciclos, muestras o encuentros de pequeño formato.<<br>><br>
En una segunda instancia, he realizado un filtro tomando de cada uno de los 10 años de muestra aquellos 50 festivales con mayor número de asistentes y que tuvieran al menos 3 edicionesdentro del período analizado, para evitar incluir casos aislados que pudieran distorcionar la muestra y las conclusiones.

#### Importación de bibliotecas

Para llevar adelante este EDA he recurrido a las siguientes bibliotecas:

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

#### Importación de datos
Y estas son las tablas que he usado como punto de partida para mi EDA:

In [3]:
fests_22 = pd.read_csv("./data/2022_festivals-assistents-order-name.csv")
fuente_1 = "https://opendata-ajuntament.barcelona.cat/data/es/dataset/dades-festivals/resource/c573360d-ed5d-4609-aaa5-55bb9e9175ca#additional-info"
fests_21 = pd.read_csv("./data/2021_festivals-assistents-order-name.csv")
fuente_2 = "https://opendata-ajuntament.barcelona.cat/data/es/dataset/dades-festivals/resource/57ed9976-8291-418d-a0fc-ecf572d8cb74?inner_span=True"
fests_20= pd.read_csv("./data/2020_festivals-assistents-order-name.csv")
fuente_3 = "https://opendata-ajuntament.barcelona.cat/data/es/dataset/dades-festivals/resource/1214655c-38e5-4434-a35c-ed3a6468cd23?inner_span=True"
fests_19 = pd.read_csv("./data/2019_festivals-assistents-order-name.csv")
fuente_4 = "https://opendata-ajuntament.barcelona.cat/data/es/dataset/dades-festivals/resource/077d738b-997f-46b9-ab96-500ab22f32b6?inner_span=True"
fests_18 = pd.read_csv("./data/2018_festivals-assistents-order-name.csv")
fuente_5 = "https://opendata-ajuntament.barcelona.cat/data/es/dataset/dades-festivals/resource/a5522295-70f1-4d0b-8cb2-8762cbcbf783?inner_span=True"
fests_17 = pd.read_csv("./data/2017_festivals-assistents.csv")
fuente_6 = "https://opendata-ajuntament.barcelona.cat/data/es/dataset/dades-festivals/resource/7760d11f-a95f-4d6c-8230-e409b8ce6995?inner_span=True"
fests_16 = pd.read_csv("./data/2016_festivals-assistents.csv")
fuente_7 = "https://opendata-ajuntament.barcelona.cat/data/es/dataset/dades-festivals/resource/d151b7bc-2cb4-48c9-89e3-1c733a7cf511?inner_span=True"
fests_15 = pd.read_csv("./data/2015_festivals-assistents.csv")
fuente_8 = "https://opendata-ajuntament.barcelona.cat/data/es/dataset/dades-festivals/resource/5797a47d-45c9-40c3-aacb-2d3fcd5c6cf7?inner_span=True"
fests_14 = pd.read_csv("./data/2014_festivals-assistents.csv")
fuente_9 = "https://opendata-ajuntament.barcelona.cat/data/es/dataset/dades-festivals/resource/f2afdc37-2d91-48e5-9319-4d94d57d8c63?inner_span=True"
fests_13 = pd.read_csv("./data/2013_festivals-assistents.csv")
fuente_10 = "https://opendata-ajuntament.barcelona.cat/data/es/dataset/dades-festivals/resource/ae5be150-db8f-4d66-8605-78bf2f02d375?inner_span=True"

#### Limpieza de datos

Luego, he procesado cada una de esas tablas con una serie de funciones para añadir, transformar y eliminar filas, columnas y valores, como se puede observar en el correspondiente notebook 1_preparacion_datos <BR> <BR>AÑADIR ENLACE!!!!<BR><BR>
Una vez realizado este primer paso de limpieza general, he pasado al análisis individual de cada dataframe, cada uno correspondiente a uno de los años de la década analizada, y sobre ellos he realizado prácticamente las mismas opraciones, que luego me permitieran compararlos y encontrar similitudes y diferencia. <r>
Luego, he procesado cada una de esas tablas con una serie de funciones para añadir, transformar y eliminar filas, columnas y valores, como se puede observar en el correspondiente notebook 1_preparacion_datos <BR> <BR>AÑADIR ENLACE!!!!<BR><BR>
De este modo, resulta una colección de 10 notebooks, uno por año para analizar la situación de los festivales en Barcelona en los años 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021 y 2022. <BR> <BR>AÑADIR ENLACE!!!!<BR><BR> La organización del análisis univariable de cada dataframe / año en un notebook diferente ha hecho más sencillo su análisis, comprensión y posterior comparación.<br>

In [5]:
festivales_bcn_18 = pd.read_pickle("./data/festivales_bcn_18_procesado.pkl")
festivales_bcn_19 = pd.read_pickle("./data/festivales_bcn_19_procesado.pkl")
festivales_bcn_20 = pd.read_pickle("./data/festivales_bcn_20_procesado.pkl")
festivales_bcn_21 = pd.read_pickle("./data/festivales_bcn_21_procesado.pkl")
festivales_bcn_22 = pd.read_pickle("./data/festivales_bcn_22_procesado.pkl")
festivales_bcn_17 = pd.read_pickle("./data/festivales_bcn_17_procesado.pkl")
festivales_bcn_16 = pd.read_pickle("./data/festivales_bcn_16_procesado.pkl")
festivales_bcn_15 = pd.read_pickle("./data/festivales_bcn_15_procesado.pkl")
festivales_bcn_14 = pd.read_pickle("./data/festivales_bcn_14_procesado.pkl")
festivales_bcn_13 = pd.read_pickle("./data/festivales_bcn_13_procesado.pkl")

Posteriormente, en un nuevo notebook, he procedido al análisis multivariante, en este caso organizado según criterios de comparación, listando la misma operación para cada uno de los años, con la intencion de poner ahora el énfasis en la evolución de la escena en conjunto. Y al final he combinado todos las tablas anuales para tener los totales de cada una de las variables en la sumatoria de la década.
<BR> <BR>AÑADIR ENLACE!!!!<BR><BR>
Lo que sigue a continuación es un extacto de los principales pasos y análisis orientados a corroborar o descatar las hipótesis del siguiente EDA

### Hipótesis I: El sector público programa festivales de ámbitos desatendidos por los programadores privados

En primer lugar, y como se puede ver en el notebook de análisis multivariante, año tras año hay una diferencia entre los ámbitos de los festivales de titularidad pública y privada. <br>
El siguiente gráfico muestra dicho reparto y su evolución a través de los 10 años analizados: <br><br>AÑADIR GRAFCO DE BARRAS AÑO TRAS AÑO CON LOS SECTORES Y LAS PROPORCIONES DE PÚBLICO Y PRIVADO<br><br>

Algo muy similar se observa si comparamos la totalidad de festivales de la década agrupados por ámbito y diferenciados por titularidad:

In [6]:
tablas_festivales = [globals()[f'festivales_bcn_{year}'] for year in range(13, 23)]
festivales_decada = pd.concat(tablas_festivales, ignore_index=True)

In [7]:
tabla_contingencia = pd.crosstab(festivales_decada['Ambit'], festivales_decada['Titularidad'])
tabla_contingencia

Titularidad,Mixta,Privada,Pública
Ambit,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Arts escèniques,0,19,24
Arts visuals,0,42,7
Audiovisuals,7,118,0
Lletres,4,9,19
Multidisciplinaris i altres,0,39,17
Música,0,159,17


Esta tabla de contingencia refleja cómo los sectores que más interesan al sector privado, que son los audiovisuales, la música y las artes visuales, son algunos de los sectores donde hay menor cantidad absoluta y relativa de festivales públicos.<br>
Por el contrario, la oferta pública se centra sobre todo en los ámbitos de letras y escénicas, justamente los dos sectores donde menos iniciativas privadas hay.<br>
Para contextualizar dicha situación en un marco de políticas culturales, y entender por qué ciertos sectores resultan más o menos interesantes a la iniciativa privada, veremos dos elementos claves que hacen a la rentabilidad de los modelos económicos de los festivales, como son la cantidad de asistentes y el modelo gratuito o de pago:

Primero calculamos la cantidad de asistentes totales por ámbito:

In [19]:
total_asistentes = festivales_decada.groupby('Ambit')['Asistentes'].sum()
total_asistentes.sort_values(ascending = False)

Ambit
Música                         7632453.0
Arts escèniques                3340090.0
Multidisciplinaris i altres    1901330.0
Arts visuals                   1750964.0
Audiovisuals                   1582171.0
Lletres                         332631.0
Name: Asistentes, dtype: float64

Aquí podemos ver cómo el ámbito más popular es el de la música, con más de 7 millones y medio, seguido por escénicas, con cifras por debajo de los 3 millones y medio. Y que las letras quedan relegadas al último lugar.

Ahora veamos qué porcentaje de festivales de pago hay en cada ámbito:

In [11]:
festivales_decada['Es_lucrativo'] = (festivales_decada['Entrada'] == 'De Pago').astype(int)

In [16]:
total_festivales_por_ambito = festivales_decada.groupby('Ambit')['Es_lucrativo'].count()
festivales_pago_por_ambito = festivales_decada.groupby('Ambit')['Es_lucrativo'].sum()

In [17]:
porcentaje_pago = (festivales_pago_por_ambito / total_festivales_por_ambito * 100).round(2)

In [20]:
tabla_ambitos_lucrativos = pd.DataFrame({
    'Total Asistentes': total_asistentes,
    '% Festivales Entrada de Pago': porcentaje_pago
})

In [24]:
tabla_ambitos_lucrativos.sort_values('% Festivales Entrada de Pago', ascending=False)

Unnamed: 0_level_0,Total Asistentes,% Festivales Entrada de Pago
Ambit,Unnamed: 1_level_1,Unnamed: 2_level_1
Audiovisuals,1582171.0,87.2
Música,7632453.0,85.23
Arts visuals,1750964.0,61.22
Arts escèniques,3340090.0,53.49
Multidisciplinaris i altres,1901330.0,50.0
Lletres,332631.0,28.12


A partir de los datos que tenemos hasta ahora podemos ver que:<br> 
* El ámbito estrella del sector privado es la música, que a su vez es el que más asistentes ha recibido en toda la década (y en casi cada año individualmente también, como se ve en el notebookde análisis multivariantes), y que es un sector donde el modelo habitual es mediante pago de entrada. Aquí, la iniciativa pública es muy secundaria. <br>
* El ámbito audiovisual, si bien recibe menos asistentes que la música, es aún más lucrativo, con un 87% de festivales de pago. En este ámbito las iniciativas públicas son directamente nulas.<br>
* Contrasta con el ámnbito de las escénicas, que si bien recibe una gran afluencia de público, solo es de pago en el 53% de los casos. Esto explicaría que sea la administración pública la que más impulsa esta tipo de festival, aparentemente menos lucrativa que las anteriores. 
* Y ni qué decir de las letras, que además de recibir menos visitantes, casi siempre es en formato gratuito, lo que invitaría a deducir que no representa la mejor oportunidad de negocio para el sector privado.

### Conclusión hipótesis I:
De los datos observados podemos concluir que efectivamente hay una división de ámbitos entre el sector público y el privado, donde el sector público apuesta a llegar a la mayor cantidad de público en modelos que generen ingresos, mientras que la administración pública se encarga de sectores o bien minoritarios, como las letras, o bien populares pero de menor rentabilidad, como las artes escénicas.<br>
Esto podría responder a políticas culturales pública de inclusión y diversidad, donde la administración pública busca impulsar y llenar los vacíos que es difícil sostener con modelos de negocio privados.

### Hipótesis II: La mayoría de los festivales se concentra justo antes y después de los meses de calor y playa

### Hipótesis III: Los festivales gratuitos son los que convocan mayor número de asistentes

### Hipótesis IV: En Barcelona ha crecido la tendencia a programar macrofestivales

### Hipótesis V: La pandemia marcó un quiebre en el tipo de programación, que ya se ha superado