MEMORIA

Introducción y problema(s) a resolver

Para este proyecto de Machine Learning he querido abordar un problema del campo de la gestión y las políticas culturales desde dos perspectivas técnicas de Machine Learning:

Por un lado, explorar formas de entender y clasificar los públicos culturales que vayan más allá de las tradicionales clasificaciones demográficas por género, edad, nivel socioeconómico y similares.
Hace ya unos años que diferentes agencias de estudios de públicos, como las británica The Audience Agency, o en MHM Insights, con sus Culture Segments, vienen desarrollando estudios de segmentación de públicos culturales en base a nuevos parámetros vinculados más bien a la personalidad, los deseos e intereses de las personas, que no necesariamente están directamente vinculados con factores demográficos.
En esta línea, y a partir de unas encuestas de prácticas culturales llevadas a cabo por la Generalitat de Catalunya, he intentado hacer una aproximación a este enfoque intentando descubrir nuevos patrones de intereses y consumo cultural. Y para ello me he basado en la clusterización de K-Means.

Por otro lado, he intentado abordar otro de los grandes problemas del sector de la gestión cultural, que es prever qué público se interesará por determinadas ofertas culturales, tanto para saber qué interés pueda generar una propuesta en cierto segmento como para hacer previsiones de consumo o asistencia. En este sentido, y basándome en la misma encuesta, he intentado hacer un modelo de regresión que permita predecir qué volumen de cultura consumirá un usuario de un perfil determinado.

Origen de los datos

Si bien la Generalitat de Catalunya ofrece en su web de datos abiertos encuestas de prácticas culturales de los años 2018 a 2023, las variables consideradas han ido cambiando año a año. Para simplificar el proceso y acotarlo al objetivo de este proyecto, me he quedado con la encuesta correspondiente a 2023.

Además de la propia base de datos con los resultados de la encuesta con los resultados de más de 4 mil entrevistados, se incluyen en este proyecto un diccionario de variables, un diccionario de códigos y la propia encuesta que da origen a estos datos.

Limpieza de los datos

El principal desafío a la hora de llevar a cabo este proyecto ha consistido en la limpieza y transformación de los datos. En primer lugar porque la base de datos original contenía 519 columnas, muchas de ellas resultado del codificado de las múltiples posibles respuestas a diversas preguntas. También por la lógica condicional de las preguntas, las jerarquías y redundancias, la alta proporción de nulos, entre otros.

Para ello llevé a cabo un trabajo minucioso de reunificar y recodificarlas columnas en escalas, eliminar variables, imputar NaNs, gracias a lo cual he conseguido reducir la dimensionalidad de columnas a menos de 120.

Otra tarea importante ha sido el mapeo del significado de estas diversas variables, que permitiera dotar este análisis de mayor inteligibilidad o explicabilidad, ya que los códigos originales eran poco o nada intuitivos.

Clusterizacióm

Una vez preparados los datos he identificado las variables target, que son las que representan el volumen de uso o consumo de diferentes formas de cultura contempladas en la encuesta: videojuegos, música, conciertos y festivales, cine, espectáculos, exposiciones y libros.

También he dividido mis datos entre variables de gustos, opiniones e intereses, por un lado, y demográficas por otro. Una vez categorizados de esta forma los datos he procedido a la clusterización. O mejor dicho, a las clusterizaciones.

En primer lugar, he probado de trabajar solo con las variables "motivacionales", dejando de lado tanto las demográficas como los targets, buscando patrones en función de lo que las personas entrevistadas dicen querer o pensar. Y en base a esto he llegado a dar con 5 clústers, de los cuales luego he calculado las medias de cada target. Una vez realizado este, he contrastado, además, cada target con su composición en términos demográficos, observando cómo algunas variables demográficas se distribuían de forma similar, o no, entre los grupos. Y ha sido interesante observar cómo muchas variables tradicionales como edad, género o ingresos no eran determinantes en los mismos.

En segundo lugar he hecho una segunda clusterización, de nuevo sin variables demográficas pero esta vez sí incluyendo los targets, y los resultados han sido ligeramente diferentes. Eso lleva a pensar que una cosa es lo que la gente piensa o quiere, y que ello no coincide del todo con lo que acaba haciendo. De esta clusterizacion de nevo han destacado 5 grupos o clústers diferenciados que responden en buena medida, pero no del todo, a los 5 clústers del primer análisis.

En tercer lugar hice una última clusterización, esta vez usando exclusivamente las variables target. Es decir, obviando lo que las personas entrevistadas piensan o desean, y centrándome solo en lo que hacen (o dicen hacer, en términos de consumo cultural. Esto último puso de manifiesto similitudes pero también elementos novedosos respecto a las clusterizaciones anteriores.

Una vez realizado este tercer análisis, me he quedado con las conclusiones de cada clusterización, he comparado los respectivos resultados y los he contrastado con 3 de las variables demográficas másusadas en la clasificación de audiencias tradicional: las que he elegido han sido edad, ingresos y territorio. Como resultado no solo vemos cómo varían estas características demográficas de una clusterización a otra, sino también como hay factores que son menos relevantes y se mantienen estables en diferentes clusterizaciones.

Regresión

La tercera etapa del trabajo ha consistido en intentar crear un modelo de predicción que permita saber cuánta cultura, y qué formas de cultura, consumirá un determinado perfil de usuario, teniendo en cuenta tanto sus motivaciones como sus características demográficas.

A tal fin he probado de hacer las predicciones de una en una para mis 7 targets. Y he probado con diferentes modelos de regresión, ajustado hiperparámetros y refinado el modelo hasta dar con las mejores métricas posibles

Una vez preparados los datos he identificado las variables target, que son las que representan el volumen de uso o consumo de diferentes formas de cultura contempladas en la encuesta: videojuegos, música, conciertos y festivales, cine, espectáculos, exposiciones y libros.

También he dividido mis datos entre variables de gustos, opiniones e intereses, por un lado, y demográficas por otro. Una vez categorizados de esta forma los datos he procedido a la clusterización. O mejor dicho, a las clusterizaciones.

En primer lugar, he probado de trabajar solo con las variables "motivacionales", dejando de lado tanto las demográficas como los targets, buscando patrones en función de lo que las personas entrevistadas dicen querer o pensar. Y en base a esto he llegado a dar con 5 clústers, de los cuales luego he calculado las medias de cada target. Una vez realizado este, he contrastado, además, cada target con su composición en términos demográficos, observando cómo algunas variables demográficas se distribuían de forma similar, o no, entre los grupos. Y ha sido interesante observar cómo muchas variables tradicionales como edad, género o ingresos no eran determinantes en los mismos.

En segundo lugar he hecho una segunda clusterización, de nuevo sin variables demográficas pero esta vez sí incluyendo los targets, y los resultados han sido ligeramente diferentes. Eso lleva a pensar que una cosa es lo que la gente piensa o quiere, y que ello no coincide del todo con lo que acaba haciendo. De esta clusterizacion de nevo han destacado 5 grupos o clústers diferenciados que responden en buena medida, pero no del todo, a los 5 clústers del primer análisis.

En tercer lugar hice una última clusterización, esta vez usando exclusivamente las variables target. Es decir, obviando lo que las personas entrevistadas piensan o desean, y centrándome solo en lo que hacen (o dicen hacer, en términos de consumo cultural. Esto último puso de manifiesto similitudes pero también elementos novedosos respecto a las clusterizaciones anteriores.

Una vez realizado este tercer análisis, me he quedado con las conclusiones de cada clusterización, he comparado los respectivos resultados y los he contrastado con 3 de las variables demográficas másusadas en la clasificación de audiencias tradicional: las que he elegido han sido edad, ingresos y territorio. Como resultado no solo vemos cómo varían estas características demográficas de una clusterización a otra, sino también como hay factores que son menos relevantes y se mantienen estables en diferentes clusterizaciones.

Regresión

La tercera etapa del trabajo ha consistido en intentar crear un modelo de predicción que permita saber cuánta cultura, y qué formas de cultura, consumirá un determinado perfil de usuario, teniendo en cuenta tanto sus motivaciones como sus características demográficas.

A tal fin he probado de hacer las predicciones de una en una para mis 7 targets. Y he probado con diferentes modelos de regresión, ajustado hiperparámetros y refinado el modelo hasta dar con las mejores métricas posibles