<img src="../img/banner.png" alt="Museo de Arte Metropolitano de Nueva York">

<center>

# Clasificación de Obras de Arte del MET

</center>

## Caso de Negocio

Desde el Museo de Arte Metropolitano de Nueva York se nos propone el proyecto de crear un modelo que les ayude a predecir si una obra puede ser destacada o no dentro de su colección.

Para ello, nos dan acceso a su repositorio de [GitHub](https://github.com/metmuseum/openaccess) donde tienen subida su colección de obras de arte subidas al completo.

El proceso que seguiremos para afrontar este proyecto será:

1. Limpieza de datos

2. Análisis exploratorio de los datos
               
3. Entrenamiento, optimización y evaluación del modelo
            
4. Predicciones

## Limpieza de datos

Puedes acceder al notebook donde se limpian los datos aquí:

> [Limpieza de datos](https://github.com/albamrm/Proyecto_ML/tree/main/notebooks/01_Limpieza_Datos.ipynb)

Para limpiar los datos se toman varias medidas:
- Deshacernos de las columnas que contienen: identificadores, URL e información demasiado específica, redundante o irrelevante.
- Tratar los datos de las columnas, normalizando los textos y transformando las columnas de las fechas, y eliminar los duplicados.
- Imputar las filas que tengan más de un 30% de sus valores nulos, y aquellos que queden, pasarlos a nombrar como "unknown".

## Análisis exploratorio de los datos

Puedes acceder al notebook donde se hace el análisis de los datos aquí:

> [EDA](https://github.com/albamrm/Proyecto_ML/tree/main/notebooks/02_EDA.ipynb)

Después de este análisis se puede interpretar lo siguiente:
- La columna "Is Highlight", nuestro target, está altamente desbalanceada.
- Las columnas "Is Timeline Work" e "Is Public Domain" son binarias, lo que las hace adecuadas para ser directamente utilizadas como características.
- Columnas como "Title" y "Dimensions" tienen una gran cantidad de valores únicos y alta cardinalidad, lo que puede hacerlas menos útiles para el modelado debido a su gran variedad y especificidad.  
- Las columnas "Artist", "Culture", "Period", "Object Name", "Medium", "Country" y "Credit Line" pueden ser útiles para la categorización y pueden requerir técnicas de codificación como one-hot encoding para su uso en el modelo.  
- Como variables numéricas tenemos las columnas "Date" y "Acquisition Year", que también pueden ser interesantes para el análisis.

## Entrenamiento, optimización y evaluación del modelo

Puedes acceder al notebook donde se hace el modelado de los datos aquí:

> [Modelo](https://github.com/albamrm/Proyecto_ML/tree/main/notebooks/03_Modelo_Clasificación.ipynb)

En un primer momento, nos aventuramos a entrenar con diferentes modelos haciendo caso omiso del desbalance que presenta nuestro target, y como era de imaginar, la clase minoritaria tenía una precisión casi nula, por lo que nos vemos obligados a usar técnicas como "SMOTE" y "Class Weights" para intentar paliar este problema.

Para la elección del modelo hemos utilizado la validación cruzada para ver que modelo era el que mejor se adaptaba a nuestro fin, la cual nos recomendaba utilizar el modelo Extreme Gradient Boosting Classifier. Aun así, nosotros hemos entrenado y optimizado varios modelos para ver cuál daba mejor resultado de todos.

Tras entrenar y optimizar todos los modelos, los evaluamos y vemos que todos los modelos tienen un buen balance entre precisión y recall para la clase mayoritaria (False), pero que aunque el recall para la clase minoritaria (True) ha mejorado significativamente, con respecto al entrenamiento sin el uso de las técnicas de rebalanceo, su precisión sigue siendo baja.

En cuanto a la elección de un modelo u otro, todos tienen un rendimiento similar, por lo que la elección del modelo puede depender de otros factores como el tiempo de entrenamiento, interpretabilidad y recursos computacionales. En este caso utilizaremos XGBoost Classifier (Extreme Gradient Boosting Classifier).

|          | precision | recall | f1-score | support |
|----------|-----------|--------|----------|---------|
| False    | 1.00      | 0.97   | 0.98     | 81052   |
| True     | 0.11      | 0.70   | 0.19     | 448     |
|          |           |        |          |         |
| accuracy |           |        | 0.97     | 81500   |
| macro avg| 0.55      | 0.83   | 0.59     | 81500   |
| weighted avg | 0.99  | 0.97   | 0.98     | 81500   |

## Predicciones

Para las predicciones contamos con un notebook y una aplicación de streamlit, los cuales puedes encontrar aquí:

> [Notebook](https://github.com/albamrm/Proyecto_ML/tree/main/notebooks/04_Predicciones.ipynb)

> [Aplicación](https://github.com/albamrm/Proyecto_ML/tree/main/app/app.py)

Para predecir si una obra será destacada o no mediante la introducción de nuevos inputs, tenemos un notebook donde utilizamos el modelo anteriormente entrenado para emplearlo en el dataset al completo. A su vez, contamos con una aplicación de streamlit, donde introduciendo los diferentes datos de una obra, la aplicación te dirá si sería destacada y en qué probabilidad.

Para ejecutar la aplicación de streamlit, se debe abrir el terminal, acceder a la ruta donde tengamos la aplicación y ejecutar el comando _streamlit run app.py_.

## Conclusiones

Tras el trabajo realizado podemos concluir que predecir si una obra de arte será destacada o no, es una tarea difícil.

Para un experto en arte es muy difícil, por no decir imposible, saber si un artista o una obra pueden despuntar. Con nuestro modelo intentamos ayudar en esta tarea, pero al topar con los datos podemos ver que se hace muy difícil crear un modelo que sea fiable al 100% en este aspecto.

Por otro lado, se trata de un problema en el que los datos pueden ir cambiando y aumentando, lo que haría que el modelo tuviera que reentrenarse y así ir mejorando su capacidad de análisis.