In [1]:
# Imports
import pandas as pd

import warnings
warnings.filterwarnings("ignore")

# **Proyecto Machine Learning**

## **Identificación de piezas destacadas en la colección del MET Museum**

**DEFINICIÓN DEL PROBLEMA DE NEGOCIO**

El Museo Metropolitano de Arte de Nueva York desea identificar que objetos de su colección tienen el potencial de ser destacados en exposiciones y materiales promocionales.  
Para ello se utilizará un modelo de machine learning para predecir que obras deberían ser destacadas, para así ayudar al museo a optimizar sus recursos y aumentar la visibilidad de piezas menos conocidas pero con alto potencial.

### **Dataset y Fuente**

In [2]:
# Dataset
data_met = pd.read_csv("./data/MET.csv")

# Fuente de los datos
fuente_met = "GitHub - MET Museum: https://github.com/metmuseum/openaccess"

### **Visualización de los datos**

In [3]:
data_met.head()

Unnamed: 0,Object Number,Is Highlight,Is Timeline Work,Is Public Domain,Object ID,Gallery Number,Department,AccessionYear,Object Name,Title,...,River,Classification,Rights and Reproduction,Link Resource,Object Wikidata URL,Metadata Date,Repository,Tags,Tags AAT URL,Tags Wikidata URL
0,1979.486.1,False,False,False,1,,The American Wing,1979.0,Coin,One-dollar Liberty Head Coin,...,,,,http://www.metmuseum.org/art/collection/search/1,,,"Metropolitan Museum of Art, New York, NY",,,
1,1980.264.5,False,False,False,2,,The American Wing,1980.0,Coin,Ten-dollar Liberty Head Coin,...,,,,http://www.metmuseum.org/art/collection/search/2,,,"Metropolitan Museum of Art, New York, NY",,,
2,67.265.9,False,False,False,3,,The American Wing,1967.0,Coin,Two-and-a-Half Dollar Coin,...,,,,http://www.metmuseum.org/art/collection/search/3,,,"Metropolitan Museum of Art, New York, NY",,,
3,67.265.10,False,False,False,4,,The American Wing,1967.0,Coin,Two-and-a-Half Dollar Coin,...,,,,http://www.metmuseum.org/art/collection/search/4,,,"Metropolitan Museum of Art, New York, NY",,,
4,67.265.11,False,False,False,5,,The American Wing,1967.0,Coin,Two-and-a-Half Dollar Coin,...,,,,http://www.metmuseum.org/art/collection/search/5,,,"Metropolitan Museum of Art, New York, NY",,,


In [4]:
data_met.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 484956 entries, 0 to 484955
Data columns (total 54 columns):
 #   Column                   Non-Null Count   Dtype  
---  ------                   --------------   -----  
 0   Object Number            484956 non-null  object 
 1   Is Highlight             484956 non-null  bool   
 2   Is Timeline Work         484956 non-null  bool   
 3   Is Public Domain         484956 non-null  bool   
 4   Object ID                484956 non-null  int64  
 5   Gallery Number           49541 non-null   object 
 6   Department               484956 non-null  object 
 7   AccessionYear            481094 non-null  object 
 8   Object Name              482690 non-null  object 
 9   Title                    456153 non-null  object 
 10  Culture                  208190 non-null  object 
 11  Period                   91143 non-null   object 
 12  Dynasty                  23201 non-null   object 
 13  Reign                    11236 non-null   object 
 14  Port

In [5]:
data_met.columns

Index(['Object Number', 'Is Highlight', 'Is Timeline Work', 'Is Public Domain',
       'Object ID', 'Gallery Number', 'Department', 'AccessionYear',
       'Object Name', 'Title', 'Culture', 'Period', 'Dynasty', 'Reign',
       'Portfolio', 'Constituent ID', 'Artist Role', 'Artist Prefix',
       'Artist Display Name', 'Artist Display Bio', 'Artist Suffix',
       'Artist Alpha Sort', 'Artist Nationality', 'Artist Begin Date',
       'Artist End Date', 'Artist Gender', 'Artist ULAN URL',
       'Artist Wikidata URL', 'Object Date', 'Object Begin Date',
       'Object End Date', 'Medium', 'Dimensions', 'Credit Line',
       'Geography Type', 'City', 'State', 'County', 'Country', 'Region',
       'Subregion', 'Locale', 'Locus', 'Excavation', 'River', 'Classification',
       'Rights and Reproduction', 'Link Resource', 'Object Wikidata URL',
       'Metadata Date', 'Repository', 'Tags', 'Tags AAT URL',
       'Tags Wikidata URL'],
      dtype='object')

**DESCRIPCIÓN DE LAS COLUMNAS**

1. **Object Number:** Número de identificación único de cada objeto en la colección.
2. **Is Highlight:** Indica si el objeto es una obra destacada en la colección (booleano).
2. **Is Timeline Work:** Indica si el objeto se incluye en la línea de tiempo de la historia del arte (booleano).
3. **Is Public Domain:** Indica si el objeto está en el dominio público (booleano).
4. **Object ID:** Identificador único del objeto.
5. **Gallery Number:** Número de la galería en la que se exhibe el objeto, si está en exhibición.
6. **Department:** Departamento del museo al que pertenece el objeto (por ejemplo, Pintura, Escultura).
7. **AccessionYear:** Año en que el objeto fue adquirido por el museo.
8. **Object Name:** Nombre del objeto o tipo de objeto (por ejemplo, Pintura, Escultura, Jarrón).
9. **Title:** Título del objeto, si tiene uno.
10. **Culture:** Cultura a la que pertenece el objeto (por ejemplo, Egipcio, Griego, Romano).
11. **Period:** Período histórico al que pertenece el objeto (por ejemplo, Renacimiento, Barroco).
12. **Dynasty:** Dinastía a la que pertenece el objeto, si aplica.
13. **Reign:** Reinado bajo el cual se creó el objeto, si aplica.
15. **Portfolio:** Portafolio al que pertenece el objeto, si es parte de uno.
16. **Constituent ID:** Identificador del autor o creador del objeto.
17. **Artist Role:** Rol del autor o creador (por ejemplo, Pintor, Escultor).
18. **Artist Prefix:** Prefijo del nombre del autor (por ejemplo, Sr., Dr.).
19. **Artist Display Name:** Nombre completo del autor o creador del objeto.
20. **Artist Display Bio:** Biografía del autor o creador.
21. **Artist Suffix:** Sufijo del nombre del autor (por ejemplo, Jr., III).
22. **Artist Alpha Sort:** Orden alfabético del nombre del autor.
23. **Artist Nationality:** Nacionalidad del autor o creador.
24. **Artist Begin Date:** Año de nacimiento del autor.
25. **Artist End Date:** Año de fallecimiento del autor.
26. **Artist Gender:** Género del autor o creador.
27. **Artist ULAN URL:** URL a la base de datos del Union List of Artist Names (ULAN) para el autor.
28. **Artist Wikidata URL:** URL a la entrada de Wikidata para el autor.
29. **Object Date:** Fecha o rango de fechas en que se creó el objeto.
30. **Object Begin Date:** Año inicial del rango de fechas en que se creó el objeto.
31. **Object End Date:** Año final del rango de fechas en que se creó el objeto.
32. **Medium:** Material o técnica utilizada para crear el objeto (por ejemplo, Óleo sobre lienzo, Mármol).
33. **Dimensions:** Dimensiones del objeto (por ejemplo, altura, anchura, profundidad).
34. **Credit Line:** Línea de crédito que indica la fuente de adquisición del objeto (por ejemplo, donación, compra).
35. **Geography Type:** Tipo de geografía asociada con el objeto (por ejemplo, lugar de creación, lugar de descubrimiento).
36. **City:** Ciudad asociada con el objeto.
37. **State:** Estado o provincia asociada con el objeto.
38. **County:** Condado asociado con el objeto.
39. **Country:** País asociado con el objeto.
40. **Region:** Región geográfica asociada con el objeto.
41. **Subregion:** Subregión geográfica asociada con el objeto.
42. **Locale:** Lugar específico asociado con el objeto (por ejemplo, un sitio arqueológico).
43. **Locus:** Lugar específico dentro de un sitio asociado con el objeto.
44. **Excavation:** Información sobre la excavación del objeto, si aplica.
45. **River:** Río asociado con el objeto, si aplica.
46. **Classification:** Clasificación del objeto dentro del museo (por ejemplo, Pintura, Escultura, Artes decorativas).
47. **Rights and Reproduction:** Información sobre derechos y reproducción del objeto.
48. **Link Resource:** Enlace a la página del objeto en el sitio web del museo.
49. **Object Wikidata URL:** URL a la entrada de Wikidata para el objeto.
50. **Metadata Date:** Fecha en que se actualizó la metadata del objeto.
51. **Repository:** Repositorio o colección a la que pertenece el objeto.
52. **Tags:** Etiquetas descriptivas asociadas con el objeto.
53. **Tags AAT URL:** URL a la base de datos del Art & Architecture Thesaurus (AAT) para las etiquetas.
54. **Tags Wikidata URL:** URL a la entrada de Wikidata para las etiquetas.

Tras un primer vistazo del dataset, se decide realizar las siguientes modificaciones:
- Eliminar las columnas que no son relevantes.
- Transformar la columna referente a la fecha para que sólo muestre el año.
- Normalizar los textos de las columnas.
- Eliminar duplicados y filas con un alto porcentaje de nulos.
- Imputar los valores nulos por "unknown".

Haciendo esto el dataset reultante se vería así:

In [6]:
data_met_cleaned = pd.read_csv("./data/MET_Cleaned.csv")
data_met_cleaned.head()

Unnamed: 0,Is Highlight,Is Timeline Work,Is Public Domain,Object ID,Object Name,Title,Culture,Period,Artist Display Name,Object Date,Medium,Country
0,False,False,False,1,coin,one-dollar liberty head coin,unknown,unknown,james barton longacre,1853,gold,unknown
1,False,False,False,2,coin,ten-dollar liberty head coin,unknown,unknown,christian gobrecht,1901,gold,unknown
2,False,False,False,10,coin,two-and-a-half-dollar indian head coin,unknown,unknown,bela lyon pratt,1912,gold,unknown
3,False,False,False,11,coin,two-and-a-half-dollar liberty head coin,unknown,unknown,christian gobrecht,1907,gold,unknown
4,False,False,False,12,coin,twenty-dollar liberty head coin,unknown,unknown,james barton longacre,1876,gold,unknown


In [7]:
data_met_cleaned.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 358812 entries, 0 to 358811
Data columns (total 12 columns):
 #   Column               Non-Null Count   Dtype 
---  ------               --------------   ----- 
 0   Is Highlight         358812 non-null  bool  
 1   Is Timeline Work     358812 non-null  bool  
 2   Is Public Domain     358812 non-null  bool  
 3   Object ID            358812 non-null  int64 
 4   Object Name          358812 non-null  object
 5   Title                358812 non-null  object
 6   Culture              358812 non-null  object
 7   Period               358812 non-null  object
 8   Artist Display Name  358812 non-null  object
 9   Object Date          358812 non-null  object
 10  Medium               358806 non-null  object
 11  Country              358812 non-null  object
dtypes: bool(3), int64(1), object(8)
memory usage: 25.7+ MB
