# **Limpieza de los datos**

### **Importación de librerías**

In [1]:
import numpy as np
import os
import pandas as pd
import re

import warnings
warnings.filterwarnings('ignore')

### **Visualización de los datos**

In [2]:
# Cargar los datos
data = pd.read_csv(os.path.join(os.getcwd(), '..', 'data', 'MET.csv'))

In [3]:
# Visualizar primeras filas del dataset
data.head()

Unnamed: 0,Object Number,Is Highlight,Is Timeline Work,Is Public Domain,Object ID,Gallery Number,Department,AccessionYear,Object Name,Title,...,River,Classification,Rights and Reproduction,Link Resource,Object Wikidata URL,Metadata Date,Repository,Tags,Tags AAT URL,Tags Wikidata URL
0,1979.486.1,False,False,False,1,,The American Wing,1979.0,Coin,One-dollar Liberty Head Coin,...,,,,http://www.metmuseum.org/art/collection/search/1,,,"Metropolitan Museum of Art, New York, NY",,,
1,1980.264.5,False,False,False,2,,The American Wing,1980.0,Coin,Ten-dollar Liberty Head Coin,...,,,,http://www.metmuseum.org/art/collection/search/2,,,"Metropolitan Museum of Art, New York, NY",,,
2,67.265.9,False,False,False,3,,The American Wing,1967.0,Coin,Two-and-a-Half Dollar Coin,...,,,,http://www.metmuseum.org/art/collection/search/3,,,"Metropolitan Museum of Art, New York, NY",,,
3,67.265.10,False,False,False,4,,The American Wing,1967.0,Coin,Two-and-a-Half Dollar Coin,...,,,,http://www.metmuseum.org/art/collection/search/4,,,"Metropolitan Museum of Art, New York, NY",,,
4,67.265.11,False,False,False,5,,The American Wing,1967.0,Coin,Two-and-a-Half Dollar Coin,...,,,,http://www.metmuseum.org/art/collection/search/5,,,"Metropolitan Museum of Art, New York, NY",,,


In [4]:
# Obtener información del dataset
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 484956 entries, 0 to 484955
Data columns (total 54 columns):
 #   Column                   Non-Null Count   Dtype  
---  ------                   --------------   -----  
 0   Object Number            484956 non-null  object 
 1   Is Highlight             484956 non-null  bool   
 2   Is Timeline Work         484956 non-null  bool   
 3   Is Public Domain         484956 non-null  bool   
 4   Object ID                484956 non-null  int64  
 5   Gallery Number           49541 non-null   object 
 6   Department               484956 non-null  object 
 7   AccessionYear            481094 non-null  object 
 8   Object Name              482690 non-null  object 
 9   Title                    456153 non-null  object 
 10  Culture                  208190 non-null  object 
 11  Period                   91143 non-null   object 
 12  Dynasty                  23201 non-null   object 
 13  Reign                    11236 non-null   object 
 14  Port

In [5]:
# Ver todas las columnas que componen del datset
data.columns

Index(['Object Number', 'Is Highlight', 'Is Timeline Work', 'Is Public Domain',
       'Object ID', 'Gallery Number', 'Department', 'AccessionYear',
       'Object Name', 'Title', 'Culture', 'Period', 'Dynasty', 'Reign',
       'Portfolio', 'Constituent ID', 'Artist Role', 'Artist Prefix',
       'Artist Display Name', 'Artist Display Bio', 'Artist Suffix',
       'Artist Alpha Sort', 'Artist Nationality', 'Artist Begin Date',
       'Artist End Date', 'Artist Gender', 'Artist ULAN URL',
       'Artist Wikidata URL', 'Object Date', 'Object Begin Date',
       'Object End Date', 'Medium', 'Dimensions', 'Credit Line',
       'Geography Type', 'City', 'State', 'County', 'Country', 'Region',
       'Subregion', 'Locale', 'Locus', 'Excavation', 'River', 'Classification',
       'Rights and Reproduction', 'Link Resource', 'Object Wikidata URL',
       'Metadata Date', 'Repository', 'Tags', 'Tags AAT URL',
       'Tags Wikidata URL'],
      dtype='object')

**DESCRIPCIÓN DE LAS COLUMNAS**

**1. _Object Number_:** Número de identificación único de cada objeto en la colección.  
**2. _Is Highlight_:** Indica si el objeto es una obra destacada en la colección (booleano).  
**3. _Is Timeline Work_:** Indica si el objeto se incluye en la línea de tiempo de la historia del arte (booleano).  
**4. _Is Public Domain_:** Indica si el objeto está en el dominio público (booleano).  
**5. _Object ID_:** Identificador único del objeto.  
**6. _Gallery Number_:** Número de la galería en la que se exhibe el objeto, si está en exhibición.  
**7. _Department_:** Departamento del museo al que pertenece el objeto (por ejemplo, Pintura, Escultura).  
**8. _AccessionYear_:** Año en que el objeto fue adquirido por el museo.  
**9. _Object Name_:** Nombre del objeto o tipo de objeto (por ejemplo, Pintura, Escultura, Jarrón).  
**10. _Title_:** Título del objeto, si tiene uno.  
**11. _Culture_:** Cultura a la que pertenece el objeto (por ejemplo, Egipcio, Griego, Romano).  
**12. _Period_:** Período histórico al que pertenece el objeto (por ejemplo, Renacimiento, Barroco).  
**13. _Dynasty_:** Dinastía a la que pertenece el objeto, si aplica.  
**14. _Reign_:** Reinado bajo el cual se creó el objeto, si aplica.  
**15. _Portfolio_:** Portafolio al que pertenece el objeto, si es parte de uno.  
**16. _Constituent ID_:** Identificador del autor o creador del objeto.  
**17. _Artist Role_:** Rol del autor o creador (por ejemplo, Pintor, Escultor).  
**18. _Artist Prefix_:** Prefijo del nombre del autor (por ejemplo, Sr., Dr.).  
**19. _Artist Display Name_:** Nombre completo del autor o creador del objeto.  
**20. _Artist Display Bio_:** Biografía del autor o creador.  
**21. _Artist Suffix_:** Sufijo del nombre del autor (por ejemplo, Jr., III).  
**22. _Artist Alpha Sort_:** Orden alfabético del nombre del autor.  
**23. _Artist Nationality_:** Nacionalidad del autor o creador.  
**24. _Artist Begin Date_:** Año de nacimiento del autor.  
**25. _Artist End Date_:** Año de fallecimiento del autor.  
**26. _Artist Gender_:** Género del autor o creador.  
**27. _Artist ULAN URL_:** URL a la base de datos del Union List of Artist Names (ULAN) para el autor.  
**28. _Artist Wikidata URL_:** URL a la entrada de Wikidata para el autor.  
**29. _Object Date_:** Fecha o rango de fechas en que se creó el objeto.  
**30. _Object Begin Date_:** Año inicial del rango de fechas en que se creó el objeto.  
**31. _Object End Date_:** Año final del rango de fechas en que se creó el objeto.  
**32. _Medium_:** Material o técnica utilizada para crear el objeto (por ejemplo, Óleo sobre lienzo, Mármol).  
**33. _Dimensions_:** Dimensiones del objeto (por ejemplo, altura, anchura, profundidad).  
**34. _Credit Line_:** Línea de crédito que indica la fuente de adquisición del objeto (por ejemplo, donación, compra).  
**35. _Geography Type_:** Tipo de geografía asociada con el objeto (por ejemplo, lugar de creación, lugar de descubrimiento).  
**36. _City_:** Ciudad asociada con el objeto.  
**37. _State_:** Estado o provincia asociada con el objeto.  
**38. _County_:** Condado asociado con el objeto.  
**39. _Country_:** País asociado con el objeto.  
**40. _Region_:** Región geográfica asociada con el objeto.  
**41. _Subregion_:** Subregión geográfica asociada con el objeto.  
**42. _Locale_:** Lugar específico asociado con el objeto (por ejemplo, un sitio arqueológico).  
**43. _Locus_:** Lugar específico dentro de un sitio asociado con el objeto.  
**44. _Excavation_:** Información sobre la excavación del objeto, si aplica.  
**45. _River_:** Río asociado con el objeto, si aplica.  
**46. _Classification_:** Clasificación del objeto dentro del museo (por ejemplo, Pintura, Escultura, Artes decorativas).  
**47. _Rights and Reproduction_:** Información sobre derechos y reproducción del objeto.  
**48. _Link Resource_:** Enlace a la página del objeto en el sitio web del museo.  
**49. _Object Wikidata URL_:** URL a la entrada de Wikidata para el objeto.  
**50. _Metadata Date_:** Fecha en que se actualizó la metadata del objeto.  
**51. _Repository_:** Repositorio o colección a la que pertenece el objeto.  
**52. _Tags_:** Etiquetas descriptivas asociadas con el objeto.  
**53. _Tags AAT URL_:** URL a la base de datos del Art & Architecture Thesaurus (AAT) para las etiquetas.  
**54. _Tags Wikidata URL_:** URL a la entrada de Wikidata para las etiquetas.

Tras un primer vistazo del dataset y de haber analizado el contenido cada una de las columnas, se toma la decisión de eliminar en primer término las columnas que contienen: identificadores, URL e información demasiado específica, redundante o irrelevante.

In [6]:
# Columnas a eliminar
columns_to_drop = [
    'Object Number', 'Object ID', 'Gallery Number', 'Department', 'Dynasty',
    'Reign', 'Portfolio', 'Constituent ID', 'Artist Role', 'Artist Prefix',
    'Artist Display Bio', 'Artist Suffix', 'Artist Alpha Sort', 'Artist Nationality',
    'Artist Begin Date', 'Artist End Date', 'Artist Gender', 'Artist ULAN URL',
    'Artist Wikidata URL', 'Object Begin Date', 'Object End Date', 'Geography Type',
    'City', 'State', 'County', 'Region', 'Subregion', 'Locale', 'Locus', 'Excavation',
    'River', 'Classification', 'Rights and Reproduction', 'Link Resource',
    'Object Wikidata URL', 'Metadata Date', 'Repository', 'Tags', 'Tags AAT URL',
    'Tags Wikidata URL'
]

# Eliminar columnas
data_cleaned = data.drop(columns = columns_to_drop)

# Verificar las columnas restantes
data_cleaned.columns

Index(['Is Highlight', 'Is Timeline Work', 'Is Public Domain', 'AccessionYear',
       'Object Name', 'Title', 'Culture', 'Period', 'Artist Display Name',
       'Object Date', 'Medium', 'Dimensions', 'Credit Line', 'Country'],
      dtype='object')

In [7]:
data_cleaned.head()

Unnamed: 0,Is Highlight,Is Timeline Work,Is Public Domain,AccessionYear,Object Name,Title,Culture,Period,Artist Display Name,Object Date,Medium,Dimensions,Credit Line,Country
0,False,False,False,1979.0,Coin,One-dollar Liberty Head Coin,,,James Barton Longacre,1853,Gold,Dimensions unavailable,"Gift of Heinz L. Stoppelmann, 1979",
1,False,False,False,1980.0,Coin,Ten-dollar Liberty Head Coin,,,Christian Gobrecht,1901,Gold,Dimensions unavailable,"Gift of Heinz L. Stoppelmann, 1980",
2,False,False,False,1967.0,Coin,Two-and-a-Half Dollar Coin,,,,1909–27,Gold,Diam. 11/16 in. (1.7 cm),"Gift of C. Ruxton Love Jr., 1967",
3,False,False,False,1967.0,Coin,Two-and-a-Half Dollar Coin,,,,1909–27,Gold,Diam. 11/16 in. (1.7 cm),"Gift of C. Ruxton Love Jr., 1967",
4,False,False,False,1967.0,Coin,Two-and-a-Half Dollar Coin,,,,1909–27,Gold,Diam. 11/16 in. (1.7 cm),"Gift of C. Ruxton Love Jr., 1967",


In [8]:
data_cleaned.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 484956 entries, 0 to 484955
Data columns (total 14 columns):
 #   Column               Non-Null Count   Dtype 
---  ------               --------------   ----- 
 0   Is Highlight         484956 non-null  bool  
 1   Is Timeline Work     484956 non-null  bool  
 2   Is Public Domain     484956 non-null  bool  
 3   AccessionYear        481094 non-null  object
 4   Object Name          482690 non-null  object
 5   Title                456153 non-null  object
 6   Culture              208190 non-null  object
 7   Period               91143 non-null   object
 8   Artist Display Name  282513 non-null  object
 9   Object Date          471525 non-null  object
 10  Medium               477741 non-null  object
 11  Dimensions           409898 non-null  object
 12  Credit Line          484305 non-null  object
 13  Country              76007 non-null   object
dtypes: bool(3), object(11)
memory usage: 42.1+ MB


In [9]:
# Calcular la cantidad de valores nulos frente a los valores totales
columns_to_check = [
    'Is Highlight', 'Is Timeline Work', 'Is Public Domain', 'AccessionYear',
    'Object Name', 'Title', 'Culture', 'Period', 'Artist Display Name',
    'Object Date', 'Medium', 'Dimensions', 'Credit Line', 'Country'
]

for column in columns_to_check:
    total_values = data_cleaned.shape[0]
    null_count = data_cleaned[column].isnull().sum()
    print(f"Columna '{column}': {null_count} nulos de {total_values} valores totales ({null_count / total_values:.2%})")

Columna 'Is Highlight': 0 nulos de 484956 valores totales (0.00%)
Columna 'Is Timeline Work': 0 nulos de 484956 valores totales (0.00%)
Columna 'Is Public Domain': 0 nulos de 484956 valores totales (0.00%)
Columna 'AccessionYear': 3862 nulos de 484956 valores totales (0.80%)
Columna 'Object Name': 2266 nulos de 484956 valores totales (0.47%)
Columna 'Title': 28803 nulos de 484956 valores totales (5.94%)
Columna 'Culture': 276766 nulos de 484956 valores totales (57.07%)
Columna 'Period': 393813 nulos de 484956 valores totales (81.21%)
Columna 'Artist Display Name': 202443 nulos de 484956 valores totales (41.74%)
Columna 'Object Date': 13431 nulos de 484956 valores totales (2.77%)
Columna 'Medium': 7215 nulos de 484956 valores totales (1.49%)
Columna 'Dimensions': 75058 nulos de 484956 valores totales (15.48%)
Columna 'Credit Line': 651 nulos de 484956 valores totales (0.13%)
Columna 'Country': 408949 nulos de 484956 valores totales (84.33%)


Como se puede comprobar, el dataset que queda después de quitar las columnas innecesarias tiene una gran cantidad de nulos y, además, en algunas columnas sería conveniente realizar algún tratamiento para trabajar mejor con ellas.

In [10]:
# Hacer una copia del dataset para seguir trabajando
data_cleaned_2 = data_cleaned.copy()

In [11]:
# Filtrar los valores que contienen "Antes de Cristo (B.C)" en la columna "Object Date"
valores_con_ac = data_cleaned_2[data_cleaned_2['Object Date'].str.contains('B.C', case = False, na = False)]
valores_con_ac

Unnamed: 0,Is Highlight,Is Timeline Work,Is Public Domain,AccessionYear,Object Name,Title,Culture,Period,Artist Display Name,Object Date,Medium,Dimensions,Credit Line,Country
21640,False,False,True,1914.0,Closed burgonet,Closed Burgonet,French,,,"ca. 1630; bottom front and back collar lames, ...","Steel, leather, gold",H. 16 1/4 in. (41.3 cm); W. 10 1/2 in. (26.67 ...,"Gift of William H. Riggs, 1913",
36725,False,False,True,1927.0,Disc,商 牙璧|Notched disc,China,Shang (ca. 1600–1046 B.C.) or Western Zhou (10...,,13th–11th century B.C,Jade (nephrite),Diam. 6 1/8 in. (15.6 cm),"Rogers Fund, 1927",
52810,False,False,True,1923.0,Food container,商 青铜盂|Food container (yu)\t,China,Shang dynasty (ca. 1600–1046 B.C.),,12th–11th century B.C,Bronze,H. 14 1/2 in. (36.8 cm); Diam. 17 in. (43.2 cm...,"Gift of George H. Kent, 1923",
52936,False,False,True,1949.0,Finial,公元前3至2世纪 青銅驭手端飾|Finial in shape of a horse and...,China or Southeast Asia,Eastern Zhou dynasty (770–256 B.C.),,3rd–2nd century B.C,Bronze,H. 3 1/2 in. (8.9 cm); L. 3 1/2 in. (8.9 cm),"Gift of Mrs. John Marriott, Mrs. John Barry Ry...",
104615,False,True,True,1917,Pendant,Prudence,"French, Paris",,Etienne Delaune,"ca. 1550–60, back: 19th century","Chalcedony, mounted in gold with enamel, rubie...","Overall, with pendant pearl, without bail: 3 3...","Gift of J. Pierpont Morgan, 1917",
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
477258,False,False,False,1900,"Coffin, Tasheritmin, child mummy","Mummy of Tasheritmin, with cartonnage elements",,Ptolemaic Period,,306–30 B.C.,"Human remains, linen, mummification material",L. 113.5 cm (44 11/16 in.),"Gift of W. Ruloff Kip, 1900",Egypt
477273,False,False,True,1920,"Coffin, Lady Nefer, mummy",Mummy of the Lady Nefer,,Ptolemaic Period,,4rd century B.C. or later,Human remains,,"Gift of John W. Baxter, 1920",Egypt
478582,False,False,True,2022,Figure of a rearing cobra with feline head,Figure of a rearing cobra with feline head,,Late Period – Ptolemaic Period,,664–30 B.C.,Bronze or cupreous alloy,Cobra: 7 cm (2 3/4 in.); Tangs: 4 cm (1 9/16 in.),Gift of Adina Lei Savin in honor of Dr. Willia...,Egypt
481014,False,False,False,1933,"Relief, Burial chamber of User",Burial chamber of User,,Middle Kingdom,,ca. 1950–1750 B.C.,"Limestone, paint",,"Rogers Fund, 1933",Egypt


In [12]:
# Transformar las columnas "AccessionYear" y "Object Date"
def extract_year(date):
    if pd.isnull(date):
        return date
    date_str = str(date)
    if 'B.C' in date_str:
        match = re.search(r'\b\d{1,4}\b B.C', date_str)
        if match:
            año = match.group(0).split()[0]
            return '-' + año
    else:
        match = re.search(r'\b\d{1,4}\b', date_str)
        if match:
            return match.group(0)
    return None

data_cleaned_2['AccessionYear'] = data_cleaned_2['AccessionYear'].apply(extract_year).astype('Int64')
data_cleaned_2['Object Date'] = data_cleaned_2['Object Date'].apply(extract_year).astype('Int64')

In [13]:
# Reemplazar "Dimensions unavailable" por NaN
data_cleaned_2['Dimensions'] = data_cleaned_2['Dimensions'].replace('Dimensions unavailable', np.nan)

In [14]:
# Normalizar el texto de las columnas
columns_to_clean = ['Object Name', 'Title', 'Culture', 'Period', 'Artist Display Name', 'Medium', 'Dimensions', 'Credit Line', 'Country']

for column in columns_to_clean:
    data_cleaned_2[column] = data_cleaned_2[column].str.strip().str.lower()

In [15]:
# Eliminar duplicados
data_cleaned_2.drop_duplicates(inplace = True)

In [16]:
data_cleaned_2.head()

Unnamed: 0,Is Highlight,Is Timeline Work,Is Public Domain,AccessionYear,Object Name,Title,Culture,Period,Artist Display Name,Object Date,Medium,Dimensions,Credit Line,Country
0,False,False,False,1979,coin,one-dollar liberty head coin,,,james barton longacre,1853,gold,,"gift of heinz l. stoppelmann, 1979",
1,False,False,False,1980,coin,ten-dollar liberty head coin,,,christian gobrecht,1901,gold,,"gift of heinz l. stoppelmann, 1980",
2,False,False,False,1967,coin,two-and-a-half dollar coin,,,,1909,gold,diam. 11/16 in. (1.7 cm),"gift of c. ruxton love jr., 1967",
9,False,False,False,1979,coin,two-and-a-half-dollar indian head coin,,,bela lyon pratt,1912,gold,,"gift of heinz l. stoppelmann, 1979",
10,False,False,False,1979,coin,two-and-a-half-dollar liberty head coin,,,christian gobrecht,1907,gold,,"gift of heinz l. stoppelmann, 1979",


In [17]:
data_cleaned_2.info()

<class 'pandas.core.frame.DataFrame'>
Index: 430721 entries, 0 to 484955
Data columns (total 14 columns):
 #   Column               Non-Null Count   Dtype 
---  ------               --------------   ----- 
 0   Is Highlight         430721 non-null  bool  
 1   Is Timeline Work     430721 non-null  bool  
 2   Is Public Domain     430721 non-null  bool  
 3   AccessionYear        427352 non-null  Int64 
 4   Object Name          428871 non-null  object
 5   Title                405615 non-null  object
 6   Culture              176933 non-null  object
 7   Period               67883 non-null   object
 8   Artist Display Name  264363 non-null  object
 9   Object Date          288698 non-null  Int64 
 10  Medium               424594 non-null  object
 11  Dimensions           382688 non-null  object
 12  Credit Line          430100 non-null  object
 13  Country              64747 non-null   object
dtypes: Int64(2), bool(3), object(9)
memory usage: 41.5+ MB


In [18]:
columns_to_check = [
    'Is Highlight', 'Is Timeline Work', 'Is Public Domain', 'AccessionYear',
    'Object Name', 'Title', 'Culture', 'Period', 'Artist Display Name',
    'Object Date', 'Medium', 'Dimensions', 'Credit Line', 'Country'
]

for column in columns_to_check:
    total_values = data_cleaned_2.shape[0]
    null_count = data_cleaned_2[column].isnull().sum()
    print(f"Columna '{column}': {null_count} nulos de {total_values} valores totales ({null_count / total_values:.2%})")

Columna 'Is Highlight': 0 nulos de 430721 valores totales (0.00%)
Columna 'Is Timeline Work': 0 nulos de 430721 valores totales (0.00%)
Columna 'Is Public Domain': 0 nulos de 430721 valores totales (0.00%)
Columna 'AccessionYear': 3369 nulos de 430721 valores totales (0.78%)
Columna 'Object Name': 1850 nulos de 430721 valores totales (0.43%)
Columna 'Title': 25106 nulos de 430721 valores totales (5.83%)
Columna 'Culture': 253788 nulos de 430721 valores totales (58.92%)
Columna 'Period': 362838 nulos de 430721 valores totales (84.24%)
Columna 'Artist Display Name': 166358 nulos de 430721 valores totales (38.62%)
Columna 'Object Date': 142023 nulos de 430721 valores totales (32.97%)
Columna 'Medium': 6127 nulos de 430721 valores totales (1.42%)
Columna 'Dimensions': 48033 nulos de 430721 valores totales (11.15%)
Columna 'Credit Line': 621 nulos de 430721 valores totales (0.14%)
Columna 'Country': 365974 nulos de 430721 valores totales (84.97%)


Aun habiendo transformado las fechas, normalizado los textos y eliminado los valores duplicados tras todo lo anterior, algunas columnas siguen teniendo un alto porcentaje de valores nulos.  
Por lo tanto, se procederá a eliminar las filas con un alto porcentaje de nulos, ya que no serían consistentes para el trabajo, y posteriormente renombraremos los valores nulos para poder trabajar con el dataset en pasos posteriores.

In [19]:
data_cleaned_3 = data_cleaned_2.copy()

In [20]:
# Calcular el porcentaje de nulos por fila
null_percentaje = data_cleaned_3.isnull().mean(axis = 1)

print("Filas con más de un 30% de nulos:", sum(null_percentaje > 0.3))
print("Filas con más de un 40% de nulos:", sum(null_percentaje > 0.4))
print("Filas con más de un 50% de nulos:", sum(null_percentaje > 0.5))
print("Filas con más de un 60% de nulos:", sum(null_percentaje > 0.6))

Filas con más de un 30% de nulos: 23221
Filas con más de un 40% de nulos: 1768
Filas con más de un 50% de nulos: 33
Filas con más de un 60% de nulos: 9


In [21]:
# Eliminar filas con más del 30% de valores nulos
data_cleaned_3 = data_cleaned_3[null_percentaje <= 0.3]

In [22]:
# Reemplazar los valores nulos por "unknown" en las columnas de texto y "0" en las columnas numéricas
num_cols = data_cleaned_3.select_dtypes(include = ['number']).columns
text_cols = data_cleaned_3.select_dtypes(include = ['object']).columns

data_cleaned_3[text_cols] = data_cleaned_3[text_cols].fillna('unknown')

data_cleaned_3[num_cols] = data_cleaned_3[num_cols].fillna(0)

In [23]:
# Renombrar y ordenar columnas
data_cleaned_3 = data_cleaned_3.rename(columns = {'Is Highlight' : 'Is Highlight',
                                                 'Is Timeline Work' : 'Is Timeline Work',
                                                 'Is Public Domain' : 'Is Public Domain',
                                                 'Title' : 'Title',
                                                 'Artist Display Name' : 'Artist',
                                                 'Object Date' : 'Date',
                                                 'Culture' : 'Culture',
                                                 'Period' : 'Period',
                                                 'Object Name' : 'Object Name',
                                                 'Medium' : 'Medium',
                                                 'Dimensions' : 'Dimensions',
                                                 'Country' : 'Country',
                                                 'AccessionYear' : 'Acquisition Year',
                                                 'Credit Line' : 'Credit Line'})

new_order = ['Is Highlight', 'Is Timeline Work', 'Is Public Domain', 'Title', 'Artist', 'Date', 'Culture',
               'Period', 'Object Name', 'Medium', 'Dimensions', 'Country', 'Acquisition Year', 'Credit Line']
data_cleaned_3 = data_cleaned_3[new_order]

In [24]:
data_cleaned_3.head()

Unnamed: 0,Is Highlight,Is Timeline Work,Is Public Domain,Title,Artist,Date,Culture,Period,Object Name,Medium,Dimensions,Country,Acquisition Year,Credit Line
0,False,False,False,one-dollar liberty head coin,james barton longacre,1853,unknown,unknown,coin,gold,unknown,unknown,1979,"gift of heinz l. stoppelmann, 1979"
1,False,False,False,ten-dollar liberty head coin,christian gobrecht,1901,unknown,unknown,coin,gold,unknown,unknown,1980,"gift of heinz l. stoppelmann, 1980"
2,False,False,False,two-and-a-half dollar coin,unknown,1909,unknown,unknown,coin,gold,diam. 11/16 in. (1.7 cm),unknown,1967,"gift of c. ruxton love jr., 1967"
9,False,False,False,two-and-a-half-dollar indian head coin,bela lyon pratt,1912,unknown,unknown,coin,gold,unknown,unknown,1979,"gift of heinz l. stoppelmann, 1979"
10,False,False,False,two-and-a-half-dollar liberty head coin,christian gobrecht,1907,unknown,unknown,coin,gold,unknown,unknown,1979,"gift of heinz l. stoppelmann, 1979"


In [25]:
data_cleaned_3.info()

<class 'pandas.core.frame.DataFrame'>
Index: 407500 entries, 0 to 484955
Data columns (total 14 columns):
 #   Column            Non-Null Count   Dtype 
---  ------            --------------   ----- 
 0   Is Highlight      407500 non-null  bool  
 1   Is Timeline Work  407500 non-null  bool  
 2   Is Public Domain  407500 non-null  bool  
 3   Title             407500 non-null  object
 4   Artist            407500 non-null  object
 5   Date              407500 non-null  Int64 
 6   Culture           407500 non-null  object
 7   Period            407500 non-null  object
 8   Object Name       407500 non-null  object
 9   Medium            407500 non-null  object
 10  Dimensions        407500 non-null  object
 11  Country           407500 non-null  object
 12  Acquisition Year  407500 non-null  Int64 
 13  Credit Line       407500 non-null  object
dtypes: Int64(2), bool(3), object(9)
memory usage: 39.3+ MB


Finalmente, quedaría un dataset con las columnas más relevantes para el trabajo, todas ellas normalizadas para el posterior trabajo y con los valores nulos imputados por el término "unknown".  
También se han eliminado todas las filas que contenían más de un 30% de valores nulos, ya que tratándose de arte, y sabiendo que las tres primeras columnas no tenían nulos desde el primer momento, no tiene sentido trabajar con ese objeto, ya que no tiene ninguna referencia de peso (nombre del artista, periodo, título, etc.).

In [26]:
# Guardar el dataset limpio en un nuevo archivo CSV
data_cleaned_3.to_csv(os.path.join(os.getcwd(), '..', 'data', 'MET_Limpio.csv'), index = False)