## Carga datos: csv

In [49]:
import pandas as pd

df = pd.read_csv('artists.csv')

## Limpieza

In [50]:
# Columnas no necesarias
df = df.drop(columns=['bio','wikipedia'])

In [51]:
# Quitamos un único autor para el estilo bizantino (demasiado aislado y poca muestra)
df = df.drop(df[df['name'] == 'Andrei Rublev'].index)
df = df.drop(df[df['name'] == 'Albrecht Dürer'].index)
df = df.reset_index(drop=True)

## Mapeo de artistas en movimientos

In [52]:
# Agrupación más conveniente para los análisis, grupos más generales
artist_to_movement = {
    "Giotto di Bondone": "Renacimiento",
    "Sandro Botticelli": "Renacimiento",
    "Hieronymus Bosch": "Renacimiento",
    "Albrecht Dürer": "Renacimiento",
    "Pieter Bruegel": "Renacimiento",
    "Jan van Eyck": "Renacimiento",
    "Leonardo da Vinci": "Renacimiento",
    "Raphael": "Renacimiento",
    "Michelangelo": "Renacimiento",
    "Titian": "Renacimiento",
    "El Greco": "Renacimiento",

    "Peter Paul Rubens": "Barroco",
    "Caravaggio": "Barroco",
    "Diego Velazquez": "Barroco",
    "Rembrandt": "Barroco",

    "Francisco Goya": "Romanticismo y Realismo",
    "William Turner": "Romanticismo y Realismo",
    "Eugene Delacroix": "Romanticismo y Realismo",
    "Gustave Courbet": "Romanticismo y Realismo",

    "Claude Monet": "Impresionismo",
    "Edouard Manet": "Impresionismo",
    "Pierre-Auguste Renoir": "Impresionismo",
    "Alfred Sisley": "Impresionismo",
    "Edgar Degas": "Impresionismo",
    "Camille Pissarro": "Impresionismo",

    "Vincent van Gogh": "Post-impresionismo",
    "Henri de Toulouse-Lautrec": "Post-impresionismo",
    "Paul Cezanne": "Post-impresionismo",
    "Georges Seurat": "Post-impresionismo",
    "Paul Gauguin": "Post-impresionismo",

    "Amedeo Modigliani": "Vanguardias",
    "Vasiliy Kandinskiy": "Vanguardias",
    "Diego Rivera": "Vanguardias",
    "Rene Magritte": "Vanguardias",
    "Salvador Dali": "Vanguardias",
    "Gustav Klimt": "Vanguardias",
    "Kazimir Malevich": "Vanguardias",
    "Mikhail Vrubel": "Vanguardias",
    "Pablo Picasso": "Vanguardias",
    "Frida Kahlo": "Vanguardias",
    "Marc Chagall": "Vanguardias",
    "Henri Matisse": "Vanguardias",
    "Edvard Munch": "Vanguardias",
    "Henri Rousseau": "Vanguardias",
    "Paul Klee": "Vanguardias",
    "Piet Mondrian": "Vanguardias",
    "Joan Miro": "Vanguardias",
    "Jackson Pollock": "Vanguardias",
    "Andy Warhol": "Vanguardias"
}

df['movement'] = df['name'].map(artist_to_movement)

In [53]:
# Añadimos subestilos de las Vanguardias, para afinar análisis en caso necesario
sub_style_map = {

    "Vasiliy Kandinskiy": "Abstracción Geométrica",
    "Kazimir Malevich": "Abstracción Geométrica",
    "Piet Mondrian": "Abstracción Geométrica",
    "Paul Klee": "Abstracción Geométrica",
    
    "Rene Magritte": "Surrealismo",
    "Salvador Dali": "Surrealismo",
    "Joan Miro": "Surrealismo",
    "Marc Chagall": "Surrealismo",
    "Frida Kahlo": "Surrealismo", 
    
    "Edvard Munch": "Expresionismo",
    "Amedeo Modigliani": "Expresionismo",

    "Mikhail Vrubel": "Simbolismo",
    "Gustav Klimt": "Simbolismo",
    
    "Pablo Picasso": "Cubismo",
    "Henri Matisse": "Fauvismo",
    "Jackson Pollock": "Expresionismo Abstracto",
    "Andy Warhol": "Pop Art",
    
    "Diego Rivera": "Otras Vanguardias",
    "Henri Rousseau": "Otras Vanguardias"
}

# Si el artista está en el mapa, pone el subestilo. Si no, repite el movimiento general
df['sub_estilo'] = df['name'].map(sub_style_map).fillna(df['movement'])

In [54]:
df = df.drop(columns=['genre'])

In [55]:
# Separar los años de nacimiento/muerte en dos columnas

nacimiento_muerte = df['years'].str.split(expand=True)

df['year_born'] = pd.to_numeric(nacimiento_muerte[0])
df['year_died'] = pd.to_numeric(nacimiento_muerte[2])

df.drop(columns=('years'), inplace=True)

In [56]:
# Reordenar cols
df = df[['id', 'name', 'year_born', 'year_died', 'nationality', 'paintings', 'movement', 'sub_estilo']]

In [57]:
df = df.sort_values('year_born').reset_index(drop=True)

df.to_csv('artists_limpio.csv', index=False, encoding='utf-8')