# Picasso

In [1]:
import pandas as pd

## Loading data

In [2]:
picasso_df = pd.read_excel('data/src/Picasso_2000-2018.xlsx')
picasso_df.fillna('', inplace=True)

In [3]:
picasso_df.shape

(10379, 26)

In [4]:
picasso_df.head()

Unnamed: 0,ID,post_type,post_title,place_t,place_r,place_c,start_y,start_m,start_d,end_y,...,xplace_t,xplace_r,xplace_c,xstart_y,xstart_m,xstart_d,xend_y,xend_m,xend_d,xgender
0,108998,exposición,"""European Masterworks. Paintings from the Coll...",Nashville,Tennessee,Estados Unidos,2001,4,8,2001,...,Francia,Francia,Francia,1840,11,14,1926,12,5,Masculino
1,108998,exposición,"""European Masterworks. Paintings from the Coll...",Nashville,Tennessee,Estados Unidos,2001,4,8,2001,...,Francia,Francia,Francia,1834,7,19,1917,9,27,Masculino
2,108998,exposición,"""European Masterworks. Paintings from the Coll...",Nashville,Tennessee,Estados Unidos,2001,4,8,2001,...,Italia,Italia,Italia,1519,1,1,1594,5,31,Masculino
3,108998,exposición,"""European Masterworks. Paintings from the Coll...",Nashville,Tennessee,Estados Unidos,2001,4,8,2001,...,España,España,España,1881,10,25,1973,4,8,Masculino
4,108998,exposición,"""European Masterworks. Paintings from the Coll...",Nashville,Tennessee,Estados Unidos,2001,4,8,2001,...,Holanda,Holanda,Holanda,1606,7,15,1669,10,4,Masculino


## Exploring data

### Unique values for each column

In [5]:
for c in picasso_df.columns:
    n = picasso_df[c].nunique()
    print(c, n)
    if n < 10:
        print(picasso_df[c].unique())

ID 1143
post_type 1
['exposición']
post_title 944
place_t 295
place_r 159
place_c 45
start_y 19
start_m 12
start_d 31
end_y 21
end_m 13
end_d 32
xkey 8
['actor que participa como artista' 'coleccionista prestatario de obras'
 'entidad organizadora' 'fuente de información' 'actor comisario'
 'catálogo' 'entidad patrocinadora' 'exposición de la que depende']
xid 3213
xpost_type 5
['actor' 'entidad' '' 'catálogo' 'exposición']
xpost_title 3198
xplace_t 357
xplace_r 219
xplace_c 82
xstart_y 305
xstart_m 14
xstart_d 33
xend_y 257
xend_m 14
xend_d 33
xgender 4
['Masculino' '' 'Femenino' 'No declarado']


### Same values for 'xplace_t', 'xplace_r', and 'xplace_c'

In [10]:
a = b = c = 0
for i, row in picasso_df.drop_duplicates('ID')[['place_t' ,'place_r' ,'place_c']].iterrows():
    if row['place_t'] == row['place_r'] == row['place_c']:
        a += 1
    else:
        b += 1
    c += 1

In [11]:
a

0

In [12]:
b

1143

In [13]:
c

1143

In [14]:
a = b = c = 0
for i, row in picasso_df.drop_duplicates('xid')[['xpost_type', 'xplace_t' ,'xplace_r' ,'xplace_c']].iterrows():
    if row['xplace_t'] == row['xplace_r'] == row['xplace_c']:
        a += 1
    else:
        b += 1
    c += 1

In [15]:
a

2577

In [16]:
b

636

In [17]:
c

3213

### Values for 'xpost_type'

In [6]:
picasso_df[['xkey', 'xpost_type']].drop_duplicates().sort_values('xkey')

Unnamed: 0,xkey,xpost_type
61,actor comisario,actor
0,actor que participa como artista,actor
12,actor que participa como artista,
101,catálogo,catálogo
5,coleccionista prestatario de obras,entidad
238,coleccionista prestatario de obras,
658,coleccionista prestatario de obras,actor
6,entidad organizadora,entidad
1317,entidad organizadora,
194,entidad patrocinadora,entidad


In [7]:
len(picasso_df[(picasso_df.xkey == 'coleccionista prestatario de obras') & (picasso_df.xpost_type == '')])

2

In [8]:
len(picasso_df[(picasso_df.xkey == 'coleccionista prestatario de obras') & (picasso_df.xpost_type == 'actor')])

33

In [9]:
len(picasso_df[(picasso_df.xkey == 'coleccionista prestatario de obras') & (picasso_df.xpost_type == 'entidad')])

246

## Completing 'xpost_type'

In [18]:
for i, row in picasso_df[picasso_df.xpost_type == ''].iterrows():
    if row.xkey == 'actor que participa como artista':
        picasso_df.loc[i, 'xpost_type'] = 'actor'
    elif row.xkey == 'coleccionista prestatario de obras':
        picasso_df.loc[i, 'xpost_type'] = 'entidad'
    elif row.xkey == 'entidad organizadora':
        picasso_df.loc[i, 'xpost_type'] = 'entidad'
    elif row.xkey == 'exposición de la que depende':
        picasso_df.loc[i, 'xpost_type'] = 'exposición'
    elif row.xkey == 'fuente de información':
        picasso_df.loc[i, 'xpost_type'] = 'entidad'

In [19]:
picasso_df[['xkey', 'xpost_type']].drop_duplicates().sort_values('xkey')

Unnamed: 0,xkey,xpost_type
61,actor comisario,actor
0,actor que participa como artista,actor
101,catálogo,catálogo
5,coleccionista prestatario de obras,entidad
658,coleccionista prestatario de obras,actor
6,entidad organizadora,entidad
194,entidad patrocinadora,entidad
207,exposición de la que depende,exposición
8,fuente de información,entidad


## Stats

In [20]:
picasso_df.xkey.value_counts()

actor que participa como artista      6985
entidad organizadora                  1220
fuente de información                  872
actor comisario                        754
coleccionista prestatario de obras     281
exposición de la que depende           153
entidad patrocinadora                   66
catálogo                                48
Name: xkey, dtype: int64

In [21]:
picasso_df.drop_duplicates('xid').xpost_type.value_counts()

actor         2569
entidad        500
exposición      97
catálogo        47
Name: xpost_type, dtype: int64

In [24]:
a = b = c = 0
exhibition_ids = picasso_df.ID.unique()
for x in picasso_df[picasso_df.xpost_type == 'exposición'].xid.unique():
    if x in exhibition_ids:
        a += 1
    else:
        b += 1
    c += 1

In [25]:
a

93

In [26]:
b

4

In [27]:
c

97

## Saving data

In [23]:
picasso_df.to_csv('data/out/picasso.csv', index=False)