In [1]:
from fdh_gallica import Periodical, Search, Document
from fdh_gallica.parallel_process import iiif_urls_for_documents

from tqdm.autonotebook import tqdm

import json
import pandas as pd
from pandas.io.json import json_normalize



get all images with relevant query

In [2]:
re_execute = False
if re_execute:
    obj = Search(all_fields='atelier Nadar', dc_type='image', dc_creator='Atelier Nadar')
    obj.execute()
    print(f'number of fetched documents: {len(obj.documents)}')
    print(f'total records {obj.total_records}')
    print('retry fetching ...')
    obj.retry()
    print(f'number of fetched documents: {len(obj.documents)}')

    df = json_normalize(json.loads(json.dumps(obj.records)))
    print('save documents to local')
    # list handling becomes a pain of we save as csv
    df.to_pickle('raw_df.pkl')

In [3]:
df = pd.read_pickle('raw_df.pkl')

parse identifier for easier access:

In [4]:
image_dataframe = pd.DataFrame(df['dc:identifier']\
                               .map(lambda x: x[0] if type(x) == list else x))\
                               .rename(columns={'dc:identifier':'identifier'})

df['id'] = image_dataframe

In [5]:
df.head()

Unnamed: 0,dc:creator,dc:date,dc:description,dc:format,dc:identifier,dc:language,dc:publisher,dc:relation,dc:rights,dc:source,dc:subject,dc:title,dc:type,id
0,Atelier Nadar. Photographe,1875-1895,,[1 photogr. pos. sur papier albuminé : d'après...,[https://gallica.bnf.fr/ark:/12148/btv1b531634...,"[fre, français]",,[Extrait de : [Album de référence de l'Atelier...,"[domaine public, public domain]","Bibliothèque nationale de France, département ...",Portraits du théâtre -- 19e siècle,"Holda. Eldorado : [photographie, tirage de dém...","[image fixe, image, still image, photographie,...",https://gallica.bnf.fr/ark:/12148/btv1b53163492h
1,Atelier Nadar. Photographe,1875-1895,,[1 photogr. pos. sur papier albuminé : d'après...,[https://gallica.bnf.fr/ark:/12148/btv1b531634...,"[fre, français]",,[Extrait de : [Album de référence de l'Atelier...,"[domaine public, public domain]","Bibliothèque nationale de France, département ...",Portraits du théâtre -- 19e siècle,"Supra. Opéra : [photographie, tirage de démons...","[image fixe, image, still image, photographie,...",https://gallica.bnf.fr/ark:/12148/btv1b531634912
2,Atelier Nadar. Photographe,1875-1895,,[1 photogr. pos. sur papier albuminé : d'après...,[https://gallica.bnf.fr/ark:/12148/btv1b531638...,"[fre, français]",,[Extrait de : [Album de référence de l'Atelier...,"[domaine public, public domain]","Bibliothèque nationale de France, département ...",Portraits de studio -- 19e siècle,"Bébé Ullmann : [photographie, tirage de démons...","[image fixe, image, still image, photographie,...",https://gallica.bnf.fr/ark:/12148/btv1b531638493
3,Atelier Nadar. Photographe,1875-1895,,[1 photogr. pos. sur papier albuminé : d'après...,[https://gallica.bnf.fr/ark:/12148/btv1b531649...,"[fre, français]",,[Extrait de : [Album de référence de l'Atelier...,"[domaine public, public domain]","Bibliothèque nationale de France, département ...",Portraits collectifs -- 19e siècle,"Groupe de paysannes : [photographie, tirage de...","[image fixe, image, still image, photographie,...",https://gallica.bnf.fr/ark:/12148/btv1b53164917p
4,Atelier Nadar. Photographe,1875-1895,,[1 photogr. pos. sur papier albuminé : d'après...,[https://gallica.bnf.fr/ark:/12148/btv1b531688...,"[fre, français]",,[Extrait de : [Album de référence de l'Atelier...,"[domaine public, public domain]","Bibliothèque nationale de France, département ...",Portraits du théâtre -- 19e siècle,"Me Debaude : [photographie, tirage de démonstr...","[image fixe, image, still image, photographie,...",https://gallica.bnf.fr/ark:/12148/btv1b531688758


### useless dataframes

remove them for ease of use, next ones contain all the same content

In [6]:
df['dc:rights'].value_counts()

[domaine public, public domain]    23550
Name: dc:rights, dtype: int64

In [7]:
df['dc:type'].value_counts()

[image fixe, image, still image, photographie, photograph]    23550
Name: dc:type, dtype: int64

In [8]:
df['dc:language'].value_counts()

[fre, français]              23545
Sans contenu linguistique        5
Name: dc:language, dtype: int64

In [9]:
df['dc:format'].head()

0    [1 photogr. pos. sur papier albuminé : d'après...
1    [1 photogr. pos. sur papier albuminé : d'après...
2    [1 photogr. pos. sur papier albuminé : d'après...
3    [1 photogr. pos. sur papier albuminé : d'après...
4    [1 photogr. pos. sur papier albuminé : d'après...
Name: dc:format, dtype: object

In [10]:
df['dc:identifier'].head()

0    [https://gallica.bnf.fr/ark:/12148/btv1b531634...
1    [https://gallica.bnf.fr/ark:/12148/btv1b531634...
2    [https://gallica.bnf.fr/ark:/12148/btv1b531638...
3    [https://gallica.bnf.fr/ark:/12148/btv1b531649...
4    [https://gallica.bnf.fr/ark:/12148/btv1b531688...
Name: dc:identifier, dtype: object

In [11]:
df['dc:publisher'].value_counts()

(Paris)          1
Nadar (Paris)    1
Name: dc:publisher, dtype: int64

### removing them

In [12]:
del df['dc:type']
del df['dc:language']
del df['dc:format']
del df['dc:identifier']
del df['dc:rights']
del df['dc:publisher']

# getting information about subjects

In [13]:
#some objects are stored as list, others arent, use if else to handle
df['subject_is_list'] = df['dc:subject'].map(lambda x: type(x) == list)

In [14]:
df['len_list'] = df[df.subject_is_list]['dc:subject'].map(len)

length is non uniform ... we will have to unnest

In [15]:
df.len_list.value_counts()

2.0    12847
3.0      748
4.0      239
5.0      233
6.0       10
7.0        9
Name: len_list, dtype: int64

In [16]:
df[df.subject_is_list]['dc:subject'].map(lambda x: x).value_counts().head()

[Bernhardt, Sarah (1844-1923) -- Portraits, Portraits du théâtre -- 19e siècle]          266
[Réjane (1856-1920) -- Portraits, Portraits du théâtre -- 19e siècle]                    118
[Théo, Louise (1854-1922) -- Portraits, Portraits du théâtre -- 19e siècle]              110
[Simon-Girard, Juliette (1859-1959) -- Portraits, Portraits du théâtre -- 19e siècle]     84
[Lantelme, Marie -- Portraits, Portraits du théâtre -- 19e siècle]                        83
Name: dc:subject, dtype: int64

unnest list to get better view

In [17]:
to_unnest = df[df.subject_is_list]['dc:subject'].tolist()
to_unnest = df[df.subject_is_list][['dc:subject', 'id']].apply(lambda x: (x['dc:subject'], x.id), axis=1).tolist()
unnested = [(i, id_) for (list_, id_) in to_unnest for i in list_]

we will also need to use the title ...

In [18]:
df[~df.subject_is_list][['dc:subject', 'id', 'dc:title']].head()

Unnamed: 0,dc:subject,id,dc:title
0,Portraits du théâtre -- 19e siècle,https://gallica.bnf.fr/ark:/12148/btv1b53163492h,"Holda. Eldorado : [photographie, tirage de dém..."
1,Portraits du théâtre -- 19e siècle,https://gallica.bnf.fr/ark:/12148/btv1b531634912,"Supra. Opéra : [photographie, tirage de démons..."
2,Portraits de studio -- 19e siècle,https://gallica.bnf.fr/ark:/12148/btv1b531638493,"Bébé Ullmann : [photographie, tirage de démons..."
3,Portraits collectifs -- 19e siècle,https://gallica.bnf.fr/ark:/12148/btv1b53164917p,"Groupe de paysannes : [photographie, tirage de..."
4,Portraits du théâtre -- 19e siècle,https://gallica.bnf.fr/ark:/12148/btv1b531688758,"Me Debaude : [photographie, tirage de démonstr..."


In [19]:
to_append = df[~df.subject_is_list][['dc:subject', 'id']].rename(columns={'dc:subject':'descriptor'})

In [20]:
unnested.__len__()

30182

In [21]:
subject_frame = pd.DataFrame(unnested, columns=['descriptor', 'id'])

In [22]:
subject_frame = pd.concat([subject_frame, to_append], sort=False)

In [23]:
subject_frame.count()

descriptor    39646
id            39646
dtype: int64

associate each descriptior of one object (given by id)

In [24]:
subject_frame.head()

Unnamed: 0,descriptor,id
0,"Auguez, Mathilde (1868-1955) -- Portraits",https://gallica.bnf.fr/ark:/12148/btv1b53168872x
1,Portraits de studio -- 19e siècle,https://gallica.bnf.fr/ark:/12148/btv1b53168872x
2,"Auguez, Mathilde (1868-1955) -- Portraits",https://gallica.bnf.fr/ark:/12148/btv1b531688701
3,Portraits de studio -- 19e siècle,https://gallica.bnf.fr/ark:/12148/btv1b531688701
4,"Bruant, Aristide (1851-1925) -- Portraits",https://gallica.bnf.fr/ark:/12148/btv1b53171770j


do some keyword searching

In [25]:
subject_frame['19e'] = subject_frame.descriptor.map(lambda x: x[-len('-- 19e siècle'):] == '-- 19e siècle')
subject_frame['Portraits'] = subject_frame.descriptor.map(lambda x: 'portraits' in x.lower())

In [26]:
is_19e = subject_frame[subject_frame['19e']].id.unique()

In [27]:
subject_frame[subject_frame.Portraits].id.unique().__len__()

23254

In [28]:
portrait_ids = subject_frame[subject_frame.Portraits].id.unique()

dessin humoristiques & caricatures seams important

In [29]:
subject_frame[~subject_frame.id.isin(portrait_ids)].head()

Unnamed: 0,descriptor,id,19e,Portraits
98,"Offenbach, Jacques (1819-1880) -- Caricatures ...",https://gallica.bnf.fr/ark:/12148/btv1b53065466g,False,False
99,Caricatures et dessins humoristiques -- 19e si...,https://gallica.bnf.fr/ark:/12148/btv1b53065466g,True,False
186,Clairville (1811-1879) -- Caricatures et dessi...,https://gallica.bnf.fr/ark:/12148/btv1b53066427m,False,False
187,Caricatures et dessins humoristiques -- 19e si...,https://gallica.bnf.fr/ark:/12148/btv1b53066427m,True,False
194,"Crémieux, Adolphe (1796-1880) -- Caricatures e...",https://gallica.bnf.fr/ark:/12148/btv1b53065960p,False,False


we also get sculptures!

In [30]:
subject_frame[~subject_frame.id.isin(portrait_ids)].descriptor.value_counts().head()

Scènes théâtrales -- 19e siècle                        111
Sculpture de figures humaines                           57
Grévin, Alfred (1827-1892) -- Oeuvres -- Sculpture      53
Beer, Friedrich (1846-1912) -- Oeuvres -- Sculpture     53
Caricatures et dessins humoristiques -- 19e siècle      37
Name: descriptor, dtype: int64

In [31]:
subject_frame['caricature'] = subject_frame.descriptor.map(lambda x: 'Caricatures et dessins humoristiques' in x)

In [32]:
subject_frame[~subject_frame.id.isin(portrait_ids) & ~subject_frame.caricature].descriptor.value_counts().head()

Scènes théâtrales -- 19e siècle                        111
Sculpture de figures humaines                           57
Grévin, Alfred (1827-1892) -- Oeuvres -- Sculpture      53
Beer, Friedrich (1846-1912) -- Oeuvres -- Sculpture     53
Vues d'intérieur -- 19e siècle                          21
Name: descriptor, dtype: int64

## Extracting individual names:

In [33]:
import re

In [34]:
name = "Grévin, Alfred (1827-1892)"
name_2 = "Gobin (1982"
name_3 = 'Labounskaya, Marie -- Portraits'

In [35]:
def find_names(name):
    return re.findall('([\S]* [\S]*|[\S]*|[\S]*\, [\S]*[ \S*]+) \([\d]{2}', name)

def find_names_undated(name):
    return re.findall('([\S]*|[\S]*\, [\S]*[ \S*]+) -- Portraits', name)

In [36]:
find_names(name), find_names(name_2), find_names_undated(name_3)

(['Grévin, Alfred'], ['Gobin'], ['Labounskaya, Marie'])

In [37]:
subject_frame['subject_name'] = subject_frame.descriptor.map(find_names)

In [38]:
no_name = subject_frame.subject_name.map(len) == 0
subject_frame.loc[ no_name, 'subject_name'] = subject_frame[no_name].descriptor.map(find_names_undated)

In [39]:
no_name = subject_frame.subject_name.map(len) == 0

In [40]:
subject_frame[no_name]['descriptor'].drop_duplicates()

1                        Portraits de studio -- 19e siècle
9                       Portraits du théâtre -- 19e siècle
24                         Scènes théâtrales -- 19e siècle
45                              Cour et courtisans -- Iran
48                                 Portraits -- 19e siècle
53                                             Violonistes
64                                               Cyclistes
88                         Ambassadeurs japonais -- France
90                          Ambassadeurs chinois -- France
99       Caricatures et dessins humoristiques -- 19e si...
105                            Autoportraits -- 19e siècle
158                                                Ballons
182                    Portraits d'intérieur -- 19e siècle
244                                 Déguisements (costume)
262                                 Dessin -- Reproduction
263                         Vues d'intérieur -- 19e siècle
292                                                 Géan

In [41]:
named_subjects = subject_frame[subject_frame.subject_name.map(len) > 0].id.unique()

number of images we can find a name to:

In [42]:
len(named_subjects)

13400

In [43]:
subject_frame.loc[~no_name, 'named_subject'] = subject_frame[~no_name].subject_name.map(lambda x: x[0])

In [44]:
subject_frame.named_subject.value_counts().head()

Bernhardt, Sarah      424
Réjane                168
Théo, Louise          148
Mily-Meyer, Emilie    136
Brasseur, Albert      115
Name: named_subject, dtype: int64

number of names we have:

In [45]:
subject_frame.named_subject.value_counts().count()

1940

how many resources does that correspond to:

In [46]:
id_identified = subject_frame[subject_frame.named_subject.notna()].id.unique()

In [47]:
len(set(subject_frame.id.unique())) # nbr unique ids

23550

a lot of them don't tell us the name in the source, but it can be found in the title

In [48]:
len(set(subject_frame.id.unique()).difference(set(id_identified)))

10150

In [49]:
subject_frame[~subject_frame.id.isin(named_subjects)].descriptor.value_counts().head(10)

Portraits du théâtre -- 19e siècle    6130
Portraits de studio -- 19e siècle     2513
Portraits -- 19e siècle               1280
Scènes théâtrales -- 19e siècle        212
Portraits collectifs -- 19e siècle     208
Costumes -- 19e siècle                  79
Danseuses                               67
Lanvin (Maison de couture)              67
Enfants                                 55
Tournée Brasseur                        44
Name: descriptor, dtype: int64

In [50]:
subject_frame[~subject_frame.id.isin(portrait_ids) & ~subject_frame.id.isin(named_subjects)].descriptor.value_counts().head()

Scènes théâtrales -- 19e siècle                     111
Représentations d'objet -- 19e siècle                17
Représentations animalières -- 19e siècle            12
Tableaux vivants et mises en scène -- 19e siècle     10
Tournée Brasseur                                      8
Name: descriptor, dtype: int64

In [51]:
subject_frame[~subject_frame.id.isin(portrait_ids)].head()

Unnamed: 0,descriptor,id,19e,Portraits,caricature,subject_name,named_subject
98,"Offenbach, Jacques (1819-1880) -- Caricatures ...",https://gallica.bnf.fr/ark:/12148/btv1b53065466g,False,False,True,"[Offenbach, Jacques]","Offenbach, Jacques"
99,Caricatures et dessins humoristiques -- 19e si...,https://gallica.bnf.fr/ark:/12148/btv1b53065466g,True,False,True,[],
186,Clairville (1811-1879) -- Caricatures et dessi...,https://gallica.bnf.fr/ark:/12148/btv1b53066427m,False,False,True,[Clairville],Clairville
187,Caricatures et dessins humoristiques -- 19e si...,https://gallica.bnf.fr/ark:/12148/btv1b53066427m,True,False,True,[],
194,"Crémieux, Adolphe (1796-1880) -- Caricatures e...",https://gallica.bnf.fr/ark:/12148/btv1b53065960p,False,False,True,"[Crémieux, Adolphe]","Crémieux, Adolphe"


In [52]:
df['dc:title'].map(lambda x: len(x) if type(x) == list else 1).value_counts()

1    23518
2       32
Name: dc:title, dtype: int64

In [53]:
df['nbr_title'] = df['dc:title'].map(lambda x: len(x) if type(x) == list else 1)

In [54]:
df[df.nbr_title == 1]['dc:title'].sample(10).tolist()

['M. Fugère. [(Opéra-Comique). "Portrait de Manon"] : [photographie, tirage de démonstration] / [Atelier Nadar]',
 'Stella. [Nouveautés. Royaume de femmes] : [photographie, tirage de démonstration] / [Atelier Nadar]',
 'Devaux. Folies-Dramatiques. Paris en général : [photographie, tirage de démonstration] / [Atelier Nadar]',
 'Febvre, comédien : [photographie, tirage de démonstration] / [Atelier Nadar]',
 'M[lle] Parent : [photographie, tirage de démonstration] / [Atelier Nadar]',
 '[Baretti Marguerite]. Odéon. "Severo Torelli" : [photographie, tirage de démonstration] / [Atelier Nadar]',
 '[Mme Labounskaya. Gaîté. Les bicyclistes en voyage] : [photographie, tirage de démonstration] / [Atelier Nadar]',
 'Me Berthet : [photographie, tirage de démonstration] / [Atelier Nadar]',
 "Me Auguez. [Variétés. Les variétés de l'année] : [photographie, tirage de démonstration] / [Atelier Nadar]",
 'Mme Nordéa : [photographie, tirage de démonstration] / [Atelier Nadar]']

In [55]:
def find_names_title(name):
    return [x.strip() for x in re.findall('([\S\s ^(\:)]*) \: ', name) if len(x.strip()) > 0]

In [56]:
def extract_from_brackets(name):
    return re.findall('\[([\w \-\,\.]*)\]', name)

In [57]:
def fix_bad_naming(name):
    return re.sub('[\[\]]*', '', name)

In [58]:
text_1 = 'Huguet. Folies-Dramatiques. La petite fronde : [photographie, tirage de démonstration] / [Atelier Nadar]'

In [59]:
text_2 = 'Armand.[lol] Châtelet : [photographie :,'

In [60]:
fix_bad_naming(text_2)

'Armand.lol Châtelet : photographie :,'

In [61]:
extract_from_brackets(text_1)

['photographie, tirage de démonstration', 'Atelier Nadar']

In [62]:
df[df.nbr_title == 1]['dc:title'].map(extract_from_brackets).value_counts().head()

[photographie, tirage de démonstration, Atelier Nadar]                                           14929
[lle, photographie, tirage de démonstration, Atelier Nadar]                                       1008
[me, photographie, tirage de démonstration, Atelier Nadar]                                         110
[Renaissance. En scène, mesdemoiselles, photographie, tirage de démonstration, Atelier Nadar]       51
[i.e. Lantelme, photographie, tirage de démonstration, Atelier Nadar]                               45
Name: dc:title, dtype: int64

In [63]:
df.loc[df.nbr_title == 1, 'first_title'] = df[df.nbr_title == 1]['dc:title'].map(find_names_title)

In [64]:
df.first_title.dropna().map(len).value_counts()

1    23517
0        1
Name: first_title, dtype: int64

In [65]:
df[df.first_title.map(lambda x: len(x)==0 if type(x) ==list else False)]['dc:title'].tolist()

['[Gabrielle Figuet / [Atelier Nadar]']

In [66]:
df.loc[df.first_title.notna(), 'first_title'] = df[
    df.first_title.notna()].first_title.map(
    lambda x: fix_bad_naming(x[0]) if len(x)>0  else x)#.value_counts()

In [67]:
df.count()

dc:creator         23550
dc:date            23550
dc:description       180
dc:relation        23550
dc:source          23550
dc:subject         23550
dc:title           23550
id                 23550
subject_is_list    23550
len_list           14086
nbr_title          23550
first_title        23518
dtype: int64

In [68]:
df = pd.merge(df, subject_frame[['id', 'named_subject']].dropna(), on='id', how='outer')

In [69]:
df.count()

dc:creator         24332
dc:date            24332
dc:description       187
dc:relation        24332
dc:source          24332
dc:subject         24332
dc:title           24332
id                 24332
subject_is_list    24332
len_list           14868
nbr_title          24332
first_title        24300
named_subject      14182
dtype: int64

In [70]:
df.loc[df.first_title.isna() & df['dc:title'].notna(), 'first_title'] = df[    df.first_title.isna( )& df['dc:title'].notna()]['dc:title'].map(lambda x: fix_bad_naming(find_names_title(x[0])[0])).tolist()

In [71]:
df[df.first_title.isna()]

Unnamed: 0,dc:creator,dc:date,dc:description,dc:relation,dc:source,dc:subject,dc:title,id,subject_is_list,len_list,nbr_title,first_title,named_subject


In [72]:
df[df.first_title.notna() & df.named_subject.isna()].first_title.value_counts()

Ghinassi                                                                       48
Marie-Thérèse                                                                  35
Ambassade japonaise                                                            31
Modes Lanvin                                                                   29
Gabrielle                                                                      27
Marie-Thérèse. Variétés                                                        27
Portrait d'une femme                                                           25
Portrait d'un homme                                                            25
Portrait d'une femme non identifiée                                            23
Andrée Dalti                                                                   22
Jaeger                                                                         22
Me Cernay                                                                      21
Loetitia. Châtel

## now that we have extracted names for most people, get years lived where available (from subject)

In [73]:
def get_years(string):
    x = re.findall('\(([\d{4}  -]+)\)', string)
    if len(x) == 0:
        return None
    return x[0]

def get_years_special(string):
    x = re.findall('\(([\d{4}\d{2}  -\.\?]+)[\S \;]*\)', string)
    if len(x) == 0:
        return None
    return x[0]

In [74]:
subject_frame['years'] = subject_frame.descriptor.map(get_years) 

In [75]:
get_years_special('Febvre, Paul (18..-1928)')

'18..-1928'

41 for which we can't find perfect match

In [76]:
unmatched = subject_frame.years.isna() & subject_frame.descriptor.map(lambda x: '(1' in x)
subject_frame[unmatched].count()

descriptor       3180
id               3180
19e              3180
Portraits        3180
caricature       3180
subject_name     3180
named_subject    3180
years               0
dtype: int64

In [77]:
subject_frame[unmatched].descriptor

12              Decroza, Francine (1868-19..) -- Portraits
23              Decroza, Francine (1868-19..) -- Portraits
26              Decroza, Francine (1868-19..) -- Portraits
34               Dauville, Louise (18..-19..) -- Portraits
44       Nâser ed-Din (1831-1896 ; shah d'Iran) -- Port...
49       Gélabert, Conchita, Marie (1858-19.. ; actrice...
55       Nâser ed-Din (1831-1896 ; shah d'Iran) -- Port...
67               Armand, Victorin (18..-1896) -- Portraits
68                         Bellot (18..-19..) -- Portraits
74       Nâser ed-Din (1831-1896 ; shah d'Iran) -- Port...
84       Joséphine (1763-1814 ; impératrice des Françai...
308                 Kelm, Joseph (1802?-1882) -- Portraits
310                 Kelm, Joseph (1802?-1882) -- Portraits
312                 Kelm, Joseph (1802?-1882) -- Portraits
316                 Kelm, Joseph (1802?-1882) -- Portraits
318                 Kelm, Joseph (1802?-1882) -- Portraits
333             Bianca (1841?-1912 ; actrice) -- Portrai

In [78]:
subject_frame.loc[unmatched, 'years'] = subject_frame[unmatched].descriptor.map(get_years_special)

In [79]:
subject_frame[subject_frame.years.notna()].id.unique().__len__()

13053

In [80]:
id_years = subject_frame[subject_frame.years.notna()].id.unique()

In [81]:
df = pd.merge(df, subject_frame[['id', 'years']].dropna(), on='id', how='outer')

we never have more than one named individual ... it seems

In [82]:
(df.groupby(id).named_subject.count() > 1).value_counts()

False    26051
Name: named_subject, dtype: int64

In [83]:
df

Unnamed: 0,dc:creator,dc:date,dc:description,dc:relation,dc:source,dc:subject,dc:title,id,subject_is_list,len_list,nbr_title,first_title,named_subject,years
0,Atelier Nadar. Photographe,1875-1895,,[Extrait de : [Album de référence de l'Atelier...,"Bibliothèque nationale de France, département ...",Portraits du théâtre -- 19e siècle,"Holda. Eldorado : [photographie, tirage de dém...",https://gallica.bnf.fr/ark:/12148/btv1b53163492h,False,,1,Holda. Eldorado,,
1,Atelier Nadar. Photographe,1875-1895,,[Extrait de : [Album de référence de l'Atelier...,"Bibliothèque nationale de France, département ...",Portraits du théâtre -- 19e siècle,"Supra. Opéra : [photographie, tirage de démons...",https://gallica.bnf.fr/ark:/12148/btv1b531634912,False,,1,Supra. Opéra,,
2,Atelier Nadar. Photographe,1875-1895,,[Extrait de : [Album de référence de l'Atelier...,"Bibliothèque nationale de France, département ...",Portraits de studio -- 19e siècle,"Bébé Ullmann : [photographie, tirage de démons...",https://gallica.bnf.fr/ark:/12148/btv1b531638493,False,,1,Bébé Ullmann,,
3,Atelier Nadar. Photographe,1875-1895,,[Extrait de : [Album de référence de l'Atelier...,"Bibliothèque nationale de France, département ...",Portraits collectifs -- 19e siècle,"Groupe de paysannes : [photographie, tirage de...",https://gallica.bnf.fr/ark:/12148/btv1b53164917p,False,,1,Groupe de paysannes,,
4,Atelier Nadar. Photographe,1875-1895,,[Extrait de : [Album de référence de l'Atelier...,"Bibliothèque nationale de France, département ...",Portraits du théâtre -- 19e siècle,"Me Debaude : [photographie, tirage de démonstr...",https://gallica.bnf.fr/ark:/12148/btv1b531688758,False,,1,Me Debaude,,
5,Atelier Nadar. Photographe,1875-1895,,[Extrait de : [Album de référence de l'Atelier...,"Bibliothèque nationale de France, département ...",Portraits du théâtre -- 19e siècle,"Me Debaude : [photographie, tirage de démonstr...",https://gallica.bnf.fr/ark:/12148/btv1b53168876q,False,,1,Me Debaude,,
6,Atelier Nadar. Photographe,1875-1895,,[Extrait de : [Album de référence de l'Atelier...,"Bibliothèque nationale de France, département ...",Portraits du théâtre -- 19e siècle,"Me Nau. (Théâtre libre) : [photographie, tirag...",https://gallica.bnf.fr/ark:/12148/btv1b531651477,False,,1,Me Nau. (Théâtre libre),,
7,Atelier Nadar. Photographe,1875-1895,,[Extrait de : [Album de référence de l'Atelier...,"Bibliothèque nationale de France, département ...","[Auguez, Mathilde (1868-1955) -- Portraits, Po...","[Me Auguez] : [photographie, tirage de démonst...",https://gallica.bnf.fr/ark:/12148/btv1b53168872x,True,2.0,1,Me Auguez,"Auguez, Mathilde",1868-1955
8,Atelier Nadar. Photographe,1875-1895,,[Extrait de : [Album de référence de l'Atelier...,"Bibliothèque nationale de France, département ...","[Auguez, Mathilde (1868-1955) -- Portraits, Po...","[Me Auguez] : [photographie, tirage de démonst...",https://gallica.bnf.fr/ark:/12148/btv1b531688701,True,2.0,1,Me Auguez,"Auguez, Mathilde",1868-1955
9,Atelier Nadar. Photographe,1875-1895,,[Extrait de : [Album de référence de l'Atelier...,"Bibliothèque nationale de France, département ...","[Bruant, Aristide (1851-1925) -- Portraits, Po...","M. Bruant : [photographie, tirage de démonstra...",https://gallica.bnf.fr/ark:/12148/btv1b53171770j,True,2.0,1,M. Bruant,"Bruant, Aristide",1851-1925


### there really is no associated year

In [84]:
subject_frame[~subject_frame.id.isin(id_years) &\
              subject_frame.named_subject.isna() &\
              ~subject_frame.Portraits].descriptor.value_counts().index

Index(['Scènes théâtrales -- 19e siècle', 'Costumes -- 19e siècle',
       'Danseuses', 'Lanvin (Maison de couture)', 'Enfants',
       'Tournée Brasseur', 'Ambassadeurs japonais -- France', 'Trapézistes',
       'Représentations d'objet -- 19e siècle', 'Cour et courtisans -- Iran',
       'Cavalières', 'Clowns', 'Représentations animalières -- 19e siècle',
       'Travestis', 'Violonistes', 'Singes', 'Bicyclettes', 'Nourrissons',
       'Géants', 'Enfants acteurs',
       'Tableaux vivants et mises en scène -- 19e siècle',
       'Ballons -- France -- 19e siècle', 'Vues d'intérieur -- 19e siècle',
       'Mandoline', 'Danse orientale', 'Costumes',
       'Pierrot (personnage fictif)', 'Chat domestique', 'Animaux de cirque',
       'Bicyclettes -- Au théâtre', 'Journaux français', 'Âne',
       'Minstrel shows', 'Géant (ballon)', 'Chien', 'Escrimeurs',
       'Représentations animalières -- 1870-1913', 'Religieux',
       'Haltérophiles', 'Indiens d'Amérique', 'Statues',
       'Hamlet