## Load and transform scrapped data to the form suitable for model training

This step is used to read data collected by Wikipedia crawler in previous step '01 Web scrapping names.ipynb'. Next read data is transformed and name gender and name category is extracted from names descriptions. Because names descriptions on Wikipedia are not structured there is much manual work of data cleaning and text processing.

In [1]:
import pandas as pd
from collections import OrderedDict

Let's read data saved in json file: `scrapped_wiki_names.json` by scrapy.

In [2]:
wiki_names = pd.read_json("01 Web scrapping\scrapped_wiki_names.json")

In [3]:
wiki_names.head()

Unnamed: 0,name,name_description
0,[Żaklina],[Żaklina – fonetycznie zapisane spolszczenie f...
1,[Parys (imię)],"[Parys (gr. Πάρις – Paris) – imię męskie, praw..."
2,[Parteniusz],[Parteniusz — imię męskie pochodzenia greckieg...
3,[Sambor (imię)],"[Sambor – słowiańskie imię męskie, złożone z c..."
4,[Samboja],"[Samboja – staropolskie imię żeńskie, złożone ..."


As presented below there are 2372 first names with descriptions.

In [4]:
wiki_names.shape

(2372, 2)

In [5]:
wiki_names.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2372 entries, 0 to 2371
Data columns (total 2 columns):
name                2372 non-null object
name_description    2372 non-null object
dtypes: object(2)
memory usage: 37.1+ KB


Let's check types of objects in data frame wiki_names.

In [6]:
type(wiki_names.iloc[0,0]), type(wiki_names.iloc[0,1])

(list, list)

Both columns contain list types. Let's check number of element in each list

In [7]:
wiki_names['list_len_name'] = wiki_names['name'].apply(lambda x: len(x))
wiki_names['list_len_name_description'] = wiki_names['name_description'].apply(lambda x: len(x))
wiki_names.head()

Unnamed: 0,name,name_description,list_len_name,list_len_name_description
0,[Żaklina],[Żaklina – fonetycznie zapisane spolszczenie f...,1,1
1,[Parys (imię)],"[Parys (gr. Πάρις – Paris) – imię męskie, praw...",1,1
2,[Parteniusz],[Parteniusz — imię męskie pochodzenia greckieg...,1,1
3,[Sambor (imię)],"[Sambor – słowiańskie imię męskie, złożone z c...",1,1
4,[Samboja],"[Samboja – staropolskie imię żeńskie, złożone ...",1,1


In [8]:
wiki_names['list_len_name'].value_counts()

1    2372
Name: list_len_name, dtype: int64

In [9]:
wiki_names['list_len_name_description'].value_counts()

1    2372
Name: list_len_name_description, dtype: int64

As seen above each data frame cell contains list with only one element. Let's rename columns and extract those element.

In [10]:
wiki_names.rename(columns={'name':'name_list', 'name_description':'name_description_list'}, inplace=True)
wiki_names.head()

Unnamed: 0,name_list,name_description_list,list_len_name,list_len_name_description
0,[Żaklina],[Żaklina – fonetycznie zapisane spolszczenie f...,1,1
1,[Parys (imię)],"[Parys (gr. Πάρις – Paris) – imię męskie, praw...",1,1
2,[Parteniusz],[Parteniusz — imię męskie pochodzenia greckieg...,1,1
3,[Sambor (imię)],"[Sambor – słowiańskie imię męskie, złożone z c...",1,1
4,[Samboja],"[Samboja – staropolskie imię żeńskie, złożone ...",1,1


In [11]:
wiki_names['name'] = wiki_names['name_list'].apply(lambda x: x[0])
wiki_names['name_description'] = wiki_names['name_description_list'].apply(lambda x: x[0])
wiki_names.head()

Unnamed: 0,name_list,name_description_list,list_len_name,list_len_name_description,name,name_description
0,[Żaklina],[Żaklina – fonetycznie zapisane spolszczenie f...,1,1,Żaklina,Żaklina – fonetycznie zapisane spolszczenie fr...
1,[Parys (imię)],"[Parys (gr. Πάρις – Paris) – imię męskie, praw...",1,1,Parys (imię),"Parys (gr. Πάρις – Paris) – imię męskie, prawd..."
2,[Parteniusz],[Parteniusz — imię męskie pochodzenia greckieg...,1,1,Parteniusz,Parteniusz — imię męskie pochodzenia greckiego...
3,[Sambor (imię)],"[Sambor – słowiańskie imię męskie, złożone z c...",1,1,Sambor (imię),"Sambor – słowiańskie imię męskie, złożone z cz..."
4,[Samboja],"[Samboja – staropolskie imię żeńskie, złożone ...",1,1,Samboja,"Samboja – staropolskie imię żeńskie, złożone z..."


Let's drop unnecessary columns.

In [12]:
wiki_names.drop(columns=['name_list', 'name_description_list', 'list_len_name', 'list_len_name_description'], inplace=True)
pd.set_option('display.max_colwidth', 200)
wiki_names.head()

Unnamed: 0,name,name_description
0,Żaklina,"Żaklina – fonetycznie zapisane spolszczenie francuskiego imienia Jacqueline, które jest żeńskim odpowiednikiem imienia Jakub. Jest również inny żeński odpowiednik tego imienia – Jakubina. Niektórz..."
1,Parys (imię),"Parys (gr. Πάρις – Paris) – imię męskie, prawdopodobnie pochodzenia przedhelleńskiego, o znaczeniu nieznanym. W mitologii greckiej nosił je Parys, ukochany Heleny Trojańskiej. W Kościele katolicki..."
2,Parteniusz,"Parteniusz — imię męskie pochodzenia greckiego, od gr. przymiotnika parthénios, oznaczającego ""panieński, dziewiczy, czysty, niewinny"". \n"
3,Sambor (imię),"Sambor – słowiańskie imię męskie, złożone z członów Sam- (""samotny"") oraz -bor (""walczyć, zmagać się""). Mogło oznaczać ""walczącego samotnie"".\n"
4,Samboja,"Samboja – staropolskie imię żeńskie, złożone z członu Sam- (""samotna, jedyna"") oraz członu -boj-a (""bicie, walka""). Oznacza ""tę, która walczy samotnie"".\n"


Strings in name column sometimes contain suffix "(imię)", which means "(name)". This is Wikipedia addition to differentiate between dictionary entries. For our purpose this is unnecessary. Let's remove it. Below is sample code to remove suffix " (imię)".

In [13]:
wiki_names['name'].str.extract('(.+?)( \(imię\))?$').head()

Unnamed: 0,0,1
0,Żaklina,
1,Parys,(imię)
2,Parteniusz,
3,Sambor,(imię)
4,Samboja,


In [14]:
wiki_names['name'] = wiki_names['name'].str.extract('(.+?)( \(imię\))?$')[0].str.strip()
wiki_names.head()

Unnamed: 0,name,name_description
0,Żaklina,"Żaklina – fonetycznie zapisane spolszczenie francuskiego imienia Jacqueline, które jest żeńskim odpowiednikiem imienia Jakub. Jest również inny żeński odpowiednik tego imienia – Jakubina. Niektórz..."
1,Parys,"Parys (gr. Πάρις – Paris) – imię męskie, prawdopodobnie pochodzenia przedhelleńskiego, o znaczeniu nieznanym. W mitologii greckiej nosił je Parys, ukochany Heleny Trojańskiej. W Kościele katolicki..."
2,Parteniusz,"Parteniusz — imię męskie pochodzenia greckiego, od gr. przymiotnika parthénios, oznaczającego ""panieński, dziewiczy, czysty, niewinny"". \n"
3,Sambor,"Sambor – słowiańskie imię męskie, złożone z członów Sam- (""samotny"") oraz -bor (""walczyć, zmagać się""). Mogło oznaczać ""walczącego samotnie"".\n"
4,Samboja,"Samboja – staropolskie imię żeńskie, złożone z członu Sam- (""samotna, jedyna"") oraz członu -boj-a (""bicie, walka""). Oznacza ""tę, która walczy samotnie"".\n"


Now we have data frame ready to assign category of origin for each name. Let create function `extract_category` which maps text in column `name_description` to category of text origin. Body of function `name_description` was done by analyzing content of `name_description` and assigning category of origin of text.

In [15]:
pd.set_option('display.max_colwidth', 10000)

In [16]:
def extract_category(input_str):
    input_str = input_str.lower()
    
    category_dict = OrderedDict({
        'Andrzej – imię męskie': 'greckie',
        'Grzegorz – imię męskie': 'greckie',
        'Hugona – żeński wariant': 'germańskie',
        'Hugo, Hugon – imię męskie': 'germańskie',
        'Euzebia – żeński': 'greckie',
        'Mysław – imię męskie':'staropolskie',
        'Szczepan – imię męskie': 'greckie',
        'Druzjanna – imię żeńskie': 'rzymskie',
        'Ewelina – imię żeńskie': 'celtyckie',
        'Ewa – imię żeńskie': 'hebrajskie',
        'Mysław': 'staropolskie',
        'Gwisław – imię męskie': 'staropolskie',
        'Syrycjusz – imię męskie': 'rzymskie',
        'Drohobysz, Drahobysz': 'staropolskie',
        'Doryda – spolszczenie greckiego': 'greckie',
        'Druzjan – imię męskie,': 'rzymskie',
        'Żaklina – fonetycznie zapisane': 'francuskie',
        'Eustachia - żeński odpowiednik': 'greckie',
        'Gustawa — żeński odpowiednik': 'germańskie',
        'Eufroniusz – imię męskie późnogreckie': 'greckie',
        'Kwiryn – polska forma łacińskiego': 'łacińskie',
        'Monika – imię żeńskie o znaczeniu': 'greckie', 
        'Mojmir – starosłowiańskie (w tym staropolskie)': 'staropolskie',
        'Mirokles (zm. 30 listopada ok. 316)': 'greckie',
        'Greta – powstała na gruncie germańskim': 'germańskie',
        'Sykstus, Sykst – imię przejęte poprzez łacinę': 'greckie',
        'Sybillina – imię żeńskie pochodzenia': 'greckie',
        'Sydoniusz – imię męskie pochodzenia': 'greckie',
        'Ludwik – imię z germańskiego': 'germańskie',
        'Czedróg, Czedrog': 'słowiańskie',
        'Dobrowoja — żeński odpowiednik ': 'staropolskie',
        'Emilia – imię rzymskie': 'rzymskie',
        'Elwira – imię żeńskie': 'arabskie',
        'Eliza – skrócona forma': 'angielskie',
        'Ksawery – imię męskie': 'hiszpańskie',
        'Eligiusz – imię męskie': 'łacińskie',
        'Krystian – imię męskie': 'greckie',
        'Mirela, Mirella – imię żeńskie': 'oksytańskie',
        'Milan – jedno z licznych': 'staropolskie',
        'Mieczysław – dwuczłonowe imię': 'słowiańskie',
        'Franciszek Salezy - imię dwuczłonowe': 'francuskie',
        'Franciszek – imię męskie': 'włoskie',
        'Franciszek Ksawery — imię dwuczłonowe': 'hiszpańskie',
        'Fotyn – imię męskie pochodzenia': 'greckie',
        "Fortunata - żeński odpowiednik łacińskie": "łacińskie",
        "Fryda - skrócona forma imienia Fryderyka": "germańskie",
        "Ludomił, Ludmił – męski odpowiednik słow": "staropolskie",
        "Gonsalwy – imię męskie, którego patronem": "portugalskie",
        "Gleb – imię męskie pochodzenia": "skandynawskie",
        "Nonnus – łac. imię męskie, oznaczające": "łacińskie",
        "Nikolina – imię żeńskie, powstałe": "greckie",
        "Cyryn - imię męskie pochodzące od": "perskie",
        "Cyrenia — imię żeńskie pochodzące od": "arabskie",
        "Cyryna - imię żeńskie pochodzące od": "perskie",
        "Dionizjusz - oboczna forma imienia": "greckie",
        "Dezyderiusz – oboczna forma imienia": "łacińskie",
        "Derwan – książę plemienia Surbiów": "serbskie",
        "Debora (hebr. דְּבוֹרָה; żyła ok. 1200 r": "biblijne",
        "Dąbrówka – imię żeńskie. Tak nazywano": "staropolskie",
        "Daria – imię pochodzące": "perskie",
        "Elifiusz – imię męskie, którego": "germańskie",
        "Eleukadiusz – imię męskie, oznaczające": "włoskie",
        "Eleonora – imię żeńskie nieustalonego": "hebrajskie",
        "Egon – imię męskie, alternatywna forma": "germańskie",
        "Edeltruda, Edeltrauda – imię żeńskie": "germańskie",
        "Edda — włoska forma norweskiego lub": "skandynawskie",
        "Kordian – imię męskie utworzone przez": "polskie",
        "Konstanty, Konstantyn – imię męskie": "łacińskie",
        "Konradyn – alternatywna forma imienia": "germańskie",
        "Mauryn - imię pochodzące od imienia": "łacińskie",
        "Demokryt – imię męskie.": "greckie",
        "Medarda[1] — imię żeńskie, żeński": "germańskie",
        "Filip Neriusz, Filip Nereusz – podwójne": "greckie",
        "Liwiusz — imię męskie; pochodzi od": "rzymskie",
        "Liwia – imię żeńskie powstałe w": "rzymskie",
        "Litawor — literackie imię męskie": "literackie",
        "Linda – imię żeńskie. Istnieje kilka": "portugalskie",
        "Lilla - imię żeńskie, które pochodzi ": "łacińskie",
        "Liboriusz – imię męskie, powstałe od": "łacińskie",
        "Libert – alternatywna forma imienia": "łacińskie",
        "Licynia - żeńska wersja łacińskiego": "łacińskie",
        "Gerarda — imię żeńskie; żeński": "germańskie",
        "Genowefa – imię żeńskie pochodzenia": "germańskie",
        "Galezy – imię o nieznanym pochodzeniu": "nieznane",
        "Hortensja – starorzymskie imię żeńskie": "rzymskie",
        "Hilary , Hilariusz (łac. laris, z gr.": "łacińskie",
        "Izabela – hiszpańska wersja imienia": "hiszpańskie",
        "Iweta, Iwetta - imię żeńskie pochodzące": "germańskie",
        "Nika – imię żeńskie o dyskusyjnym": "nieznane",
        "Ismena – imię żeńskie pochodzące od": "greckie",
        "Charyzjusz – imię męskie pochodzące od": "nieznane",
        "Cezariusz - oboczna forma imienia Cezary": "łacińskie",
        "Celiusz – męski odpowiedni imienia": "łacińskie",
        "Wszeciech – alternatywna forma imienia": "staropolskie",
        "Włodzisława — imię żeńskie; żeński": "staropolskie",
        "Władysław (Wladislao, 1380) – imię": "polskie",
        "Witolda – żeński odpowiednik litewskiego": "litewskie",
        "Wiron, Wiro – imię męskie niejasnego": "nieznane",
        "Dacjan – występujące w Polsce imię": "nieznane",
        "Dafroza – imię żeńskie, oznaczające": "nieznane",
        "Justynian – forma pochodna imienia": "łacińskie",
        "Jozue (hebr. יהושׁע – „Jahwe jest": "biblijne",
        "Juda Tadeusz – podwójne imię męskie": "hebrajskie",
        "Joel – męskie imię teoforyczne,": "hebrajskie",
        "Jeremi – oboczna forma imienia": "biblijne",
        "Koleta (franc. Colette) – pierwotnie": "włoskie",
        "Klementyn – imię męskie pochodzące od": "łacińskie",
        "Klaudyna – pochodna forma imienia": "łacińskie",
        "Klarysa – imię żeńskie, pokrewne": "łacińskie",
        "Kasjusz – imię męskie pochodzące od": "łacińskie",
        "Karol – imię męskie pochodzenia": "frankijskie",
        "Karina, Karyna – imię żeńskie": "germańskie",
        "Karol Boromeusz –  imię męskie": "włoskie",
        "Marzena – imię żeńskie, które powstało": "greckie",
        "słowiańska bogini symbolizująca zimę i śmierć": "słowiańskie",
        "Matern (łac.) Maternus – żyjący w IV": "włoskie",
        "Marlena – imię żeńskie, formowane na": "literackie",
        "Markusław — notowane w Polsce w": "staropolskie",
        "Mariola – imię żeńskie, pochodna od": "francuskie",
        "Marcisław — notowane w Polsce od 1374": "staropolskie",
        "Fiebrosław — imię męskie utworzone w": "staropolskie",
        "Felin — imię męskie, którego patronem": "włoskie",
        "Febron, Febroniusz — imię męskie (łac.": "etruskie",
        "Faina – imię żeńskie niejasnego": "nieznane",
        "Fabiola — imię żeńskie, pierwotnie": "łacińskie",
        "Fabia - żeński odpowiednik łacińskiego": "łacińskie",
        "Fabrycy − imię męskie.": "włoskie",
        "Liba[1] lub Libia[2] – imię żeńskie": "greckie",
        "Lena – imię żeńskie, popularne w krajach": "greckie",
        "Leodegar - imię męskie pochodzące od": "francuskie",
        "Tworzysława – imię żeńskie, nienotowane": "staropolskie",
        "Hermenegilda – imię żeńskie o": "germańskie",
        "Herakliusz – alternatywna forma imienia": "greckie",
        "Herkulan — imię męskie pochodzące od": "łacińskie",
        "Heloiza (łac. Heloisa, fr. Héloïse;": "francuskie",
        "Herena – imię żeńskie pochodzące od": "łacińskie",
        "Sjęgniewa – żeński odpowiednik": "staropolskie",
        "Sięgniewa — żeński odpowiednik": "staropolskie",
        "Innocencja – jeden z żeńskich": "łacińskie",
        "Ilona – imię żeńskie, węgierska forma": "węgierskie",
        "Ignacy – imię męskie o niepewnej do": "nieznane",
        "Niecisław - imię męskie nienotowane w": "staropolskie",
        "Nunilona, Nunila – imię żeńskie. Jego": "hiszpańskie",
        "Wiktoryn – imię męskie, pochodzące od": "łacińskie",
        "Ryta, również Rita – pierwotnie": "greckie",
        "Ruben – imię z j. hebrajskiego": "hebrajskie",
        "Janusz – imię męskie utworzone na": "polskie",
        "Janczysława – imię żeńskie notowane w": "staropolskie",
        "Jan Nepomucen (ur. ok. 1350 w Pomuku": "czeskie",
        "Jan Kanty (również Jan z Kęt lub  Jan": "polskie",
        "Jan Gwalbert (ur. ok. 995 we Florencji": "włoskie",
        "Jan Chrzciciel (Jan Baptysta) – imię": "biblijne",
        "Jan Chryzostom": "tureckie",
        "Janisław — imię męskie, będące": "polskie",
        "Jakub – imię męskie. Wywodzi się od": "hebrajskie",
        "Hektor albo Jaktor – imię męskie": "greckie",
        "Jagoda – imię żeńskie, powstałe jako": "germańskie",
        "Jagna – imię żeńskie, według różnych": "germańskie",
        "Jacław - imię męskie o budowie": "polskie",
        "Kanizja – imię żeńskie pochodzące od": "rzymskie",
        "Kanizjusz – imię męskie pochodzące od": "rzymskie",
        "Kalina – imię żeńskie o niejasnym": "nieznane",
        "Gaja, Kaja – imię żeńskie, pochodzące": "greckie",
        "Kalasanty - imię męskie powstałe od": "hiszpańskie",
        "Malina – imię żeńskie, które": "biblijne",
        "Lechosław – imię męskie powstałe w XIX w": "staropolskie",
        "Laura – imię żeńskie pochodzące od lauru": "greckie",
        "Lasota – imię męskie pochodzenia": "słowiańskie",
        "Trojan – imię męskie, którego patronem": "nieznane",
        "Tristan — imię męskie błędnie wywodzone": "łacińskie",
        "Tomira – imię żeńskie o niepewnym": "nieznane",
        "Tomił – imię męskie, nienotowane": "staropolskie",
        "Łucja, Lucja – żeński odpowiednik": "łacińskie",
        "Łękomira – imię żeńskie, żeński": "staropolskie",
        "Hannibal – fenickie imię męskie": "fenickie",
        "Iga – imię żeńskie. Usamodzielnione": "germańskie",
        "Nela – imię żeńskie, powstałe jako": "polskie",
        "Natalia  (łac. Dies Natalis Domini": "łacińskie",
        "Wiera[1][2], Wiara[2] – imię żeńskie": "słowiańskie",
        "Wiera[1][2], Wiara[2] – imię żeńskie": "słowiańskie",
        "Gaston, Wedast – zlatynizowane męskie": "łacińskie",
        "Wanda – imię żeńskie zapisane po raz": "literackie",
        "Wendelin – imię męskie o nieustalonym": "nieznane",
        "Roma – imię żeńskie, które stanowi": "łacińskie",
        "Racsław, Racław, Ratsław, Recsław": "staropolskie",
        "Maja – imię (z pochodzenia greckie lub": "greckie",
        "Racsława, Racława, Ratsława, Recsława": "staropolskie",
        "Otylia - żeński odpowiednik germańskiego": "germańskie",
        "Tina — imię żeńskie, powstałe jako": "łacińskie",
        "Tezeusz (gr. Θησεύς Thēseús, łac.": "greckie",
        "Namir — hebrejsko arabskieimię męskie.": "hebrajskie",
        "Nadzieja – imię żeńskie, nawiązujące": "słowiańskie",
        "Waldemar – imię męskie, którego": "nieznane",
        "Waleriusz - imię męskie i oboczna": "łacińskie",
        "Radzisław - imię męskie, nienotowane w": "staropolskie",
        "Radzim – forma skrócona od staropolskich": "staropolskie",
        "Radogost - imię męskie o konstrukcji typ": "słowiańskie",
        "Rachela, Rachel – imię żeńskie": "hebrajskie",
        "Śnieżka – imię żeńskie[1]. Ma ono": "słowiańskie",
        "Lasota – imię męskie pochodzenia": "greckie",
        "Olga – wschodniosłowiańskie imię": "słowiańskie",
        "Oktawia – żeński odpowiednik łac. męskie": "łacińskie",
        "Odeta − żeńskie imię, południowo": "słowiańskie",
        "Odylon – imię męskie, urobione od": "germańskie",
        "Telimena – imię żeńskie o nieustalonej": "nieznane",
        "Tamara – współczesna forma żeńskiego": "aramejskie",
        "Święta Seksburga (zm. ok. 699)": "angielskie",
        "Sebastiana – forma żeńska imienia": "greckie",
        "Tacjan – odpowiednik żeńskiego imienia": "rzymskie",
        "Sandra – żeńskie imię powstałe jako": "greckie",
        "Zyta – imię żeńskie wywodzące się od": "włoskie",
        "Pryska, Pryscylla – imię żeńskie": "łacińskie",
        "Prymus, Prym – imię męskie pochodzenia": "łacińskie",
        "Zbysława – żeński odpowiednik": "staropolskie",
        "Priam (gr. Πρίαμος Príamos, łac. Priamus": "greckie",
        "Poncjusz – imię męskie pochodzące od": "rzymskie",
        "Poncjan – imię męskie pochodzące od": "rzymskie",
        "Pola – zdrobnienie imienia Apolonia": "greckie",
        "Polian – imię męskie, którego patronem": "nieznane",
        "Petronela – imię żeńskie, pierwotnie": "łacińskie",
        "Patryk – oboczna, skrócona wersja": "łacińskie",
        "Patrycy jest to oboczna forma imienia": "łacińskie",
        "Paryzjusz – imię męskie pochodzące od": "celtyckie",
        "Ursyn – imię męskie, wtórne cognomen": "łacińskie",
        "Uniedrog lub Unidróg – książę obodrycki": "słowiańskie",
        "Barabasz – w Nowym Testamencie": "biblijne",
        "Amadea – żeński odpowiednik": "łacińskie",
        "Arleta, Arletta — imię żeńskie": "germańskie",
        "Aureliusz – imię męskie pochodzące od": "rzymskie",
        "Arwid — imię męskie[1], złożone ze": "skandynawskie",
        "Artemon — imię męskie wywodzące się od": "nieznane",
        "Arsacjusz, Arzacjusz — imię męskie o": "nieznane",
        "Armin – oboczna forma imienia Herman.": "germańskie",
        "Arkady jest to oboczna forma imienia": "greckie",
        "Arian[a] – imię męskie, pochodzenia": "greckie",
        "Archelaus – zlatynizowana forma": "łacińskie",
        "Antioch (gr. Ἀντίοχος Antíokhos) – imię": "arabskie",
        "Aniela – imię żeńskie, które jest": "łacińskie",
        "Anita – imię żeńskie, które powstało": "hiszpańskie",
        "Angelina – forma pochodna imion Aniela": "łacińskie",
        "Aneta – forma pochodna imienia": "francuskie",
        "Angela - imię pochodzi od łacińskiego": "łacińskie",
        "Anicet – imię męskie pochodzące od": "łacińskie",
        "Andromacha - imię żeńskie pochodzące": "greckie",
        "Andrea – żeńska forma łacińskiego": "łacińskie",
        "Alodiusz — imię męskie urobione od": "frankońskie",
        "Alma – współczesne imię żeńskie": "łacińskie",
        "Alicja – imię żeńskie.": "włoskie",
        "Alodia — imię żeńskie, wywodzące się": "frankońskie",
        "Aleksa - forma żeńska imienia Aleksy.": "greckie",
        "Aldona – imię żeńskie, pochodzi ono": "pruskie",
        "Budzigniew – imię męskie utworzone na": "staropolskie",
        "Alan – imię męskie pochodzenia": "celtyckie",
        "Agata – imię żeńskie, pochodzące od": "greckie",
        "Aelred – imię męskie pochodzące od": "germańskie",
        "Bibiana, Bibianna – imię żeńskie": "łacińskie",
        "Bibian – imię męskie utworzone od": "łacińskie",
        "Blanka – imię żeńskie wywodzące się od": "hiszpańskie",
        "Bernadeta, Bernadetta – imię żeńskie": "germańskie",
        "Beda — imię męskie łączone z germańskim": "germańskie",
        "Bartłomieja - forma żeńska imienia": "aramejskie",
        "Honorata – żeński odpowiednik imienia": "łacińskie",
        "Cezaria — żeński odpowiednik": "łacińskie",
        "Laurentyna - żeński odpowiednik": "łacińskie",
        "Andrzeja, Ondrzeja, Anda – polskie imię": "greckie",
        "Sekunda – żeńska forma imienia Sekundus": "łacińskie",
        "Poliana, Polianna – imię żeńskie": "nieznane",
        "Plautylla – imię żeńskie": "rzymskie",
        "Asteria – żeński odpowiednik": "greckie",
        "Alberta – żeńska forma imienia Albert": "greckie", 
        "Bożeciecha – żeńska forma": "staropolskie",
        "Bolemira – żeński odpowiednik": "staropolskie",
        "Blandyna – żeńska forma imienia": "łacińskie",
        "Beata – żeński odpowiednik": "łacińskie",
        "Benedykta - żeńska forma": "łacińskie",
        
        'angielskim imieniem': 'angielskie',
        'aramejskie imię': 'aramejskie',
        'biblijne imię': 'biblijne',
        'forma staropolskiego imienia': 'staropolskie',
        'germańskie imię': 'germańskie',
        'greckie imię': 'greckie',
        'greckiego pochodzenia': 'greckie',
        'hebrajskie imię': 'hebrajskie',
        'hebrajskiej etymologii': 'hebrajskie',
        'imię arabskie': 'arabskie',
        'imię biblijne': 'biblijne',
        'imię germańskie': 'germańskie',
        'imię hebrajskie': 'hebrajskie',
        'imię łacińskie': 'łacińskie',
        'imię rzymskie': 'rzymskie',
        'imię słowiańskie': 'słowiańskie',
        'łacińskie imię': 'łacińskie',
        'łacińskiego pochodzenia': 'łacińskie',
        'nieznanego pochodzenia': 'nieznane',
        'o niejasnej etymologii': 'nieznane',
        'odpowiednik greckiego': 'greckie',
        'pochodząca od romańskiego': 'łacińskie',
        'pochodzące od celtyckiego': 'celtyckie',
        'pochodzące od gr.': 'greckie',
        'pochodzące od greckiego': 'greckie',
        'pochodzące od łac.': 'łacińskie',
        'pochodzące od łacińskiego': 'łacińskie',
        'pochodzące od łacińskiego': 'łacińskie',
        'pochodzące od rzymskiego': 'rzymskie',
        'pochodzące od starogermańskiego': 'germańskie',
        'pochodzące z łaciny': 'łacińskie',
        'pochodzenia  hebrajskiego': 'hebrajskie',
        'pochodzenia angielskiego': 'angielskie',
        'pochodzenia anglosaskiego': 'angielskie',
        'pochodzenia arabskiego': 'arabskie',
        'pochodzenia aramejskiego': 'aramejskie',
        'pochodzenia biblijnego': 'biblijne',
        'pochodzenia celtyckiego': 'celtyckie',
        'pochodzenia egipskiego': 'egipskie',
        'pochodzenia francuskiego': 'francuskie',
        'pochodzenia germańskiego': 'germańskie',
        'pochodzenia greckiego':'greckie',
        'pochodzenia grecko-hebrajskiego': 'greckie',
        'pochodzenia grecko-łacińskiego': 'greckie',
        'pochodzenia grecko-łacińskiego': 'łacińskie',
        'pochodzenia grecko-semickiego': 'greckie',
        'pochodzenia hebrajskiego':'hebrajskie',
        'pochodzenia hiszpańskiego': 'hiszpańskie',
        'pochodzenia italskiego': 'włoskie',
        'pochodzenia literackiego': 'literackie',
        'pochodzenia litewskiego': 'litewskie',
        'pochodzenia łacińskiego':'łacińskie',
        'pochodzenia łacińsko-perskiego': 'łacińskie',
        'pochodzenia najprawdopodobniej perskiego lub syryjskiego': 'syryjskie',
        'pochodzenia normandzkiego': 'normandzkie',
        'pochodzenia perskiego': 'perskie',
        'pochodzenia polskiego': 'polskie',
        'pochodzenia późnogreckiego': 'greckie',
        'pochodzenia przedhelleńskiego':'greckie',
        'pochodzenia rzymskiego': 'rzymskie',
        'pochodzenia semickiego': 'semickie',
        'pochodzenia skandynawskiego': 'skandynawskie',
        'pochodzenia słowiańskiego': 'słowiańskie',
        'pochodzenia staroangielskiego': 'staroangielskie',
        'pochodzenia starogermańskiego': 'germańskie',
        'pochodzenia starowalijskiego': 'walijskie',
        'pochodzenia szkockiego': 'szkockie',
        'pochodzenia walijskiego':'walijskie',
        'pochodzenia węgierskiego': 'węgierskie',
        'pochodzenia włoskiego': 'włoskie',
        'pochodzenia żydowskiego': 'żydowskie',
        'pochodzenia: hebrajskiego': 'hebrajskie',
        'pochodzi od greckiego': 'greckie',
        'pochodzi z greki': 'greckie',
        'polska forma imienia': 'polskie',
        'spolszczenie francuskiego':'francuskie',
        'późnorzymskie imię': 'rzymskie',
        'punickiego pochodzenia': 'punickie',
        'rosyjskie imię': 'rosyjskie',
        'słowiańskie imię':'słowiańskie',
        'staroangielskie imię': 'staroangielskie',
        'staropolska skrócona forma': 'staropolskie',
        'staropolskie imię':'staropolskie',
        'staropolskie[1] imię':'staropolskie',
        'włoskie imię': 'włoskie',
        'wywodzące się od łac.': 'łacińskie',
        'wywodzące się od perskiego': 'perskie',
        'wywodzące się z języka greckiego': 'greckie',
        'wywodzące się z łac.': 'łacińskie',
        'wywodzi się od fenickiego': 'fenickie'        
        
    })
    
    for str_to_check, category in category_dict.items():
        if str_to_check.lower() in input_str:
            return category

For each name let's assign its' category of origin by using `extract_category` function. Details of particular steps are describe in comments below.

In [17]:
wiki_names['name_category'] = wiki_names['name_description'].apply(extract_category)

# if in the name_description there is a text: "odpowiednik imienia" (Eng. "name equivalent") then if name_category is empty assign name_category from name equivalent
wiki_names['name_rel'] = wiki_names['name_description'].str.extract('odpowiednik imienia ([A-Za-ząćęłóśźż]+)') #creates new column with names equivalents
wiki_names.loc[wiki_names['name_rel'].isna(),['name_rel']] = wiki_names.loc[wiki_names['name_rel'].isna(), 'name_description'].str.extract('żeńska forma imienia ([A-Za-ząćęłóśźż]+)').values
wiki_names.loc[wiki_names['name_rel'].isna(),['name_rel']] = wiki_names.loc[wiki_names['name_rel'].isna(), 'name_description'].str.extract('odpowiednik męskiego imienia ([A-Za-ząćęłóśźż]+)').values


# self-join name_category for related names and names new column as name_category_rel
wiki_names = wiki_names.merge(wiki_names[['name', 'name_category']].rename(columns={'name_category': 'name_category_rel', 'name': 'name_tmp'}), left_on = "name_rel", right_on = "name_tmp", how='left', suffixes=('','')).drop(['name_tmp'], axis=1)
wiki_names.loc[(wiki_names[('name_category')].isna()) & (wiki_names[('name_category_rel')].notnull()), 'name_category'] = wiki_names[('name_category_rel')]


# fill category for names without description
wiki_names.loc[wiki_names["name"] == "Marzanna", 'name_category'] = "słowiańskie"
wiki_names.loc[wiki_names["name"] == "Lasota", 'name_category'] = "słowiańskie"
wiki_names.loc[wiki_names["name"] == "Olga", 'name_category'] = "słowiańskie"
wiki_names.loc[wiki_names["name"] == "Prymus", 'name_category'] = "łacińskie"
wiki_names.loc[wiki_names["name"] == "Aneta", 'name_category'] = "francuskie"

# drop unnecessary columns
wiki_names.drop(['name_rel', 'name_category_rel'], axis=1, inplace=True)
wiki_names.head()

Unnamed: 0,name,name_description,name_category
0,Żaklina,"Żaklina – fonetycznie zapisane spolszczenie francuskiego imienia Jacqueline, które jest żeńskim odpowiednikiem imienia Jakub. Jest również inny żeński odpowiednik tego imienia – Jakubina. Niektórzy błędnie uważają to imię za żeński odpowiednik imienia Jacek (mylnie interpretując francuskie imię Jacques).\n",francuskie
1,Parys,"Parys (gr. Πάρις – Paris) – imię męskie, prawdopodobnie pochodzenia przedhelleńskiego, o znaczeniu nieznanym. W mitologii greckiej nosił je Parys, ukochany Heleny Trojańskiej. W Kościele katolickim jego patronem jest św. Parys, biskup Teano.\n",greckie
2,Parteniusz,"Parteniusz — imię męskie pochodzenia greckiego, od gr. przymiotnika parthénios, oznaczającego ""panieński, dziewiczy, czysty, niewinny"". \n",greckie
3,Sambor,"Sambor – słowiańskie imię męskie, złożone z członów Sam- (""samotny"") oraz -bor (""walczyć, zmagać się""). Mogło oznaczać ""walczącego samotnie"".\n",słowiańskie
4,Samboja,"Samboja – staropolskie imię żeńskie, złożone z członu Sam- (""samotna, jedyna"") oraz członu -boj-a (""bicie, walka""). Oznacza ""tę, która walczy samotnie"".\n",staropolskie


Let's see `name_category` frequency.

In [18]:
wiki_names['name_category'].value_counts()

staropolskie       602
łacińskie          584
greckie            454
germańskie         307
biblijne            66
słowiańskie         60
hebrajskie          54
celtyckie           29
nieznane            26
włoskie             22
rzymskie            21
semickie            17
perskie             14
literackie          12
hiszpańskie         11
polskie             10
staroangielskie     10
francuskie           8
litewskie            8
angielskie           7
aramejskie           7
skandynawskie        7
arabskie             6
egipskie             5
walijskie            3
fenickie             2
portugalskie         2
frankijskie          2
węgierskie           2
frankońskie          2
punickie             1
etruskie             1
syryjskie            1
oksytańskie          1
tureckie             1
czeskie              1
żydowskie            1
szkockie             1
pruskie              1
normandzkie          1
serbskie             1
rosyjskie            1
Name: name_category, dtype: int64

Let's limit number of categories by grouping similar groups and by grouping categories with count value less than 100. Groups will be assigned English names. Dictionary `category_groups` defines category groups.

In [19]:
# dictionary category_groups was made to be readable by humans
category_groups = {
    'slavic': ['staropolskie', 'słowiańskie',  'polskie', 'rosyjskie', 'serbskie', 'czeskie'],
    'latin and romanic': ['łacińskie', 'włoskie', 'hiszpańskie', 'francuskie', 'portugalskie'],
    'hebrew': ['hebrajskie', 'semickie', 'żydowskie', 'biblijne'],
    'greek': ['greckie'],
    'german': ['germańskie'],
    'other': ['celtyckie', 'nieznane', 'rzymskie', 'perskie', 'literackie', 'staroangielskie', 'litewskie', 'skandynawskie', 'aramejskie', 'angielskie', 'arabskie', 'egipskie',
               'walijskie', 'frankońskie', 'frankijskie', 'fenickie', 'węgierskie', 'etruskie', 'tureckie', 'punickie', 'pruskie', 'szkockie', 'syryjskie', 'normandzkie', 'oksytańskie']
}

# below is transformation of dictionary category_groups to form required by map method
category_groups_inv = {}
for new_cat, old_cat_list in category_groups.items():
    for old_cat in old_cat_list:
        category_groups_inv[old_cat] = new_cat
        
# category_groups_inv
wiki_names['name_category'] = wiki_names['name_category'].map(category_groups_inv)
wiki_names['name_category'].value_counts()

slavic               675
latin and romanic    627
greek                454
german               307
other                171
hebrew               138
Name: name_category, dtype: int64

In Polish first names are usually female or male. Let's assign gender to each name. Gender is primary assigned by looking at name description and looking for statements that match male of female description e.g. "male name", "female name equivalent" etc.

In [20]:
def extract_gender(input_str):
    input_str = input_str.lower()
    
    gender_dict = OrderedDict({
        'imię męskie': 'male',
        'imię  męskie': 'male',
        'męskie imię': 'male',
        'męski odpowiednik': 'male',
        'imię żeńskie': 'female',
        'żeńskie imię': 'female',
        'żeńskim odpowiednikiem': 'female',
        'żeńska forma': 'female',
        'żeński odpowiednik': 'female',
        'żeński wariant': 'female',
        'żeńska wersja': 'female',
        'forma żeńska': 'female'
    })
    
    for str_to_check, gender in gender_dict.items():
        if str_to_check.lower() in input_str:
            return gender
        
wiki_names['name_gender'] = wiki_names['name_description'].apply(extract_gender)

# After above step there are 102 names without assigned gender. Manual analysis showed that for those 102 names there is enough to apply a simple criterion. 
# If name ends with letter "a" it is a female, otherwise it is a male name.

wiki_names.loc[(wiki_names['name'].str.get(-1) == 'a') & (wiki_names['name_gender'].isna()), 'name_gender'] = 'female'
wiki_names.loc[wiki_names['name_gender'].isna(), 'name_gender'] = 'male'

wiki_names.head()

Unnamed: 0,name,name_description,name_category,name_gender
0,Żaklina,"Żaklina – fonetycznie zapisane spolszczenie francuskiego imienia Jacqueline, które jest żeńskim odpowiednikiem imienia Jakub. Jest również inny żeński odpowiednik tego imienia – Jakubina. Niektórzy błędnie uważają to imię za żeński odpowiednik imienia Jacek (mylnie interpretując francuskie imię Jacques).\n",latin and romanic,female
1,Parys,"Parys (gr. Πάρις – Paris) – imię męskie, prawdopodobnie pochodzenia przedhelleńskiego, o znaczeniu nieznanym. W mitologii greckiej nosił je Parys, ukochany Heleny Trojańskiej. W Kościele katolickim jego patronem jest św. Parys, biskup Teano.\n",greek,male
2,Parteniusz,"Parteniusz — imię męskie pochodzenia greckiego, od gr. przymiotnika parthénios, oznaczającego ""panieński, dziewiczy, czysty, niewinny"". \n",greek,male
3,Sambor,"Sambor – słowiańskie imię męskie, złożone z członów Sam- (""samotny"") oraz -bor (""walczyć, zmagać się""). Mogło oznaczać ""walczącego samotnie"".\n",slavic,male
4,Samboja,"Samboja – staropolskie imię żeńskie, złożone z członu Sam- (""samotna, jedyna"") oraz członu -boj-a (""bicie, walka""). Oznacza ""tę, która walczy samotnie"".\n",slavic,female


Let's check gender distribution.

In [21]:
wiki_names['name_gender'].value_counts()

male      1487
female     885
Name: name_gender, dtype: int64

Some first names consist of two phrases e.g.: "Jan Nepomucen", "Jan Chryzostom". Let's look up them closer.

In [22]:
wiki_names[wiki_names['name'].str.count(' ') >= 1]

Unnamed: 0,name,name_description,name_category,name_gender
423,Franciszek Salezy,Franciszek Salezy - imię dwuczłonowe pochodzące od św. Franciszka Salezego - François de Sales.\n,latin and romanic,male
426,Franciszek Ksawery,"Franciszek Ksawery — imię dwuczłonowe, powstałe na cześć św. Franciszka Ksawerego, właśc. Franciszka z Xavier w Hiszpanii. Następnie pojawili się inni święci o tych imionach.\n",latin and romanic,male
436,Franciszka Ksawera,"Franciszka Ksawera — podwójne imię żeńskie, żeński odpowiednik imienia Franciszek Ksawery. Jego patronką jest św. Franciszka Ksawera Cabrini. \n",latin and romanic,female
712,Filip Neriusz,"Filip Neriusz, Filip Nereusz – podwójne imię męskie, spotykane również w formie przestawnej, nadawane na cześć św. Filipa Neri, znanego też jako św. Filip Neriusz (mniej poprawnie jako Filip Nereusz, która to forma zapewne powstała przez pomieszanie nazwiska świętego z imieniem Nereusz), i szczególnie popularne w XVIII–XIX wieku.\n",greek,male
991,Juda Tadeusz,"Juda Tadeusz – podwójne imię męskie, którego patronem jest św. Juda Tadeusz. Juda wywodzi się od hebr. jada – chwalić, dziękować; Tadeusz od aram. tadda – pierś; godny czci, odważny).\n",hebrew,male
1075,Karol Boromeusz,Karol Boromeusz – imię męskie dwuczęściowe. Pochodzi od imienia i nazwiska lub przydomka św. Karola Boromeusza czyli Carlo Borromeo.\n,latin and romanic,male
1391,Jan Nepomucen,"Jan Nepomucen (ur. ok. 1350 w Pomuku, obecnie Nepomuk, zm. 20 marca 1393 w Pradze) – prezbiter, spowiednik Zofii Bawarskiej, męczennik i święty Kościoła katolickiego.\n",slavic,male
1392,Jan Kanty,"Jan Kanty (również Jan z Kęt lub Jan Wacięga; ur. 23 lub 24 czerwca 1390 w Kętach, zm. 24 grudnia 1473 w Krakowie) – prezbiter, polski święty Kościoła katolickiego.\n",slavic,male
1393,Jan Gwalbert,"Jan Gwalbert (ur. ok. 995 we Florencji, zm. 12 lipca 1073 w Passignano sul Trasimeno) – święty katolicki, opat, założyciel zakonu wallombrozjanów.\n",latin and romanic,male
1394,Jan Chrzciciel,"Jan Chrzciciel (Jan Baptysta) – imię męskie tradycyjnie występujące w parze, nadawane na cześć proroka Jana Chrzciciela (łac. Iohannes Baptista).\n",hebrew,male


There are 11 first names consisting of two phrases. These are non-standard names. Lets remove them from the data.

In [23]:
wiki_names.drop(wiki_names[wiki_names['name'].str.count(' ') >= 1].index, inplace=True)

Let's look at our final dataset.

In [24]:
wiki_names.sample(10)

Unnamed: 0,name,name_description,name_category,name_gender
2121,Abbon,"Abbon, Abbo – imię męskie pochodzenia germańskiego – Adalburg, Alburg lub hebrajskiego – obhad (niewolnik).\n",german,male
2176,Archelaus,"Archelaus – zlatynizowana forma greckiego imienia męskiego Αρχελαος (Archelaos), które oznacza ""przywódca ludu"", od αρχος (archos) – ""mistrz, władca, przywódca"" i λαος (laos) – ""lud, ludzie"". Patronem tego imienia jest św. Archelaus, wspominany razem ze św. Cyriakiem (III wiek).\n",latin and romanic,male
2284,Bronisław,"Bronisław, Bronsław, Barnisław, (zniem.) Brunisław, Brosław – męskie imię pochodzenia słowiańskiego.\n",slavic,male
936,Wisław,"Wisław – staropolskie imię męskie, złożone ze skróconego członu Wit- (""pan, władca""), i -sław (""sława""). Mogło ono mieć charakter życzący i oznaczać"" tego, który będzie sławnym panem"". Formą pełniejszą tego imienia był Witosław, a żeńskim odpowiednikiem - Wisława. \n",slavic,male
2124,Amadea,"Amadea – żeński odpowiednik łacińskiego imienia Amadeusz, powstałego w kręgach zakonnych w średniowieczu[1]. Oznacza ""kochającą Boga"". Podobne znaczenie ma Teofila. \n",latin and romanic,female
540,Cyriaka,"Cyriaka – żeński odpowiednik imienia Cyriak. Wśród patronek tego imienia - św. Cyriaka, zm. w 307 roku w Nikomedii.\n",greek,female
600,Dawid,Dawid (heb. דָּוִד) – imię męskie pochodzenia biblijnego. Wywodzi się od hebrajskiego wieloznacznego słowa oznaczającego 1. ukochany (czytaj Dawid) lub 2. wujek (czytaj dod).\n,hebrew,male
543,Kira,"Cyra, Kira – żeński odpowiednik męskiego imienia Cyrus. Patronką tego imienia jest św. Cyra z V wieku[1].\n",other,female
1004,Jesse,"Jesse — imię męskie pochodzenia biblijnego. Imię to nosił Jesse, ojciec króla Dawida. Pochodzi ono od hebrajskiego יִשַׁי (Isaj) co prawdopodobnie oznaczało ""podarek, podarunek"". \n",hebrew,male
752,Liceria,"Liceria – imię żeńskie pochodzenia łacińskiego, oznaczające ""przyzwalająca"". Patronem tego imienia jest św. Liceriusz (IV wiek).\n",latin and romanic,female


Below is distribution of `name_category` and `name_gender`.

In [25]:
wiki_names['name_category'].value_counts()

slavic               673
latin and romanic    622
greek                453
german               307
other                170
hebrew               136
Name: name_category, dtype: int64

In [26]:
wiki_names['name_gender'].value_counts()

male      1477
female     884
Name: name_gender, dtype: int64

Below are cross-tabulars between `name_category` and `name_gender`.

In [27]:
pd.crosstab(wiki_names['name_category'], wiki_names['name_gender'], margins=True)

name_gender,female,male,All
name_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
german,130,177,307
greek,191,262,453
hebrew,54,82,136
latin and romanic,277,345,622
other,81,89,170
slavic,151,522,673
All,884,1477,2361


In [28]:
pd.crosstab(wiki_names['name_category'], wiki_names['name_gender'], normalize='index',margins=True)

name_gender,female,male
name_category,Unnamed: 1_level_1,Unnamed: 2_level_1
german,0.423453,0.576547
greek,0.421634,0.578366
hebrew,0.397059,0.602941
latin and romanic,0.445338,0.554662
other,0.476471,0.523529
slavic,0.224368,0.775632
All,0.374418,0.625582


In [29]:
pd.crosstab(wiki_names['name_category'], wiki_names['name_gender'], normalize='columns', margins=True)

name_gender,female,male,All
name_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
german,0.147059,0.119838,0.13003
greek,0.216063,0.177387,0.191868
hebrew,0.061086,0.055518,0.057603
latin and romanic,0.313348,0.233582,0.263448
other,0.091629,0.060257,0.072003
slavic,0.170814,0.353419,0.285049


Export data set to file. File `wiki_names_with_description.csv` will be used in model training in the next step.

In [30]:
wiki_names.to_csv('02 Input data\wiki_names_with_descriptions.csv')