## Imports

In [None]:
import re
from unicodedata import normalize
import html
from tqdm.notebook import tqdm

## Load Data

In [2]:
%%time

wiki_file = 'eswiki-20200601-pages-articles-multistream.txt'

def load_data(wiki_text_file: str):
    
    '''This function loads the text file that contains all the Spanish Wikipedia Articles'''
    
    with open(wiki_text_file, 'r') as myfile:
        data = myfile.read()
        return data

data_raw = load_data(wiki_file)

CPU times: user 37.2 s, sys: 39.4 s, total: 1min 16s
Wall time: 1min 16s


____

## Filter Musical Artists Articles

In [4]:
data_wiki_articles_text = data_raw.split('<page>')
print(f'Total # of Spanish Wikipedia articles: {len(data_wiki_articles_text)}')

patterns = ['{{Ficha de artista musical', '|Discográfica', '|discográfica', '|voz', '|compañía discográfica', '|instrumento']
data_artists_text = [pat for pat in data_wiki_articles_text if any(p in pat for p in patterns)]

patterns = ['{{Ficha de persona', '{{Ficha de artista musical']
data_artists_text = [pat for pat in data_artists_text if any(p in pat for p in patterns)]

patterns = ['{{Ficha de personaje']
data_artists_text = [pat for pat in data_artists_text if not any(p in pat for p in patterns)]
print(f'Total # of Spanish Wikipedia Musical Artists articles: {len(data_artists_text)}')

Total # of Spanish Wikipedia articles: 3928922
Total # of Spanish Wikipedia Musical Artists articles: 26807


___

## Extract text and title

In [5]:
def extract_text_and_title(data: list):

    '''This function ... '''
    
    data_artists = list()
    
    title_pattern = r'<title>[\s\S]*?</title>'
    full_text_pattern = r'<text[\s\S]*?>[\s\S]*?</text>'
    text_pattern = r'<text[\s\S]*?>'
    
    with tqdm(total=len(data)) as pbar:
        
        for d in data:
            data_artist = dict()
            data_artist['articulo_raw'] = d
            
            data_artist['id_titulo'] = re.search(title_pattern, d).group()[7:-8]
            
            full_texto = re.search(full_text_pattern, d).group()
            text_header = re.search(text_pattern, full_texto).group()
            data_artist['texto_raw'] = full_texto.split(text_header)[1]
                      
            data_artists.append(data_artist)
            pbar.update(1)
        
    return data_artists

data_artists = extract_text_and_title(data_artists_text)

HBox(children=(IntProgress(value=0, max=26807), HTML(value='')))




In [6]:
def clean_text(data: list):
   
    '''This function ....'''
    
    with tqdm(total=len(data)) as pbar:    
        for d in data:
            d['texto_raw'] = d['texto_raw'].split('</text>')[0]
            pbar.update(1)
            
    return data
    

data_artists = clean_text(data_artists)

HBox(children=(IntProgress(value=0, max=26807), HTML(value='')))




### Clean particular cases

In [7]:
with tqdm(total=len(data_artists)) as pbar:
    for d in data_artists:
        if d['id_titulo']=='Daniela Carpio':
            d['texto_raw'] = (d['texto_raw']
                              .replace('{{{{','{{'))

        elif d['id_titulo']=='Ski Mask the Slump God':
            d['texto_raw'] = (d['texto_raw']
                              .replace('* escritor de canciones', '* escritor de canciones}}'))

        elif d['id_titulo']=='Marcus &amp; Martinus':
            d['texto_raw'] = (d['texto_raw']
                              .replace('marcusandmartinus.com/', 'marcusandmartinus.com/]]'))

        elif d['id_titulo']=='Virgil Popa':
            d['texto_raw'] = (d['texto_raw']
                              .replace('Virgil Popa.jpg', 'Virgil Popa.jpg}}'))

        elif d['id_titulo']=='Rangel':
            d['texto_raw'] = (d['texto_raw']
                              .replace('= [[elcartelurbano]],', '= [[elcartelurbano]]}}'))

        elif d['id_titulo']=='Jennifer Holliday':
            d['texto_raw'] = (d['texto_raw']
                              .replace('10|1960|edad', '10|1960|edad}}'))

        elif d['id_titulo']=='Infinite (grupo musical)':
            d['texto_raw'] = (d['texto_raw']
                              .replace('[[Hoya (Cantante)|Hoya]]', '[[Hoya (Cantante)|Hoya]]}}'))

        elif d['id_titulo']=='Coro de la Generalidad Valenciana':
            d['texto_raw'] = (d['texto_raw']
                              .replace('[[Francisco Hervás]]&lt;br /&gt;', '[[Francisco Hervás]]&lt;br /&gt;}}'))

        elif d['id_titulo']=='Boddega':
            d['texto_raw'] = (d['texto_raw']
                              .replace('Roberto Jijón, Carlos del Campo', 'Roberto Jijón, Carlos del Campo}}'))

        elif d['id_titulo']=='Andrea Bocelli':
            d['texto_raw'] = (d['texto_raw']
                              .replace('|idioma=español{{', '|idioma=español}}'))
            
        pbar.update(1)

HBox(children=(IntProgress(value=0, max=26807), HTML(value='')))




### Remove particular cases

In [8]:
def remove_particular_cases(data, to_remove_l):
    
    ind_to_remove_l = list()
    
    with tqdm(total=len(data)) as pbar:
        for ind, d in enumerate(data):
            if d['id_titulo'] in to_remove_l:
                ind_to_remove_l.append(ind)
                
            pbar.update(1)

    for ind in ind_to_remove_l[::-1]:
        data.pop(ind)
        
      
    return data


titulos_to_remove = ['Wikipedia:Tablón de anuncios de los bibliotecarios/Portal/Archivo/Protección de artículos/2018/04',
                     'Plantilla:Ficha de persona/doc',
                     'Wikipedia:Café/Portal/Archivo/Propuestas/2009/09',
                     'Wikipedia:Consultas de borrado/Giancarlo Monsalve',
                     'Gauvain Sers',
                     'Wernher von Braun',
                     'Raymond Kurzweil',
                     'Tomás Luis de Victoria',
                     'Cristóbal de Morales',
                     'Francisco Guerrero', 
                     'Juan Cabanilles',
                     'Robert Moog',
                     'Diego Ortiz',
                     'Alejandro García Villalón («Virulo»)',
                     'Jean-Pierre Christin',
                     'Juan Navarro Hispalensis',
                     'Keiji Fujiwara',
                     'Phil Zimmermann']

data_artists = remove_particular_cases(data_artists, titulos_to_remove)

HBox(children=(IntProgress(value=0, max=26807), HTML(value='')))




____

## Decode HTML tags

In [9]:
def decode_html_tags(data: list, key_name: str, new_key_name: str):

    '''This function decodes HTML tags from each article:     &lt;ref&gt;   -->  <ref> '''
    
    with tqdm(total=len(data)) as pbar:
        
        for d in data:
            d[new_key_name] = html.unescape(d[key_name])
            pbar.update(1)
        
    return data

data_artists = decode_html_tags(data_artists, 'texto_raw', 'texto')

HBox(children=(IntProgress(value=0, max=26789), HTML(value='')))




# Extract hidden elements

## Extract bracket structures

In [10]:
def extract_bracket_structure(data: list, key_name: str, new_key_name: str):
   
    '''This function extracts all the references from each article'''
    
    with tqdm(total=len(data)) as pbar:
        for d in data:
            
            brackets_l = list()
            texto_processed = d[key_name]
    
            left_index = 0
            right_index = len(texto_processed)
    
            list_index = 0
            while True:
        
                reg_resp_l = re.search(r'{{', texto_processed[left_index:right_index])

                if reg_resp_l == None:
                    break
            
                else:
            
                    left_index = reg_resp_l.span()[0] + left_index
                    reg_resp_r = re.search(r'}}', texto_processed[left_index:right_index])

                    if reg_resp_r == None:
                        break

                    else:

                        right_index = reg_resp_r.span()[1] + left_index
                        reg_resp_l_2 = re.search(r'{{', texto_processed[left_index+2:right_index])

                        if reg_resp_l_2 == None:
                            bracket = re.search(r'{{[\s\S}]*?}}', texto_processed[left_index:]).group(0)
                            list_index_str = '%{% '+ str(list_index) + ' %}%'
                            texto_processed = list_index_str.join(texto_processed.split(bracket))

                            brackets_l.append(bracket)
                            list_index += 1

                            left_index = 0
                            right_index = len(texto_processed)

                        else:
                            left_index = reg_resp_l_2.span()[0] + left_index
                
                
            d[new_key_name] = texto_processed
            d['_brackets_'] = brackets_l

            pbar.update(1)
        
    return data


data_artists = extract_bracket_structure(data_artists, 'texto', 'texto')       

HBox(children=(IntProgress(value=0, max=26789), HTML(value='')))




## Extract infobox

In [11]:
def extract_infobox(data: list):
    
    ''' This function ... '''
    
    pattern = r'{{Ficha de'
    pattern_persona = r'{{Ficha de persona'

    with tqdm(total=len(data)) as pbar:
        for d in data:
            for b in d['_brackets_']:
                response = re.match(pattern, b)
                if response:
                    d['infobox'] = b
                    
                    response_persona = re.match(pattern_persona, b)
                    if response_persona:
                        d['tipo_articulo'] = 'persona'
                    else:
                        d['tipo_articulo'] = 'grupo' 
                    
                    
            pbar.update(1)

        return data


data_artists = extract_infobox(data_artists)

HBox(children=(IntProgress(value=0, max=26789), HTML(value='')))




## Extract references

In [12]:
def extract_references(data: list, key_name: str, new_key_name: str):
   
    '''This function extracts all the references from each article'''
    
    with tqdm(total=len(data)) as pbar:
        for d in data:
            
            references_l = list()
            texto_processed = d[key_name]
    
            left_index = 0
            right_index = len(texto_processed)
    
            list_index = 0
            while True:
                
                reg_resp_l = re.search(r'<[^/!]*?>', texto_processed[left_index:right_index])
                if reg_resp_l == None:
                    
                    reg_resp_l = re.search(r'<![\s\S]*?>', texto_processed[left_index:right_index])        
                    if reg_resp_l != None:
                    
                        texto_processed = ''.join(texto_processed.split(reg_resp_l.group()))
                       
                    else:
                        
                        reg_resp_l = re.search(r'<[^/]*?/>', texto_processed[left_index:right_index])
                        if reg_resp_l == None:
                            
                            break
                        
                        else:

                            tag_raw = reg_resp_l.group()
                            tag_name = tag_raw.split(' ')[0][1:]

                            try:
                                tag_value = tag_raw.split(' ')[1][:-2]
                            except:
                                tag_value = ''

                            tag = dict()
                            tag = {'tag': tag_name, 'value': tag_value}

                            list_index_str = '%«% '+ str(list_index) + ' %»%'
                            list_index += 1
                            
                            texto_processed = list_index_str.join(texto_processed.split(tag_raw))
                            
                            references_l.append(tag)
 
                            left_index = 0
                            right_index = len(texto_processed)
                        
                
                else:
                    
                    tag_name = reg_resp_l.group()[1:-1].split(' ')[0]
                    tag_raw_open = reg_resp_l.group()
                    
                    left_index = reg_resp_l.span()[1] + left_index
                    
                    reg_resp_r = re.search(r'</[\s\S]*?>', texto_processed[left_index:right_index])
                    if reg_resp_r == None:
                        
                        break

                        
                    else:
                        
                        tag_raw_close = reg_resp_r.group()
                        right_index = reg_resp_r.span()[0] + left_index

                        reg_resp_l_2 = re.search(r'<[\s\S]*?>', texto_processed[left_index:right_index-1])
                        if reg_resp_l_2 == None:
                            
                            tag_value = texto_processed[left_index:right_index]
                            tag_raw = tag_raw_open + tag_value + tag_raw_close
                            tag = {'tag': tag_name, 'value': tag_value}

                            list_index_str = '%«% '+ str(list_index) + ' %»%'
                            list_index += 1

                            texto_processed = list_index_str.join(texto_processed.split(tag_raw))

                            references_l.append(tag)

                            left_index = 0
                            right_index = len(texto_processed)

                        else:
                                  
                            left_index = reg_resp_l_2.span()[0] + left_index
                
                
            d[new_key_name] = texto_processed
            d['_references_' + new_key_name] = references_l

            pbar.update(1)
        
    return data

data_artists = extract_references(data_artists, 'texto', 'texto')  
data_artists = extract_references(data_artists, 'infobox', 'infobox')

HBox(children=(IntProgress(value=0, max=26789), HTML(value='')))




HBox(children=(IntProgress(value=0, max=26789), HTML(value='')))




___

In [13]:
def replace_note_separator(data: list, key_name: str, new_key_name: str):
   
    '''This function ... '''
    
    with tqdm(total=len(data)) as pbar:
        
        for ind,d in enumerate(data):    
            texto_processed = d[key_name]
    
            left_index = 0
            right_index = len(texto_processed)
    
            while True:
                
                reg_resp_l = re.search(r'\[\[', texto_processed[left_index:right_index])

                if reg_resp_l == None:
                    break
            
                else:
            
                    left_index = reg_resp_l.span()[0] + left_index
                    reg_resp_r = re.search(r'\]\]', texto_processed[left_index:right_index])

                    if reg_resp_r == None:
                        print('¡warning!')
                        print(ind)
                        break

                    else:

                        right_index = reg_resp_r.span()[1] + left_index
                        note = texto_processed[left_index:right_index]
                        note_replacement = note.replace('|', '%%')
                        
                        texto_processed = note_replacement.join(texto_processed.split(note))
                        
                        left_index = right_index
                        right_index = len(texto_processed)
                
                
            d[new_key_name] = texto_processed

            pbar.update(1)
        
    return data


data_artists = replace_note_separator(data_artists, 'infobox', 'infobox')       

HBox(children=(IntProgress(value=0, max=26789), HTML(value='')))




_____

## Extract infobox keys

In [None]:
# print(data_artists[166]['infobox'])

In [14]:
%%time

def normalize_string(text: str):
    
    '''This function normalizes a string'''
    
    text = text.lower().replace('_',' ').replace('-',' ').strip()

    # -> NFD & remove diacritical
    text = re.sub(r'([^n\u0300-\u036f]|n(?!\u0303(?![\u0300-\u036f])))[\u0300-\u036f]+',
                      r'\1', normalize( "NFD", text), 0, re.I)

    # -> NFC
    text = normalize('NFC', text)
    
    return text


#######################


def get_infobox_keys_pattern():
    
    '''This function returns the regex pattern to extract the keys from each infobox'''
        
    pattern = r'(\n\|)([^=]*)(=)([^\n]*)' # group 2 -> key name , group 4 -> key value
    
    # \n\|      : ... cada variable empieza por un salto de línea "\n" y el símbolo "|"
    # [^=]*     : ... luego, todo lo que viene es el nombre de la variable (group 2)
    # =         : ... hasta llegar a un símbolo "="
    # ([^\n]*)  : ... luego, todo lo que hay hasta un salto de línea "\n" es el valor de la variable (group 4)
    
    return pattern


#######################

    
def extract_infobox_keys(data: list):
    
    '''This function extracts and returns all the keys and key values from each infobox'''
    
    pattern = get_infobox_keys_pattern()
    

    with tqdm(total=len(data)) as pbar:
        for a in data:

            key_names = [x.group(2).strip() for x in re.finditer(pattern, a['infobox'])]
            key_values = [x.group(4).strip() for x in re.finditer(pattern, a['infobox'])]


            for i in range(len(key_names)):

                key_name = normalize_string(key_names[i])
                key_value = key_values[i].strip()
                
                try:
                    if key_name[0]=='|':
                        key_name = key_name[1:].strip()
                except:
                    pass
                
                keys = key_name.split('\n|')
                num_keys = len(keys)
                
                if num_keys>1:
                    for n in keys[:-1]:
                        a[n] = ''

                    a[keys[-1]] = key_value
                else:
                    a[key_name] = key_value
                
            pbar.update(1)
        
    return data


data_artists = extract_infobox_keys(data_artists)

HBox(children=(IntProgress(value=0, max=26789), HTML(value='')))


CPU times: user 2.92 s, sys: 27.9 ms, total: 2.95 s
Wall time: 2.95 s


In [None]:
# print(data_artists[166]['infobox'])

In [None]:
# print(data_artists[166].keys())

___

## Get key frequency

In [15]:
def get_key_frequency(data: list):
    
    '''This function returns the keys sorted by frecuency of appearence in the dataset'''
    
    key_freq = {}
    
    for a in data:
        for k in list(a.keys()):

            if k in key_freq.keys():
                key_freq[k] += 1
            else:
                key_freq[k] = 1

    key_freq = {k: v for k, v in sorted(key_freq.items(), key=lambda item: item[1], reverse=True)}

    num_keys = len(key_freq.keys())
    print(f'# of distinct variables: {num_keys}')
    
    return key_freq

key_frequency = get_key_frequency(data_artists)
key_frequency

# of distinct variables: 1406


{'articulo_raw': 26789,
 'id_titulo': 26789,
 'texto_raw': 26789,
 'texto': 26789,
 '_brackets_': 26789,
 'infobox': 26789,
 'tipo_articulo': 26789,
 '_references_texto': 26789,
 '_references_infobox': 26789,
 'nombre': 24868,
 'imagen': 23696,
 'relacionados': 17760,
 'ocupacion': 15551,
 'instrumento': 15339,
 'genero': 15143,
 'fecha de nacimiento': 14522,
 'nombre de nacimiento': 14320,
 'años activo': 13712,
 'compañia discografica': 12799,
 'alias': 12463,
 'pie de imagen': 12387,
 'origen': 10528,
 'fondo': 10521,
 'tiempo': 10492,
 'discografica': 10106,
 'tamaño de imagen': 10052,
 'estilo': 9878,
 'miembros': 9847,
 'lugar de nacimiento': 9732,
 'fecha de fallecimiento': 9599,
 'pagina web': 9138,
 'url': 9103,
 'subtitulo': 8535,
 'tamaño': 8224,
 'otros miembros': 6989,
 'conyuge': 6787,
 'estado': 6596,
 'hijos': 6483,
 'voz': 5766,
 'url2': 4063,
 'logo': 3875,
 'nacionalidad': 3835,
 'firma': 3672,
 'sitio web': 3372,
 'artistas relacionados': 3012,
 'pareja': 2747,
 'fa

In [None]:
# data_artists[10]

___

## Remove empty keys

In [16]:
def remove_empty_keys(data: list):
    
    '''This function removes empty keys from the dataset''' 
    
    for a in data:
        keys = list(a.keys())
        for key in keys:
            if a[key]=='':
                if key == 'tipo':
                    print(a[key])
                del a[key]
            
    return data
                
data_artists = remove_empty_keys(data_artists)
key_frequency = get_key_frequency(data_artists)
key_frequency


# of distinct variables: 992


{'articulo_raw': 26789,
 'id_titulo': 26789,
 'texto_raw': 26789,
 'texto': 26789,
 '_brackets_': 26789,
 'infobox': 26789,
 'tipo_articulo': 26789,
 '_references_texto': 26789,
 '_references_infobox': 26789,
 'nombre': 24782,
 'fecha de nacimiento': 14076,
 'genero': 13937,
 'ocupacion': 13372,
 'imagen': 13307,
 'instrumento': 11930,
 'relacionados': 11915,
 'nombre de nacimiento': 11182,
 'años activo': 10749,
 'origen': 10397,
 'fondo': 10306,
 'tiempo': 10199,
 'estilo': 9729,
 'miembros': 8823,
 'discografica': 8590,
 'lugar de nacimiento': 8499,
 'compañia discografica': 7821,
 'url': 5974,
 'pie de imagen': 5755,
 'pagina web': 5232,
 'alias': 4869,
 'tamaño de imagen': 4835,
 'estado': 4744,
 'otros miembros': 4247,
 'subtitulo': 4040,
 'tamaño': 3895,
 'nacionalidad': 3245,
 'fecha de fallecimiento': 3042,
 'sitio web': 2083,
 'artistas relacionados': 2052,
 'conyuge': 1849,
 'voz': 1801,
 'hijos': 1620,
 'facebook': 1559,
 'twitter': 1228,
 'nacimiento': 480,
 'pareja': 334,

____

## Split musicians & groups

In [17]:
def extract_personas(data: list):
    
    '''This function ... '''
    
    artistas_personas = list()
    
    for a in data:
        if a['tipo_articulo'] == 'persona':
            artistas_personas.append(a)
            
    return artistas_personas


artistas_personas = extract_personas(data_artists)
key_frequency_personas = get_key_frequency(artistas_personas)
key_frequency_personas

# of distinct variables: 637


{'articulo_raw': 15505,
 'id_titulo': 15505,
 'texto_raw': 15505,
 'texto': 15505,
 '_brackets_': 15505,
 'infobox': 15505,
 'tipo_articulo': 15505,
 '_references_texto': 15505,
 '_references_infobox': 15505,
 'nombre': 14492,
 'fecha de nacimiento': 14068,
 'ocupacion': 13068,
 'genero': 13043,
 'instrumento': 11741,
 'nombre de nacimiento': 11099,
 'años activo': 10735,
 'relacionados': 9152,
 'imagen': 8587,
 'lugar de nacimiento': 8490,
 'compañia discografica': 7807,
 'pie de imagen': 5749,
 'pagina web': 5225,
 'tamaño de imagen': 4827,
 'alias': 4444,
 'nacionalidad': 3161,
 'fecha de fallecimiento': 3041,
 'conyuge': 1841,
 'voz': 1793,
 'hijos': 1609,
 'sitio web': 1281,
 'estilo': 405,
 'fondo': 397,
 'url': 394,
 'discografica': 334,
 'pareja': 332,
 'tiempo': 281,
 'origen': 260,
 'firma': 245,
 'nacimiento': 200,
 'estatura': 185,
 'artistas relacionados': 184,
 'nombre real': 179,
 'nombre artistico': 174,
 'estado': 171,
 'subtitulo': 170,
 'imdb': 143,
 'tamaño': 133,
 

In [18]:
def extract_grupos(data: list):
    
    '''This function ... '''
    
    artistas_grupos = list()
    
    for a in data:
        if a['tipo_articulo'] == 'grupo':
            artistas_grupos.append(a)
            
    return artistas_grupos


artistas_grupos = extract_grupos(data_artists)
key_frequency_grupos = get_key_frequency(artistas_grupos)
key_frequency_grupos

# of distinct variables: 548


{'articulo_raw': 11284,
 'id_titulo': 11284,
 'texto_raw': 11284,
 'texto': 11284,
 '_brackets_': 11284,
 'infobox': 11284,
 'tipo_articulo': 11284,
 '_references_texto': 11284,
 '_references_infobox': 11284,
 'nombre': 10290,
 'origen': 10137,
 'tiempo': 9918,
 'fondo': 9909,
 'estilo': 9324,
 'miembros': 8820,
 'discografica': 8256,
 'url': 5580,
 'imagen': 4720,
 'estado': 4573,
 'otros miembros': 4239,
 'subtitulo': 3870,
 'tamaño': 3762,
 'relacionados': 2763,
 'artistas relacionados': 1868,
 'facebook': 1445,
 'twitter': 1114,
 'genero': 894,
 'sitio web': 802,
 'alias': 425,
 'ocupacion': 304,
 'logo': 282,
 'nacimiento': 280,
 'instrumento': 189,
 'past members': 154,
 'label': 150,
 'years active': 147,
 'antiguos miembros': 146,
 'website': 138,
 'current members': 121,
 'nombre real': 117,
 'url2': 116,
 'background': 104,
 'associated acts': 95,
 'genre': 92,
 'name': 85,
 'origin': 84,
 'nacionalidad': 84,
 'nombre de nacimiento': 83,
 'artista': 82,
 'studio': 75,
 'capti

___

## Keys ...

In [None]:
   ['imagen',
    'alt',
    'identificador youtube de video',
    'iamgen',
    'bandcamp',
    'cwidth',
    'oleft',
    'image width',
    'imagen https://i.pinimg.com/originals/67/50/d4/6750d4c26f054b8dde911767a35673d4.jpg',
    'pie de imagen',
    'pagina web',
    'tamaño de imagen',
    'firma',
    'imdb',
    'tamaño',
    'facebook',
    'twitter',
    'altura',
    'tamaño imagen',
    'instagram',
    'color de ojos',
    'color de cabello',
    'pie de foto',
    'img capt',
    'pieimagen',
    'foto',
    'img size',
    'myspace',
    'pie imagen',
    'pie de pagina',
    '280px',
    'numero telefonico',
    'image',
    'caption',
    'web',
    'url2',
    'patrimonio',
    'youtube',
    'tamañoimagen',
    'sitio oficial',
    'img',
    'twitter oficial',
    'mail',
    'pie imagenes',
    'url1',
    'altezza',
    'estatura:',
    'sitio  web',
    'redes sociales',
    'autografo',
    '(estatura)',
    'sitio web',
    'url',
    'web oficial',
    'sitio web3',
    'sitio web oficial',
    'pieimagrn',
    'sitio webarchivo',
    'facebok',
    'urrl',
    'pagina web oficial',
    'imbd',
    'image size',
    'tamaño de foto',
    'sitioweb',
    'wikidata',
    'textoimagen',
    'grupo sanguineo',
    'mide',
    'color',
    'escudo',
    'ancho',
    'tamano',
    'bsize',
    'tam de imagen',
    'image tamaño',
    'tipo de sangre',
    'soundcloud',
    'estatura',
    'subtitulo',
    'website',
    'peso',
    'pie',
    'equipo de futbol',
    'pagina web3',
    'numero de peliculas',
    'subtitutlo',
    'peliculas',
    'prenda de vestir',
    'titulo de imagen',
    'sitio externo',
    'subtitulo\ne',
    'deporte',
    'id',
    'belleza',
    'ubtitulo',
    'descripcion',
    'logo',
    'salario',
    'ranking [[dj mag]]',
    'landscape',
    'medidas',
    'snapchat',
    'bhrnryngb murmullo',
    'archivo',
    'epigrafe',
    'bautizo',
    'presidencia de honor',
    'posicion filosofica',
    'club actual',
    'equipo',
    'fans',
    'pais preferido',
    'paisaje',
    'gerente',
    'cine',
    'signo zodiacal',
    'zodiaco chino',
    'labels',
    'modulo',
    'medio de comunicacion',
    'programas',
    'partido politico',
    'programa',
    'partido',
    'formato',
    'medio',
    'final',
    'escudo2',
    'vine',
    'filme',
    'television',
    '1',
    '2',
    '3',
    '4',
    '5',
    '6',
    '7',
    '8',
    '9',
    '10',
    '11',
    '12',
    '13',
    '14',
    '15',
    '16',
    '17',
    'inicio',
    'fecha',
    'immagine bandiera nazione',
    'notas',
    'nombre               anuel aa',
    'fandoom',
    'libros relacionados',
    'relacion',
    'nombre     tambien muy amada por sus fans',
    'compilacion de musica',
    'shows',
    'enlistamiento',
    'estudio',
    'en vivo',
    'colecciones',
    'ann aop',
    'area',
    'movimiento',
    'etnia',
    'obras notables',
    'obras',
    'presentaciones asociadas',
    'serie',
    'sede',
    'empresa',
    'carrera',
    'agencia',
    'discogs',
    'distribuidora',
    'ann m',
    'fecha de nacimiento igual a la de la guaren.alemam',
    'afiliaciones',
    'editorial',
    'tipo de',
    'agencia artistica',
    'posicion',
    'contratacion',
    'fecha de operacion',
    'filiacoes',
    'relacionados| [[ismael quintana]]'
   ]

In [None]:
key = 'relacionados| [[ismael quintana]]'

for d in artistas_personas:
    try:
        print(f'{key}: {d[key]}')
        print(d['id_titulo'])
        print('----')
        # print(d['nacionalidad'])
        # print(d['infobox'])
        
        print(d.keys())
        # print(d['años activo'])
        
        # print(d.keys())
        # if d[key]=='2,10m':
            #print(d)
    except:
        pass

In [None]:
for ind,d in enumerate(data_artists):
    if d['id_titulo']=='Plantilla:Ficha de persona/doc':
        print(ind)

In [None]:
len(artistas_personas)

In [None]:

'relacionados| [[ismael quintana]]',
'modelos',
'causa/razon',
'estudio de grabacion',
'nac',
'inicio2',
'ultimo concierto',
'asociados a',
'asociado a',
'actos relacionados',
'iempo',


## Extract first 3 paragraphs

In [None]:
%%time

def get_paragraph_pattern():

    ''' This function returns the regex pattern to extract the first paragraph from text '''
    
    pattern = r'({{[\s\S]*?}}\n\n)?([^{]*?({{[\s\S]*?}})?)\n\n'
    
    # ({{[\s\S]*?}}\n\n)?([^{]*?({{[\s\S]*?}})?)\n\n
    
    # ({{[\s\S]*?}}\n\n)?                           : Omitir los textos que empiezan por {{ ... }}\n\n
    # ([^{]*?({{[\s\S]*?}})?)                       : Omitir todas las estructuras como {{ ... }}
    # \n\n                                          : \n\n
    
    return pattern


#######################


def extract_first_3_paragraphs(data: str):
    
    ''' This function ... '''

    pattern = get_paragraph_pattern()
    
    for a in data:
    
        try:
            regex_response = re.search(pattern, a['texto']) 
            
            if regex_response != None:
                paragraph_1 = regex_response.group()
                a['paragraph_1'] = paragraph_1.strip()
                
                try:
                    regex_response = re.search(pattern, a['texto'].split(paragraph_1)[1])
                    
                    if regex_response != None:
                        paragraph_2 = regex_response.group()
                        a['paragraph_2'] = paragraph_2.strip()
                        
                        try:
                            regex_response = re.search(pattern, a['texto'].split(paragraph_2)[1])
                            
                            if regex_response != None:
                                paragraph_3 = regex_response.group()
                                a['paragraph_3'] = paragraph_3.strip()
                                
                            else:
                                a['paragraph_3'] = ''
                        except:
                            a['paragraph_3'] = ''            
                    else:
                        a['paragraph_2'] = ''
                        a['paragraph_3'] = ''                  
                except:
                    a['paragraph_2'] = ''
                    a['paragraph_3'] = ''
            else:
                a['paragraph_1'] = a['texto']
                a['paragraph_2'] = ''
                a['paragraph_3'] = ''        
        except:
            a['paragraph_1'] = ''
            a['paragraph_2'] = ''
            a['paragraph_3'] = ''

        
    return data

data_artists = extract_first_3_paragraphs(data_artists)

In [None]:
print('iii-----------iuiiui')

In [None]:
data_artists[20028]

In [None]:
20027 ... ... echar un vistazo parrafos mal definidos ... ...

In [None]:
20026
20027... se bloquea
20028

In [None]:
print('-io-')

In [None]:
test_string = 'asdf {{dfsadf}}as dfdf dfad fdfd sfsf'

re.search(r'{{', test_string)

In [None]:
brackets

In [None]:
print(data_artists[250]['articulo'])

In [None]:
150 ; 

In [None]:
print(data_artists[120]['texto'])

In [None]:
print(data_artists[120]['paragraph_1'])

In [None]:
data_artists[120]['paragraph_1_clean']

In [None]:


data_artists = remove_references(data_artists)

In [None]:
## TODO ... dividir los párrafos sin tener en cuenta las citas y todo lo que esté entre {{}}

In [None]:
## Atención...

print(data_artists[2503]['texto'])



== Biografía ==
El grupo se formó en [[2

In [None]:
cites = remove_cites(data_artists[15]['texto'])

In [None]:
len(cites)

In [None]:
def unique(list1): 
  
    # intilize a null list 
    unique_list = [] 
      
    # traverse for all elements 
    for x in list1: 
        # check if exists in unique_list or not 
        if x not in unique_list: 
            unique_list.append(x) 
    
    return unique_list

cites = unique(cites)

In [None]:
data_artists[15]['texto'];

In [None]:
len(cites)

In [None]:
len(cites)

In [None]:
def combine(data, cites):
    
    for cite in cites:
        data = ''.join(data.split(cite))
    
    return data

In [None]:
data_artists[15]['texto_raw'];

In [None]:
print(combine(data_artists[15]['texto'], cites))

In [None]:
data_artists[15]['texto_raw'];

In [None]:
print(cites.group());

## Get key value frequency

In [None]:
def get_key_value_frequency(data: list, key_name: str):
    
    '''
        I: data -> [{'key_name_1': key_value_1, 'key_name_2': key_value_2, ...},
                    {'key_name_1': key_value_1, 'key_name_2': key_value_2, ...}]
           key_name -> key_name
        O: key_value_freq -> {'key_value_1': freq_value_1, 'key_value_2': freq_value_2, ...}
        
    '''
    
    key_value_freq = {}
    
    for a in data:
        if key_name in list(a.keys()):
            if a[key_name] in key_value_freq.keys():
                key_value_freq[a[key_name]] += 1
            else:
                key_value_freq[a[key_name]] = 1

    key_value_freq = {k: v for k, v in sorted(key_value_freq.items(), key=lambda item: item[1], reverse=True)}

    num_values = len(key_value_freq.keys())
    print(f'# of distinct values: {num_values}')
    
    return key_value_freq


key_value_frequency = get_key_value_frequency(data_artists, 'id_articulo')

_____

In [None]:
años_activo_l = ['años activo',
                 'tiempo',
                 'years active',
                 'periodo',
                 'periodo de actividad',
                 'año debut',
                 'años en activo',
                 'años activos',
                 'años activa',
                 'años en actividad',
                 'anni di attivita',
                 'años de actividad',
                 '|tiempo',
                 'actividad',
                 'activo']

In [None]:
discografica_l = ['discografica',
                  'compañia discografica',
                  'sello',
                  'compañia discografica(s)',
                  'discograficas',
                  'discografica(s)',
                  'discogafica',
                  'discogrfica',
                  'siscografica',
                  'disquera',
                  'compañia',
                  'sellos',
                  'sello discografico']

In [None]:
nombre_l = ['nombre',
            'name',            
            'nombre completo',
            #'nombre nativo',
            'naombre',
            'nombre en español']

In [None]:
alias_l = ['alias',
           'aias',
           'apodo',
           'apodos',
           'seudonimo',
           'pseudonimo',
           'seudonimo artistico',
           'alias(es)',
           'mas conocida como',
           'conocida como',
           'conocido como',
           'nombre alias']

In [None]:
nombre_nacimiento_l = ['nombre de nacimiento',
                       '[|nombre de nacimiento',
                       'birth name',
                       'nombre nacimiento',
                       'nombre de nacimientol',
                       '|nombre de nacimiento']

In [None]:
ocupacion_l = ['ocupacion',
               'occupation',
               'ocupacion actual',
               'ocupacion(es)',
               'profesion']

In [None]:
conyuge_l = ['conyuge',
             'pareja',
             'esposa',
             'parejas',
             'pareja.']

In [None]:
relacionados_l = ['artistas relacionados',
                 'grupos relacionados',
                 'relacionada con',
                 'artistas asociados',
                 'bandas asociadas',
                 'relacionado con',
                 'asociados',
                 '|relacionados',
                 'artistasrelacionados']

In [None]:
muerte_l = ['fallecimiento',
            'defuncion',
            'fallecimento',
            'fallece',
            'fecha de fallecimiento',
            'fecha de defuncion']

In [None]:
muerte_causa_l = ['causa muerte',
                 'causa de muerte',
                 'causa de la muerte']

In [None]:
genero_l = ['genero',
            'estilo',
            'genre',
            'generos',
            'genero(s)']

In [None]:
fecha_nacimiento_l = ['fecha de nacimiento',
                      'birth date',
                      '|fecha de nacimiento',
                      'fecha nacimiento']

In [None]:
'edad'

In [None]:
familia_l = ['familia',
             'familiares']

In [None]:
hijos_l = ['hijos',
           'hijo']

In [None]:
voz_l = ['voz',
         'tipo de voz',
         'categoria de voz',
         'tipo de [[voz]]',
         'tipo de voz|voz']

In [None]:
instrumento_l = ['instrumento',
                 'instrumentos',
                 'notable instruments',
                 'instrument',
                 '|instrumento',
                 'instrumentos notables',
                 'instrumento(s)']

In [None]:
lugar_fallecimiento_l = ['lugar de fallecimiento',
                         'lugar de muerte',
                         'lugar de defuncion']

In [None]:
lugar_nacimiento_l = ['lugar de nacimiento',
                      '|lugar de nacimiento',
                      'birth place',
                      'lugar nacimiento']

In [None]:
miembros_antiguos_l = ['miembros antiguos',
                       'past members',
                       'antiguos miembros',
                       'miembros anteriores',
                       'miembros pasados',
                       'ex miembros',
                       'anteriores miembros']

In [None]:
nacimiento_l = ['nacimiento',
                'nacido',
                'born']

In [None]:
miembros_originales_l = [ 'miembros originales',
                          'formacion original',
                          'miembros oficiales']

In [None]:
miembros_otros_l = ['otros miembros',
                    'otros  miembros']

In [None]:
miembros_l = ['miembros',
              'agrupacion',
              'integrantes',
              'current members',
              'miembros actuales',
              '|miembros']

In [None]:
fondo_l = ['fondo',
           'background']

In [None]:
obra_l = ['obra',
          'obrasdestacadas',
          'obras destacadas',
          'obras notables',
          'trabajos notables']

In [None]:
nombre_original_l = ['nombre real']

In [None]:
origen_l = ['origen',
            'nacionalidad',
            'origin',
            'pais',
            'ubicacion',
            'ciudad',
            'vive en']

In [None]:
estado_l = ['estado',
            'status']

In [None]:
premios_l = ['premios',
             'premios grammy']

In [None]:
lugar_residencia_l = ['residencia']

In [None]:
nombre_artistico_l = ['nombre artistico',
                      'nombre de artistico']

In [None]:
single_exitoso_l = ['single mas exitoso',
                    'sencilloexitoso',
                    'sencillo mas exitoso',
                    'temaexitoso',
                    'sencillo exitoso']

In [None]:
músico


grupo



In [None]:
musico =  {'título': 'Haritz',   
             'nombre':{
                 'nombre': 'Haritz',
                 'alias': [
                     {'alias':'Laboa'},
                     {'alias':'Perre'},
                 ],
                 'nombre completo': 'Haritz Laboa',
                 'nombre original': '',
                 'nombre español': 'Roble',
             },
             'nacimiento': {
                 'fecha': '1988 - 09 - 08',
                 'pais': 'España',
                 'ciudad': 'Barakaldo',
             },
             'fallecimiento': {
                 'fecha': '',
                 'pais': '',
                 'ciudad': '',
                 'causa': '',
             },
             'instrumentos': [{
                 'instrumento': 'guitarra',
                 'relevancia': 'principal',
                 'tipo_de_instrumento':{
                     'año': '',
                     'marca': 'Martin',
                     'modelo': 'OM-45',
                 }}]
             }

In [None]:
musico

In [None]:
collapse_keys_l = [años_activo_l,
                 discografica_l,
                 nombre_l,
                 alias_l,
                 nombre_nacimiento_l,
                 ocupacion_l,
                 conyuge_l,
                 relacionados_l,
                 muerte_l,
                 muerte_causa_l,
                 genero_l,
                 fecha_nacimiento_l,
                 familia_l,
                 hijos_l,
                 voz_l,
                 instrumento_l,
                 lugar_fallecimiento_l,
                 lugar_nacimiento_l,
                 miembros_antiguos_l,
                 nacimiento_l,
                 miembros_originales_l,
                 miembros_otros_l,
                 miembros_l,
                 fondo_l,
                 obra_l,
                 nombre_original_l,
                 origen_l,
                 estado_l,
                 premios_l,
                 lugar_residencia_l,
                 nombre_artistico_l,
                 single_exitoso_l]

In [None]:
def show_key_values(data, key_name, show_num=10000000000):
    
    for a in data[:show_num]:
            if key_name in list(a.keys()):
                print(f'{key_name}: {a[key_name]}')

In [None]:
var_frecuency = get_var_frecuency(musical_articles_v4)

In [None]:
print(musical_articles_v4[20379]['full_article'])

In [None]:
def collapse_keys(data, key_replacement):
    
    x = 0
    for a in data:   
        for key_list in key_replacement:
            for key_name in key_list[1:]:
                
                if key_name in list(a.keys()):
                    if key_list[0] in list(a.keys()):
                        x += 1
                        print('--**--**--')
                        print(f'{key_name}: {a[key_name]}')
                        print(f'{key_list[0]}: {a[key_list[0]]}')
                    else:
                        a[key_list[0]] = a.pop(key_name)
                        
    
collapse_keys(musical_articles_v4, collapse_keys_l)

In [None]:
for a in musical_articles_v4[:25000]:
    
    if 'anni di attivita' in list(a.keys()):
        print('********   *******+')
        print(a['anni di attivita'])
        print(a['full_article'])

In [None]:
def show_key_values(data, key_name, show_num=10000000000):
    
    for a in data[:show_num]:
            if key_name in list(a.keys()):
                print(f'{key_name}: {a[key_name]}')

In [None]:
for a in musical_articles_v3:
    for k in list(a.keys()):
        
        if k in var_frecuency:
            var_frecuency[k] += 1
        else:
            var_frecuency[k] = 1
            
var_frecuency = {k: v for k, v in sorted(var_frecuency.items(), key=lambda item: item[1], reverse=True)}

In [None]:
num_vars = len(var_frecuency.keys()) - 3 # full_article , article_type , ficha
print(f'# of distinct variables: {num_vars}')