In [1]:
import os
import bs4
import json
import requests

In [2]:
# cada vez que hacemos una toca al inali.cob.mx, recibimos una alarma así:
# InsecureRequestWarning: Unverified HTTPS request is being made. Adding certificate verification is strongly advised.
# creo q los certificados de INALI se han caducado
# por no ver la alarma cada vez que agarramos un vínculo de INALI, la deshabilitamos aquí

import urllib3
urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)

In [3]:
def get_agrup_urls(caldo, base_url):
    '''
    por suerte todos los vínculos de agrupaciones lingüísticas
    se encuentran entre "rows" <tr></tr> en el base_url
    '''
    vinc_trs = caldo.find_all('tr')
    agrup_vincs = []
    
    # extraer los objetos que tienen el parte "href"
    for tr in vinc_trs:
        agrup_vincs.extend(tr.find_all('a'))
    print('ha sacado {} vinculos de agrupaciones lingüísticas en {}'.format(len(agrup_vincs), base_url))
    
    # construimos los URLs completos
    return [os.path.join(base_url, agrup_vinc['href']) for agrup_vinc in agrup_vincs]

In [4]:
def sacar_agrup_y_familia(sopa):
    '''
    @sopa: debe ser la página de un nivel más alto que la que
           tiene todos los datos específicos de los variantes
           por ejemplo: https://www.inali.gob.mx/clin-inali/html/l_nahuatl.html
    'agrup' significa la Agrupación lingüística
    'familia' significa la Familia lingüística
    '''
    ling_queridos = []
    ling_indexes = {
        'agrupación': 0,
        'familia': -1
    }

    for key, value in ling_indexes.items():
        ling_querido = sopa.body.h4.contents[value].split(':')[-1].strip()
        print('ha sacado el dato tipo {} de la sopa HTML: {}'.format(key, ling_querido))
        ling_queridos.append(ling_querido)
    return ling_queridos

In [5]:
def sacar_autodes(td):
    '''
    @td: debe ser el primer table de una row, en el que queda las autodenominaciones y el variante
    
    NOTA: este método de extraer las autodenominaciones presupone que siempre hay dos
    maneras de describir las autods: primero como string y luego lo mismo de otra forma en brackets.
    entonces lo separamos con un newline '\n' como aparece en la página de INALI
    
    parace que el variante no queda entre "paragraph HTML tags" mientras las autodenominaciones sí
    así que sacamos los autodes por buscar todos los paragraph tags <p></p> en el table
    '''
    pstrings = []
    for p in td.find_all('p'):
        for pstr in p.strings:
            pstrings.append(pstr.strip())

    autodes = []
    for i in range(len(pstrings)):
        if (i+1) % 2 == 0:
            autode = '/n'.join([pstrings[i-1], pstrings[i]])
            autodes.append(autode)
    print('autodenominaciones extraidos del table: {}'.format(autodes))
    return autodes

In [6]:
def sacar_variante(td):
    variante = td.contents[-1].strip()
    print('variante extraido del table: {}'.format(variante))
    return variante

In [7]:
def parse_datos_geos(datos_geos):
    '''@datos_geo debe ser un table de HTML'''
    repr_geo = {}
    
    for parte in datos_geos:
        # primero identificamos el estado, que siempre está en mayúsculas
        # esta parte del table is of class 'bs4.element.NavigableString'
        if parte.__class__ == bs4.element.NavigableString:
            if parte.isupper():
                estado = parte.strip(' :\t\r\n')
                repr_geo[estado] = {}
                continue
                
        # luego, si el parte tiene los bold HTML tags "<br></br>"
        # es otro tipo de bs4 object of class 'bs4.element.Tag'
        if parte.__class__ == bs4.element.Tag and parte.decode().strip() != '<br/>':
            municipio = parte.text
            repr_geo[estado][municipio] = []
            
        # los localidades también son de la class 'bs4.element.NavigableString'
        # si ya tenemos el estado, sabemos que esta parte describe localidades
        if parte.__class__ == bs4.element.NavigableString and repr_geo['estado']:
            localidades = parte.strip(' :\n')
            repr_geo[estado][municipio].extend([localidades])

        # si hay multiples estados en los que se hablan la misma variante
        # van a ser separados por "linebreaks". entonces usamos el linebreak
        # como un flag para identificar que hay que construir otro repr_geo nuevo
        if parte.__class__ == bs4.element.Tag and parte.decode().strip() == '<br/>':
            yield repr_geo
            repr_geo = {}
    
    # yield el último
    print('hemos extraido todos los datos geográficos de este table')
    yield repr_geo

In [8]:
# output nuestro trabajo para compartir
def output_variante_json(datos):
    '''construir un filename del nombre de variante y escribir los datos a un archivo de JSON'''
    variante_split = datos['variante'].strip('<>').split(' ')
    datos_file_ending = ('_').join([vsplit.strip(',') for vsplit in variante_split])
    
    # crear una carpeta por la agrupación si no existe
    outpath = os.path.join('output', datos['agrupacion_lingüística'])
    try:
        os.makedirs(outpath)
        print('created directory {}'.format(outpath))
    except FileExistsError:
        pass
    
    outfile = os.path.join(outpath, 'datos_de_{}.json'.format(datos_file_ending))
    print('escribiendo los datos del variante {} a "{}"'.format(datos_file_ending, outfile))
    with open(outfile, 'w') as outf:
        outf.write(json.dumps(datos))

In [9]:
# esto es el URL donde se encuentra todos los vínculos de las agrupaciones lingüísticas
# ver aquí más detalle sobre "verify" y certificates:
# https://stackoverflow.com/questions/28667684/python-requests-getting-sslerror
base_url = 'https://www.inali.gob.mx/clin-inali/'

In [10]:
# sacamos todos los URLs de agrupaciones lingüísticas que hay en el base_url
r = requests.get(base_url, verify=False)
caldo = bs4.BeautifulSoup(r.text, 'html.parser')
agrup_urls = get_agrup_urls(caldo, base_url)
agrup_urls[0]

ha sacado 68 vinculos de agrupaciones lingüísticas en https://www.inali.gob.mx/clin-inali/


'https://www.inali.gob.mx/clin-inali/html/l_akateko.html'

### la agrupación y la familia lingüística

In [11]:
# empezamos en esta página (l_<variante>.html) para agarrar
# la información de Agrupación y Familia Lingüística
r = requests.get(agrup_urls[0], verify=False)
sopa = bs4.BeautifulSoup(r.text, 'html.parser')
agrup_ling, familia_ling = sacar_agrup_y_familia(sopa)
print('agrupacion: {}; familia: {}'.format(agrup_ling, familia_ling))

ha sacado el dato tipo agrupación de la sopa HTML: Akateko
ha sacado el dato tipo familia de la sopa HTML: Maya
agrupacion: Akateko; familia: Maya


### construimos el vínculo de la agrupación y la exploramos

In [12]:
# ya tenemos los datos que necesitamos de esta página,
# seguimos a un nivel más bajo, las agrupaciónes lingüísticas
# sabemos que todos los vínculos de una página Agrupación/Familia Lingüística
# nos llevan a la misma página que tiene todos los variantes de ese grupo
# entonces construimos el URL de una agrupación lingüística entera 
# y seguimos sacando los datos de los variantes
var_url = ''.join([base_url, 'html/', sopa.body.a.attrs['href']])
print(var_url)
r = requests.get(var_url, verify=False)
guisado = bs4.BeautifulSoup(r.text, 'html.parser')

https://www.inali.gob.mx/clin-inali/html/v_akateko.html#1


In [13]:
# los datos éspecificos que buscamos aparacen 
# entre los "rows" <tr></tr> tags que hay en una página
# por ejemplo la página de nahuatl tiene 31 rows
all_trs = guisado.find_all('tr')
all_trs.pop(0)  # (la primera row (representado por all_trs[0]) no nos importa porque no tiene un table)
print('hay {} variante(s) en esta agrupación lingüística'.format((len(all_trs))))

hay 1 variante(s) en esta agrupación lingüística


In [14]:
# para ver un ejemplo
all_trs[0]

<tr>
<td>
<p>Kuti’
                                <br/>[kutiʔ]</p>
                                &lt;Akateko&gt;
                                        </td>
<td>
                                            CAMPECHE: <b>Champotón</b>: Maya Tecún I, Santo Domingo Kesté.
                                            
                        <br/><br/>
                        CHIAPAS: <b>Frontera Comalapa</b>: Nuevo Tres Lagunas. <b>La Trinitaria</b>: Ejido la Gloria 2, Nueva Libertad el Colorado, San Francisco de Asís.
                                            
                        <br/><br/>
                        QUINTANA ROO: <b>Othón P. Blanco</b>: Maya Balam, San Isidro la Laguna.
                            </td>
</tr>

In [15]:
# más específicamente, los datos del los lenguajes quedan dentro
# de los tables que así mismos están dentro de un "row"
# es decir, encontramos los datos que nos interesa entre los tags <td></td>
all_tds = all_trs[0].find_all('td')
all_tds

[<td>
 <p>Kuti’
                                 <br/>[kutiʔ]</p>
                                 &lt;Akateko&gt;
                                         </td>, <td>
                                             CAMPECHE: <b>Champotón</b>: Maya Tecún I, Santo Domingo Kesté.
                                             
                         <br/><br/>
                         CHIAPAS: <b>Frontera Comalapa</b>: Nuevo Tres Lagunas. <b>La Trinitaria</b>: Ejido la Gloria 2, Nueva Libertad el Colorado, San Francisco de Asís.
                                             
                         <br/><br/>
                         QUINTANA ROO: <b>Othón P. Blanco</b>: Maya Balam, San Isidro la Laguna.
                             </td>]

In [16]:
all_tds[0].contents

['\n', <p>Kuti’
                                 <br/>[kutiʔ]</p>, '\n                                <Akateko>\n                                        ']

In [17]:
# sabemos que lo que está dentro del primer "table" (td tags) son,
# en primer lugar, las autodenominaciones, y después el variante
all_tds[0].text.strip().split('\t\t')

['Kuti’\n                                [kutiʔ]\n                                <Akateko>']

### las autodenominaciones

In [18]:
# sacamos las autodenominaciones
autodes = sacar_autodes(all_tds[0])
autodes

autodenominaciones extraidos del table: ['Kuti’/n[kutiʔ]']


['Kuti’/n[kutiʔ]']

### el variante

In [19]:
# sacamos el variante
variante = sacar_variante(all_tds[0])
variante

variante extraido del table: <Akateko>


'<Akateko>'

### los datos geográficos

In [20]:
for td in all_tds:
    for string in td.strings:
        print(string.strip())


Kuti’
[kutiʔ]
<Akateko>
CAMPECHE:
Champotón
: Maya Tecún I, Santo Domingo Kesté.
CHIAPAS:
Frontera Comalapa
: Nuevo Tres Lagunas.
La Trinitaria
: Ejido la Gloria 2, Nueva Libertad el Colorado, San Francisco de Asís.
QUINTANA ROO:
Othón P. Blanco
: Maya Balam, San Isidro la Laguna.


### ya vimos que el primer table fue el que tiene la información sobre la autodenominacines y el variante, así que el segundo table deben corresponder a un estado, sus municipios, y luego sus localidades donde se hablan este variante. Si hay más que un estado en donde se hable este variante, estan separados en la pagina con un "linebreak"

In [21]:
gdatos = all_tds[1]
gdatos

<td>
                                            CAMPECHE: <b>Champotón</b>: Maya Tecún I, Santo Domingo Kesté.
                                            
                        <br/><br/>
                        CHIAPAS: <b>Frontera Comalapa</b>: Nuevo Tres Lagunas. <b>La Trinitaria</b>: Ejido la Gloria 2, Nueva Libertad el Colorado, San Francisco de Asís.
                                            
                        <br/><br/>
                        QUINTANA ROO: <b>Othón P. Blanco</b>: Maya Balam, San Isidro la Laguna.
                            </td>

In [22]:
# algunos dictionaries de esta función serán vacias (por los linebreaks),
# por eso filtramos la lista con "if geo"
repr_geo = [geo for geo in parse_datos_geos(gdatos) if geo]
repr_geo

CAMPECHE
<b>Champotón</b>
<class 'bs4.element.Tag'>


KeyError: 'estado'

### ya tenemos todos los datos que queremos para hacer un ejemplo

In [None]:
agrup_ling

In [None]:
familia_ling

In [None]:
autodes

In [None]:
variante

In [None]:
repr_geo

### podemos representar los datos con un modelo de JSON:

In [None]:
datos_de_un_variante = {
    'agrupacion_lingüística': '',
    'familia_lingüística': '',
    'autodenominaciones': [],
    'variante': '',
    'representación_geográfica': [{}]  # esta es una lista de dictionaries porque un variante puede ser hablado en estados múltiples
}

In [None]:
# usando este ejemplo llegamos al siguiente
datos_del_variante = {
    'agrupacion_lingüística': agrup_ling,
    'familia_lingüística': familia_ling,
    'autodenominaciones': autodes,
    'variante': variante,
    'representación_geográfica': repr_geo
}

In [None]:
datos_del_variante

In [None]:
# actualmente ya tenemos todos los datos, entonces los escribimos a un JSON file
output_variante_json(datos_del_variante)

In [None]:
# # colocamos todos los "rows", y descartamos la primera que no tiene información importante
# all_trs = sopa.find_all('tr')
# all_trs.pop(0)  # (la primera row (representado por all_trs[0]) no nos importa porque no tiene un table)
# print('hay {} variantes en esta agrupación lingüística'.format((len(all_trs))))

# # ya vamos row por row, y table por table dentro del row
# for tr in all_trs:
#     all_tds = tr.find_all('td')
#     autodes = sacar_autodes(all_tds[0])
#     variante = sacar_variante(all_tds[0])
#     repr_geo = [geo for geo in parse_datos_geos(all_tds[1]) if geo]
    
#     datos_del_variante = {
#         'agrupacion_lingüística': agrup_ling,
#         'familia_lingüística': familia_ling,
#         'autodenominaciones': autodes,
#         'variante': variante,
#         'representación_geográfica': repr_geo
#     }

#     output_variante_json(datos_del_variante)
#     print()

### https://www.inali.gob.mx/clin-inali/html/v_chuj.html#1 está echando una excpeción

In [None]:
url = 'https://www.inali.gob.mx/clin-inali/html/v_chuj.html#1'
r = requests.get(url, verify=False)
sopa = bs4.BeautifulSoup(r.text, 'html.parser')

In [None]:
all_trs = sopa.find_all('tr')
all_trs.pop(0)  # (la primera row (representado por all_trs[0]) no nos importa porque no tiene un table)
print('hay {} variante(s) en esta agrupación lingüística'.format((len(all_trs))))

In [None]:
all_tds = all_trs[0].find_all('td')

In [None]:
all_tds

In [None]:
sacar_autodes(all_tds[0])

In [None]:
sacar_variante(all_tds[0])

In [None]:
gdatos = all_tds[1]
gdatos

In [None]:
repr_geo = [geo for geo in parse_datos_geos(gdatos) if geo]

In [None]:
for geo in parse_datos_geos(gdatos):
    print(geo)

In [30]:
for parte in gdatos:
    print(parte)
    print('break')


                                            CAMPECHE: 
break
<b>Champotón</b>
break
: Maya Tecún I, Santo Domingo Kesté.
                                            
                        
break
<br/>
break
<br/>
break

                        CHIAPAS: 
break
<b>Frontera Comalapa</b>
break
: Nuevo Tres Lagunas. 
break
<b>La Trinitaria</b>
break
: Ejido la Gloria 2, Nueva Libertad el Colorado, San Francisco de Asís.
                                            
                        
break
<br/>
break
<br/>
break

                        QUINTANA ROO: 
break
<b>Othón P. Blanco</b>
break
: Maya Balam, San Isidro la Laguna.
                            
break
