In [1]:
import os
import bs4
import json
import requests

In [2]:
# cada vez que hacemos una toca al inali.cob.mx, recibimos una alarma así:
# InsecureRequestWarning: Unverified HTTPS request is being made. Adding certificate verification is strongly advised.
# creo q los certificados de INALI se han caducado
# por no ver la alarma cada vez que agarramos un vínculo de INALI, la deshabilitamos aquí

import urllib3
urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)

In [3]:
# esto es el URL donde se encuentra todos los vínculos de las agrupaciones lingüísticas
# ver aquí más detalle sobre "verify" y certificates:
# https://stackoverflow.com/questions/28667684/python-requests-getting-sslerror
base_url = 'https://www.inali.gob.mx/clin-inali/'
# r = requests.get(base_url, verify=False)

In [4]:
# primero trabajamos en un ejemplo específico; luego lo generalizamos
# empezamos en esta página (l_nahuatl.html) para grabar la información de Familia Lingüística
nahuarl = 'https://www.inali.gob.mx/clin-inali/html/l_nahuatl.html'
r = requests.get(nahuarl, verify=False)
soup = bs4.BeautifulSoup(r.text, 'html.parser')

In [5]:
def sacar_agrup_y_familia(sopa):
    '''
    @sopa: debe ser la página de un nivel más alto que la que
           tiene todos los datos específicos del variantes.
           por ejemplo: https://www.inali.gob.mx/clin-inali/html/l_nahuatl.html
    'agrup' significa la Agrupación lingüística
    'familia' significa la Familia lingüística
    '''
    ling_queridos = []
    ling_indexes = {
        'agrupación': 0,
        'familia': -1
    }

    for key, value in ling_indexes.items():
        ling_querido = sopa.body.h4.contents[value].split(':')[-1].strip()
        print('ha sacado el dato tipo {} de la sopa HTML: {}'.format(key, ling_querido))
        ling_queridos.append(ling_querido)
    return ling_queridos
    
agrup_ling, familia_ling = sacar_agrup_y_familia(soup)

ha sacado el dato tipo agrupación de la sopa HTML: náhuatl
ha sacado el dato tipo familia de la sopa HTML: Yuto-nahua


In [6]:
# ya tenemos los datos que necesitamos de esta página,
# seguimos a un nivel más bajo, las agrupaciónes lingüísticas
# sabemos que todos los vínculos de una página Agrupación/Familia Lingüística
# nos llevamos a la misma página que tiene todos los variantes de ese grupo
# construimos el URL de una agrupación lingüística entera y sacamos el contenido
agrup_url = ''.join([base_url, 'html/', soup.body.a.attrs['href']])
r = requests.get(agrup_url, verify=False)
sopa = bs4.BeautifulSoup(r.text, 'html.parser')

In [7]:
# los datos éspecificos que buscamos aparacen 
# entre los "rows" <tr></tr> tags que hay en una página
# por ejemplo la página de nahuatl tiene 31 rows
all_trs = sopa.find_all('tr')
all_trs.pop(0)  # (la primera row (representado por all_trs[0]) no nos importa porque no tiene un table)
print('hay {} variantes en esta agrupación lingüística'.format((len(all_trs))))

hay 30 variantes en esta agrupación lingüística


In [8]:
# para ver un ejemplo con estados múltiples
all_trs[1]

<tr>
<td><a name="2"></a>
<p>mexi’catl
		<br/><span>[meʃiʔkaλ]</span></p>
<p>mexicano (del noroeste central)
		<br/><span>[mexikano]</span></p>
<p>maseual tla’tol
		<br/><span>[masewal λaʔtol]</span></p>
		&lt;náhuatl del noroeste central&gt;
                </td>
<td>
                    HIDALGO: <b>Acaxochitlán</b>: Acaxochitlán, Alpinagua, Apapaxtla (Altamira), Apopoalco, Atezcapa, Barrio Cuautenco, Barrio el Puente, Barrio Tlatempa, Barrio Tlatzintla, Barrio Verde, Buenavista (Necaxanco), Coyametepec, Cuaunepantla, Chimalapa, Ejido Techachalco, Ejido de Tepepa (Barrio Santa Félix), Ejido de Tlatzintla, El Bado, El Crucero, El Tejocotal, El Valle, La Boveda, La Mesa, Los Reyes, Montemar, Necaxanco, Nuevo San Juan, Ocotengo, Ojo de Agua las Palomas, Parada 170, Paredones, San Fernando, San Francisco Atotonilco, San Juan, San Mateo, San Miguel del Resgate, San Pedro Tlachichilco, Santa Ana Tzacuala, Santa Catarina, Techachalco, Tepepa (Santiago Tepepa), Tlacpac, Tlamimilolpa, Toxtla, 

In [9]:
# más específicamente, los datos del los lenguajes quedan dentro
# de los tables que así mismos están dentro de un "row"
# es decir, encontramos los datos que nos interesa entre los tags <td></td>
all_tds = all_trs[1].find_all('td')
all_tds

[<td><a name="2"></a>
 <p>mexi’catl
 		<br/><span>[meʃiʔkaλ]</span></p>
 <p>mexicano (del noroeste central)
 		<br/><span>[mexikano]</span></p>
 <p>maseual tla’tol
 		<br/><span>[masewal λaʔtol]</span></p>
 		&lt;náhuatl del noroeste central&gt;
                 </td>, <td>
                     HIDALGO: <b>Acaxochitlán</b>: Acaxochitlán, Alpinagua, Apapaxtla (Altamira), Apopoalco, Atezcapa, Barrio Cuautenco, Barrio el Puente, Barrio Tlatempa, Barrio Tlatzintla, Barrio Verde, Buenavista (Necaxanco), Coyametepec, Cuaunepantla, Chimalapa, Ejido Techachalco, Ejido de Tepepa (Barrio Santa Félix), Ejido de Tlatzintla, El Bado, El Crucero, El Tejocotal, El Valle, La Boveda, La Mesa, Los Reyes, Montemar, Necaxanco, Nuevo San Juan, Ocotengo, Ojo de Agua las Palomas, Parada 170, Paredones, San Fernando, San Francisco Atotonilco, San Juan, San Mateo, San Miguel del Resgate, San Pedro Tlachichilco, Santa Ana Tzacuala, Santa Catarina, Techachalco, Tepepa (Santiago Tepepa), Tlacpac, Tlamimilolpa, To

### sabemos que lo que está dentro del primer "table" (td tags) son, en primer lugar, las autodenominaciones, y después el variante

In [10]:
all_tds[0].contents

[<a name="2"></a>, '\n', <p>mexi’catl
 		<br/><span>[meʃiʔkaλ]</span></p>, '\n', <p>mexicano (del noroeste central)
 		<br/><span>[mexikano]</span></p>, '\n', <p>maseual tla’tol
 		<br/><span>[masewal λaʔtol]</span></p>, '\n\t\t<náhuatl del noroeste central>\n                ']

In [11]:
all_tds[0].text.strip().split('\t\t')

['mexi’catl\n',
 '[meʃiʔkaλ]\nmexicano (del noroeste central)\n',
 '[mexikano]\nmaseual tla’tol\n',
 '[masewal λaʔtol]\n',
 '<náhuatl del noroeste central>']

In [12]:
# aquí tenemos los AUTODENOMINACIÓNes
def sacar_autodes(td):
    '''
    @td: debe ser el primer table de una row, en el que queda las autodenominaciones y el variante
    
    NOTA: este método de extraer las autodenominaciones presupone que siempre hay dos
    maneras de describir las autods: primero como string y luego lo mismo de otra forma en brackets.
    entonces lo separamos con un newline '\n' como aparece en la página de INALI
    
    parace que el variante no queda entre "paragraph HTML tags" mientras las autodenominaciones sí
    así que sacamos los autodes por buscar todos los paragraph tags <p></p> en el table
    '''
    pstrings = []
    for p in td.find_all('p'):
        for pstr in p.strings:
            pstrings.append(pstr.strip())

    autodes = []
    for i in range(len(pstrings)):
        if (i+1) % 2 == 0:
            autode = '/n'.join([pstrings[i-1], pstrings[i]])
            autodes.append(autode)
    print('autodenominaciones extraidos del table: {}'.format(autodes))
    return autodes

autodes = sacar_autodes(all_tds[0])
autodes

autodenominaciones extraidos del table: ['mexi’catl/n[meʃiʔkaλ]', 'mexicano (del noroeste central)/n[mexikano]', 'maseual tla’tol/n[masewal λaʔtol]']


['mexi’catl/n[meʃiʔkaλ]',
 'mexicano (del noroeste central)/n[mexikano]',
 'maseual tla’tol/n[masewal λaʔtol]']

In [30]:
# aquí tenemos el VARIANTE
def sacar_variante(td):
    variante = td.contents[-1].strip()
    print('variante extraido del table: {}'.format(variante))
    return variante
    
variante = sacar_variante(all_tds[0])
variante

variante extraido del table: <náhuatl del noroeste central>


'<náhuatl del noroeste central>'

### seguimos con los datos geográficos

In [14]:
for td in all_tds:
    for string in td.strings:
        print(string.strip())


mexi’catl
[meʃiʔkaλ]

mexicano (del noroeste central)
[mexikano]

maseual tla’tol
[masewal λaʔtol]
<náhuatl del noroeste central>
HIDALGO:
Acaxochitlán
: Acaxochitlán, Alpinagua, Apapaxtla (Altamira), Apopoalco, Atezcapa, Barrio Cuautenco, Barrio el Puente, Barrio Tlatempa, Barrio Tlatzintla, Barrio Verde, Buenavista (Necaxanco), Coyametepec, Cuaunepantla, Chimalapa, Ejido Techachalco, Ejido de Tepepa (Barrio Santa Félix), Ejido de Tlatzintla, El Bado, El Crucero, El Tejocotal, El Valle, La Boveda, La Mesa, Los Reyes, Montemar, Necaxanco, Nuevo San Juan, Ocotengo, Ojo de Agua las Palomas, Parada 170, Paredones, San Fernando, San Francisco Atotonilco, San Juan, San Mateo, San Miguel del Resgate, San Pedro Tlachichilco, Santa Ana Tzacuala, Santa Catarina, Techachalco, Tepepa (Santiago Tepepa), Tlacpac, Tlamimilolpa, Toxtla, Venta Quemada, Yemila, Zacacuautla, Zotictla.
PUEBLA:
Chiconcuautla
: Acalama, Amola, Axocopactla, Azacatla, Benito Juárez, Cosamaloapan, Cuetzalingo, Chiconcuautla,

### ya vimos que el primer table fue el que tiene la información sobre la autodenominacines y el variante, así que el segundo table deben corresponder a un estado, sus municipios, y luego sus localidades donde se hablan este variante. Si hay más que un estado en donde se hable este variante, estan separados en la pagina con un "linebreak"

In [15]:
len(all_tds)

2

In [16]:
gdatos = all_tds[1]
gdatos

<td>
                    HIDALGO: <b>Acaxochitlán</b>: Acaxochitlán, Alpinagua, Apapaxtla (Altamira), Apopoalco, Atezcapa, Barrio Cuautenco, Barrio el Puente, Barrio Tlatempa, Barrio Tlatzintla, Barrio Verde, Buenavista (Necaxanco), Coyametepec, Cuaunepantla, Chimalapa, Ejido Techachalco, Ejido de Tepepa (Barrio Santa Félix), Ejido de Tlatzintla, El Bado, El Crucero, El Tejocotal, El Valle, La Boveda, La Mesa, Los Reyes, Montemar, Necaxanco, Nuevo San Juan, Ocotengo, Ojo de Agua las Palomas, Parada 170, Paredones, San Fernando, San Francisco Atotonilco, San Juan, San Mateo, San Miguel del Resgate, San Pedro Tlachichilco, Santa Ana Tzacuala, Santa Catarina, Techachalco, Tepepa (Santiago Tepepa), Tlacpac, Tlamimilolpa, Toxtla, Venta Quemada, Yemila, Zacacuautla, Zotictla.

<br/><br/>
PUEBLA: <b>Chiconcuautla</b>: Acalama, Amola, Axocopactla, Azacatla, Benito Juárez, Cosamaloapan, Cuetzalingo, Chiconcuautla, Huautla, Huixtlacuatla, Itlantixcali, Ixtaczoquitla, Macuilacatla, Mimitla, Ojo d

In [17]:
for thing in gdatos:
    print(thing)
    print(type(thing))
    if thing.__class__ == bs4.element.Tag:
        print(thing.decode() == '<br/>')


                    HIDALGO: 
<class 'bs4.element.NavigableString'>
<b>Acaxochitlán</b>
<class 'bs4.element.Tag'>
False
: Acaxochitlán, Alpinagua, Apapaxtla (Altamira), Apopoalco, Atezcapa, Barrio Cuautenco, Barrio el Puente, Barrio Tlatempa, Barrio Tlatzintla, Barrio Verde, Buenavista (Necaxanco), Coyametepec, Cuaunepantla, Chimalapa, Ejido Techachalco, Ejido de Tepepa (Barrio Santa Félix), Ejido de Tlatzintla, El Bado, El Crucero, El Tejocotal, El Valle, La Boveda, La Mesa, Los Reyes, Montemar, Necaxanco, Nuevo San Juan, Ocotengo, Ojo de Agua las Palomas, Parada 170, Paredones, San Fernando, San Francisco Atotonilco, San Juan, San Mateo, San Miguel del Resgate, San Pedro Tlachichilco, Santa Ana Tzacuala, Santa Catarina, Techachalco, Tepepa (Santiago Tepepa), Tlacpac, Tlamimilolpa, Toxtla, Venta Quemada, Yemila, Zacacuautla, Zotictla.


<class 'bs4.element.NavigableString'>
<br/>
<class 'bs4.element.Tag'>
True
<br/>
<class 'bs4.element.Tag'>
True

PUEBLA: 
<class 'bs4.element.Navigab

In [18]:
i = 0
for cosa in gdatos:
    print(type(cosa))
    print(dir(cosa))
    i += 1
    if i > 2:
        break

<class 'bs4.element.NavigableString'>
['PREFIX', 'SUFFIX', '__add__', '__class__', '__contains__', '__copy__', '__delattr__', '__dict__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattr__', '__getattribute__', '__getitem__', '__getnewargs__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__iter__', '__le__', '__len__', '__lt__', '__mod__', '__module__', '__mul__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__rmod__', '__rmul__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', '__weakref__', '_find_all', '_find_one', '_is_xml', '_lastRecursiveChild', '_last_descendant', 'append', 'capitalize', 'casefold', 'center', 'count', 'encode', 'endswith', 'expandtabs', 'extend', 'extract', 'fetchNextSiblings', 'fetchParents', 'fetchPrevious', 'fetchPreviousSiblings', 'find', 'findAllNext', 'findAllPrevious', 'findNext', 'findNextSibling', 'findNextSiblings', 'findParent', 'findParents', 'findPrevious', 'findPreviousSibling', 'findPrev

In [19]:
def parse_datos_geos(datos_geos):
    '''@datos_geo debe ser un table de HTML'''
    repr_geo = {}
    
    for parte in datos_geos:
        # primero identificamos el estado, que siempre está en mayúsculas
        # esta parte del table is of class 'bs4.element.NavigableString'
        if parte.__class__ == bs4.element.NavigableString:
            if parte.isupper():
                estado = parte.strip(' :\t\r\n')
                repr_geo[estado] = {}
                continue
                
        # luego, si el parte tiene los bold HTML tags "<br></br>"
        # es otro tipo de bs4 object of class 'bs4.element.Tag'
        if parte.__class__ == bs4.element.Tag and parte.decode() != '<br/>':
            municipio = parte.text
            repr_geo[estado][municipio] = []
            
        # los localidades también son de la class 'bs4.element.NavigableString'
        # si ya tenemos el estado, sabemos que esta parte describe localidades
        if parte.__class__ == bs4.element.NavigableString and repr_geo[estado]:
            localidades = parte.strip(' :\n')
            repr_geo[estado][municipio].extend([localidades])
            
        # si hay multiples estados en los que se hablan la misma variante
        # van a ser separados por "linebreaks". entonces usamos el linebreak
        # como un flag para identificar que hay que construir otro repr_geo nuevo
        if parte.__class__ == bs4.element.Tag and parte.decode() == '<br/>':
            yield repr_geo
            repr_geo = {}
    
    # yield el último
    print('hemos extraido todos los datos geográficos de este table')
    yield repr_geo
    

    
# algunos dictionaries de esta función serán vacias,
# por eso filtramos la lista con "if geo"
repr_geo = [geo for geo in parse_datos_geos(gdatos) if geo]
repr_geo

[{'HIDALGO': {'Acaxochitlán': ['Acaxochitlán, Alpinagua, Apapaxtla (Altamira), Apopoalco, Atezcapa, Barrio Cuautenco, Barrio el Puente, Barrio Tlatempa, Barrio Tlatzintla, Barrio Verde, Buenavista (Necaxanco), Coyametepec, Cuaunepantla, Chimalapa, Ejido Techachalco, Ejido de Tepepa (Barrio Santa Félix), Ejido de Tlatzintla, El Bado, El Crucero, El Tejocotal, El Valle, La Boveda, La Mesa, Los Reyes, Montemar, Necaxanco, Nuevo San Juan, Ocotengo, Ojo de Agua las Palomas, Parada 170, Paredones, San Fernando, San Francisco Atotonilco, San Juan, San Mateo, San Miguel del Resgate, San Pedro Tlachichilco, Santa Ana Tzacuala, Santa Catarina, Techachalco, Tepepa (Santiago Tepepa), Tlacpac, Tlamimilolpa, Toxtla, Venta Quemada, Yemila, Zacacuautla, Zotictla.']}},
 {'PUEBLA': {'Chiconcuautla': ['Acalama, Amola, Axocopactla, Azacatla, Benito Juárez, Cosamaloapan, Cuetzalingo, Chiconcuautla, Huautla, Huixtlacuatla, Itlantixcali, Ixtaczoquitla, Macuilacatla, Mimitla, Ojo de Agua, Palzoquitla, San Lor

### ya tenemos todos los datos que queremos para hacer un ejemplo

In [20]:
agrup_ling

'náhuatl'

In [21]:
familia_ling

'Yuto-nahua'

In [22]:
autodes

['mexi’catl/n[meʃiʔkaλ]',
 'mexicano (del noroeste central)/n[mexikano]',
 'maseual tla’tol/n[masewal λaʔtol]']

In [23]:
variante

'<náhuatl del noroeste central>'

In [24]:
repr_geo

[{'HIDALGO': {'Acaxochitlán': ['Acaxochitlán, Alpinagua, Apapaxtla (Altamira), Apopoalco, Atezcapa, Barrio Cuautenco, Barrio el Puente, Barrio Tlatempa, Barrio Tlatzintla, Barrio Verde, Buenavista (Necaxanco), Coyametepec, Cuaunepantla, Chimalapa, Ejido Techachalco, Ejido de Tepepa (Barrio Santa Félix), Ejido de Tlatzintla, El Bado, El Crucero, El Tejocotal, El Valle, La Boveda, La Mesa, Los Reyes, Montemar, Necaxanco, Nuevo San Juan, Ocotengo, Ojo de Agua las Palomas, Parada 170, Paredones, San Fernando, San Francisco Atotonilco, San Juan, San Mateo, San Miguel del Resgate, San Pedro Tlachichilco, Santa Ana Tzacuala, Santa Catarina, Techachalco, Tepepa (Santiago Tepepa), Tlacpac, Tlamimilolpa, Toxtla, Venta Quemada, Yemila, Zacacuautla, Zotictla.']}},
 {'PUEBLA': {'Chiconcuautla': ['Acalama, Amola, Axocopactla, Azacatla, Benito Juárez, Cosamaloapan, Cuetzalingo, Chiconcuautla, Huautla, Huixtlacuatla, Itlantixcali, Ixtaczoquitla, Macuilacatla, Mimitla, Ojo de Agua, Palzoquitla, San Lor

### podemos representar los datos con un modelo de JSON:

In [25]:
datos_de_un_variante = {
    'agrupacion_lingüística': '',
    'familia_lingüística': '',
    'autodenominaciones': [],
    'variante': '',
    'representación_geográfica': [{}]  # esta es una lista de dictionaries porque un variante puede ser hablado en estados múltiples
}

In [26]:
# usando nuestro ejemplo de nahuatl llegamos al siguiente
datos_del_variante = {
    'agrupacion_lingüística': agrup_ling,
    'familia_lingüística': familia_ling,
    'autodenominaciones': autodes,
    'variante': variante,
    'representación_geográfica': repr_geo
}

In [27]:
datos_del_variante

{'agrupacion_lingüística': 'náhuatl',
 'familia_lingüística': 'Yuto-nahua',
 'autodenominaciones': ['mexi’catl/n[meʃiʔkaλ]',
  'mexicano (del noroeste central)/n[mexikano]',
  'maseual tla’tol/n[masewal λaʔtol]'],
 'variante': '<náhuatl del noroeste central>',
 'representación_geográfica': [{'HIDALGO': {'Acaxochitlán': ['Acaxochitlán, Alpinagua, Apapaxtla (Altamira), Apopoalco, Atezcapa, Barrio Cuautenco, Barrio el Puente, Barrio Tlatempa, Barrio Tlatzintla, Barrio Verde, Buenavista (Necaxanco), Coyametepec, Cuaunepantla, Chimalapa, Ejido Techachalco, Ejido de Tepepa (Barrio Santa Félix), Ejido de Tlatzintla, El Bado, El Crucero, El Tejocotal, El Valle, La Boveda, La Mesa, Los Reyes, Montemar, Necaxanco, Nuevo San Juan, Ocotengo, Ojo de Agua las Palomas, Parada 170, Paredones, San Fernando, San Francisco Atotonilco, San Juan, San Mateo, San Miguel del Resgate, San Pedro Tlachichilco, Santa Ana Tzacuala, Santa Catarina, Techachalco, Tepepa (Santiago Tepepa), Tlacpac, Tlamimilolpa, Toxtl

In [29]:
# output nuestro trabajo para compartir
def output_variante_json(datos):
    '''construir un filename del nombre de variante y escribir los datos a un archivo de JSON'''
    variante_split = datos['variante'].strip('<>').split(' ')
    datos_file_ending = ('_').join([vsplit.strip(',') for vsplit in variante_split])
    outfile = os.path.join('output', 'datos_de_{}.json'.format(datos_file_ending))
    with open(outfile, 'w') as outf:
        outf.write(json.dumps(datos))
        
output_variante_json(datos_del_variante)

In [31]:
# entonces, ya que tenemos la agrupación y familia ligüística
# desde la página anterior, vamos así sacando todos los variantes

# colocamos todos los "rows", y descartamos la primera que no tiene información importante
all_trs = sopa.find_all('tr')
all_trs.pop(0)  # (la primera row (representado por all_trs[0]) no nos importa porque no tiene un table)
print('hay {} variantes en esta agrupación lingüística'.format((len(all_trs))))

# ya vamos row por row, y table por table dentro del row
for tr in all_trs:
    all_tds = tr.find_all('td')
    autodes = sacar_autodes(all_tds[0])
    variante = sacar_variante(all_tds[0])
    repr_geo = [geo for geo in parse_datos_geos(all_tds[1]) if geo]
    

hay 30 variantes en esta agrupación lingüística
autodenominaciones extraidos del table: ['mexicano tlajtol/n[mexikano λahtol]', 'nauta/n[nawta]']
variante extraido del table: <náhuatl de la Sierra, noreste de Puebla>
autodenominaciones extraidos del table: ['mexi’catl/n[meʃiʔkaλ]', 'mexicano (del noroeste central)/n[mexikano]', 'maseual tla’tol/n[masewal λaʔtol]']
variante extraido del table: <náhuatl del noroeste central>
autodenominaciones extraidos del table: ['náhuatl (del Istmo)/n[nawaλ]']
variante extraido del table: <náhuatl del Istmo>
autodenominaciones extraidos del table: ['mexicano (de la Huasteca veracruzana)/n[mexikano]', 'náhuatl (de la Huasteca veracruzana)/n[nawaλ]', 'mexcatl/n[meʃkaλ]']
variante extraido del table: <náhuatl de la Huasteca veracruzana>
autodenominaciones extraidos del table: ['náhuatl (de la Huasteca potosina)/n[nawaλ]', 'mexicano (de la Huasteca potosina)/n[mexikano]', 'mexicatl (de la Huasteca potosina)/n[meʃikaλ]']
variante extraido del table: <náhua