In [35]:
import re
# Expresiones regulares útiles para el parseo del documento
title_sum_re = re.compile(r"##(?P<title>.+)##\n(?P<summary>((?!==.+==).+|\n)+)(?P<rest>(.+|\n)*)")
sections_re = re.compile(r"==.+==\n")
section_re = re.compile(r"==(?P<name>.+)==\n(?P<text>((?!==.+==)(?!--.+--).+|\n)*)(?P<rest>(.+|\n)*)")
subsections_re = re.compile(r"--.+--\n")
subsection_re = re.compile(r"--(?P<name>.+)--\n(?P<text>((?!==.+==)(?!--.+--).+|\n)*)(?P<rest>(.+|\n)*)")

In [1]:
text_raw = """
##Videojuego##
Un videojuego, o juego de v´ıdeo es un juego electr´onico en el que una o m´as personas ...
Al dispositivo de entrada, usado para manipular un videojuego se le conoce como controlador ...
Generalmente los videojuegos hacen uso de otras maneras, aparte de la imagen, de proveer ...
==Historia==
Los or´ıgenes del videojuego se remontan a la d´ecada de 1950, cuando poco despu´es de la ...
==Generalidades==
T´ıpicamente, los videojuegos recrean entornos y situaciones virtuales en los que el ....
Dependiendo del videojuego, una partida puede disputarla una sola persona contra la ...
Existen videojuegos de muchos tipos. Algunos de los g´eneros m´as representativos son los ...
--Tecnolog´ıa--
Un videojuego se ejecuta gracias a un programa de software (el videojuego en s´ı) que es ...
...
--Plataformas--
Los distintos tipos de dispositivo en los que se ejecutan los videojuegos se conocen como ...
--G´eneros--
Los videojuegos se pueden clasificar en g´eneros atendiendo a factores ...
--Multijugador--
En muchos juegos se puede encontrar la opci´on de multijugador, es decir, que varias personas ...
==Industria del videojuego==
...
"""

In [36]:
def clean_text(txt):
    return '\n'.join(l for l in txt.split('\n') if len(l) > 0)

text_clean = clean_text(text_raw).strip()
print(text_clean)

##Videojuego##
Un videojuego, o juego de v´ıdeo es un juego electr´onico en el que una o m´as personas ...
Al dispositivo de entrada, usado para manipular un videojuego se le conoce como controlador ...
Generalmente los videojuegos hacen uso de otras maneras, aparte de la imagen, de proveer ...
==Historia==
Los or´ıgenes del videojuego se remontan a la d´ecada de 1950, cuando poco despu´es de la ...
==Generalidades==
T´ıpicamente, los videojuegos recrean entornos y situaciones virtuales en los que el ....
Dependiendo del videojuego, una partida puede disputarla una sola persona contra la ...
Existen videojuegos de muchos tipos. Algunos de los g´eneros m´as representativos son los ...
--Tecnolog´ıa--
Un videojuego se ejecuta gracias a un programa de software (el videojuego en s´ı) que es ...
...
--Plataformas--
Los distintos tipos de dispositivo en los que se ejecutan los videojuegos se conocen como ...
--G´eneros--
Los videojuegos se pueden clasificar en g´eneros atendiendo a factores 

In [37]:
title_summary_match = title_sum_re.search(text_clean)
if title_summary_match:
    print("Hay match")
    print(title_summary_match.group("title"), '\n')
    print(title_summary_match.group("summary"))
    rest = title_summary_match.group("rest")
    print(rest)
else:
    print("No hay match")

Hay match
Videojuego 

Un videojuego, o juego de v´ıdeo es un juego electr´onico en el que una o m´as personas ...
Al dispositivo de entrada, usado para manipular un videojuego se le conoce como controlador ...
Generalmente los videojuegos hacen uso de otras maneras, aparte de la imagen, de proveer ...

==Historia==
Los or´ıgenes del videojuego se remontan a la d´ecada de 1950, cuando poco despu´es de la ...
==Generalidades==
T´ıpicamente, los videojuegos recrean entornos y situaciones virtuales en los que el ....
Dependiendo del videojuego, una partida puede disputarla una sola persona contra la ...
Existen videojuegos de muchos tipos. Algunos de los g´eneros m´as representativos son los ...
--Tecnolog´ıa--
Un videojuego se ejecuta gracias a un programa de software (el videojuego en s´ı) que es ...
...
--Plataformas--
Los distintos tipos de dispositivo en los que se ejecutan los videojuegos se conocen como ...
--G´eneros--
Los videojuegos se pueden clasificar en g´eneros atendiendo a 

In [38]:
sections_search = sections_re.findall(rest)
sections_search

['==Historia==\n', '==Generalidades==\n', '==Industria del videojuego==\n']

In [39]:
section_match = section_re.search(rest)
remaining_text = rest
while section_match:
    print('Name:', section_match["name"])
    print('Text:', section_match["text"])
    print('Rest:', section_match["rest"])
    remaining_text = section_match["rest"]
    section_match = section_re.search(remaining_text)

Name: Historia
Text: Los or´ıgenes del videojuego se remontan a la d´ecada de 1950, cuando poco despu´es de la ...

Rest: ==Generalidades==
T´ıpicamente, los videojuegos recrean entornos y situaciones virtuales en los que el ....
Dependiendo del videojuego, una partida puede disputarla una sola persona contra la ...
Existen videojuegos de muchos tipos. Algunos de los g´eneros m´as representativos son los ...
--Tecnolog´ıa--
Un videojuego se ejecuta gracias a un programa de software (el videojuego en s´ı) que es ...
...
--Plataformas--
Los distintos tipos de dispositivo en los que se ejecutan los videojuegos se conocen como ...
--G´eneros--
Los videojuegos se pueden clasificar en g´eneros atendiendo a factores ...
--Multijugador--
En muchos juegos se puede encontrar la opci´on de multijugador, es decir, que varias personas ...
==Industria del videojuego==
...
Name: Generalidades
Text: T´ıpicamente, los videojuegos recrean entornos y situaciones virtuales en los que el ....
Dependiendo d

In [40]:
from typing import Tuple, List, Optional, Dict, Union

def build_section_from_match(match: re.Match) -> Dict[str, Union[str, List]]:
    """Construye un diccionario con la información de una sección a partir
    de un objeto Match de una expresión regular.

    Args:
        match (re.Match): Objeto Match de una expresión regular.

    Returns:
        Dict[str, Union[str, List]]: Diccionario con la información de la sección, 
        siguiendo el formato:
            {
                "name": str,
                "text": str,
                "subsections": List[Dict[str, Union[str, List]]]
            }
        donde "subsections" es una lista de subsecciones, cada una con el formato
            {
                "name": str,
                "text": str
            }
    """
    # La sección se construye a partir de un diccionario.
    section = {}
    # Añadimos el nombre y el texto de la sección.
    section["name"] = match["name"]
    section["text"] = match["text"]

    # Comprobamos si hay subsecciones después de la sección.
    if (len(match["rest"]) < 5) or (match["rest"][0] != '-'):
        # Si no hay subsecciones, devolvemos la seccion sin subsecciones
        # (lista vacia).
        section["subsections"] = []
        return section

    # Inicializamos la lista de subsecciones que devolveremos como resultado, 
    # dentro del diccionario de la sección. 
    subsections = []
    # Acto seguido, indexamos todas las subsecciones de la sección.
    #
    # Buscamos la primera subsección
    subsection_match = subsection_re.search(match["rest"])
    # Mientras haya subsecciones
    while subsection_match:
        # Añadimos la subsección a la lista de subsecciones
        subsections.append({
            'name': subsection_match['name'],
            'text': subsection_match['text']
        })
        # Buscamos la siguiente subsección
        subsection_match = subsection_re.search(subsection_match["rest"])

    # Añadimos las subsecciones a la sección
    section["subsections"] = subsections

    # Devuelve la sección como diccionario
    return section

In [41]:
def parse_wikipedia_textual_content(text: str, url: str) -> Optional[Dict[str, Union[str,List]]]:
    """Devuelve una estructura tipo artículo a partir del text en crudo

    Args:
        text (str): Texto en crudo del artículo de la Wikipedia
        url (str): url del artículo, para añadirlo como un campo

    Returns:

        Optional[Dict[str, Union[str,List[Dict[str,Union[str,List[str,str]]]]]]]:

        devuelve un diccionario con las claves 'url', 'title', 'summary', 'sections':
            Los valores asociados a 'url', 'title' y 'summary' son cadenas,
            el valor asociado a 'sections' es una lista de posibles secciones.
                Cada sección es un diccionario con 'name', 'text' y 'subsections',
                    los valores asociados a 'name' y 'text' son cadenas y,
                    el valor asociado a 'subsections' es una lista de posibles subsecciones
                    en forma de diccionario con 'name' y 'text'.

        en caso de no encontrar título o resúmen del artículo, devolverá None

    """
    # Funcion auxiliar para limpiar el texto (elimina líneas vacías)
    def clean_text(txt):
        return '\n'.join(l for l in txt.split('\n') if len(l) > 0)
    
    # Limpiamos el texto
    text_clean = clean_text(text)
    
    # Aplica la expresión regular para extraer el título y el resumen
    title_summary_search = title_sum_re.search(text_clean)

    # Comprobamos si la expresion regular ha encontrado el patron. Si la busqueda resultante es None,
    # al menos el titulo o el resumen no se han encontrado, por lo que devolvemos None
    if title_summary_search is None:
        return None

    # Si el codigo ha llegado hasta aqui, es porque el titulo y el resumen se han encontrado.
    # Creamos el diccionario que contendrá el artículo
    document = {}

    # Extraemos titulo y resumen
    document['url'] = url
    document['title'] = title_summary_search.group('title')
    document['summary'] = clean_text(title_summary_search.group('summary'))

    # Extraemos el resto, donde se encuentran las secciones del articulo
    rest = title_summary_search.group('rest')

    # Inicializamos la lista de secciones que devolveremos como resultado, 
    # dentro del diccionario del artículo. 
    sections = []
    # Acto seguido, indexamos todas las secciones del artículo:
    # Buscamos la primera sección
    section_match = section_re.search(rest)
    # Mientras haya secciones, las procesamos y añadimos a la lista de secciones
    while section_match:
        sections.append(build_section_from_match(section_match))
        print("name:", section_match["name"])
        print("text:", section_match["text"])
        print("rest:", section_match["rest"])
        section_match = section_re.search(section_match["rest"])

    # Añadimos las secciones al documento
    document["sections"] = sections

    # Finalmente devuelve el documento como diccionario
    return document

In [42]:
parse_wikipedia_textual_content(text_raw, "https://es.wikipedia.org/wiki/Videojuego")

name: Historia
text: Los or´ıgenes del videojuego se remontan a la d´ecada de 1950, cuando poco despu´es de la ...

rest: ==Generalidades==
T´ıpicamente, los videojuegos recrean entornos y situaciones virtuales en los que el ....
Dependiendo del videojuego, una partida puede disputarla una sola persona contra la ...
Existen videojuegos de muchos tipos. Algunos de los g´eneros m´as representativos son los ...
--Tecnolog´ıa--
Un videojuego se ejecuta gracias a un programa de software (el videojuego en s´ı) que es ...
...
--Plataformas--
Los distintos tipos de dispositivo en los que se ejecutan los videojuegos se conocen como ...
--G´eneros--
Los videojuegos se pueden clasificar en g´eneros atendiendo a factores ...
--Multijugador--
En muchos juegos se puede encontrar la opci´on de multijugador, es decir, que varias personas ...
==Industria del videojuego==
...
name: Generalidades
text: T´ıpicamente, los videojuegos recrean entornos y situaciones virtuales en los que el ....
Dependiendo d

{'url': 'https://es.wikipedia.org/wiki/Videojuego',
 'title': 'Videojuego',
 'summary': 'Un videojuego, o juego de v´ıdeo es un juego electr´onico en el que una o m´as personas ...\nAl dispositivo de entrada, usado para manipular un videojuego se le conoce como controlador ...\nGeneralmente los videojuegos hacen uso de otras maneras, aparte de la imagen, de proveer ...',
 'sections': [{'name': 'Historia',
   'text': 'Los or´ıgenes del videojuego se remontan a la d´ecada de 1950, cuando poco despu´es de la ...\n',
   'subsections': []},
  {'name': 'Generalidades',
   'text': 'T´ıpicamente, los videojuegos recrean entornos y situaciones virtuales en los que el ....\nDependiendo del videojuego, una partida puede disputarla una sola persona contra la ...\nExisten videojuegos de muchos tipos. Algunos de los g´eneros m´as representativos son los ...\n',
   'subsections': [{'name': 'Tecnolog´ıa',
     'text': 'Un videojuego se ejecuta gracias a un programa de software (el videojuego en s´ı) q

In [2]:
import src.SAR_Crawler_lib as crawler_lib

crawler = crawler_lib.SAR_Wiki_Crawler()
crawler.parse_wikipedia_textual_content(text_raw, "https://es.wikipedia.org/wiki/Videojuego")

name: Historia
text: Los or´ıgenes del videojuego se remontan a la d´ecada de 1950, cuando poco despu´es de la ...

rest: ==Generalidades==
T´ıpicamente, los videojuegos recrean entornos y situaciones virtuales en los que el ....
Dependiendo del videojuego, una partida puede disputarla una sola persona contra la ...
Existen videojuegos de muchos tipos. Algunos de los g´eneros m´as representativos son los ...
--Tecnolog´ıa--
Un videojuego se ejecuta gracias a un programa de software (el videojuego en s´ı) que es ...
...
--Plataformas--
Los distintos tipos de dispositivo en los que se ejecutan los videojuegos se conocen como ...
--G´eneros--
Los videojuegos se pueden clasificar en g´eneros atendiendo a factores ...
--Multijugador--
En muchos juegos se puede encontrar la opci´on de multijugador, es decir, que varias personas ...
==Industria del videojuego==
...
name: Generalidades
text: T´ıpicamente, los videojuegos recrean entornos y situaciones virtuales en los que el ....
Dependiendo d

{'url': 'https://es.wikipedia.org/wiki/Videojuego',
 'title': 'Videojuego',
 'summary': 'Un videojuego, o juego de v´ıdeo es un juego electr´onico en el que una o m´as personas ...\nAl dispositivo de entrada, usado para manipular un videojuego se le conoce como controlador ...\nGeneralmente los videojuegos hacen uso de otras maneras, aparte de la imagen, de proveer ...',
 'sections': [{'name': 'Historia',
   'text': 'Los or´ıgenes del videojuego se remontan a la d´ecada de 1950, cuando poco despu´es de la ...\n',
   'subsections': []},
  {'name': 'Generalidades',
   'text': 'T´ıpicamente, los videojuegos recrean entornos y situaciones virtuales en los que el ....\nDependiendo del videojuego, una partida puede disputarla una sola persona contra la ...\nExisten videojuegos de muchos tipos. Algunos de los g´eneros m´as representativos son los ...\n',
   'subsections': [{'name': 'Tecnolog´ıa',
     'text': 'Un videojuego se ejecuta gracias a un programa de software (el videojuego en s´ı) q