### Práctica de Web Scraping

Se va a considerar un conjunto de páginas web de wikipedia donde se almacena información sobre plantas medicinales:

https://es.wikipedia.org/wiki/Anexo:Plantas_medicinales_(A-B)

https://es.wikipedia.org/wiki/Anexo:Plantas_medicinales_(C)

https://es.wikipedia.org/wiki/Anexo:Plantas_medicinales_(D-G)

https://es.wikipedia.org/wiki/Anexo:Plantas_medicinales_(H-M)

https://es.wikipedia.org/wiki/Anexo:Plantas_medicinales_(N-Z)

Cada página tiene una misma estructura. Al principio hay un índice con todas las plantas medicinales que se describen en la página y a continuación se describe la información de cada planta medicinal secuencialmente y en orden alfabético.

__A.  Índice de las plantas de la página:__

https://es.wikipedia.org/wiki/Anexo:Plantas_medicinales_(A-B)

In [1]:
from IPython.display import Image
Image(filename='Captura1.png')

FileNotFoundError: [Errno 2] No such file or directory: 'Captura1.png'

Observar que el índice se encuentra en el código html encerrado por una etiqueta de tipo lista no ordenada __"</ul/>"__

In [None]:
from IPython.display import Image
Image(filename='Captura2.png')

__B.Descripción posterior de cada planta de la página:__

https://es.wikipedia.org/wiki/Anexo:Plantas_medicinales_(A-B)

In [None]:
from IPython.display import Image
Image(filename='Captura3.png')

Observar que cada descripción de un planta se encuentra en el código html limitado por una etiqueta de encabezado de tipo  __"</h3/>"__

In [None]:
from IPython.display import Image
Image(filename='Captura4.png')

Para recuperar el contenido de cualquiera de las páginas html de wikipedia, se puede hacer de la siguiente manera:

In [None]:
import requests
url="https://es.wikipedia.org/wiki/Anexo:Plantas_medicinales_(A-B)"
r = requests.get(url)
html = r.text
print(html)

Se pide hacer un buscador que permita recuperar información de la página. Para ello se le mostrará al usuario dos opciones entre las que tiene que elegir: Buscar por índice o Buscar por palabra clave.

__Buscar por índice[5 puntos]__
 
Si elige esta opción se le mostrará un primer listado que muestre 5 opciones:

1. Plantas medicinales(A-B)

2. Plantas medicinales(C)

3. Plantas medicinales(D-G)

4. Plantas medicinales(H-M)

5. Plantas medicinales(N-Z)

Cuando seleccione uno de las opciones, le aparecerá otro listado con las plantas medicinales que aparecen en la página asociada a la opción elegida. Por ejemplo si hubiera elegido la opción 1,se mostraría el listado:

1. Albahaca
2. Aceituno
3. Agastache
4. Ajenjo
5. Alcotán
6. Manzanilla
7. Amargón
8. Apacin
9. Epazote
10. Apio
11. Arrayán
12. Árnica
13. Bacche
14. Barbasco
15. Bolsa de pastor
16. Berro
17. Boldo
18. Borraja
19. Bretónica
20. Buganvilea

A continuación cuando seleccione una de las plantas se le mostrará la información asociada a la planta elegida. Por ejemplo si hubiera eleigdo la opción 1, se mostraría la información:

__Planta:__

Albahaca

__Nombre científico:__

Ocimum Basilicum L.

__Descripción:__

Originaria de Persia y Asia Menor, y también mallor comúnmente cultivada en los climas cálidos o fríos, no resiste a temperaturas inferiores a -2°C, la propagación de esta especia se da mediante semillas, en siembra directa la nacencia se inicia a los diez o doce días y se repican cuando tienen de cuatro a seis hojas​.
Es una planta aromática, medicial, herbácea. La parte útil de la planta medicinal son las ramas y hojas en cualquier estado de desarrollo, se prepara con una bebida hiviendo las partes de la planta en agua o como infusión. Su uso tradicional se realiza para tratar problemas del corazón y de los nervios, las hojas se consumen como antiflatulento.

Por último, se le preguntará al usuario si desea realizar una nueva búsqueda, en caso afirmativo se le mostrará de nuevo el listado inicial, y en caso negativo, finalizará la función.

__Buscar por palabra clave[5 puntos]__
 
Si elige esta opción se le pedirá al usuario que introduzca un conjunto de palabras que se utilizarán para realizar una búsqueda sobre el texto de las descripciones asociadas a las plantas que aparecen en cada página. A continuación, se ha introducido más de una palabra, se le preguntará si quiere realizar una búsqueda de tipo "AND" o una búsqueda de tipo "OR", es decir si busca plantas donde aparece todas las palabras introducidas o si si busca plantas donde aparecen alguna de las palabras introducidas. Como resultado se le mostrará un listado de todas las plantas junto a las descripciones de las mismas que cumplen las condiciones de búsqueda. 

Por último, se le preguntará al usuario si desea realizar una nueva búsqueda, en caso afirmativo se le mostrará de nuevo el listado inicial, y en caso negativo, finalizará la función.

Sugerencias: 
1. Una opción para gestionar la información es primero leerse todas las páginas extrayendo de cada página  la información de cada página y guardándola en un diccionario donde la clave es el nombre de la planta y el valor es el par (nombre científico, descripción).

2. Se pueden crear una función de búsqueda de una cadena en un texto dado y que devuelva si la cadena está o no. Así se podría crear un diccionario que tuviera como clave las cadenas buscadas y como valor la lista de los nombres de las plantas que contienen esas cadenas. Cuando se aplica a todas las palabras buscadas, entonces si se quiere una búsqueda "AND" consiste en encontrar la intersección de las listas de nombres de plantas del diccionario y si se quiere una búsqueda "OR" consiste en unir las listas de nombres de plantas del diccionario pero evitando las repeticiones.

__Nota: Para procesar la página html es obligatorio utilizar la libreria BeautifulSoup. No se pueden usar otras librerías no vistas en clase__

In [2]:
import re
import requests
from bs4 import BeautifulSoup

webs = [
    'https://es.wikipedia.org/wiki/Anexo:Plantas_medicinales_(A-B)',
    'https://es.wikipedia.org/wiki/Anexo:Plantas_medicinales_(C)',
    'https://es.wikipedia.org/wiki/Anexo:Plantas_medicinales_(D-G)',
    'https://es.wikipedia.org/wiki/Anexo:Plantas_medicinales_(H-M)',
    'https://es.wikipedia.org/wiki/Anexo:Plantas_medicinales_(N-Z)',
]

gruposPlantas = {}
mapaDescripciones = {}


def extraerPlantas(web):
    req = requests.get(web)
    soup = BeautifulSoup(req.text, "html.parser")
    [tag.extract() for tag in soup.select('.reference')]
    itemsLista = soup.select('#toc > ul li > a')
    plantas = []
    for item in itemsLista:
        idPlanta = item['href'].replace('#', '')
        tituloPlanta = soup.find(id=idPlanta)
        if tituloPlanta.parent.name != 'h3':
            continue

        infoPlanta = tituloPlanta.parent.find_next_sibling('dl')
        if infoPlanta is None:
            continue

        nombreCientifico = infoPlanta.select_one('p a,dt a')
        if nombreCientifico is None:
            nombreCientifico = 'Desconocido'
        else:
            nombreCientifico = nombreCientifico.get_text().strip()

        bloquesInfo = infoPlanta.findChildren()

        if infoPlanta.name == 'p':
            descripcion = infoPlanta.find_next_sibling().get_text().strip()
        elif len(bloquesInfo) > 0:
            bloquesInfo[0].extract()
            descripcion = infoPlanta.get_text().strip()

        plantas.append({
            "nombre": tituloPlanta.get_text(),
            "nombre_cientifico": nombreCientifico,
            "descripcion": descripcion
        })
        mapaDescripciones[tituloPlanta.get_text()] = descripcion
    return plantas


def guardarPlantas(plantas, grupo):
    gruposPlantas[grupo] = {}
    i = 1
    for planta in plantas:
        gruposPlantas[grupo][i] = planta
        i += 1


def mostrarMenu():
    print("1. Buscar por índice")
    print("2. Buscar por palabra clave")
    print("0. Salir")


def mostrarDatosPlanta(planta):
    print()
    print("Planta: ")
    print(planta['nombre'])
    print()

    print("Nombre científico: ")
    print(planta['nombre_cientifico'])
    print()

    print("Descripción: ")
    print(planta['descripcion'])
    print()


def buscarPorIndice():
    print("1. Plantas medicinales (A-B)")
    print("2. Plantas medicinales (C)")
    print("3. Plantas medicinales (D-G)")
    print("4. Plantas medicinales (H-M)")
    print("5. Plantas medicinales (N-Z)")
    grupo = recogerOpcion()
    i = 1
    a = gruposPlantas.keys()
    for planta in gruposPlantas[grupo].values():
        print(i, ".", planta['nombre'])
        i += 1
    planta = recogerOpcion()
    mostrarDatosPlanta(gruposPlantas[grupo][planta])
    print("¿Desea realizar una nueva búsqueda? (1 sí, 0 no)")
    continuar = recogerOpcion()
    if continuar == 1:
        buscarPorIndice()


def buscarCoincidencias(palabra):
    coincidencias = []
    regexp = re.compile(r"\b" + palabra + r"\b", re.IGNORECASE)
    for planta, descripcion in mapaDescripciones.items():
        if regexp.search(descripcion):
            coincidencias.append(planta)
    return coincidencias


def interseccion(listas):
    resultado = set(listas[0])
    for i in range(1, len(listas)):
        resultado = resultado & set(listas[i])
    return resultado


def union(listas):
    resultado = set()
    for lista in listas:
        resultado = resultado.union(lista)
    return resultado


def mostrarResultados(resultados):
    print()
    print("Se han encontrado", len(resultados), "coincidencias: ")
    for nombre in resultados:
        print('Planta:', nombre)
        print('Descripción:', mapaDescripciones[nombre])
        print()


def buscarPorPalabraClave():
    palabras = input("Introduzca las palabras de búsqueda separadas por espacios:")
    palabras = palabras.split(' ')

    tipoBusqueda = ''
    if len(palabras) > 1:
        tipoBusqueda = input("Ha introducido más de una palabra, ¿Quiere hacer una búsqueda AND (1) u OR (0)?")

    nombresCoincidencias = []
    for palabra in palabras:
        nombresCoincidencias.append(buscarCoincidencias(palabra))

    if len(palabras) > 1:
        if tipoBusqueda == '1':
            nombresResultados = interseccion(nombresCoincidencias)
        else:
            nombresResultados = union(nombresCoincidencias)
    else:
        nombresResultados = [val for sublista in nombresCoincidencias for val in sublista]

    mostrarResultados(nombresResultados)
    print("¿Desea realizar una nueva búsqueda? (1 sí, 0 no)")
    continuar = recogerOpcion()
    if continuar == 1:
        buscarPorPalabraClave()


def recogerOpcion():
    value = int(input("Introduzca una opcion: "))
    return value


def ejecutarOpcion(opcion):
    if opcion == 1:
        buscarPorIndice()
    elif opcion == 2:
        buscarPorPalabraClave()


def recolectarDatos():
    i = 1
    for web in webs:
        print("Recolectando datos de plantas... (", i, "/", len(webs), ")")
        plantas = extraerPlantas(web)
        guardarPlantas(plantas, i)
        i += 1


def main():
    recolectarDatos()
    continuar = True
    while continuar:
        mostrarMenu()
        opcion = recogerOpcion()
        continuar = opcion != 0
        if continuar:
            ejecutarOpcion(opcion)


main()

Recolectando datos de plantas... ( 1 / 5 )
Recolectando datos de plantas... ( 2 / 5 )
Recolectando datos de plantas... ( 3 / 5 )
Recolectando datos de plantas... ( 4 / 5 )
Recolectando datos de plantas... ( 5 / 5 )
1. Buscar por índice
2. Buscar por palabra clave
0. Salir
Introduzca una opcion: 1
1. Plantas medicinales (A-B)
2. Plantas medicinales (C)
3. Plantas medicinales (D-G)
4. Plantas medicinales (H-M)
5. Plantas medicinales (N-Z)
Introduzca una opcion: 1
1 . Albahaca
2 . Aceituno
3 . Agastache
4 . Ajenjo
5 . Alcotán
6 . Manzanilla
7 . Amargón
8 . Apacin
9 . Epazote
10 . Apio
11 . Arrayán
12 . Árnica
13 . Bacche
14 . Barbasco
15 . Bolsa de pastor
16 . Berro
17 . Boldo
18 . Borraja
19 . Bretónica
20 . Buganvilea
Introduzca una opcion: 20

Planta: 
Buganvilea

Nombre científico: 
Bougainvillea glabra

Descripción: 
También conocida popularmente en Guatemala por: bombilia, cammelina, gutembilla, Jerusalém, napolón, pompilia; y en varios países, incluyendo Guatemala, como: vernera.​


ValueError: invalid literal for int() with base 10: ''

# Normas de entrega

* Fecha tope de entrega: 25/10/2018
* La entrega se realizará subiendo al campus virtual un notebook de Jupyter con la solución. El archivo tendrá como nombre WebScraping_GrupoX donde X será el número de grupo correspondiente.
