In [1]:
# !pip install tika

In [2]:
import os
from tika import parser
import re

In [3]:
pdf_dir = "../lingua_pdfs/"
wb_address = "https://lingua.com/spanish/reading/#exercises"

In [4]:
pdf_files = [filename for filename in os.listdir(pdf_dir) if ".pdf" in filename]
pdf_files

['espanol-texto-abuelo.pdf',
 'espanol-texto-barcelona.pdf',
 'espanol-texto-casa.pdf',
 'espanol-texto-comparaciones.pdf',
 'espanol-texto-dia-de-la-hispanidad.pdf',
 'espanol-texto-dia.pdf',
 'espanol-texto-el-tiempo.pdf',
 'espanol-texto-escuela.pdf',
 'espanol-texto-familia-pequena.pdf',
 'espanol-texto-familia.pdf',
 'espanol-texto-hotel.pdf',
 'espanol-texto-mejor-amigo.pdf',
 'espanol-texto-mi-habitacion.pdf',
 'espanol-texto-miembros-de-la-familia.pdf',
 'espanol-texto-navidad.pdf',
 'espanol-texto-nueva-casa.pdf',
 'espanol-texto-parque.pdf',
 'espanol-texto-pasatiempos.pdf',
 'espanol-texto-perro.pdf',
 'espanol-texto-pueblo.pdf',
 'espanol-texto-sevilla.pdf',
 'espanol-texto-tiempo-libre.pdf',
 'espanol-texto-tienda-de-ropa.pdf',
 'espanol-texto-topicos-falsos.pdf',
 'espanol-texto-viaje-a-roma.pdf']

In [5]:
def extract_text(dir_name):
    """
    This function extracts the content of pdf files.
    ------------------------------------------
    Argument: dir_name: (str) name of the directory which contains the pdf files
    returns texts: (list) list of strings where each string is the content of the pdf file.
    """
    texts = []
    titles = []
    levels = []
    pdf_files = [filename for filename in os.listdir(dir_name) if ".pdf" in filename]
    regex = re.compile(r"\((.*)\)")
    for file in pdf_files:
        file_name = os.path.join(dir_name, file)
        raw = parser.from_file(file_name)
        text_content = raw["content"].strip()
        text_list = text_content.split("\n")
        text_list = list(filter(lambda e: e != "", text_list))
        ts = ""
        for text_string in text_list[2:]:
            if "¿Has entendido" in text_string:
                break
            else:
                ts += " " + text_string

        texts.append(ts.strip())
        titles.append(text_list[1][:-4].strip())
        level = regex.search(raw["metadata"]["title"]).group(1)
        levels.append(level)
    return texts, titles, levels

In [6]:
texts, titles, levels = extract_text(pdf_dir)
for i, ts in enumerate(texts):
    print(f"{i+1} {levels[i]} {titles[i]}\n{ts} \n")
    if i == 6:
        break

1 A2 Mi abuelo Tomás
Mi abuelo Tomás tiene ochenta años y vive con nosotros. Tiene buena salud, aunque a veces dice que le duele una pierna, pero camina ágilmente cuando le llaman sus amigos para jugar a las cartas después de comer. Todos los domingos me lleva a ver el futbol y después me compra un helado. En vacaciones siempre viene con nosotros y le gusta mucho ir a la playa, a veces discute con mi padre cuando quiere ir a la montaña. Al final siempre se sale con la suya y mi padre acaba cediendo. Para compensarle siempre nos invita el primer día de vacaciones en un buen restaurante. Quiero mucho a mi abuelo. 

2 B1 Barcelona
Mark está de viaje de negocios en Barcelona. Hoy tuvo un día libre y salió a visitar la ciudad. Primero, caminó por La Rambla, la calle más famosa de Barcelona, llena de gente, tiendas y restaurantes. Se dirigió al Barrio Gótico, uno de los sitios más antiguos y bellos de la ciudad. En la Plaza Sant Jaume observó dos de los edificios más importantes: El Palacio 

In [7]:
# Creating a json file

import json

SOURCE = wb_address
AUTHOR = ""
dict_list = []

for i in range(len(texts)):
    story_data = {}
    story_data["source"] = SOURCE
    story_data["author"] = AUTHOR
    story_data["title"] = titles[i]
    story_data["level"] = levels[i]
    story_data["content"] = texts[i]
    dict_list.append(story_data)

with open("../corpus/lingua.json", "w", encoding="utf-8") as outfile:
    json.dump(dict_list, outfile)

In [8]:
# Ensure that we can read the data file

with open("../corpus/lingua.json", "r", encoding="utf-8") as json_file:
    data = json.load(json_file)

print(type(data))
print(len(data))
print(type(data[0]))
print(data[0], "\n")
print(data[0]["content"])

<class 'list'>
25
<class 'dict'>
{'source': 'https://lingua.com/spanish/reading/#exercises', 'author': '', 'title': 'Mi abuelo Tomás', 'level': 'A2', 'content': 'Mi abuelo Tomás tiene ochenta años y vive con nosotros. Tiene buena salud, aunque a veces dice que le duele una pierna, pero camina ágilmente cuando le llaman sus amigos para jugar a las cartas después de comer. Todos los domingos me lleva a ver el futbol y después me compra un helado. En vacaciones siempre viene con nosotros y le gusta mucho ir a la playa, a veces discute con mi padre cuando quiere ir a la montaña. Al final siempre se sale con la suya y mi padre acaba cediendo. Para compensarle siempre nos invita el primer día de vacaciones en un buen restaurante. Quiero mucho a mi abuelo.'} 

Mi abuelo Tomás tiene ochenta años y vive con nosotros. Tiene buena salud, aunque a veces dice que le duele una pierna, pero camina ágilmente cuando le llaman sus amigos para jugar a las cartas después de comer. Todos los domingos me ll

In [9]:
for i in range(7):
    print(f"{data[i]['level']}\n{data[i]['title']}\n{data[i]['content']}\n")

A2
Mi abuelo Tomás
Mi abuelo Tomás tiene ochenta años y vive con nosotros. Tiene buena salud, aunque a veces dice que le duele una pierna, pero camina ágilmente cuando le llaman sus amigos para jugar a las cartas después de comer. Todos los domingos me lleva a ver el futbol y después me compra un helado. En vacaciones siempre viene con nosotros y le gusta mucho ir a la playa, a veces discute con mi padre cuando quiere ir a la montaña. Al final siempre se sale con la suya y mi padre acaba cediendo. Para compensarle siempre nos invita el primer día de vacaciones en un buen restaurante. Quiero mucho a mi abuelo.

B1
Barcelona
Mark está de viaje de negocios en Barcelona. Hoy tuvo un día libre y salió a visitar la ciudad. Primero, caminó por La Rambla, la calle más famosa de Barcelona, llena de gente, tiendas y restaurantes. Se dirigió al Barrio Gótico, uno de los sitios más antiguos y bellos de la ciudad. En la Plaza Sant Jaume observó dos de los edificios más importantes: El Palacio de la