<div style="float: right; width: 50%;">
    <p style="margin: 0; text-align:right;">Python en Ciencia de Datos Aplicada</p>
    <p style="margin: 0; text-align:right; padding-button: 100px;">Prácticas - Estructuras de datos avanzadas</p>
</div>

</div>
<div style="width: 100%; clear: both;">
<div style="width:100%;">&nbsp;</div>

In [1]:
# Activamos las alertas de estilo
%load_ext pycodestyle_magic
%pycodestyle_on

# Prácticas - Estructuras de datos

## Ejercicio 1

Contestad si son Ciertas o Falsas las siguientes preguntas y razonad brevemente la respuesta:

*(a) Tras ejecutar el siguiente bloque de código, el valor de la variable x es 1 porque las funciones no pueden modificar las variables globales.*

In [2]:
# Ejercicio 1.1
x = 1


def square_number(x):
    x = x ** 2
    return x


x = square_number(x)

Respuesta:

<span style="color: #004ecb">Falso. En la última línea se realiza una nueva asignación a *x*, por lo que su valor será el que devuelva la función, independientemente de su carácter global.</span>

*(b) Una función creada dentro de otra función puede ser utilizada directamente en cualquier parte del código.*

Respuesta:

<span style="color: #004ecb">Falso. Una función declarada dentro de otra estará encapsulada, y solo podrá llamarse dentro de la primera función.</span>

*(c) Una función siempre devuelve un objeto, incluso aunque no tenga return.*

Respuesta:

<span style="color: #004ecb">Cierto. Si la función no tiene return devolverá un objeto None.</span>

(d) No es posible llamar a una función asignando un nombre a los argumentos si hemos declarado que debe recibir argumentos opcionales usando **.

Respuesta:

<span style="color: #004ecb">Falso. Los argumentos opcionales declarados con ** son argumentos con nombre. Sería cierto si hubiéramos declarado argumentos posicionales, es decir, con *.</span>

# Ejercicio 2

Una agencia periodística ha solicitado nuestra colaboración en una investigación que están llevando a cabo. Para ayudarles, tenemos que crear una función que extraiga direcciones URL de nuestro interés de una colección de tweets.

La función recibirá como *input* la ruta que contiene un archivo en formato *.csv* con los tweets y un parámetro opcional. El *output* deberá ser una tupla con el formato `(numero_tweets_url, lista_direcciones)`, donde 
- `numero_tweets_url` indica el número de tweets que contienen una URL de nuestro interés.
- `lista_direcciones` es una lista de los nombres de dominio de las URLs **sin repeticiones**

Además, tendremos que ser capaces de ocultar este segundo elemento de la tupla en base al parámetro opcional de la función.

A continuación podéis ver algunos ejemplos de formatos de salida de la función. 

```
(2,)
(2,['t.co', 'tinyurl.com'])
```
**Nota:** puede ser interesante consultar información sobre .group() en la documentación de re.

En particular, estamos interesados en las URL que poseen el formato *protocolo://dominio/ruta* donde:
- Protocolo puede ser http o https.
- El dominio está compuesto por una serie de letras con un '.' que separa la extensión (.com, .org, etc).
- La ruta es un conjunto de caracteres que puede contener letras o números.

Por ejemplo, la web *https://t.co/V3aoj9RUh4* sería una URL de nuestro interés y debería aparecer en el *output* como *'t.co'*. En cambio, la URL *http://www.trump.com/* no nos interesa ya que tiene *www* y carece de *ruta*.


El fichero de entrada estará compuesto por un encabezado seguido por un número indeterminado de líneas con el formato
```
Date,Time,Tweet,Client,Client Simplified
```

Es decir, cada línea del fichero tras el encabezado contiene un tweet que tenemos que analizar.

Encontraréis un ejemplo de fichero de entrada en la carpeta `data/TrumpTweets.csv` extraído de https://data.world/lovesdata/trump-tweets-5-4-09-12-5-16. Se incluye, además, una celda extra con el código que debéis utilizar para comprobar que la función se ejecuta correctamente.

**Importante:** Utilizad los principios de **programación funcional** que hemos visto en el Notebook de teoría para resolver este ejercicio y **expresiones regulares** para detectar las URLs de interés.

In [2]:
# Respuesta
import os
import re
import pandas as pd


def make_contains_interesting_url(interesting_pattern):
    """Sets the pattern of interesting URLs

    Args:
        interesting_pattern: re compiled pattern

    Returns:
        Function to detect tweets with interesting URLs.
    """

    def contains_interesting_url(tweet):
        """Determines if a tweet contains an interesting URL.

        Args:
            tweet: tweet to analyze.

        Returns:
            A match object if there is an interesting URL. None otherwise.
        """
        return interesting_pattern.search(tweet)

    return contains_interesting_url


def make_extract_domain(interesting_pattern, all_domains=True):
    """Sets the pattern of interesting URLs

    Args:
        interesting_pattern: re compiled pattern
        all_domains: whether the domain of all URLs in the tweet
                        should be extracted or only the one from the first one.

    Returns:
        Function to extract domains from tweets.
    """

    def extract_domain(tweet):
        """Extracts the web domain of the first URL.

        Args:
            tweet: tweet to analyze.

        Returns:
            Domain name of interesting URLs.
        """
        if all_domains:
            # This option returns the domain of all interesting URLs
            return interesting_pattern.findall(tweet)
        else:
            # This option returns only the domain of the first
            # interesting URL in the tweet
            return interesting_pattern.search(tweet).group(1)

    return extract_domain


def find_interesting_urls(file_path, display_domains=False):
    """Find interesting URLs in tweets.

    Args:
        file_path: path to the file on disk containing the tweets.
        display_domains: indicates whether to display the list
                            of interesting domains (default False).

    Returns:
        Tuple with the number of tweets with interesting URLs and
        (optionally) the list of interesting domain names.
    """

    if not os.path.isfile(file_path):
        raise TypeError("File does not exist")

    # We use the following regex to check if there is an interesting URL
    # https?:// : matches http:// or https://
    # [a-zA-Z]+\.[a-zA-Z]+ : matches the domain name
    # /[a-zA-Z]+ : matches the path, note that \w would include also _
    interesting_pattern = re.compile(
        r"https?://([a-zA-Z]+\.[a-zA-Z]+)/[a-zA-Z0-9]+"
    )

    # We add an extra variable to choose between group and findall for
    # teaching purposes, but this was not asked in the PEC
    all_domains = False

    # Add the pattern to the functions using closures
    contains_interesting_url = make_contains_interesting_url(
        interesting_pattern
    )
    extract_domain = make_extract_domain(interesting_pattern, all_domains)

    # Process the file
    tweets = pd.read_csv(file_path)
    interesting_tweets = list(
        filter(contains_interesting_url, tweets["Tweet"])
    )

    # If all the domains are extracted we need to flatten the list
    if all_domains:
        domains = set(
            [
                item
                for sublist in map(extract_domain, interesting_tweets)
                for item in sublist
            ]
        )
    else:
        domains = set(map(extract_domain, interesting_tweets))

    # Define result tuple
    if display_domains:
        result = len(interesting_tweets), sorted(list(domains))
    else:
        result = (len(interesting_tweets),)

    return result

In [3]:
# Test
find_interesting_urls("data/TrumpTweets.csv", True)

(6939,
 ['abcn.ws',
  'amzn.to',
  'aol.it',
  'apne.ws',
  'bit.ly',
  'bloom.bg',
  'cnb.cx',
  'cs.pn',
  'goo.gl',
  'nyti.ms',
  'ow.ly',
  't.co',
  'tinyurl.com',
  'twitter.com',
  'wapo.st'])

# Ejercicio 3

Nuestro equipo va a analizar cómo se propagó la COVID-19 por el mundo durante la primera ola. Para ello, disponemos de un archivo en la carpeta `data` llamado `time_series_covid19_confirmed_global.csv` extraído de https://github.com/CSSEGISandData/COVID-19.

Debemos crear una función que reciba como *input* el path a ese archivo, es decir, `data/time_series_covid19_confirmed_global.csv` y una fecha en formato string (por ejemplo, "01-06-20"). La función debe producir un **diccionario** guardado en un **pickle** con el número de casos diarios por país para datos anteriores al 1 de junio del 2020 (sin incluir).

En un análisis preliminar del archivo hemos visto que algunos países muestran sus datos por *Province/State* mientras que otros por *Country/Region*. Así, lo primero que tendremos que hacer es agrupar por *Country/Region* y sumar el número de casos diario en cada país. Después, nos quedaremos solo con los datos anteriores al 1 de junio del 2020 (sin incluir). Finalmente, crearemos un diccionario con la estructura:

```
{
"Pais1": {"time": [1/22/20, 1/23/20,...], "cases": [0, 0,...]},
"Pais2": {"time": [1/22/20, 1/23/20,...], "cases": [0, 0,...]},
...
}
```
**Nota:** hay que tener en cuenta que las fechas están en formato americano, es decir, m/d/y.

Una vez terminado el diccionario, lo guardaremos en un pickle llamado `primera_ola.pkl`.  Se incluye, además, una celda extra con el código que debéis utilizar para comprobar que la función se ejecuta correctamente.

In [4]:
# Respuesta
import os
import pickle
import pandas as pd


def build_dictionary(data, max_date):
    """Create a dictionary with the number of cases per country.

    Args:
        data: input data.
        max_date: maximum date to be stored.

    Return:
        Dictionary with the number of cases per country.
    """
    # Transform date to datetime format
    max_date = pd.to_datetime(max_date, format="%d-%m-%y").date()
    # Remove Lat and Long columns
    data = data.drop(["Lat", "Long"], axis=1)
    # Group data per country
    data = data.groupby(["Country/Region"]).sum()
    # Filter columns by date
    data = data.loc[
        :,
        [
            date < max_date
            for date in pd.to_datetime(data.columns, format="%m/%d/%y")
        ],
    ]
    # Iterate over rows, extracting the country and the number of cases
    country_cases = dict()
    for country, cases in data.iterrows():
        country_cases[country] = {
            "time": list(data.columns.values),
            "cases": list(cases),
        }

    return country_cases


def create_covid_pickle(input_file, max_date):
    """Creates a pickle with the number of COVID-19 cases per country.

    Args:
        input_file: path of the file containing the data
        max_date: maximum date to be stored
    """
    # Check if the file exists
    if not os.path.isfile(input_file):
        raise FileNotFoundError("input file not found")

    # Read data
    data = pd.read_csv(input_file)

    # Create dictionary
    country_cases = build_dictionary(data, max_date)

    # Export to pickle
    with open("primera_ola.pkl", "wb") as fout:
        pickle.dump(country_cases, fout)

In [5]:
# Test
create_covid_pickle(
    "data/time_series_covid19_confirmed_global.csv", "01-06-20"
)
# Load and print some data
country_cases = pickle.load(open("primera_ola.pkl", "rb"))
print("The number of countries is {}".format(len(country_cases)))
print("The timeseries of Andorra is {}".format(country_cases["Andorra"]))

The number of countries is 192
The timeseries of Andorra is {'time': ['1/22/20', '1/23/20', '1/24/20', '1/25/20', '1/26/20', '1/27/20', '1/28/20', '1/29/20', '1/30/20', '1/31/20', '2/1/20', '2/2/20', '2/3/20', '2/4/20', '2/5/20', '2/6/20', '2/7/20', '2/8/20', '2/9/20', '2/10/20', '2/11/20', '2/12/20', '2/13/20', '2/14/20', '2/15/20', '2/16/20', '2/17/20', '2/18/20', '2/19/20', '2/20/20', '2/21/20', '2/22/20', '2/23/20', '2/24/20', '2/25/20', '2/26/20', '2/27/20', '2/28/20', '2/29/20', '3/1/20', '3/2/20', '3/3/20', '3/4/20', '3/5/20', '3/6/20', '3/7/20', '3/8/20', '3/9/20', '3/10/20', '3/11/20', '3/12/20', '3/13/20', '3/14/20', '3/15/20', '3/16/20', '3/17/20', '3/18/20', '3/19/20', '3/20/20', '3/21/20', '3/22/20', '3/23/20', '3/24/20', '3/25/20', '3/26/20', '3/27/20', '3/28/20', '3/29/20', '3/30/20', '3/31/20', '4/1/20', '4/2/20', '4/3/20', '4/4/20', '4/5/20', '4/6/20', '4/7/20', '4/8/20', '4/9/20', '4/10/20', '4/11/20', '4/12/20', '4/13/20', '4/14/20', '4/15/20', '4/16/20', '4/17/20', 

# Ejercicio 4

Una importante compañía del sector de la alimentación nos ha pedido que hagamos un análisis sobre la evolución de los patrones alimenticios de la población. Como no nos han dejado claro en qué intervalo están interesados, hemos decidido empezar por el principio.

Hemos conseguido una copia del libro *Arte de cozina, pasteleria, vizcocheria, y conserueria* escrito en 1611 por Francisco Martínez Montiño [aquí](https://archive.org/details/artedecocinapast00mart_0/page/330/mode/2up). Afortunadamente, una compañera se ha encargado ya de digitalizar el libro, extraer todas sus recetas, guardarlas en archivos **txt** y meterlas en un **zip**. Ahora nos toca a nosotros organizarlas un poco. Como tendremos que repetir la operación con más libros, vamos a crear una función.

Queremos crear una función que reciba como *input* el path del archivo zip, que será de la forma `data/nombreDelLibro.zip`. La función tendrá que descomprimir el fichero y organizar las recetas en directorios en función del tipo de plato. Además, las carnes tendremos que organizarlas en función del animal, de forma que la estructura de directorios será:

```
<nombre_del_libro>

    <categoria_1>

        receta_categoria_1_1.txt
        receta_categoria_1_2.txt
        ...

    <categoria_2>
        receta_categoria_2_1.txt
        receta_categoria_2_2.txt    
        ...
        
    <carnes>
       
        <tipo_de_carne_1>
            receta_de_carne_1_1.txt
            receta_de_carne_1_2.txt
            ...
        ...
    ....
```
**Nota:** no hay que cambiar el nombre de los archivos de las recetas, solo clasificarlos en el directorio adecuado.

Nuestra compañera dice que nos ha dejado dentro del zip un archivo en formato **csv** que contiene el tipo de plato al que se corresponde cada receta. Este archivo usa como separador el símbolo **;** y correctamente leído tiene la siguiente estructura:

```
title                  type
anades_estofadas       carnes-anade
pastel_de_caracoles    empanadas_pasteles_y_masas
vizcocho_sin_harina    dulces
...
```
Como vemos, el tipo de carne está después del símbolo **-**. Nos han asegurado que es la única categoría con ese símbolo.

Finalmente, tenemos que guardar la carpeta que contiene el libro correctamente clasificado en un nuevo archivo **zip** que se llamará `nombreDelLibro_ordenado.zip` y borrar cualquier directorio temporal que hayamos creado. Así, será fácil enviárselo a nuestros compañeros de text mining para que arreglen los problemas del OCR ([¿qué es el OCR?](https://towardsdatascience.com/what-is-ocr-7d46dc419eb9)) y traten de actualizar la ortografía y el vocabulario a algo más moderno.

Se incluye, además, una celda extra con el código que debéis utilizar para comprobar que la función se ejecuta correctamente.
 
**Nota:** para crear un zip de todo un directorio se recomienda mirar la documentación de la función make_archive de la librería shutil.

In [11]:
# Respuesta
import os
import glob
import shutil
import pandas as pd
import zipfile as zf


def order_book(input_file):
    """Extracts recipes from zip file, classifies them and creates a new zip.

    Args:
        input_file: path to the zip file
    """
    # Obtain the name of the book
    book_name = input_file.split("/")[-1].replace(".zip", "")

    # Extract zip file in a new folder
    extract_zip(input_file, book_name)

    # Read file with recipes and categories
    recipes = read_csv_file(book_name)

    # Classify recipes
    recipes.apply(classify_recipe, axis=1, book_name=book_name)

    # Compress the new folder
    compress_file(book_name)

    # Delete the book folder
    shutil.rmtree(book_name)


def extract_zip(zip_file, book_name):
    """Extracts all the recipes from the zip file.

    Args:
        zip_file: path of the zip file.
        book_name: name of the book being processed.
    """
    # Check the existence of the zip file
    if not os.path.isfile(zip_file):
        raise FileNotFoundError("zip file does not exist")

    # Delete book folder if it already exists
    if os.path.isdir(book_name):
        shutil.rmtree(book_name)

    # Create new directory and extract all files
    with zf.ZipFile(zip_file, "r") as zip_f:
        zip_f.extractall(book_name)


def read_csv_file(book_name):
    """Finds the csv file and reads it.

    Args:
        book_name -- path of the folder with the book files.

    Returns:
        Pandas dataframe with the recipes and their categories.
    """
    # Locate the csv file
    csv_file = glob.glob(os.path.join(book_name, "*.csv"))

    # Check that we found it
    if not csv_file:
        raise FileNotFoundError("csv file not found")

    # Read csv file
    data = pd.read_csv(csv_file[0], sep=";")

    return data


def classify_recipe(row, book_name):
    """Move each recipe to the appropriate folder, creating it
    if it does not exist.

    Args:
        row: row containing recipe name and type.
        book_name: name of the book being processed.
    """

    # Build recipe path
    recipe_path = os.path.join(book_name, "{}.txt".format(row["name"]))

    # Check if recipe exists
    if not os.path.isfile(recipe_path):
        raise FileNotFoundError("recipe does not exist")

    # Change type name to path if there is a "-"
    type_path = os.path.join(book_name, row["type"].replace("-", "/"))

    # Create category folder if it does not exist
    if not os.path.isdir(type_path):
        os.makedirs(type_path)

    # Move recipe to its folder
    new_recipe_path = os.path.join(type_path, "{}.txt".format(row["name"]))
    os.rename(recipe_path, new_recipe_path)


def compress_file(book_name):
    """Creates a new zip file with the recipes classified.

    Args:
        book_name: name of the folder containing the book
    """
    # Check if the folder exists
    if not os.path.isdir(book_name):
        raise FileNotFoundError("book folder does not exist")

    # Create new zip file
    shutil.make_archive("{}_ordered".format(book_name), "zip", book_name)

In [12]:
from collections import defaultdict

# Test
order_book("data/arteDeCozina.zip")

# Read file
zp = zf.ZipFile("arteDeCozina_ordered.zip")

# Size of each folder
sizes = defaultdict(lambda: 0)
for folder, size in [
    (os.path.dirname(zinfo.filename), zinfo.file_size)
    for zinfo in zp.infolist()
]:
    # Transform Bytes to KBytes
    sizes[folder] += size / 1024
    if "carnes" in folder:
        sizes["carnes"] += size / 1024

pd.Series(sizes).apply(lambda s: f"{s:.2f} KB")

arroces                         3.13 KB
carnes                        100.19 KB
conservas                      12.54 KB
dulces                         58.25 KB
empanadas_pasteles_y_masas    114.99 KB
enfermos_y_pobres              12.28 KB
fiambres                        6.07 KB
frutas                         17.08 KB
huevos                         28.60 KB
jaleas                          6.85 KB
lacteos                         9.52 KB
migas                           4.55 KB
pescados                       19.65 KB
salsas                          1.32 KB
sopas_potajes_y_cazuelas       39.67 KB
tecnicas                       57.12 KB
varios                          8.60 KB
verduras                       34.93 KB
                               20.64 KB
carnes/anade                    2.67 KB
carnes/ave                      7.20 KB
carnes/cabrito                 16.07 KB
carnes/capon                    5.62 KB
carnes/caracol                  1.27 KB
carnes/carnero                 12.45 KB
