# Modulos y Paquetes

## Objetivos
El objetivo de esta tarea es trabajar con scripts y paquetes de Python en VScode.

## Instrucciones

Para esta tarea utilizaras su propia instalación local de Jupyter en VScode. Deberías usar Python 3.12 para tu trabajo, pero las versiones 3.9+ deberían funcionar para esta tarea. Anaconda es la forma más sencilla de instalar y administrar Python.

In [None]:
# No modifiques esta celda, solo ejecútala para descargar y cargar el conjunto de datos

import os
import json
from urllib.request import urlretrieve

url = "https://github.com/JuanFranco-hub/Python-Tutorial-for-ML/tree/main/Datos/food-data-sample.json"
local_fname = "food-data-sample.json"
if not os.path.exists(local_fname):
    urlretrieve(url, local_fname)

data = json.load(open(local_fname))


Una vez cargados, los datos son una lista de diccionarios donde cada diccionario tiene nueve pares clave-valor. Esas claves y una breve descripción son:

* `fdc_id`: un identificador único asignado por FoodData Central
* `brand_owner`: la empresa que fabrica el producto
* `brand_name`: una marca, si es diferente de la empresa
* `description`: el nombre o descripción del producto
* `branded_food_category`: la categoría del producto alimenticio
* `ingredients`: una cadena de ingredientes separados por comas en el producto
* `serving_size`: el tamaño de la porción del producto en las unidades especificadas por `serving_size_unit`
* `nutrition`: una lista de diccionarios que contienen información nutricional; cada diccionario contiene las claves name, amounty unit_namesus valores asociados

Escribirá 3 módulos de Python, los colocará en un paquete y escribirá un script para ayudar a analizar estos datos. Si bien no es necesario, puede resultarle útil crear un cuaderno donde pueda probar los módulos y programas. Puede utilizar otros módulos estándar de Python (por ejemplo, sys, collections) en esta asignación.

## Entrega

Debe enviar los archivos Python completos necesarios para esta asignación en Teams. El nombre del archivo zip debe ser nombre_apellido_p8.zip


## Detalles

Asegúrese de seguir las instrucciones para recibir el crédito completo. Para probar su código, puede usar el %run comando mágico en el cuaderno. Por ejemplo,

%run analyze_food.py

## 0. Nombre (5 puntos)

Dado que estamos utilizando archivos Python (.py) para esta tarea, agregue la información de identificación al comienzo de su programa `analyze_trades.py` y al archivo `__init__.py`  de su paquete. Como mínimo, debería tener una línea para su nombre. Si desea agregar otra información (el nombre de la tarea, una descripción de la tarea), puede hacerlo después de esta línea.

## 1. Paquete Food Data (50 pts)

Cree tres nuevos módulos de Python, uno para leer el conjunto de datos, otro para filtrar artículos por `brand_name` y otro para comparar dos alimentos. Coloque los tres módulos (`util.py`, `find.py` y `compare.py`) en un paquete llamado `food_data`.

## 1a. Utilidades de datos (15 puntos)

Cree un módulo `util.py` que tenga dos métodos: `download_data`, `get_data` y `parse_ingredients`.

El método `download_data` debe descargar el archivo de datos [food-data-sample.json](https://faculty.cs.niu.edu/~dakoop/cs503-2022sp/a3/food-data-sample.json) y almacenarlo localmente. El método `get_data`  debe cargar los datos en una variable de módulo. Supongamos que el archivo de datos reside en el mismo directorio que `util.py`. Luego puede obtener su ruta absoluta a través de la variable `__file__`  del módulo mediante:

In [None]:
import os
fname = os.path.join(os.path.dirname(__file__),'food-data-sample.json')

Utilice el módulo json para cargar los datos del archivo. El download_datamétodo debería descargar el archivo solo una vez ; de lo contrario, devolverá el nombre del archivo local. \\

El método get_data  debe cargar y analizar el archivo desde el disco una vez; de lo contrario, devolverá los datos precargados. El método `parse_ingredients`  debe analizar la cadena de ingredientes en una lista de ingredientes dividiéndola por una coma. No se preocupe si esto no funciona perfectamente (por ejemplo, es posible que vea un ingrediente etiquetado como “LESS THAN 2% OF: SALT”).

### Pistas

* Inicialice la variable del módulo a un valor centinela para indicar cuándo no se han leído los datos.
* Puede utilizar `%autoreload` para recargar automáticamente los módulos a medida que los edita. Sin embargo, tenga en cuenta que esto enmascarará los efectos de intentar no seguir recargando los datos. También puedes utilizar `importlib.reload` para hacer esto manualmente.


## 1b. Encontrar elementos (15 puntos)
Cree un módulo `find.py`  que tenga dos funciones que tomen un parámetro, el propietario de la marca o la expresión de descripción, respectivamente, y devuelvan la lista de elementos de datos que coincidan. Utilice el método `get_data`  del módulo de datos para obtener los datos. El primer método, `get_by_brand` debería devolver una lista de los elementos filtrados por una **coincidencia exacta** , ignorando las mayúsculas y minúsculas de `brand_owner`.

El segundo método, get_by_description debe tomar una cadena que busque en todas las descripciones de elementos aquellos que coincidan con la expresión dada. Las expresiones pueden contener caracteres literales pero también el carácter comodín (*), y ese carácter debe coincidir con cualquier número de caracteres. Puedes usar la biblioteca de expresiones regulares de Python (re) para manejar comodines, pero necesitarás cambiar cualquier instancia de * a .*. Su expresión regular debe ignorar mayúsculas y minúsculas. Por ejemplo, considere el resultado cuando busque `"Quaker*Oat"`:



```python
[d['description'] for d in food_data.find.get_by_description("Quaker*Oat")]
```

```
['QUAKER, OAT BRAN, HOT CEREAL',
 'QUAKER, OLD FASHIONED OATS',
 'QUAKER, INSTANT OATMEAL, BANANA NUT',
 'Quaker Oat Bran Hot Cereal 16 Ounce Box',
 'Quaker Corn Crunch Toasted Corn & Oat Cereal 15 Ounce Paper Box']
```

### Consejos

* Considere probar las funciones mediante código en un cuaderno. También puede hacer esto en los módulos mismos, pero recuerde asegurarse de que solo se ejecuten cuando el módulo se ejecute como un script.
* Recuerde que Python tiene operadores de conjunto que ayudan a determinar qué elementos se comparten o en un conjunto y no en el otro.

## 1d. Paquete
Asegúrese de que los tres módulos de análisis estén en un solo paquete `food_data`. Agregue un archivo `__init__.py`  para completar. Puede contener documentación y la palabra clave pass.

# 2. Programas de línea de comandos

Ahora, crearemos dos programas de línea de comandos que se ubicarán en los módulos `find.py` y `compare.py` que acabamos de crear. Estos programas de línea de comandos utilizarán las funciones pero producirán resultados más legibles. Ejecutaremos estos programas a través de `-m` la funcionalidad de Python. Por lo tanto, cada uno de find.py y compare.py debería poder utilizarse como módulo y como script. Utilícelo `__name__` para comprobar qué caso se está utilizando.

## 2a. food_data.find (15 puntos)
En este módulo, crearemos un programa de línea de comandos que acepte dos indicadores, `-b` para get_by_brand búsquedas y `-d` para get_by_descriptionbúsquedas. Ambos tomarán una sola cadena como argumento final. Esa cadena debe pasarse a las funciones respectivas, pero el resultado debe mostrarse de una manera más concisa. Cada elemento de datos debe enumerarse como <fdc_id> <brand_owner> <description>. Asegúrese de tener una declaración de uso que se muestre cuando un usuario ingrese datos incorrectos. Debes probar tu script mediante el comando mágico de IPython `%run -m food_data.find ....` Algunos resultados de muestra:


```python
%run -m food_data.find
```
Usage: python -m food_data.find -b <brand> | -d <description>




```
%run -m food_data.find -d "Quaker*Oat"
```
538773 The Quaker Oats Company QUAKER, OAT BRAN, HOT CEREAL
539625 The Quaker Oats Company QUAKER, OLD FASHIONED OATS
540325 The Quaker Oats Company QUAKER, INSTANT OATMEAL, BANANA NUT
767774 QTG Quaker Oat Bran Hot Cereal 16 Ounce Box
768340 QTG Quaker Corn Crunch Toasted Corn & Oat Cereal 15 Ounce Paper Box


### Consejos
* Asegúrese de utilizar la verificación para `__name__` ver si estamos ejecutando el módulo como un script.

## 2b. food_data.compare (15 puntos)
En este módulo, crearemos un programa de línea de comandos que acepte dos flags, `-n` para `diff_nutritiony` y `-i` y `diff_ingredients`. Ambos tomarán dos fdc_ids como números enteros y los pasarán a sus respectivas funciones. La salida de `diff_nutrition` debe mostrar el nombre de la métrica y luego un valor +/- para la cantidad (con dos decimales) seguido de la unidad.

El resultado de `diff_ingredients` debe mostrar los ingredientes comunes con el prefijo de un espacio, los ingredientes del primer elemento con el prefijo a -y los ingredientes del segundo elemento con el prefijo a +. Puede probar su script mediante el comando mágico de IPython `%run -m food_data.compare ...`

Algunos resultados de muestra:

\>\>\> `%run -m food_data.compare -n 345534 604974`

Serving Size: +0.00 g
Total Fat: -0.41 g
Fiber: +0.00 g
Calories: -12.00 kcal
Protein: +0.00 g
Sugar: -2.48 g
Saturated Fat: +0.00 g
Sodium: +137.00 mg
Carbohydrates: -0.83 g

\>\>\> `%run -m food_data.compare -i 345534 604974`

  Tomatoes
  Tomato Juice
  Citric Acid
  Calcium Chloride
- Less Than 2% of: Salt
+ Natural Flavor
+ Dried Onion
+ Dried Garlic
+ Salt
+ Olive Oil
+ Spices
+ Soybean Oil

### Consejos
* Recuerde que todos los elementos `sys.argv` son **cadenas** y es posible que sea necesario convertirlos.
* Considere la posibilidad de crear una función auxiliar para recuperar los elementos de datos a los que hacen referencia los dos fdc_ids.
* Asegúrese de utilizar la verificación para `__name__` ver si estamos ejecutando el módulo como un script.

## Puntos Extras (10 pts)

 Agregue una flag al método diff_nutrition  que indique si se deben escalar los detalles nutricionales de acuerdo con los tamaños de las porciones antes de calcular la diferencia, y modifique el código según sea necesario, manteniendo el comportamiento original si la flag está desactivada. Luego agregue un flag de línea de comando al programa de comparación para permitir a los usuarios activarlo o desactivarlo. Por ejemplo, si el artículo A tiene una porción de 200 g y el artículo B una porción de 100 g, y A tiene 4 g de azúcar y B tiene 2 g de azúcar, escalar B al mismo tamaño de porción de 200 g le daría 4 g de azúcar y la diferencia sería 0 g. Escale toda la información nutricional de esta manera antes de calcular las diferencias.