<a href="https://colab.research.google.com/github/Cholico/-Donde-se-encuentra-la-mejor-escuela-de-NYC-/blob/main/Qu%C3%A9_hay_en_una_tostada_de_aguacate_un_an%C3%A1lisis_de_la_cadena_de_suministro.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# ¿Qué hay en una tostada de aguacate? Un análisis de la cadena de suministro

Te encuentras en Londres, elaborando una deliciosa tostada de aguacate, un plato cuya popularidad ha aumentado drásticamente en los menús de desayuno desde la década de 2010. Esta sencilla receta sólo requiere cinco ingredientes: un aguacate maduro, medio limón, una pizca generosa de sal en escamas, dos rebanadas de pan de masa madre y un buen chorrito de aceite de oliva virgen extra. La mayoría de estos ingredientes ahora son productos básicos en las tiendas de comestibles y, como descubrirá con este proyecto, ¡no es poca cosa!

En este proyecto, realizará un análisis de la cadena de suministro de tres ingredientes utilizados en las tostadas de aguacate utilizando la base de datos Open Food Facts. Esta base de datos contiene información extensa y de fuente abierta sobre diversos alimentos, incluidos sus orígenes. A través de este análisis, obtendrá una comprensión profunda de la compleja cadena de suministro involucrada en la producción de un solo plato.

Se proporcionan tres pares de archivos en la carpeta de datos:
- Un archivo CSV para cada ingrediente, como `avocado.csv`, con datos sobre cada alimento y países de origen.
- Un archivo TXT para cada ingrediente, como `relevant_avocado_categories`, que contiene solo las etiquetas de categoría de interés para ese alimento.

Aquí hay algunos otros puntos clave sobre estos archivos:
- Algunas de las filas de datos en cada uno de los tres archivos CSV no contienen datos relevantes para su investigación. En cada conjunto de datos, deberá filtrar las filas con datos irrelevantes, según los valores de la columna "categories_tags". Ejemplos de categorías son frutas, verduras y aceites a base de frutas. Filtre el DataFrame para incluir solo filas donde `categories_tags` contenga una de las etiquetas en las categorías relevantes para ese ingrediente.
- Cada fila de datos suele tener varias etiquetas de categoría en la columna `categories_tags`.
Hay una columna en cada archivo CSV llamada `origins_tags`, que contiene cadenas para el país de origen de cada artículo.

Después de completar este proyecto, contará con una lista de ingredientes y sus países de origen y estará bien posicionado para lanzar otros análisis que exploren cuánto tiempo, en promedio, estos ingredientes pasan en el mar.

In [8]:
import pandas as pd
import seaborn as sns

In [33]:
avocado = pd.read_csv('avocado.csv', sep='\t')


In [10]:
subset_columns = [ 'code', 'lc', 'product_name_en', 'quantity', 'serving_size', 'packaging_tags', 'brands', 'brands_tags', 'categories_tags', 'labels_tags', 'countries', 'countries_tags', 'origins','origins_tags']
avocado = avocado[subset_columns]

In [11]:
with open ("/content/relevant_avocado_categories.txt", "r") as file:
  relevant_avocado_categories = file.read().splitlines()
  file.close()

relevant_avocado_categories

['en:avocadoes',
 'en:avocados',
 'en:fresh-foods',
 'en:fresh-vegetables',
 'en:fruchte',
 'en:fruits',
 'en:raw-green-avocados',
 'en:tropical-fruits',
 'en:tropische-fruchte',
 'en:vegetables-based-foods',
 'fr:hass-avocados']

In [14]:
avocado['categories_list'] = avocado['categories_tags'].str.split(',')
avocado.dropna(subset='categories_list', inplace=True)

In [16]:
avocado = avocado[avocado['categories_list'].apply(lambda x: any([i for i in x if i in relevant_avocado_categories]))]

In [30]:
avocados_uk = avocado[(avocado['countries']=='United Kingdom')]

In [32]:
avocado_origin = (avocados_uk['origins_tags'].value_counts().index[0])
avocado_origin = avocado_origin.lstrip("en:")


'peru'

In [50]:
def read_and_filter_data(filename, relevant_categories):
  df = pd.read_csv(filename, sep='\t')

  # Subset large DataFrame to include only relevant columns
  subset_columns = [ 'code', 'lc', 'product_name_en', 'quantity', 'serving_size', 'packaging_tags', 'brands', 'brands_tags', 'categories_tags', 'labels_tags', 'countries', 'countries_tags', 'origins','origins_tags']
  df = df[subset_columns]

  with open (relevant_categories, "r") as file:
    categories = file.read().splitlines()
    file.close()

  # Split tags into lists
  df['categories_list'] = df['categories_tags'].str.split(',')

  # Drop rows with null categories data
  df = df.dropna(subset = 'categories_list')

  # Filter data for relevant categories
  df = df[df['categories_list'].apply(lambda x: any([i for i in x if i in categories]))]

  # Filter data for the UK
  df_uk = df[(df['countries']=='United Kingdom')]

  # Find top origin country string with the highest count
  top_origin_string = (df_uk['origins_tags'].value_counts().index[0])

  # Clean up top origin country string
  top_origin_country = top_origin_string.lstrip("en:")
  top_origin_country = top_origin_country.replace('-', ' ')

  print(f'**{filename[:-4]} origins**','\n', top_origin_country, '\n')

  print ("Top origin country: ", top_origin_country)
  print ("\n")

  # End of function - return top origin country for this ingredient
  return top_origin_country

In [51]:
print(read_and_filter_data('olive_oil.csv', 'relevant_olive_oil_categories.txt'))
print(read_and_filter_data('sourdough.csv', 'relevant_sourdough_categories.txt'))

  df = pd.read_csv(filename, sep='\t')


**olive_oil origins** 
 greece 

Top origin country:  greece


greece
**sourdough origins** 
 united kingdom 

Top origin country:  united kingdom


united kingdom
