# Limpieza del archivo 'recetas.csv'

## Importar librerías

In [1]:
#importar las librerias necesarias
import pandas as pd
import numpy as np
import platform
import os

## Extraer el archivo csv

In [None]:
#Acceder al archivo recetas.csv
if os.access('recetas.csv', os.F_OK) is False:
    if platform.system() == 'Windows':
        !curl https://raw.githubusercontent.com/InoveProyectos/almacen/refs/heads/main/docs/recetas.csv > recetas.csv
    else:
        !wget recetas.csv https://raw.githubusercontent.com/InoveProyectos/almacen/refs/heads/main/docs/recetas.csv

## Explorar el archivo csv

In [3]:
#leer el archivo csv
df = pd.read_csv('recetas.csv')
df.head()

Unnamed: 0,Nombre,Ingredientes,Categoria
0,Tostadas con mermelada,Pan-Mermelada,Desayuno
1,Facturas de hojaldre,Harina-Manteca-Azucar,Desayuno
2,Tortilla de papas,Papas-Huevos-Cebolla,Almuerzo
3,Milanesa napolitana,Carne-Tomate-Queso,Almuerzo
4,Empanadas de carne,Carne picada-Cebolla-Masa,Almuerzo


In [4]:
#ver el tamaño del dataset
df.shape

(232, 3)

In [5]:
#verificar que no tenga ningun dato nulo
df.isna().sum()

Nombre          0
Ingredientes    0
Categoria       0
dtype: int64

In [6]:
#verificar que que no hayan recetas repetidas
df['Nombre'].is_unique

True

## Transformar el dataframe con el fin de ver todos los ingredientes

In [7]:
#hacer una copia del dataframe original
df2 = df.copy()
#convertir los valores de la columna Ingredientes a una lista para luego poder transformarlos 
df2['Ingredientes']=df2['Ingredientes'].str.split("-")

In [8]:
#crear otra copia del dataset transformado
df_columns = df2.copy()

#importar función MultiLabelBinarizer para hacer un one hot encoder a los valores de la columna 'Ingredientes'
from sklearn.preprocessing import MultiLabelBinarizer

mlb = MultiLabelBinarizer()
ingredientes_matrix = mlb.fit_transform(df_columns["Ingredientes"])

#crear un dataFrame para mostrar los valores ya transformados en sus respectivas columnas 
ingredientes_df = pd.DataFrame(ingredientes_matrix, columns=mlb.classes_)
#agreagar las columnas faltantes

In [9]:
ingredientes_df.head()

Unnamed: 0,Aceite,Aceite de oliva,Aceitunas,Aderezo,Agua,Ajo,Albahaca,Albondigas,Algas,Almendras,...,Vainillas,Variedad de quesos,Verduras,Verduras variadas,Vino blanco,Vino tinto,Yogur,Zanahoria,Zapallitos,Zapallo
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [10]:
#con el nuevo dataset se crea una lista de los valores de las columnas 
# y asi poder ver los valores de todos los posibles ingredientes
columnas = ingredientes_df.columns.values
lista_columnas = list(columnas)
lista_columnas[0:30]

['Aceite',
 'Aceite de oliva',
 'Aceitunas',
 'Aderezo',
 'Agua',
 'Ajo',
 'Albahaca',
 'Albondigas',
 'Algas',
 'Almendras',
 'Anana',
 'Anchoas',
 'Apio',
 'Arroz',
 'Arvejas',
 'Atun',
 'Azafran',
 'Azucar',
 'Bananas',
 'Batata',
 'Berenjenas',
 'Cacao',
 'Cafe',
 'Calabaza',
 'Calamares',
 'Caldo',
 'Caldo de pescado',
 'Canela',
 'Caramelo',
 'Carne']

In [11]:
lista_columnas[30:60]

['Carne picada',
 'Carne vacuna',
 'Cebolla',
 'Cebolla de verdeo',
 'Cerdo',
 'Cerezas',
 'Champignones',
 'Champiñones',
 'Chimichurri',
 'Choclo',
 'Chocolate',
 'Chorizo',
 'Ciruelas',
 'Coco',
 'Coco rallado',
 'Condimentos',
 'Conejo',
 'Cordero',
 'Crema',
 'Crema de leche',
 'Croutones',
 'Dulce',
 'Dulce de batata',
 'Dulce de leche',
 'Dulce de membrillo',
 'Embutidos',
 'Especias',
 'Espinaca',
 'Fideos',
 'Frutas confitadas']

In [12]:
lista_columnas[60:90]

['Frutas secas',
 'Frutas variadas',
 'Frutillas',
 'Garbanzos',
 'Gelatina',
 'Grasa',
 'Habas',
 'Harina',
 'Harina de garbanzos',
 'Harina de maiz',
 'Harina integral',
 'Hierbas',
 'Hongos',
 'Huevo duro',
 'Huevos',
 'Huevos fritos',
 'Jamon',
 'Jugo de naranja',
 'Leche',
 'Leche condensada',
 'Lechuga',
 'Legumbres',
 'Lentejas',
 'Levadura',
 'Limon',
 'Limones',
 'Manteca',
 'Manzana',
 'Manzanas',
 'Mariscos']

In [13]:
lista_columnas[90:120]

['Masa',
 'Mascarpone',
 'Mayonesa',
 'Mermelada',
 'Miso',
 'Mondongo',
 'Morrones',
 'Mostaza',
 'Nueces',
 'Oregano',
 'Palmitos',
 'Palta',
 'Pan',
 'Pan de miga',
 'Pan rallado',
 'Panceta',
 'Papas',
 'Papas fritas',
 'Pasas',
 'Pasas de uva',
 'Pasta',
 'Pepino',
 'Peras',
 'Pescado',
 'Pimienta',
 'Pollo',
 'Porotos',
 'Puerro',
 'Queso',
 'Queso azul']

In [14]:
lista_columnas[120:150]

['Queso crema',
 'Queso feta',
 'Queso mozzarella',
 'Queso parmesano',
 'Quesos',
 'Quinoa',
 'Remolacha',
 'Ricota',
 'Rucula',
 'Sabores',
 'Sabores variados',
 'Sal',
 'Salame',
 'Salmon',
 'Salsa',
 'Salsa bechamel',
 'Salsa blanca',
 'Salsa de soja',
 'Salsa de tomate',
 'Salsa golf',
 'Semola',
 'Soja texturizada',
 'Ternera',
 'Tinta de calamar',
 'Tofu',
 'Tomate',
 'Vainillas',
 'Variedad de quesos',
 'Verduras',
 'Verduras variadas']

In [15]:
lista_columnas[150::]

['Vino blanco', 'Vino tinto', 'Yogur', 'Zanahoria', 'Zapallitos', 'Zapallo']

## Remplazar algunos valores de la columna 'Ingredientes'

In [16]:
#se crea una copia del dataset df2
df_limpieza = df2.copy()
df_limpieza.head()

Unnamed: 0,Nombre,Ingredientes,Categoria
0,Tostadas con mermelada,"[Pan, Mermelada]",Desayuno
1,Facturas de hojaldre,"[Harina, Manteca, Azucar]",Desayuno
2,Tortilla de papas,"[Papas, Huevos, Cebolla]",Almuerzo
3,Milanesa napolitana,"[Carne, Tomate, Queso]",Almuerzo
4,Empanadas de carne,"[Carne picada, Cebolla, Masa]",Almuerzo


In [17]:
#se cambian los valores de la columna 'Igredeintes9 para que esten en 
# minúscula y dejen de ser listas
df_limpieza['Ingredientes']=df_limpieza['Ingredientes'].str.join('-')
df_limpieza.head()

Unnamed: 0,Nombre,Ingredientes,Categoria
0,Tostadas con mermelada,Pan-Mermelada,Desayuno
1,Facturas de hojaldre,Harina-Manteca-Azucar,Desayuno
2,Tortilla de papas,Papas-Huevos-Cebolla,Almuerzo
3,Milanesa napolitana,Carne-Tomate-Queso,Almuerzo
4,Empanadas de carne,Carne picada-Cebolla-Masa,Almuerzo


In [18]:
#diccionario para remplazar ciertos valores por otros: {esto : por esto}
dic_remplazar = {'Champignones':'Champiñones', 'Manzana':'Manzanas', 'Coco':'Coco rallado', 'Limones':'Limon', 
                 'Pasas':'Pasas de uva', 'Variedad de quesos':'Queso', 'Quesos':'Queso', 'Queso feta':'Queso',
                 'Queso parmesano':'Queso', 'Queso mozzarella':'Queso', 'Queso azul': 'Queso', 'Queso crema':'Queso',
                 'Verduras variadas':'Verduras', 'Sabores variados':'Sabores','Crema de leche': 'Crema', 'Carne vacuna': 'Carne', 
                 'Fideos':'Pasta','Mayonesa':'Aderezo', 'Mostaza':'Aderezo','Salsa golf':'Salsa', 'Salsa de soja':'Salsa', 
                 'Salsa de tomate':'Salsa', 'Salsa blanca':'Salsa', 'Salsa bechamel':'Salsa', 'Harina de maiz':'Harina',
                 'Harina de garbanzos':'Harina','Harina integral':'Harina' }

#se busca cada clave del diccionario en el dataframe para 
# ver las filas que contienen ese valor
for k,v in dic_remplazar.items():
    print(df_limpieza[df_limpieza['Ingredientes'].str.find(k)!= -1], '\n')

                  Nombre              Ingredientes Categoria
163  Pollo al champignon  Pollo-Champignones-Crema  Almuerzo 

                         Nombre                   Ingredientes Categoria
83             Torta de manzana  Manzanas-Harina-Huevos-Azucar    Postre
93             Ensalada waldorf   Manzana-Apio-Nueces-Mayonesa  Almuerzo
155  Torta invertida de manzana  Manzanas-Harina-Huevos-Azucar    Postre 

                            Nombre                       Ingredientes  \
87                    Flan de coco          Huevos-Leche-Coco rallado   
143                  Torta de coco  Coco rallado-Harina-Huevos-Azucar   
219        Flan de vainilla y coco          Huevos-Leche-Coco rallado   
231  Flan de dulce de leche y coco   Huevos-Leche-Dulce de leche-Coco   

    Categoria  
87     Postre  
143    Postre  
219    Postre  
231    Postre   

                Nombre                  Ingredientes Categoria
140  Tiramisu de limon  Limones-Mascarpone-Vainillas    Postre 

      

In [19]:
#se crea una función para cambiar los valores del diccionario
def remplazar(esto, por_esto, df, columna):
    df[columna] = df[columna].apply(lambda x : x.replace(esto, por_esto)
                                    if (esto in x and f'{por_esto}-' not in x 
                                        and f'-{por_esto}' not in x) or (por_esto in esto) else x)
    return df

In [20]:
#por cada clave(esto) y valor(por_esto) se le aplica la función remplazar
for k,v in dic_remplazar.items(): 
     df_limpieza = remplazar(k, v, df_limpieza, 'Ingredientes')

In [21]:
#se busca cada clave del diccionario en el dataframe nuevamente para 
# verificar que los cambios se hicieron correctamente
for k,v in dic_remplazar.items():
    print(k.upper())
    print(df_limpieza[df_limpieza['Ingredientes'].str.find(k)!= -1], '\n')

CHAMPIGNONES
Empty DataFrame
Columns: [Nombre, Ingredientes, Categoria]
Index: [] 

MANZANA
                         Nombre                   Ingredientes Categoria
83             Torta de manzana  Manzanas-Harina-Huevos-Azucar    Postre
93             Ensalada waldorf   Manzanas-Apio-Nueces-Aderezo  Almuerzo
155  Torta invertida de manzana  Manzanas-Harina-Huevos-Azucar    Postre 

COCO
                            Nombre                              Ingredientes  \
87                    Flan de coco                 Huevos-Leche-Coco rallado   
143                  Torta de coco         Coco rallado-Harina-Huevos-Azucar   
219        Flan de vainilla y coco                 Huevos-Leche-Coco rallado   
231  Flan de dulce de leche y coco  Huevos-Leche-Dulce de leche-Coco rallado   

    Categoria  
87     Postre  
143    Postre  
219    Postre  
231    Postre   

LIMONES
Empty DataFrame
Columns: [Nombre, Ingredientes, Categoria]
Index: [] 

PASAS
                         Nombre          

## Guardar el dataframe limpio en un archivo csv

In [22]:
df_limpieza.head()

Unnamed: 0,Nombre,Ingredientes,Categoria
0,Tostadas con mermelada,Pan-Mermelada,Desayuno
1,Facturas de hojaldre,Harina-Manteca-Azucar,Desayuno
2,Tortilla de papas,Papas-Huevos-Cebolla,Almuerzo
3,Milanesa napolitana,Carne-Tomate-Queso,Almuerzo
4,Empanadas de carne,Carne picada-Cebolla-Masa,Almuerzo


In [23]:
#guardar csv limpio
df_limpieza.to_csv('recetas_limpio.csv', index=False)