# Índice

**Limpieza inicial dataframe**

    1️⃣ Borrado de columnas
    2️⃣ Traducción columnas de texto

**Tratamiento de columnas**

    1️⃣ Añadir columna de instrucciones
    2️⃣ Manejo columnas de tiempo

**Creación de fichero .csv**

In [47]:
import pandas as pd
import numpy as np
import re
import string
from deep_translator import GoogleTranslator

In [48]:
import sys 
sys.path.append("../SRC")
import support as sp 

In [49]:
df=pd.read_csv("../Data/2_Extracted_data/2_RECIPES_DATA.csv")
df_instrucciones=pd.read_csv("../Data/2_Extracted_data/4_INSTRUCTIONS_DATA.csv")
pd.options.display.max_columns = None

## Limpieza inicial dataframe

**1. Borrado de columnas**

In [50]:
sp.Limpieza_columnas_general(df,"AuthorId").borrado_columna()
sp.Limpieza_columnas_general(df,"AuthorName").borrado_columna()
sp.Limpieza_columnas_general(df,"CookTime").borrado_columna()
sp.Limpieza_columnas_general(df,"DatePublished").borrado_columna()
sp.Limpieza_columnas_general(df,"Images").borrado_columna()
sp.Limpieza_columnas_general(df,"Keywords").borrado_columna()
sp.Limpieza_columnas_general(df,"RecipeIngredientQuantities").borrado_columna()
sp.Limpieza_columnas_general(df,"RecipeIngredientParts").borrado_columna()
sp.Limpieza_columnas_general(df,"RecipeServings").borrado_columna()
sp.Limpieza_columnas_general(df,"RecipeYield").borrado_columna()
sp.Limpieza_columnas_general(df,"Description").borrado_columna()
sp.Limpieza_columnas_general(df,"RecipeInstructions").borrado_columna()

**2. Traducción columnas de texto**

In [51]:
sp.Limpieza_columnas_general(df,"RecipeCategory").series_a_string()
sp.Limpieza_columnas_general(df,"Name").series_a_string()

In [52]:
sp.Limpieza_columnas_general(df,"RecipeCategory").funcion_traduccion_en_es("Categoria_receta")
sp.Limpieza_columnas_general(df,"Name").funcion_traduccion_en_es("Nombre")

In [53]:
sp.Limpieza_columnas_general(df,"RecipeCategory").borrado_columna()
sp.Limpieza_columnas_general(df,"Name").borrado_columna()

## Tratamiento de columnas

**1. Añadir columna de instrucciones**

In [54]:
sp.Limpieza_columnas_general(df_instrucciones,"url").busqueda_patrones_regex("RecipeId","\-\d{4,20}")
df_instrucciones["RecipeId"] = df_instrucciones["RecipeId"].explode()
sp.Limpieza_columnas_general(df_instrucciones,"RecipeId").reemplazo_string("-",'')
sp.Limpieza_columnas_general(df_instrucciones,"url").borrado_columna()

In [55]:
df_instrucciones=df_instrucciones.groupby('RecipeId')['intrucciones'].apply(list)

In [56]:
df_instrucciones = pd.DataFrame(df_instrucciones)

In [57]:
df_instrucciones["intrucciones"] = [','.join(map(str, i)) for i in df_instrucciones["intrucciones"]]

In [58]:
df_instrucciones.reset_index(drop=False, inplace=True)

In [59]:
df_instrucciones["RecipeId"]=df_instrucciones["RecipeId"].astype("int")

In [60]:
df = pd.merge(left=df, right=df_instrucciones, how='left',
                        left_on='RecipeId', right_on='RecipeId')

In [61]:
sp.Limpieza_columnas_general(df,"intrucciones").funcion_traduccion_en_es("intrucciones")

**4. Manejo columnas de tiempo**

In [62]:
sp.Limpieza_columnas_general(df,"PrepTime").reemplazo_string("PT",'')
sp.Limpieza_columnas_general(df,"TotalTime").reemplazo_string("PT",'')

Transformación PrepTime a minutos:

In [63]:
df=df.join(df["PrepTime"].str.split("H", expand=True)).rename(columns={0:'PrepTime_1', 1:'PrepTime_2'})

In [64]:
sp.Limpieza_columnas_general(df,"PrepTime_2").reemplazo_valores_nulos("MINUTOS")

In [65]:
df["minutos"] = np.where((df["PrepTime_2"]=="MINUTOS"), df["PrepTime_1"], df["PrepTime_2"])
df["horas"] = np.where((df["PrepTime_2"]=="MINUTOS"), "0", df["PrepTime_1"])

In [66]:
df["minutos"] = np.where((df["minutos"]==""), "0", df["minutos"])

In [67]:
sp.Limpieza_columnas_general(df,"PrepTime_1").borrado_columna()
sp.Limpieza_columnas_general(df,"PrepTime_2").borrado_columna()

In [68]:
sp.Limpieza_columnas_general(df,"minutos").reemplazo_string("M",'')
sp.Limpieza_columnas_general(df,"minutos").reemplazo_string("0S",'0')

In [69]:
sp.Limpieza_columnas_general(df,"minutos").conversion_formato_columna("int")
sp.Limpieza_columnas_general(df,"horas").conversion_formato_columna("int")

In [70]:
df["Prep_time"]= df["minutos"]+(df["horas"]*60)

In [71]:
sp.Limpieza_columnas_general(df,"minutos").borrado_columna()
sp.Limpieza_columnas_general(df,"horas").borrado_columna()
sp.Limpieza_columnas_general(df,"PrepTime").borrado_columna()

Transformación TotalTime a minutos:

In [72]:
df=df.join(df["TotalTime"].str.split("H", expand=True)).rename(columns={0:'TotalTime_1', 1:'TotalTime_2'})

In [73]:
sp.Limpieza_columnas_general(df,"TotalTime_2").reemplazo_valores_nulos("MINUTOS")

In [74]:
df["minutos"] = np.where((df["TotalTime_2"]=="MINUTOS"), df["TotalTime_1"], df["TotalTime_2"])
df["horas"] = np.where((df["TotalTime_2"]=="MINUTOS"), "0", df["TotalTime_1"])

In [75]:
df["minutos"] = np.where((df["minutos"]==""), "0", df["minutos"])

In [76]:
sp.Limpieza_columnas_general(df,"TotalTime_1").borrado_columna()
sp.Limpieza_columnas_general(df,"TotalTime_2").borrado_columna()

In [77]:
sp.Limpieza_columnas_general(df,"minutos").reemplazo_string("M",'')

In [78]:
sp.Limpieza_columnas_general(df,"minutos").conversion_formato_columna("int")
sp.Limpieza_columnas_general(df,"horas").conversion_formato_columna("int")

In [79]:
df["Total_time"]= df["minutos"]+(df["horas"]*60)

In [80]:
sp.Limpieza_columnas_general(df,"minutos").borrado_columna()
sp.Limpieza_columnas_general(df,"horas").borrado_columna()
sp.Limpieza_columnas_general(df,"TotalTime").borrado_columna()

## Creación de fichero .csv

In [83]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 200 entries, 0 to 199
Data columns (total 17 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   RecipeId             200 non-null    int64  
 1   AggregatedRating     200 non-null    float64
 2   ReviewCount          200 non-null    float64
 3   Calories             200 non-null    float64
 4   FatContent           200 non-null    float64
 5   SaturatedFatContent  200 non-null    float64
 6   CholesterolContent   200 non-null    float64
 7   SodiumContent        200 non-null    float64
 8   CarbohydrateContent  200 non-null    float64
 9   FiberContent         200 non-null    float64
 10  SugarContent         200 non-null    float64
 11  ProteinContent       200 non-null    float64
 12  Categoria_receta     200 non-null    object 
 13  Nombre               200 non-null    object 
 14  intrucciones         200 non-null    object 
 15  Prep_time            200 non-null    int

In [82]:
df.to_csv('../Data/3_Clean_data/2_RECIPES_CLEAN.csv', header=True, index=False)