# __ETL__ _(Extract, Transform, Load)_

## Introducción

Este notebook se enfoca en el proceso de **ETL** utilizando datos extraídos de las plataformas Yelp y Google Maps. Este proceso implica una _extracccion,transformación y carga_ de los datos con el objetivo de prepararlos para análisis posteriores. Este paso es crucial en cualquier proyecto de ciencia de datos para garantizar la calidad y utilidad de los datos.

## Configuraciones Globales e Importaciones

En esta sección, se instalan e importan todas las librerías y/o módulos necesarios para el proceso ETL (Extract, Transform, Load) y se establecen configuraciones globales de ser requerido. Se utilizan las siguientes librerías y herramientas:

In [1]:
import warnings
warnings.filterwarnings("ignore") # Se utiliza para gestionar las advertencias y mantener el código limpio.

In [2]:
import os # Proporciona funciones para interactuar con el sistema operativo.
import pandas as pd # Una librería de análisis de datos.
import json # Se utiliza para trabajar con datos en formato JSON.

# YELP

**Dataset:** TIP.JSON

DECLARACIÓN DE LA RUTA DE LOS DATA SET

In [3]:
#Se lee el archivo tip de yelp

df=[]

with open("C:/Users/Usuario/Desktop/Proyecto Final/Yelp/tip.json","r", encoding= 'utf-8') as filejson:


                # Procesa cada línea del archivo como un objeto JSON
                for linea in filejson:

                        # Intenta cargar la línea como un objeto JSON
                        objeto = json.loads(linea)

                        df.append(objeto)

df=pd.DataFrame(df)

In [4]:
#Mostramos las primeras 5 filas del dataframe
df.head(5)

Unnamed: 0,user_id,business_id,text,date,compliment_count
0,AGNUgVwnZUey3gcPCJ76iw,3uLgwr0qeCNMjKenHJwPGQ,Avengers time with the ladies.,2012-05-18 02:17:21,0
1,NBN4MgHP9D3cw--SnauTkA,QoezRbYQncpRqyrLH6Iqjg,They have lots of good deserts and tasty cuban...,2013-02-05 18:35:10,0
2,-copOvldyKh1qr-vzkDEvw,MYoRNLb5chwjQe3c_k37Gg,It's open even when you think it isn't,2013-08-18 00:56:08,0
3,FjMQVZjSqY8syIO-53KFKw,hV-bABTK-glh5wj31ps_Jw,Very decent fried chicken,2017-06-27 23:05:38,0
4,ld0AperBXk1h6UbqmM80zw,_uN0OudeJ3Zl_tf6nxg5ww,Appetizers.. platter special for lunch,2012-10-06 19:43:09,0


In [5]:
#Buscamos duplicados
df.duplicated().sum()

67

In [6]:
# Elimina duplicados
df.drop_duplicates(inplace=True)

In [7]:
# Convierte la columna 'date' al formato datetime
df['date'] = pd.to_datetime(df['date'])

In [8]:
# Ordena el DataFrame por 'date' 
df = df.sort_values(by=['date'])

In [None]:
# Agrega una columna 'id' con un ID único para cada registro
df = df.reset_index(drop=True)
df.insert(0, 'tip_id', df.index + 1)

In [11]:
# Cambia el nombre de la columna 'text' por 'tip' 
df = df.rename(columns={'text': 'tip'})

In [13]:
# Reordena las columnas para que 'id' sea la primera columna 
df = df[['tip_id', 'user_id', 'business_id', 'tip', 'date', 'compliment_count']]

In [14]:
#Mostramos las primeras 5 filas del dataframe
df.head(5)

Unnamed: 0,tip_id,user_id,business_id,tip,date,compliment_count
0,0,rCumu_NyXfbyq16cP8vOEw,cXSyVvOr9YRN9diDkaWs0Q,Simply the best breakfast around!! The staff i...,2009-04-16 13:11:49,0
1,0,LT_JU6bY75H918eKnnXeVQ,kLYhipAEvdT1ORfluX5gbw,Crunchy French toast is amazing!,2009-04-16 17:15:29,0
2,0,sxZX1armKzagQxDnbvPnkw,gTC8IQ_i8zXytWSly3Ttvg,"Lunch specials are great, especially their hom...",2009-04-16 19:59:35,0
3,0,KI4UutWtai0UKZ6ZK2pg2Q,P3bw4h4kCaMaYqGGNLt3Jg,"Low selection, quiet",2009-04-16 23:45:46,0
4,0,C14KW1jjKM8QlYfMyzP1sQ,aUjJ_x1KuvWmqIErhdaHzg,"Pretty good pad thai, but when I asked for lim...",2009-04-17 00:34:55,0


## Carga de nuestro archivo

In [15]:
ruta_nuevo_json = "C:/Users/Usuario/Desktop/Proyecto Final/PF_Google_yelp_Map/Notebook/Tip_limpio.json"
df.to_json(ruta_nuevo_json, orient='records', lines=True)