# __ETL__ _(Extract, Transform, Load)_

## Introducción

Este notebook se enfoca en el proceso de **ETL** utilizando datos extraídos de las plataformas Yelp y Google Maps. Este proceso implica una _extracccion,transformación y carga_ de los datos con el objetivo de prepararlos para análisis posteriores. Este paso es crucial en cualquier proyecto de ciencia de datos para garantizar la calidad y utilidad de los datos.

## Configuraciones Globales e Importaciones

En esta sección, se instalan e importan todas las librerías y/o módulos necesarios para el proceso ETL (Extract, Transform, Load) y se establecen configuraciones globales de ser requerido. Se utilizan las siguientes librerías y herramientas:

In [1]:
#Se conecta Google Colaboratory con Google Drive
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


Utilizamos google drive para poder trabajar en linea con el equipo del proyecto

In [2]:
import warnings
warnings.filterwarnings("ignore") # Se utiliza para gestionar las advertencias y mantener el código limpio.

In [3]:
import os # Proporciona funciones para interactuar con el sistema operativo.
import pandas as pd # Una librería de análisis de datos.
import json # Se utiliza para trabajar con datos en formato JSON.

# YELP

**Dataset:** TIP.JSON

DECLARACIÓN DE LA RUTA DE LOS DATA SET

In [4]:
#Se lee el archivo tip de yelp

df=[]

with open("/content/drive/MyDrive/Colab-Notebooks/Yelp/tip.json","r", encoding= 'utf-8') as filejson:


                # Procesa cada línea del archivo como un objeto JSON
                for linea in filejson:

                        # Intenta cargar la línea como un objeto JSON
                        objeto = json.loads(linea)

                        df.append(objeto)

df=pd.DataFrame(df)

In [5]:
#Mostramos las primeras 5 filas del dataframe
df.head(5)

Unnamed: 0,user_id,business_id,text,date,compliment_count
0,AGNUgVwnZUey3gcPCJ76iw,3uLgwr0qeCNMjKenHJwPGQ,Avengers time with the ladies.,2012-05-18 02:17:21,0
1,NBN4MgHP9D3cw--SnauTkA,QoezRbYQncpRqyrLH6Iqjg,They have lots of good deserts and tasty cuban...,2013-02-05 18:35:10,0
2,-copOvldyKh1qr-vzkDEvw,MYoRNLb5chwjQe3c_k37Gg,It's open even when you think it isn't,2013-08-18 00:56:08,0
3,FjMQVZjSqY8syIO-53KFKw,hV-bABTK-glh5wj31ps_Jw,Very decent fried chicken,2017-06-27 23:05:38,0
4,ld0AperBXk1h6UbqmM80zw,_uN0OudeJ3Zl_tf6nxg5ww,Appetizers.. platter special for lunch,2012-10-06 19:43:09,0


### **VERIFICAMOS CANTIDAD DE FILAS**

In [6]:
df.count()

user_id             908915
business_id         908915
text                908915
date                908915
compliment_count    908915
dtype: int64

### **VERIFICAMOS DUPLICADOS**

In [7]:
#Buscamos duplicados
df.duplicated().sum()

67

In [8]:
# Elimina duplicados
df.drop_duplicates(inplace=True)

### **VERIFICAMOS NULOS**

In [9]:
def contar_nulos(dataframe):

    # Obtener la cantidad de valores nulos por columna
  nulos_por_columna = dataframe.isnull().sum()

  print("Cantidad de valores nulos por columna:\n", nulos_por_columna)

In [10]:
#Cuantos nulos hay en cada columna
contar_nulos(df)

Cantidad de valores nulos por columna:
 user_id             0
business_id         0
text                0
date                0
compliment_count    0
dtype: int64


No tenemos datos *NULOS* Y eliminamos los DUPLICADOS

Ahora procederemos a convertir en el formato adecuado la colunma *DATE*

In [11]:
# Convierte la columna 'date' al formato datetime
df['date'] = pd.to_datetime(df['date'])

In [12]:
# Ordena el DataFrame por 'date'
df = df.sort_values(by=['date'])

In [13]:
#Mostramos las primeras 5 filas del dataframe
df.head(5)

Unnamed: 0,user_id,business_id,text,date,compliment_count
41792,rCumu_NyXfbyq16cP8vOEw,cXSyVvOr9YRN9diDkaWs0Q,Simply the best breakfast around!! The staff i...,2009-04-16 13:11:49,0
518320,LT_JU6bY75H918eKnnXeVQ,kLYhipAEvdT1ORfluX5gbw,Crunchy French toast is amazing!,2009-04-16 17:15:29,0
702603,sxZX1armKzagQxDnbvPnkw,gTC8IQ_i8zXytWSly3Ttvg,"Lunch specials are great, especially their hom...",2009-04-16 19:59:35,0
552393,KI4UutWtai0UKZ6ZK2pg2Q,P3bw4h4kCaMaYqGGNLt3Jg,"Low selection, quiet",2009-04-16 23:45:46,0
27283,C14KW1jjKM8QlYfMyzP1sQ,aUjJ_x1KuvWmqIErhdaHzg,"Pretty good pad thai, but when I asked for lim...",2009-04-17 00:34:55,0


In [14]:
# Convertir la columna 'date' a tipo datetime
df['date'] = pd.to_datetime(df['date'])

# Extraer solo la parte de la fecha (año-mes-día)
df['date'] = df['date'].dt.date

# Mostrar las primeras filas del DataFrame con la fecha formateada
df.head(10)

Unnamed: 0,user_id,business_id,text,date,compliment_count
41792,rCumu_NyXfbyq16cP8vOEw,cXSyVvOr9YRN9diDkaWs0Q,Simply the best breakfast around!! The staff i...,2009-04-16,0
518320,LT_JU6bY75H918eKnnXeVQ,kLYhipAEvdT1ORfluX5gbw,Crunchy French toast is amazing!,2009-04-16,0
702603,sxZX1armKzagQxDnbvPnkw,gTC8IQ_i8zXytWSly3Ttvg,"Lunch specials are great, especially their hom...",2009-04-16,0
552393,KI4UutWtai0UKZ6ZK2pg2Q,P3bw4h4kCaMaYqGGNLt3Jg,"Low selection, quiet",2009-04-16,0
27283,C14KW1jjKM8QlYfMyzP1sQ,aUjJ_x1KuvWmqIErhdaHzg,"Pretty good pad thai, but when I asked for lim...",2009-04-17,0
645971,8IcTnw2hmu5xjElM1uZigw,DU4y4jJPE96-hBN_jLbCbg,Tries to cater for special diets. Let them kno...,2009-04-17,0
570117,osLu8P3SkCJJQoMpx_kc3w,5k0-j1Nuoj0CrYzuhNqWxg,The breaded palomilla steak is excellent. Huge...,2009-04-17,0
167029,aD-rsDe2S0e7jTkYD6ULaQ,iSRTaT9WngzB8JJ2YKJUig,"While waiting in line, have one person go get ...",2009-04-17,0
872607,dYUP-Nw3mHPnO8_48DXExQ,3GjYa0zpRfNXScHguQdDDg,Busy at lunch. Call ahead.,2009-04-17,0
551623,KI4UutWtai0UKZ6ZK2pg2Q,DKXeB-JIou5XPI49CzITuQ,Hot and sour soup. Best ever.,2009-04-18,0


### Remplazamos comillas y comas de las columnas para evitar que nos produsca error en nuestra carga

In [15]:
# Reemplaza las comillas y las comas en todas las columnas
df = df.apply(lambda x: x.astype(str).str.replace('"', '').str.replace(',', '') if x.dtype == 'object' else x)

## Carga de nuestro archivo

In [16]:
ruta_csv = "/content/drive/MyDrive/Colab-Notebooks/transformaciones/tip-limpio.csv"
df.to_csv(ruta_csv, header=True)