# __ETL__ _(Extract, Transform, Load)_

## Introducción

Este notebook se enfoca en el proceso de **ETL** utilizando datos extraídos de las plataformas Yelp y Google Maps. Este proceso implica una _extracccion,transformación y carga_ de los datos con el objetivo de prepararlos para análisis posteriores. Este paso es crucial en cualquier proyecto de ciencia de datos para garantizar la calidad y utilidad de los datos.

## Configuraciones Globales e Importaciones

En esta sección, se instalan e importan todas las librerías y/o módulos necesarios para el proceso ETL (Extract, Transform, Load) y se establecen configuraciones globales de ser requerido. Se utilizan las siguientes librerías y herramientas:

In [1]:
#Se conecta Google Colaboratory con Google Drive
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
import warnings
warnings.filterwarnings("ignore") # Se utiliza para gestionar las advertencias y mantener el código limpio.

In [3]:
import os # Proporciona funciones para interactuar con el sistema operativo.
import pandas as pd # Una librería de análisis de datos.
import json # Se utiliza para trabajar con datos en formato JSON.

# YELP

**Dataset:** USER.PARQUET

DECLARACIÓN DE LA RUTA DE LOS DATA SET

In [8]:
data_path = '/content/drive/MyDrive/Colab-Notebooks/Yelp/user.parquet'
yelp_users = pd.read_parquet(data_path)
print(yelp_users.info())
yelp_users.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2105597 entries, 0 to 2105596
Data columns (total 22 columns):
 #   Column              Dtype  
---  ------              -----  
 0   user_id             object 
 1   name                object 
 2   review_count        int64  
 3   yelping_since       object 
 4   useful              int64  
 5   funny               int64  
 6   cool                int64  
 7   elite               object 
 8   friends             object 
 9   fans                int64  
 10  average_stars       float64
 11  compliment_hot      int64  
 12  compliment_more     int64  
 13  compliment_profile  int64  
 14  compliment_cute     int64  
 15  compliment_list     int64  
 16  compliment_note     int64  
 17  compliment_plain    int64  
 18  compliment_cool     int64  
 19  compliment_funny    int64  
 20  compliment_writer   int64  
 21  compliment_photos   int64  
dtypes: float64(1), int64(16), object(5)
memory usage: 353.4+ MB
None


Unnamed: 0,user_id,name,review_count,yelping_since,useful,funny,cool,elite,friends,fans,...,compliment_more,compliment_profile,compliment_cute,compliment_list,compliment_note,compliment_plain,compliment_cool,compliment_funny,compliment_writer,compliment_photos
0,qVc8ODYU5SZjKXVBgXdI7w,Walker,585,2007-01-25 16:47:26,7217,1259,5994,2007,"NSCy54eWehBJyZdG2iE84w, pe42u7DcCH2QmI81NX-8qA...",267,...,65,55,56,18,232,844,467,467,239,180
1,j14WgRoU_-2ZE1aw1dXrJg,Daniel,4333,2009-01-25 04:35:42,43091,13066,27281,"2009,2010,2011,2012,2013,2014,2015,2016,2017,2...","ueRPE0CX75ePGMqOFVj6IQ, 52oH4DrRvzzl8wh5UXyU0A...",3138,...,264,184,157,251,1847,7054,3131,3131,1521,1946
2,2WnXYQFK0hXEoTxPtV2zvg,Steph,665,2008-07-25 10:41:00,2086,1010,1003,20092010201120122013,"LuO3Bn4f3rlhyHIaNfTlnA, j9B4XdHUhDfTKVecyWQgyA...",52,...,13,10,17,3,66,96,119,119,35,18
3,SZDeASXq7o05mMNLshsdIA,Gwen,224,2005-11-29 04:38:33,512,330,299,200920102011,"enx1vVPnfdNUdPho6PH_wg, 4wOcvMLtU6a9Lslggq74Vg...",28,...,4,1,6,2,12,16,26,26,10,9
4,hA5lMy-EnncsH4JoR-hFGQ,Karen,79,2007-01-05 19:40:59,29,15,7,,"PBK4q9KEEBHhFvSXCUirIw, 3FWPpM7KU1gXeOM_ZbYMbA...",1,...,1,0,0,0,1,1,0,0,0,0


### **VERIFICAMOS CANTIDAD DE FILAS**

In [9]:
yelp_users.count()

user_id               2105597
name                  2105597
review_count          2105597
yelping_since         2105597
useful                2105597
funny                 2105597
cool                  2105597
elite                 2105597
friends               2105597
fans                  2105597
average_stars         2105597
compliment_hot        2105597
compliment_more       2105597
compliment_profile    2105597
compliment_cute       2105597
compliment_list       2105597
compliment_note       2105597
compliment_plain      2105597
compliment_cool       2105597
compliment_funny      2105597
compliment_writer     2105597
compliment_photos     2105597
dtype: int64

### **VERIFICAMOS DUPLICADOS**

In [10]:
#Buscamos duplicados
yelp_users.duplicated().sum()

117700

In [6]:
# Elimina duplicados
yelp_users.drop_duplicates(inplace=True)

### **VERIFICAMOS NULOS**

In [11]:
def contar_nulos(dataframe):

    # Obtener la cantidad de valores nulos por columna
  nulos_por_columna = dataframe.isnull().sum()

  print("Cantidad de valores nulos por columna:\n", nulos_por_columna)

In [12]:
contar_nulos(yelp_users)

Cantidad de valores nulos por columna:
 user_id               0
name                  0
review_count          0
yelping_since         0
useful                0
funny                 0
cool                  0
elite                 0
friends               0
fans                  0
average_stars         0
compliment_hot        0
compliment_more       0
compliment_profile    0
compliment_cute       0
compliment_list       0
compliment_note       0
compliment_plain      0
compliment_cool       0
compliment_funny      0
compliment_writer     0
compliment_photos     0
dtype: int64


IDENTIFICAMOS QUE NO HAY FILAS CON DATOS *NULOS* Y ELIMINAMOS FILAS *DUPLICADAS*

### **ELIMINAMOS COLUMNA**

Vamos a proceder a eliminar yelp since con lo cual en nuestro proyecto no vamos a trabajar

In [13]:
# Eliminamos'yelping_since'
yelp_users = yelp_users.drop(columns=['yelping_since'])
yelp_users.columns

Index(['user_id', 'name', 'review_count', 'useful', 'funny', 'cool', 'elite',
       'friends', 'fans', 'average_stars', 'compliment_hot', 'compliment_more',
       'compliment_profile', 'compliment_cute', 'compliment_list',
       'compliment_note', 'compliment_plain', 'compliment_cool',
       'compliment_funny', 'compliment_writer', 'compliment_photos'],
      dtype='object')

In [14]:
#Muestras las primeras filas del dataframe
yelp_users.head()

Unnamed: 0,user_id,name,review_count,useful,funny,cool,elite,friends,fans,average_stars,...,compliment_more,compliment_profile,compliment_cute,compliment_list,compliment_note,compliment_plain,compliment_cool,compliment_funny,compliment_writer,compliment_photos
0,qVc8ODYU5SZjKXVBgXdI7w,Walker,585,7217,1259,5994,2007,"NSCy54eWehBJyZdG2iE84w, pe42u7DcCH2QmI81NX-8qA...",267,3.91,...,65,55,56,18,232,844,467,467,239,180
1,j14WgRoU_-2ZE1aw1dXrJg,Daniel,4333,43091,13066,27281,"2009,2010,2011,2012,2013,2014,2015,2016,2017,2...","ueRPE0CX75ePGMqOFVj6IQ, 52oH4DrRvzzl8wh5UXyU0A...",3138,3.74,...,264,184,157,251,1847,7054,3131,3131,1521,1946
2,2WnXYQFK0hXEoTxPtV2zvg,Steph,665,2086,1010,1003,20092010201120122013,"LuO3Bn4f3rlhyHIaNfTlnA, j9B4XdHUhDfTKVecyWQgyA...",52,3.32,...,13,10,17,3,66,96,119,119,35,18
3,SZDeASXq7o05mMNLshsdIA,Gwen,224,512,330,299,200920102011,"enx1vVPnfdNUdPho6PH_wg, 4wOcvMLtU6a9Lslggq74Vg...",28,4.27,...,4,1,6,2,12,16,26,26,10,9
4,hA5lMy-EnncsH4JoR-hFGQ,Karen,79,29,15,7,,"PBK4q9KEEBHhFvSXCUirIw, 3FWPpM7KU1gXeOM_ZbYMbA...",1,3.54,...,1,0,0,0,1,1,0,0,0,0


In [15]:
#muestra las primeras filas de "elite"
yelp_users.elite.head()

0                                                 2007
1    2009,2010,2011,2012,2013,2014,2015,2016,2017,2...
2                             2009,2010,2011,2012,2013
3                                       2009,2010,2011
4                                                     
Name: elite, dtype: object

In [16]:
# Normaliza 'elite'
elite = yelp_users['elite'].str.split(',', expand=True).stack().reset_index(level=-1, drop=True)
elite = elite.to_frame('elite_year')
elite['user_id'] = yelp_users['user_id']

In [17]:
# Reemplaza los strings en blanco por NaN
elite['elite_year'] = elite['elite_year'].replace('', pd.NA)

In [18]:
# Elimina los NaN
elite = elite.dropna(subset=['elite_year'])

In [19]:
# Ordena el DataFrame por 'elite_year'
elite = elite.sort_values(['elite_year'])

In [20]:
#Muestra los uncios de elite
elite.elite_year.unique()

array(['20', '2006', '2007', '2008', '2009', '2010', '2011', '2012',
       '2013', '2014', '2015', '2016', '2017', '2018', '2019', '2021'],
      dtype=object)

In [22]:
#Hace conteos por años en "elite"
elite.elite_year.value_counts()

20      94716
2019    52510
2021    52181
2018    50422
2017    46873
2016    41264
2015    36062
2014    30175
2013    27372
2012    25525
2011    18009
2010    14184
2009     8609
2008     5085
2007     3087
2006     1205
Name: elite_year, dtype: int64

In [23]:
# Filtrar el DataFrame elite para excluir las filas donde el valor de 'elite_year' es '20'
elite = elite[elite['elite_year'] != '20']

# Restablecer el índice del DataFrame resultante y eliminar el índice anterior
elite.reset_index(drop=True, inplace=True)

# Mostrar el DataFrame elite resultante
elite

Unnamed: 0,elite_year,user_id
0,2006,Bf87HcPERF9yiSjb2tQBqw
1,2006,dkkMQorZE0EF-F5wOiqA7w
2,2006,DOFamdMaC_hjn9zg3Gs-0w
3,2006,AKXqbuifvfvNEpr3Qs51hQ
4,2006,5f1lHNidHQDbP9s9IpEmcw
...,...,...
412558,2021,pSLfgMTxYZYUeY2Cc5VxoA
412559,2021,9uTysypqImdsxJDlBXz_Ag
412560,2021,WOB02HeXx3iD9oZq02YGcg
412561,2021,wgjJscOfwun1jozTFPCRLg


In [24]:
#Muestra la info de "elite"
elite.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 412563 entries, 0 to 412562
Data columns (total 2 columns):
 #   Column      Non-Null Count   Dtype 
---  ------      --------------   ----- 
 0   elite_year  412563 non-null  object
 1   user_id     412563 non-null  object
dtypes: object(2)
memory usage: 6.3+ MB


In [25]:
#elimina la columna elite
yelp_users = yelp_users.drop(columns='elite')

yelp_users.columns

Index(['user_id', 'name', 'review_count', 'useful', 'funny', 'cool', 'friends',
       'fans', 'average_stars', 'compliment_hot', 'compliment_more',
       'compliment_profile', 'compliment_cute', 'compliment_list',
       'compliment_note', 'compliment_plain', 'compliment_cool',
       'compliment_funny', 'compliment_writer', 'compliment_photos'],
      dtype='object')

In [26]:
# Dividir la cadena en la posición 1987896 de la columna 'friends' por comas
sample_friends = yelp_users.friends[1987896].split(',')

# Calcular la longitud de la lista resultante
len(sample_friends)

1

In [27]:
# Verificar valores nulos en el DataFrame 'user_yelp' y contarlos por columna
yelp_users.isnull().sum()

user_id               0
name                  0
review_count          0
useful                0
funny                 0
cool                  0
friends               0
fans                  0
average_stars         0
compliment_hot        0
compliment_more       0
compliment_profile    0
compliment_cute       0
compliment_list       0
compliment_note       0
compliment_plain      0
compliment_cool       0
compliment_funny      0
compliment_writer     0
compliment_photos     0
dtype: int64

In [28]:
# Aplicar una función lambda a cada valor en la columna 'friends' del DataFrame 'yelp_users'
# La función divide cada cadena por comas y calcula la longitud de la lista resultante
# Reemplazar los valores originales en la columna 'friends' con las longitudes de las listas resultantes
yelp_users['friends'] = yelp_users['friends'].apply(lambda x: len(x.split(',')))

# Mostrar la columna 'friends' actualizada en el DataFrame 'yelp_users'
yelp_users['friends']

0          14995
1           4646
2            381
3            131
4             27
           ...  
2105592        1
2105593      122
2105594       38
2105595       78
2105596      126
Name: friends, Length: 2105597, dtype: int64

In [29]:
yelp_users.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2105597 entries, 0 to 2105596
Data columns (total 20 columns):
 #   Column              Dtype  
---  ------              -----  
 0   user_id             object 
 1   name                object 
 2   review_count        int64  
 3   useful              int64  
 4   funny               int64  
 5   cool                int64  
 6   friends             int64  
 7   fans                int64  
 8   average_stars       float64
 9   compliment_hot      int64  
 10  compliment_more     int64  
 11  compliment_profile  int64  
 12  compliment_cute     int64  
 13  compliment_list     int64  
 14  compliment_note     int64  
 15  compliment_plain    int64  
 16  compliment_cool     int64  
 17  compliment_funny    int64  
 18  compliment_writer   int64  
 19  compliment_photos   int64  
dtypes: float64(1), int64(17), object(2)
memory usage: 321.3+ MB


### **VERIFICAMOS QUE LAS COLUMNAS TENGAN EL MISMO TIPO DE DATOS**

In [30]:
# Lista de columnas a verificar
columnas_numericas = ['review_count', 'useful', 'funny', 'cool', 'friends', 'fans',
                      'compliment_hot', 'compliment_more', 'compliment_profile',
                      'compliment_cute', 'compliment_list', 'compliment_note',
                      'compliment_plain', 'compliment_cool', 'compliment_funny',
                      'compliment_writer', 'compliment_photos']

# Verificar si las columnas contienen solo valores numéricos
resultados = yelp_users[columnas_numericas].apply(lambda x: pd.to_numeric(x, errors='coerce').notnull().all())

# Mostrar los resultados
print(resultados)


review_count          True
useful                True
funny                 True
cool                  True
friends               True
fans                  True
compliment_hot        True
compliment_more       True
compliment_profile    True
compliment_cute       True
compliment_list       True
compliment_note       True
compliment_plain      True
compliment_cool       True
compliment_funny      True
compliment_writer     True
compliment_photos     True
dtype: bool


In [31]:
# Intentar convertir la columna 'average_stars' a números
yelp_users['average_stars_numeric'] = pd.to_numeric(yelp_users['average_stars'], errors='coerce')

# Verificar si todos los valores se convirtieron correctamente
todos_numeros = yelp_users['average_stars_numeric'].notnull().all()

# Mostrar el resultado
print("La columna 'average_stars' contiene solo valores numéricos:", todos_numeros)

# Eliminar la columna temporal
yelp_users.drop('average_stars_numeric', axis=1, inplace=True)

La columna 'average_stars' contiene solo valores numéricos: True


In [32]:
# Verificar si todos los valores de 'name' contienen solo letras
solo_letras = yelp_users['name'].str.isalpha().all()

# Mostrar el resultado
print("La columna 'name' contiene solo letras:", solo_letras)

La columna 'name' contiene solo letras: False


In [33]:
# Convertir todos los valores de 'name' a minúsculas y eliminar los caracteres que no son letras
yelp_users['name'] = yelp_users['name'].str.replace(r'[^a-zA-Z\s]', '').str.strip()

# Verificar nuevamente si todos los valores de 'name' contienen solo letras
solo_letras = yelp_users['name'].str.isalpha().all()

# Mostrar el resultado
print("La columna 'name' contiene solo letras después de la limpieza:", solo_letras)

La columna 'name' contiene solo letras después de la limpieza: False


In [36]:
# Mostrar los valores de 'name' que no contienen solo letras
print(yelp_users[~yelp_users['name'].str.isalpha()]['name'])

10249       
14016       
30574       
35675       
55243       
          ..
2089072     
2096732     
2097580     
2101568     
2103504     
Name: name, Length: 579, dtype: object


In [35]:
# Limpiar los valores de 'name' para dejar solo letras
yelp_users['name'] = yelp_users['name'].str.replace(r'[^a-zA-Z]', '', regex=True)

# Verificar si todos los valores de 'name' contienen solo letras después de la limpieza
solo_letras = yelp_users['name'].str.isalpha().all()

# Mostrar el resultado
print("La columna 'name' contiene solo letras después de la limpieza:", solo_letras)


La columna 'name' contiene solo letras después de la limpieza: False


In [37]:
# Limpiar los valores de 'name' para eliminar los números
yelp_users['name'] = yelp_users['name'].str.replace(r'\d+', '', regex=True).str.strip()

# Verificar si todos los valores de 'name' no contienen números después de la limpieza
no_numeros = yelp_users['name'].str.isalpha().all()

# Mostrar el resultado
print("La columna 'name' no contiene números después de la limpieza:", no_numeros)


La columna 'name' no contiene números después de la limpieza: False


In [38]:
# Verificar si todos los valores de 'name' contienen solo letras
solo_letras = yelp_users['name'].str.isalpha().all()

# Mostrar el resultado
print("La columna 'name' contiene solo letras:", solo_letras)

La columna 'name' contiene solo letras: False


In [39]:
# Mostrar los valores de 'name' que no contienen solo letras
print(yelp_users[~yelp_users['name'].str.isalpha()]['name'])

10249       
14016       
30574       
35675       
55243       
          ..
2089072     
2096732     
2097580     
2101568     
2103504     
Name: name, Length: 579, dtype: object


### Remplazamos comillas y comas de las columnas para evitar que nos produsca error en nuestra carga

In [40]:
# Reemplaza las comillas y las comas en todas las columnas
yelp_users = yelp_users.apply(lambda x: x.astype(str).str.replace('"', '').str.replace(',', '') if x.dtype == 'object' else x)

### Verificamos cantidad de FILAS

In [41]:
yelp_users.count()

user_id               2105597
name                  2105597
review_count          2105597
useful                2105597
funny                 2105597
cool                  2105597
friends               2105597
fans                  2105597
average_stars         2105597
compliment_hot        2105597
compliment_more       2105597
compliment_profile    2105597
compliment_cute       2105597
compliment_list       2105597
compliment_note       2105597
compliment_plain      2105597
compliment_cool       2105597
compliment_funny      2105597
compliment_writer     2105597
compliment_photos     2105597
dtype: int64

### verficamos las primeras filas del DATAFRAME

In [42]:
yelp_users.head()

Unnamed: 0,user_id,name,review_count,useful,funny,cool,friends,fans,average_stars,compliment_hot,compliment_more,compliment_profile,compliment_cute,compliment_list,compliment_note,compliment_plain,compliment_cool,compliment_funny,compliment_writer,compliment_photos
0,qVc8ODYU5SZjKXVBgXdI7w,Walker,585,7217,1259,5994,14995,267,3.91,250,65,55,56,18,232,844,467,467,239,180
1,j14WgRoU_-2ZE1aw1dXrJg,Daniel,4333,43091,13066,27281,4646,3138,3.74,1145,264,184,157,251,1847,7054,3131,3131,1521,1946
2,2WnXYQFK0hXEoTxPtV2zvg,Steph,665,2086,1010,1003,381,52,3.32,89,13,10,17,3,66,96,119,119,35,18
3,SZDeASXq7o05mMNLshsdIA,Gwen,224,512,330,299,131,28,4.27,24,4,1,6,2,12,16,26,26,10,9
4,hA5lMy-EnncsH4JoR-hFGQ,Karen,79,29,15,7,27,1,3.54,1,1,0,0,0,1,1,0,0,0,0


## Carga de nuestro archivo

In [43]:
# Ruta al archivo CSV
file_path = '/content/drive/MyDrive/Colab-Notebooks/transformaciones/user-limpio.csv'

# Guardar el DataFrame en un archivo CSV en la carpeta file_path
yelp_users.to_csv(file_path, index=False)