# Data Convertion

En este archivo se realiza una conversión de datos de JSON a Parquet para optimizar la subida de los datos que, en algunos casos pesan demasiado y generarán conflicto a la hora de subirlos a GitHub y dificultarán el procesamiento de los colaboradores.

**Nota:** Este archivo sólo realiza conversión y adaptación de los datos al entorno de trabajo. Si se desea acceder a los DataSets originales empleados para este proyecto, podrán encontrarlos en el siguiente link: [Dataset de Google Maps](https://drive.google.com/drive/folders/1Wf7YkxA0aHI3GpoHc9Nh8_scf5BbD4DA). No olvidar que por el momento sólo se está trabajando con los estados de California, Nueva York y Florida.

In [2]:
# Se importan las librerías necesarias
import pandas as pd
import os
import sys

## Importar los DataSets de Google Maps

In [3]:
# Obtener el directorio de trabajo actual
current_dir = os.getcwd()

# Navegar hacia el directorio raíz del proyecto
project_root = os.path.abspath(os.path.join(current_dir, '../..'))

# Agregar la ruta del proyecto al sys.path
sys.path.append(project_root)

### Funciones auxiliares

In [4]:
# se crea una función para leer todos los elementos de una carpeta
def json_files(folder_path):
    """ 
    Esta función recibe la ruta del directorio donde se encuentran los archivos JSON.
    La ruta debe ingresarse desde el directorio raíz del proyecto.
    Retorna una lista con todos los elementos en el directorio. 
    """
    # se crea una ruta completa a la ubicación de los archivos
    path = os.path.join(project_root, folder_path)
    # Se crea una lista que contendrá todos los archivos JSON
    json_files = []

    # Recorre todas las carpetas y archivos en el directorio
    for dirpath, _, filenames in os.walk(path):
        for file in filenames:
            if file.endswith('.json'):
                file_path = os.path.join(dirpath, file)
                
                # Intenta leer el archivo JSON y añade el DataFrame a la lista
                try:
                    print(f"Leyendo archivo: {file_path}")
                    df = pd.read_json(file_path, lines=True)
                    json_files.append(df)
                    print(f"Archivo {file} leído exitosamente con {len(df)} registros.")
                except Exception as e:
                    try:
                        print(f"Leyendo archivo: {file_path}")
                        df = pd.read_json(file_path)
                        json_files.append(df)
                        print(f"Archivo {file} leído exitosamente con {len(df)} registros.")
                    except Exception as e:
                        print(f"Error al leer {file_path}: {e}")

    # retorna la lista
    return json_files

In [5]:
# Se define una función para exportar los elementos
def export_parquet(dfs, folder_path):
    """
    Exporta cada DataFrame en la lista de dataframes al formato Parquet en la carpeta especificada.
    
    Parameters:
    - dfs (list): Lista de DataFrames a exportar.
    - output_folder (str): Ruta de la carpeta donde se guardarán los archivos Parquet.
    
    Cada archivo Parquet se nombrará como `archivo_X.parquet`, donde `X` es un índice único para cada archivo.
    """
    # se crea una ruta completa a la ubicación de los archivos
    output_folder = os.path.join(project_root, folder_path)

    # Exportar cada DataFrame a un archivo Parquet
    for i, df in enumerate(dfs):
        output_path = os.path.join(output_folder, f"{i+1}.parquet")
        try:
            df.to_parquet(output_path, index=False, compression='gzip')
            print(f"Archivo exportado exitosamente: {output_path}")
        except Exception as e:
            print(f"Error al exportar {output_path}: {e}")

### Metadata-Sitios

In [None]:
#se utiliza la función json_files para recibir una lista con los archivos en org/metadata-sitios
metadata = json_files(r'data\raw\google_maps\org\metadata-sitios')

Leyendo archivo: d:\Henry-DataScience\LABS\Google-Yelp\Google-Yelp\data\raw\google_maps\org\metadata-sitios\1.json
Archivo 1.json leído exitosamente con 275001 registros.
Leyendo archivo: d:\Henry-DataScience\LABS\Google-Yelp\Google-Yelp\data\raw\google_maps\org\metadata-sitios\10.json
Archivo 10.json leído exitosamente con 275001 registros.
Leyendo archivo: d:\Henry-DataScience\LABS\Google-Yelp\Google-Yelp\data\raw\google_maps\org\metadata-sitios\11.json
Archivo 11.json leído exitosamente con 275001 registros.
Leyendo archivo: d:\Henry-DataScience\LABS\Google-Yelp\Google-Yelp\data\raw\google_maps\org\metadata-sitios\2.json
Archivo 2.json leído exitosamente con 275001 registros.
Leyendo archivo: d:\Henry-DataScience\LABS\Google-Yelp\Google-Yelp\data\raw\google_maps\org\metadata-sitios\3.json
Archivo 3.json leído exitosamente con 275001 registros.
Leyendo archivo: d:\Henry-DataScience\LABS\Google-Yelp\Google-Yelp\data\raw\google_maps\org\metadata-sitios\4.json
Archivo 4.json leído exito

In [None]:
#se utiliza la función export_parquet(dfs, path) para exportar los archivos en metadata-sitios
export_parquet(metadata, r'data\raw\google_maps\metadata-sitios')

Archivo exportado exitosamente: d:\Henry-DataScience\LABS\Google-Yelp\Google-Yelp\data\raw\google_maps\metadata-sitios\1.parquet
Archivo exportado exitosamente: d:\Henry-DataScience\LABS\Google-Yelp\Google-Yelp\data\raw\google_maps\metadata-sitios\2.parquet
Archivo exportado exitosamente: d:\Henry-DataScience\LABS\Google-Yelp\Google-Yelp\data\raw\google_maps\metadata-sitios\3.parquet
Archivo exportado exitosamente: d:\Henry-DataScience\LABS\Google-Yelp\Google-Yelp\data\raw\google_maps\metadata-sitios\4.parquet
Archivo exportado exitosamente: d:\Henry-DataScience\LABS\Google-Yelp\Google-Yelp\data\raw\google_maps\metadata-sitios\5.parquet
Archivo exportado exitosamente: d:\Henry-DataScience\LABS\Google-Yelp\Google-Yelp\data\raw\google_maps\metadata-sitios\6.parquet
Archivo exportado exitosamente: d:\Henry-DataScience\LABS\Google-Yelp\Google-Yelp\data\raw\google_maps\metadata-sitios\7.parquet
Archivo exportado exitosamente: d:\Henry-DataScience\LABS\Google-Yelp\Google-Yelp\data\raw\google

### New York

In [None]:
#se utiliza la función json_files para recibir una lista con los archivos en reviews-estados/review-New_York
new_york = json_files('data/raw/google_maps/org/reviews-estados/review-New_York')

Leyendo archivo: d:\Henry-DataScience\LABS\Google-Yelp\Google-Yelp\data/raw/google_maps/org/reviews-estados/review-New_York\1.json
Archivo 1.json leído exitosamente con 150000 registros.
Leyendo archivo: d:\Henry-DataScience\LABS\Google-Yelp\Google-Yelp\data/raw/google_maps/org/reviews-estados/review-New_York\10.json
Archivo 10.json leído exitosamente con 150000 registros.
Leyendo archivo: d:\Henry-DataScience\LABS\Google-Yelp\Google-Yelp\data/raw/google_maps/org/reviews-estados/review-New_York\11.json
Archivo 11.json leído exitosamente con 150000 registros.
Leyendo archivo: d:\Henry-DataScience\LABS\Google-Yelp\Google-Yelp\data/raw/google_maps/org/reviews-estados/review-New_York\12.json
Archivo 12.json leído exitosamente con 150000 registros.
Leyendo archivo: d:\Henry-DataScience\LABS\Google-Yelp\Google-Yelp\data/raw/google_maps/org/reviews-estados/review-New_York\13.json
Archivo 13.json leído exitosamente con 150000 registros.
Leyendo archivo: d:\Henry-DataScience\LABS\Google-Yelp\Go

In [51]:
#se utiliza la función export_parquet(dfs, path) para exportar los archivos en reviews-estados/review-New_York
export_parquet(new_york, 'data/raw/google_maps/reviews-estados/review-New_York')

Archivo exportado exitosamente: d:\Henry-DataScience\LABS\Google-Yelp\Google-Yelp\data/raw/google_maps/reviews-estados/review-New_York\1.parquet
Archivo exportado exitosamente: d:\Henry-DataScience\LABS\Google-Yelp\Google-Yelp\data/raw/google_maps/reviews-estados/review-New_York\2.parquet
Archivo exportado exitosamente: d:\Henry-DataScience\LABS\Google-Yelp\Google-Yelp\data/raw/google_maps/reviews-estados/review-New_York\3.parquet
Archivo exportado exitosamente: d:\Henry-DataScience\LABS\Google-Yelp\Google-Yelp\data/raw/google_maps/reviews-estados/review-New_York\4.parquet
Archivo exportado exitosamente: d:\Henry-DataScience\LABS\Google-Yelp\Google-Yelp\data/raw/google_maps/reviews-estados/review-New_York\5.parquet
Archivo exportado exitosamente: d:\Henry-DataScience\LABS\Google-Yelp\Google-Yelp\data/raw/google_maps/reviews-estados/review-New_York\6.parquet
Archivo exportado exitosamente: d:\Henry-DataScience\LABS\Google-Yelp\Google-Yelp\data/raw/google_maps/reviews-estados/review-New_

### California

In [52]:
#se utiliza la función json_files para recibir una lista con los archivos en org/reviews-estados/review-California
california = json_files('data/raw/google_maps/org/reviews-estados/review-California')

Leyendo archivo: d:\Henry-DataScience\LABS\Google-Yelp\Google-Yelp\data/raw/google_maps/org/reviews-estados/review-California\1.json
Archivo 1.json leído exitosamente con 150000 registros.
Leyendo archivo: d:\Henry-DataScience\LABS\Google-Yelp\Google-Yelp\data/raw/google_maps/org/reviews-estados/review-California\10.json
Archivo 10.json leído exitosamente con 150000 registros.
Leyendo archivo: d:\Henry-DataScience\LABS\Google-Yelp\Google-Yelp\data/raw/google_maps/org/reviews-estados/review-California\11.json
Archivo 11.json leído exitosamente con 150000 registros.
Leyendo archivo: d:\Henry-DataScience\LABS\Google-Yelp\Google-Yelp\data/raw/google_maps/org/reviews-estados/review-California\12.json
Archivo 12.json leído exitosamente con 150000 registros.
Leyendo archivo: d:\Henry-DataScience\LABS\Google-Yelp\Google-Yelp\data/raw/google_maps/org/reviews-estados/review-California\13.json
Archivo 13.json leído exitosamente con 150000 registros.
Leyendo archivo: d:\Henry-DataScience\LABS\Goog

In [53]:
#se utiliza la función export_parquet(dfs, path) para exportar los archivos en reviews-estados/review-California
export_parquet(california, 'data/raw/google_maps/reviews-estados/review-California')

Archivo exportado exitosamente: d:\Henry-DataScience\LABS\Google-Yelp\Google-Yelp\data/raw/google_maps/reviews-estados/review-California\1.parquet
Archivo exportado exitosamente: d:\Henry-DataScience\LABS\Google-Yelp\Google-Yelp\data/raw/google_maps/reviews-estados/review-California\2.parquet
Archivo exportado exitosamente: d:\Henry-DataScience\LABS\Google-Yelp\Google-Yelp\data/raw/google_maps/reviews-estados/review-California\3.parquet
Archivo exportado exitosamente: d:\Henry-DataScience\LABS\Google-Yelp\Google-Yelp\data/raw/google_maps/reviews-estados/review-California\4.parquet
Archivo exportado exitosamente: d:\Henry-DataScience\LABS\Google-Yelp\Google-Yelp\data/raw/google_maps/reviews-estados/review-California\5.parquet
Archivo exportado exitosamente: d:\Henry-DataScience\LABS\Google-Yelp\Google-Yelp\data/raw/google_maps/reviews-estados/review-California\6.parquet
Archivo exportado exitosamente: d:\Henry-DataScience\LABS\Google-Yelp\Google-Yelp\data/raw/google_maps/reviews-estados

### Florida

In [6]:
#se utiliza la función json_files para recibir una lista con los archivos en org/reviews-estados/review-Florida
florida = json_files('data/raw/google_maps/org/reviews-estados/review-Florida')

Leyendo archivo: d:\Henry-DataScience\LABS\Google-Yelp\Google-Yelp\data/raw/google_maps/org/reviews-estados/review-Florida\1.json
Archivo 1.json leído exitosamente con 150000 registros.
Leyendo archivo: d:\Henry-DataScience\LABS\Google-Yelp\Google-Yelp\data/raw/google_maps/org/reviews-estados/review-Florida\10.json
Archivo 10.json leído exitosamente con 150000 registros.
Leyendo archivo: d:\Henry-DataScience\LABS\Google-Yelp\Google-Yelp\data/raw/google_maps/org/reviews-estados/review-Florida\11.json
Archivo 11.json leído exitosamente con 150000 registros.
Leyendo archivo: d:\Henry-DataScience\LABS\Google-Yelp\Google-Yelp\data/raw/google_maps/org/reviews-estados/review-Florida\12.json
Archivo 12.json leído exitosamente con 150000 registros.
Leyendo archivo: d:\Henry-DataScience\LABS\Google-Yelp\Google-Yelp\data/raw/google_maps/org/reviews-estados/review-Florida\13.json
Archivo 13.json leído exitosamente con 150000 registros.
Leyendo archivo: d:\Henry-DataScience\LABS\Google-Yelp\Google-

In [7]:
#se utiliza la función export_parquet(dfs, path) para exportar los archivos en reviews-estados/review-Florida
export_parquet(florida, 'data/raw/google_maps/reviews-estados/review-Florida')

Archivo exportado exitosamente: d:\Henry-DataScience\LABS\Google-Yelp\Google-Yelp\data/raw/google_maps/reviews-estados/review-Florida\1.parquet
Archivo exportado exitosamente: d:\Henry-DataScience\LABS\Google-Yelp\Google-Yelp\data/raw/google_maps/reviews-estados/review-Florida\2.parquet
Archivo exportado exitosamente: d:\Henry-DataScience\LABS\Google-Yelp\Google-Yelp\data/raw/google_maps/reviews-estados/review-Florida\3.parquet
Archivo exportado exitosamente: d:\Henry-DataScience\LABS\Google-Yelp\Google-Yelp\data/raw/google_maps/reviews-estados/review-Florida\4.parquet
Archivo exportado exitosamente: d:\Henry-DataScience\LABS\Google-Yelp\Google-Yelp\data/raw/google_maps/reviews-estados/review-Florida\5.parquet
Archivo exportado exitosamente: d:\Henry-DataScience\LABS\Google-Yelp\Google-Yelp\data/raw/google_maps/reviews-estados/review-Florida\6.parquet
Archivo exportado exitosamente: d:\Henry-DataScience\LABS\Google-Yelp\Google-Yelp\data/raw/google_maps/reviews-estados/review-Florida\7.