In [1]:
import pandas as pd
import os
import json
import numpy as np

In [117]:
def cargarJsons(nombre_dataframe, ruta_carpeta):
    # Crear un DataFrame vacío
    df = pd.DataFrame()

    # Iterar sobre todos los archivos en la carpeta
    for archivo in os.listdir(ruta_carpeta):
        if archivo.endswith('.json'):
            ruta_archivo = os.path.join(ruta_carpeta, archivo)
            try:
                # Leer el archivo JSON en un DataFrame
                df_json = pd.read_json(ruta_archivo, lines=True)
                # Concatenar el DataFrame leído al DataFrame existente
                df = pd.concat([df, df_json], ignore_index=True)
            except ValueError as e:
                print(f"Error al leer el archivo {archivo}: {e}")

    return df


In [3]:
ruta = r'C:\Users\Pablo\OneDrive\Henry\ProyectoFinal\Google Maps\reviews-estados\review-California'
dfCalifornia = cargarJsons('dfCalifornia', ruta)

In [18]:
ruta = r'Google Maps\reviews-estados\review-Texas'
dfTexas = cargarJsons('dfTexas', ruta)

ruta = r'Google Maps\reviews-estados\review-New_York'
dfNY = cargarJsons('dfNY', ruta)

In [19]:
ruta = r'Google Maps\reviews-estados\review-Illinois'
dfIllinois = cargarJsons('dfIllinois', ruta)

ruta = r'Google Maps\reviews-estados\review-Nevada'
dfNevada = cargarJsons('dfNevada', ruta)


In [20]:
ruta = r'Google Maps\reviews-estados\review-Florida'
dfFlorida = cargarJsons('dfFlorida', ruta)

ruta = r'Google Maps\reviews-estados\review-Pennsylvania'
dfPennsylvania = cargarJsons('dfPennsylvania', ruta)

In [123]:
def nulosYVacios(df):
    """
    Este procedimiento recibe un DataFrame y muestra la cantidad de valores nulos, vacíos y la cantidad de 
    valores duplicados en todas las columnas excepto en las que contienen datos anidados. También muestra 
    el mínimo, máximo y media para columnas de tipo float e integer.

    Args:
    df (pd.DataFrame): El DataFrame a analizar.
    """
    print("Informe de Nulos, Vacíos y Duplicados:")
    print("-" * 30)

    # Total de registros en el DataFrame
    total_registros = len(df)

    # Imprimir total de registros
    print(f"Total de registros: {total_registros}")
    print("-" * 30)

    # Contar filas enteras que se repiten (convertir filas a cadenas)
    filas_duplicadas = df.apply(lambda x: tuple(x) if not isinstance(x, list) else str(x), axis=1).duplicated(keep=False).sum()
    print(f"Cantidad de filas enteras que se repiten: {filas_duplicadas}")
    print("-" * 30)

    # Identificar columnas con datos anidados (que son listas o diccionarios)
    columnas_anidadas = [col for col in df.columns if df[col].apply(lambda x: isinstance(x, (list, dict))).any()]

    # Iterar sobre todas las columnas para mostrar nulos y vacíos
    for columna in df.columns:
        # Contar valores nulos
        nulos = df[columna].isnull().sum()

        # Contar valores vacíos (considerando que solo se cuentan si son cadenas)
        vacios = df[columna].apply(lambda x: isinstance(x, str) and x == '').sum()

        # Calcular porcentajes
        porcentaje_nulos = (nulos / total_registros) * 100 if total_registros > 0 else 0
        porcentaje_vacios = (vacios / total_registros) * 100 if total_registros > 0 else 0

        # Imprimir resultados
        print(f"Columna: {columna}")
        print(f"  Valores Nulos: {nulos}")
        print(f"  Valores Vacíos: {vacios}")
        print(f"  Porcentaje Nulos: {porcentaje_nulos:.2f}%")
        print(f"  Porcentaje Vacíos: {porcentaje_vacios:.2f}%")

        # Contar y mostrar la cantidad de valores duplicados solo si no es una de las columnas con datos anidados
        if columna not in columnas_anidadas:
            # Contar duplicados, excluyendo los nulos
            cantidad_duplicados = df[columna].notnull().duplicated(keep=False).sum()
            print(f"  Cantidad de valores duplicados (excluyendo nulos): {cantidad_duplicados}")

        # Mostrar mínimo, máximo y media si la columna es de tipo float o int
        if pd.api.types.is_numeric_dtype(df[columna]):
            minimo = df[columna].min()
            maximo = df[columna].max()
            media = df[columna].mean()
            print(f"  Mínimo: {minimo}")
            print(f"  Máximo: {maximo}")
            print(f"  Media: {media:.2f}")

        print("-" * 30)


In [17]:
nulosYVacios(dfCalifornia)

Informe de Nulos, Vacíos y Duplicados:
------------------------------
Total de registros: 2700000
------------------------------
Cantidad de filas enteras que se repiten: 149353
------------------------------
Columna: user_id
  Valores Nulos: 0
  Valores Vacíos: 0
  Porcentaje Nulos: 0.00%
  Porcentaje Vacíos: 0.00%
  Cantidad de valores duplicados (excluyendo nulos): 2700000
  Mínimo: 1.0000000910516696e+20
  Máximo: 1.1844674245531261e+20
  Media: 109354719514791215104.00
------------------------------
Columna: name
  Valores Nulos: 0
  Valores Vacíos: 0
  Porcentaje Nulos: 0.00%
  Porcentaje Vacíos: 0.00%
  Cantidad de valores duplicados (excluyendo nulos): 2700000
------------------------------
Columna: time
  Valores Nulos: 0
  Valores Vacíos: 0
  Porcentaje Nulos: 0.00%
  Porcentaje Vacíos: 0.00%
  Cantidad de valores duplicados (excluyendo nulos): 2700000
  Mínimo: 662601600000
  Máximo: 1631149232337
  Media: 1551463515749.26
------------------------------
Columna: rating
  Val

In [21]:
nulosYVacios(dfFlorida)

Informe de Nulos, Vacíos y Duplicados:
------------------------------
Total de registros: 2850000
------------------------------
Cantidad de filas enteras que se repiten: 236421
------------------------------
Columna: user_id
  Valores Nulos: 0
  Valores Vacíos: 0
  Porcentaje Nulos: 0.00%
  Porcentaje Vacíos: 0.00%
  Cantidad de valores duplicados (excluyendo nulos): 2850000
  Mínimo: 1.0000002688865549e+20
  Máximo: 1.1844671817234827e+20
  Media: 109303222869004468224.00
------------------------------
Columna: name
  Valores Nulos: 0
  Valores Vacíos: 0
  Porcentaje Nulos: 0.00%
  Porcentaje Vacíos: 0.00%
  Cantidad de valores duplicados (excluyendo nulos): 2850000
------------------------------
Columna: time
  Valores Nulos: 0
  Valores Vacíos: 0
  Porcentaje Nulos: 0.00%
  Porcentaje Vacíos: 0.00%
  Cantidad de valores duplicados (excluyendo nulos): 2850000
  Mínimo: 1041379200000
  Máximo: 1631204573205
  Media: 1555139594378.67
------------------------------
Columna: rating
  Va

In [22]:
nulosYVacios(dfIllinois)

Informe de Nulos, Vacíos y Duplicados:
------------------------------
Total de registros: 2100000
------------------------------
Cantidad de filas enteras que se repiten: 91379
------------------------------
Columna: user_id
  Valores Nulos: 0
  Valores Vacíos: 0
  Porcentaje Nulos: 0.00%
  Porcentaje Vacíos: 0.00%
  Cantidad de valores duplicados (excluyendo nulos): 2100000
  Mínimo: 1.0000001905994324e+20
  Máximo: 1.1844672254045615e+20
  Media: 109269865095953973248.00
------------------------------
Columna: name
  Valores Nulos: 0
  Valores Vacíos: 0
  Porcentaje Nulos: 0.00%
  Porcentaje Vacíos: 0.00%
  Cantidad de valores duplicados (excluyendo nulos): 2100000
------------------------------
Columna: time
  Valores Nulos: 0
  Valores Vacíos: 0
  Porcentaje Nulos: 0.00%
  Porcentaje Vacíos: 0.00%
  Cantidad de valores duplicados (excluyendo nulos): 2100000
  Mínimo: 981590400000
  Máximo: 1631143040232
  Media: 1552092203081.38
------------------------------
Columna: rating
  Valo

In [23]:
nulosYVacios(dfNevada)

Informe de Nulos, Vacíos y Duplicados:
------------------------------
Total de registros: 1800000
------------------------------
Cantidad de filas enteras que se repiten: 47562
------------------------------
Columna: user_id
  Valores Nulos: 0
  Valores Vacíos: 0
  Porcentaje Nulos: 0.00%
  Porcentaje Vacíos: 0.00%
  Cantidad de valores duplicados (excluyendo nulos): 1800000
  Mínimo: 1.0000004859928366e+20
  Máximo: 1.1844671355725932e+20
  Media: 109247148113107599360.00
------------------------------
Columna: name
  Valores Nulos: 0
  Valores Vacíos: 0
  Porcentaje Nulos: 0.00%
  Porcentaje Vacíos: 0.00%
  Cantidad de valores duplicados (excluyendo nulos): 1800000
------------------------------
Columna: time
  Valores Nulos: 0
  Valores Vacíos: 0
  Porcentaje Nulos: 0.00%
  Porcentaje Vacíos: 0.00%
  Cantidad de valores duplicados (excluyendo nulos): 1800000
  Mínimo: 1055462400000
  Máximo: 1631009369993
  Media: 1555020035090.88
------------------------------
Columna: rating
  Val

In [124]:
nulosYVacios(dfNY)

Informe de Nulos, Vacíos y Duplicados:
------------------------------
Total de registros: 2700000
------------------------------
Cantidad de filas enteras que se repiten: 117785
------------------------------
Columna: user_id
  Valores Nulos: 0
  Valores Vacíos: 0
  Porcentaje Nulos: 0.00%
  Porcentaje Vacíos: 0.00%
  Cantidad de valores duplicados (excluyendo nulos): 2700000
  Mínimo: 1.000000127957533e+20
  Máximo: 1.1844669852310405e+20
  Media: 109297042053730091008.00
------------------------------
Columna: name
  Valores Nulos: 0
  Valores Vacíos: 0
  Porcentaje Nulos: 0.00%
  Porcentaje Vacíos: 0.00%
  Cantidad de valores duplicados (excluyendo nulos): 2700000
------------------------------
Columna: time
  Valores Nulos: 0
  Valores Vacíos: 0
  Porcentaje Nulos: 0.00%
  Porcentaje Vacíos: 0.00%
  Cantidad de valores duplicados (excluyendo nulos): 2700000
  Mínimo: 662601600000
  Máximo: 1631066939373
  Media: 1551331180258.49
------------------------------
Columna: rating
  Valo

In [25]:
nulosYVacios(dfPennsylvania)

Informe de Nulos, Vacíos y Duplicados:
------------------------------
Total de registros: 2400000
------------------------------
Cantidad de filas enteras que se repiten: 66714
------------------------------
Columna: user_id
  Valores Nulos: 0
  Valores Vacíos: 0
  Porcentaje Nulos: 0.00%
  Porcentaje Vacíos: 0.00%
  Cantidad de valores duplicados (excluyendo nulos): 2400000
  Mínimo: 1.0000004067989085e+20
  Máximo: 1.1844671239320853e+20
  Media: 109298595660352618496.00
------------------------------
Columna: name
  Valores Nulos: 0
  Valores Vacíos: 0
  Porcentaje Nulos: 0.00%
  Porcentaje Vacíos: 0.00%
  Cantidad de valores duplicados (excluyendo nulos): 2400000
------------------------------
Columna: time
  Valores Nulos: 0
  Valores Vacíos: 0
  Porcentaje Nulos: 0.00%
  Porcentaje Vacíos: 0.00%
  Cantidad de valores duplicados (excluyendo nulos): 2400000
  Mínimo: 662601600000
  Máximo: 1631133439739
  Media: 1553453426369.73
------------------------------
Columna: rating
  Valo

In [26]:
nulosYVacios(dfTexas)

Informe de Nulos, Vacíos y Duplicados:
------------------------------
Total de registros: 2296824
------------------------------
Cantidad de filas enteras que se repiten: 121584
------------------------------
Columna: user_id
  Valores Nulos: 0
  Valores Vacíos: 0
  Porcentaje Nulos: 0.00%
  Porcentaje Vacíos: 0.00%
  Cantidad de valores duplicados (excluyendo nulos): 2296824
  Mínimo: 1.000000081843375e+20
  Máximo: 1.1844673022896932e+20
  Media: 109368409757897572352.00
------------------------------
Columna: name
  Valores Nulos: 0
  Valores Vacíos: 0
  Porcentaje Nulos: 0.00%
  Porcentaje Vacíos: 0.00%
  Cantidad de valores duplicados (excluyendo nulos): 2296824
------------------------------
Columna: time
  Valores Nulos: 0
  Valores Vacíos: 0
  Porcentaje Nulos: 0.00%
  Porcentaje Vacíos: 0.00%
  Cantidad de valores duplicados (excluyendo nulos): 2296824
  Mínimo: 662601600000
  Máximo: 1631162733683
  Media: 1555114797901.56
------------------------------
Columna: rating
  Valo

Guardar como Parquet

In [27]:
dfTexas.to_parquet('dfTexas.parquet')
dfPennsylvania.to_parquet('dfPennsylvania.parquet')
dfFlorida.to_parquet('dfFlorida.parquet')
dfCalifornia.to_parquet('dfCalifornia.parquet')
dfIllinois.to_parquet('dfIllinois.parquet')
dfNevada.to_parquet('dfNevada.parquet')
dfNY.to_parquet('dfNY.parquet')


In [107]:
dfTexas = pd.read_parquet('MapsReviews/dfTexas.parquet')
dfPennsylvania = pd.read_parquet('MapsReviews/dfPennsylvania.parquet')
dfFlorida = pd.read_parquet('MapsReviews/dfFlorida.parquet')
dfCalifornia = pd.read_parquet('MapsReviews/dfCalifornia.parquet')
dfIllinois = pd.read_parquet('MapsReviews/dfIllinois.parquet')
dfNevada = pd.read_parquet('MapsReviews/dfNevada.parquet')
dfNY = pd.read_parquet('MapsReviews/dfNY.parquet')

In [68]:
# Convertir columnas específicas a string
columnas_string = ['name', 'text','gmap_id']
dfCalifornia[columnas_string] = dfCalifornia[columnas_string].astype(str)

# Convertir columnas específicas a enteros
columnas_enteros = ['rating']
dfCalifornia[columnas_enteros] = dfCalifornia[columnas_enteros].apply(lambda col: col.map(lambda x: int(''.join(map(str, x))) if isinstance(x, (list, np.ndarray)) else int(x)))

# Mostrar el DataFrame transformado
print(dfCalifornia.dtypes)


user_id    float64
name        object
time         int64
rating       int64
text        object
pics        object
resp        object
gmap_id     object
dtype: object


In [62]:
# Ajustar las opciones de pandas para mostrar texto completo
pd.set_option('display.max_colwidth', None)  # O None para que no se corte


In [76]:
def normalizarColumnaResp(df, columna='resp', valor_nan=0):
    """
    Normaliza la columna especificada de un DataFrame y crea un nuevo DataFrame
    con un sufijo '_Resp'. Reemplaza los NaN en columnas float64 por un valor específico.

    :param df: DataFrame original.
    :param columna: Nombre de la columna a normalizar (por defecto 'resp').
    :param valor_nan: Valor con el que reemplazar los NaN en las columnas float64.
    :return: DataFrame combinado.
    """
    # Normalizar la columna 'resp' y crear un nuevo DataFrame con sufijo 'Resp'
    df_normalizado = pd.json_normalize(df[columna]).add_suffix('Resp')

    # Reemplazar NaN por el valor especificado y convertir a int64
    for col in df_normalizado.select_dtypes(include=['float64']).columns:
        df_normalizado[col] = df_normalizado[col].fillna(valor_nan).astype('int64')

    # Concatenar el DataFrame normalizado con el original, excluyendo la columna 'resp' original
    df_combined = pd.concat([df.drop(columns=[columna]), df_normalizado], axis=1)
    
    return df_combined


In [87]:
def verificarFilasDuplicadas(df):
    """
    Verifica si hay filas duplicadas en un DataFrame y cuenta el número de duplicados, 
    excluyendo la columna 'pics'.

    :param df: DataFrame a verificar.
    """
    # Verificar si hay filas duplicadas, excluyendo la columna 'pics'
    filas_duplicadas = df.duplicated(subset=df.columns.difference(['pics']))

    # Contar el número de filas duplicadas
    numero_duplicados = filas_duplicadas.sum()

    # Mostrar el número de filas duplicadas
    print(f"Número de filas duplicadas: {numero_duplicados}")



In [102]:
def eliminarFilasDuplicadas(df, columnas_excluir=None):
    """
    Elimina las filas duplicadas de un DataFrame, conservando la primera aparición, ignorando columnas específicas.

    :param df: DataFrame del cual se eliminarán las filas duplicadas.
    :param columnas_excluir: Lista de nombres de columnas a ignorar al buscar duplicados.
    :return: DataFrame sin filas duplicadas.
    """
    # Si no se proporciona ninguna columna a excluir, establecer 'pics' como la única columna a excluir
    if columnas_excluir is None:
        columnas_excluir = ['pics']

    # Filtrar columnas que no están en la lista de exclusión
    columnas_a_considerar = df.columns.difference(columnas_excluir)

    # Eliminar filas duplicadas, conservando la primera aparición
    df_sin_duplicados = df.drop_duplicates(subset=columnas_a_considerar, keep='first')

    return df_sin_duplicados

Normalizar columna Resp y Eliminar Filas Duplicadas

In [None]:
df_combined = normalizarColumnaResp(dfCalifornia)
verificarFilasDuplicadas(df_combined)

In [142]:
dfCalifornia = eliminarFilasDuplicadas(df_combined)

In [109]:
df_combined = normalizarColumnaResp(dfFlorida)
verificarFilasDuplicadas(df_combined)

Número de filas duplicadas: 119396


In [110]:
dfFlorida = eliminarFilasDuplicadas(df_combined)

In [111]:
df_combined = normalizarColumnaResp(dfIllinois)
verificarFilasDuplicadas(df_combined)

Número de filas duplicadas: 46260


In [112]:
dfIllinois = eliminarFilasDuplicadas(df_combined)

In [113]:
df_combined = normalizarColumnaResp(dfNevada)
verificarFilasDuplicadas(df_combined)

Número de filas duplicadas: 23945


In [114]:
dfNevada = eliminarFilasDuplicadas(df_combined)

In [125]:
df_combined = normalizarColumnaResp(dfNY)
verificarFilasDuplicadas(df_combined)

Número de filas duplicadas: 59337


In [126]:
dfNY = eliminarFilasDuplicadas(df_combined)

In [127]:
df_combined = normalizarColumnaResp(dfPennsylvania)
verificarFilasDuplicadas(df_combined)

Número de filas duplicadas: 33568


In [128]:
dfPennsylvania = eliminarFilasDuplicadas(df_combined)

In [129]:
df_combined = normalizarColumnaResp(dfTexas)
verificarFilasDuplicadas(df_combined)

Número de filas duplicadas: 61384


In [130]:
dfTexas = eliminarFilasDuplicadas(df_combined)

Analisis Preliminar de calidad de datos:

In [143]:
print(nulosYVacios(dfCalifornia))


Informe de Nulos, Vacíos y Duplicados:
------------------------------
Total de registros: 2624757
------------------------------
Cantidad de filas enteras que se repiten: 0
------------------------------
Columna: user_id
  Valores Nulos: 0
  Valores Vacíos: 0
  Porcentaje Nulos: 0.00%
  Porcentaje Vacíos: 0.00%
  Cantidad de valores duplicados (excluyendo nulos): 2624757
  Mínimo: 1.0000000910516696e+20
  Máximo: 1.1844674245531261e+20
  Media: 109354455351157653504.00
------------------------------
Columna: name
  Valores Nulos: 0
  Valores Vacíos: 0
  Porcentaje Nulos: 0.00%
  Porcentaje Vacíos: 0.00%
  Cantidad de valores duplicados (excluyendo nulos): 2624757
------------------------------
Columna: time
  Valores Nulos: 0
  Valores Vacíos: 0
  Porcentaje Nulos: 0.00%
  Porcentaje Vacíos: 0.00%
  Cantidad de valores duplicados (excluyendo nulos): 2624757
  Mínimo: 662601600000
  Máximo: 1631149232337
  Media: 1551618629556.63
------------------------------
Columna: rating
  Valores 

In [133]:
print(nulosYVacios(dfFlorida))


Informe de Nulos, Vacíos y Duplicados:
------------------------------
Total de registros: 2730604
------------------------------
Cantidad de filas enteras que se repiten: 0
------------------------------
Columna: user_id
  Valores Nulos: 0
  Valores Vacíos: 0
  Porcentaje Nulos: 0.00%
  Porcentaje Vacíos: 0.00%
  Cantidad de valores duplicados (excluyendo nulos): 2730604
  Mínimo: 1.0000002688865549e+20
  Máximo: 1.1844671817234827e+20
  Media: 109305075683116892160.00
------------------------------
Columna: name
  Valores Nulos: 0
  Valores Vacíos: 0
  Porcentaje Nulos: 0.00%
  Porcentaje Vacíos: 0.00%
  Cantidad de valores duplicados (excluyendo nulos): 2730604
------------------------------
Columna: time
  Valores Nulos: 0
  Valores Vacíos: 0
  Porcentaje Nulos: 0.00%
  Porcentaje Vacíos: 0.00%
  Cantidad de valores duplicados (excluyendo nulos): 2730604
  Mínimo: 1041379200000
  Máximo: 1631204573205
  Media: 1555296931944.30
------------------------------
Columna: rating
  Valores

In [134]:
print(nulosYVacios(dfIllinois))


Informe de Nulos, Vacíos y Duplicados:
------------------------------
Total de registros: 2053740
------------------------------
Cantidad de filas enteras que se repiten: 0
------------------------------
Columna: user_id
  Valores Nulos: 0
  Valores Vacíos: 0
  Porcentaje Nulos: 0.00%
  Porcentaje Vacíos: 0.00%
  Cantidad de valores duplicados (excluyendo nulos): 2053740
  Mínimo: 1.0000001905994324e+20
  Máximo: 1.1844672254045615e+20
  Media: 109269118933393276928.00
------------------------------
Columna: name
  Valores Nulos: 0
  Valores Vacíos: 0
  Porcentaje Nulos: 0.00%
  Porcentaje Vacíos: 0.00%
  Cantidad de valores duplicados (excluyendo nulos): 2053740
------------------------------
Columna: time
  Valores Nulos: 0
  Valores Vacíos: 0
  Porcentaje Nulos: 0.00%
  Porcentaje Vacíos: 0.00%
  Cantidad de valores duplicados (excluyendo nulos): 2053740
  Mínimo: 981590400000
  Máximo: 1631143040232
  Media: 1552249952015.20
------------------------------
Columna: rating
  Valores 

In [135]:
print(nulosYVacios(dfNevada))


Informe de Nulos, Vacíos y Duplicados:
------------------------------
Total de registros: 1776055
------------------------------
Cantidad de filas enteras que se repiten: 0
------------------------------
Columna: user_id
  Valores Nulos: 0
  Valores Vacíos: 0
  Porcentaje Nulos: 0.00%
  Porcentaje Vacíos: 0.00%
  Cantidad de valores duplicados (excluyendo nulos): 1776055
  Mínimo: 1.0000004859928366e+20
  Máximo: 1.1844671355725932e+20
  Media: 109245760969452240896.00
------------------------------
Columna: name
  Valores Nulos: 0
  Valores Vacíos: 0
  Porcentaje Nulos: 0.00%
  Porcentaje Vacíos: 0.00%
  Cantidad de valores duplicados (excluyendo nulos): 1776055
------------------------------
Columna: time
  Valores Nulos: 0
  Valores Vacíos: 0
  Porcentaje Nulos: 0.00%
  Porcentaje Vacíos: 0.00%
  Cantidad de valores duplicados (excluyendo nulos): 1776055
  Mínimo: 1055462400000
  Máximo: 1631009369993
  Media: 1555093437428.64
------------------------------
Columna: rating
  Valores

In [136]:
print(nulosYVacios(dfNY))


Informe de Nulos, Vacíos y Duplicados:
------------------------------
Total de registros: 2640663
------------------------------
Cantidad de filas enteras que se repiten: 0
------------------------------
Columna: user_id
  Valores Nulos: 0
  Valores Vacíos: 0
  Porcentaje Nulos: 0.00%
  Porcentaje Vacíos: 0.00%
  Cantidad de valores duplicados (excluyendo nulos): 2640663
  Mínimo: 1.000000127957533e+20
  Máximo: 1.1844669852310405e+20
  Media: 109296919470609825792.00
------------------------------
Columna: name
  Valores Nulos: 0
  Valores Vacíos: 0
  Porcentaje Nulos: 0.00%
  Porcentaje Vacíos: 0.00%
  Cantidad de valores duplicados (excluyendo nulos): 2640663
------------------------------
Columna: time
  Valores Nulos: 0
  Valores Vacíos: 0
  Porcentaje Nulos: 0.00%
  Porcentaje Vacíos: 0.00%
  Cantidad de valores duplicados (excluyendo nulos): 2640663
  Mínimo: 662601600000
  Máximo: 1631066939373
  Media: 1551472972953.50
------------------------------
Columna: rating
  Valores N

In [137]:
print(nulosYVacios(dfPennsylvania))


Informe de Nulos, Vacíos y Duplicados:
------------------------------
Total de registros: 2366432
------------------------------
Cantidad de filas enteras que se repiten: 0
------------------------------
Columna: user_id
  Valores Nulos: 0
  Valores Vacíos: 0
  Porcentaje Nulos: 0.00%
  Porcentaje Vacíos: 0.00%
  Cantidad de valores duplicados (excluyendo nulos): 2366432
  Mínimo: 1.0000004067989085e+20
  Máximo: 1.1844671239320853e+20
  Media: 109298063538392498176.00
------------------------------
Columna: name
  Valores Nulos: 0
  Valores Vacíos: 0
  Porcentaje Nulos: 0.00%
  Porcentaje Vacíos: 0.00%
  Cantidad de valores duplicados (excluyendo nulos): 2366432
------------------------------
Columna: time
  Valores Nulos: 0
  Valores Vacíos: 0
  Porcentaje Nulos: 0.00%
  Porcentaje Vacíos: 0.00%
  Cantidad de valores duplicados (excluyendo nulos): 2366432
  Mínimo: 662601600000
  Máximo: 1631133439739
  Media: 1553536247296.06
------------------------------
Columna: rating
  Valores 

In [138]:
print(nulosYVacios(dfTexas))

Informe de Nulos, Vacíos y Duplicados:
------------------------------
Total de registros: 2235440
------------------------------
Cantidad de filas enteras que se repiten: 0
------------------------------
Columna: user_id
  Valores Nulos: 0
  Valores Vacíos: 0
  Porcentaje Nulos: 0.00%
  Porcentaje Vacíos: 0.00%
  Cantidad de valores duplicados (excluyendo nulos): 2235440
  Mínimo: 1.000000081843375e+20
  Máximo: 1.1844673022896932e+20
  Media: 109368968629498462208.00
------------------------------
Columna: name
  Valores Nulos: 0
  Valores Vacíos: 0
  Porcentaje Nulos: 0.00%
  Porcentaje Vacíos: 0.00%
  Cantidad de valores duplicados (excluyendo nulos): 2235440
------------------------------
Columna: time
  Valores Nulos: 0
  Valores Vacíos: 0
  Porcentaje Nulos: 0.00%
  Porcentaje Vacíos: 0.00%
  Cantidad de valores duplicados (excluyendo nulos): 2235440
  Mínimo: 662601600000
  Máximo: 1631162733683
  Media: 1555247233887.10
------------------------------
Columna: rating
  Valores N

In [145]:
# Guardar los DataFrames como archivos Parquet 
dfTexas.to_parquet('MapsReviews/dfTexas.parquet')
dfPennsylvania.to_parquet('MapsReviews/dfPennsylvania.parquet')
dfFlorida.to_parquet('MapsReviews/dfFlorida.parquet')
dfCalifornia.to_parquet('MapsReviews/dfCalifornia.parquet')
dfIllinois.to_parquet('MapsReviews/dfIllinois.parquet')
dfNevada.to_parquet('MapsReviews/dfNevada.parquet')
dfNY.to_parquet('MapsReviews/dfNY.parquet') 

**Breve resumen de los cambios efectuados:**
- Normalizar la columna Rest en dos columnas, textResp (reseñas de usuarios) y timeResp (fecha formato datetime64)
- Eliminar filas repetidas (excluyendo la columna 'pics')

Los archivos guardados son los resultantes de estos cambios
