# **Introducción al Análisis Exploratorio de Datos (EDA) del Proyecto "China Garden"**

En un entorno competitivo y dinámico como el mercado de restaurantes en Estados Unidos, el análisis de datos se ha convertido en una herramienta esencial para entender la posición de una marca, anticipar tendencias y tomar decisiones estratégicas fundamentadas. En este proyecto, nuestro objetivo es realizar un análisis exploratorio de datos (EDA) para una reconocida cadena de restaurantes chinos, **China Garden**, con el fin de apoyar su estrategia de expansión en la costa este del país.

El EDA proporcionará una base sólida para identificar oportunidades de crecimiento y optimización operativa, analizando tanto datos de desempeño actual como información sobre la competencia. Este análisis también permitirá evaluar factores clave como la satisfacción del cliente, la presencia de mercado, y las ubicaciones óptimas para nuevos restaurantes. 

#### **Objetivos del Análisis Exploratorio de Datos**

Para lograr los objetivos generales del proyecto, nuestro EDA se centrará en los siguientes puntos:

1. **Revisión de Tipos de Datos y Descripción de Datasets:**
   - Examinar los tipos de datos por columna en cada dataset disponible para asegurar su adecuación al análisis posterior. Se incluirá una descripción detallada de cada dataset, abordando su propósito y relevancia en el contexto del proyecto.

2. **Justificación de la Eliminación de Columnas:**
   - Analizar y explicar la eliminación de columnas que no aportan valor al análisis o que presentan datos inconsistentes. Esta etapa es fundamental para mejorar la eficiencia del procesamiento de datos y mantener la integridad del análisis.

3. **Identificación y Manejo de Valores Nulos:**
   - Detectar los valores nulos en los datasets y proponer estrategias adecuadas de manejo, como la imputación de valores basados en la media, mediana o la eliminación de registros, dependiendo de la relevancia y el impacto de los datos faltantes.

4. **Detección y Tratamiento de Registros Duplicados:**
   - Identificar registros duplicados que puedan sesgar el análisis. Proponer métodos para su tratamiento, como la eliminación de duplicados exactos o el análisis de duplicados parciales para decidir la mejor acción.

5. **Análisis Gráfico y Visualización de Datos:**
   - Utilizar herramientas como **Matplotlib** y **Seaborn** para realizar análisis gráficos que permitan entender el comportamiento de los datos. Este enfoque incluirá, pero no se limitará a:
     - Visualización de la distribución de restaurantes y hoteles en la costa este.
     - Cálculo del porcentaje de mercado capturado por los restaurantes de comida china en comparación con otros tipos de restaurantes.
     - Identificación de los 10 principales restaurantes de comida china en términos de cantidad, promedio de calificaciones y presencia de mercado.
     - Análisis geográfico para entender la ubicación de los restaurantes de "China Garden" y su competencia directa.
     - Análisis de las zonas con mayor concentración de hoteles para identificar las áreas de mayor interés turístico.
     - Cualquier otro análisis pertinente que pueda ofrecer insights sobre el comportamiento del mercado y las oportunidades de expansión.

6. **Exportacion a Parquet**

Este EDA servirá como el cimiento sobre el cual se basarán todos los análisis futuros, ayudando a identificar patrones y tendencias que orientarán las decisiones estratégicas de "China Garden". A través de un enfoque minucioso y detallado, buscaremos proporcionar un conocimiento profundo y detallado del mercado, permitiendo a la marca mejorar su posicionamiento y maximizar su potencial de crecimiento en la costa este de Estados Unidos.

### **Empezemos**

## **1. Carga de datos Google maps**

**Descripción de los Datos de Google Maps**

Para este proyecto, se han recopilado datos provenientes de Google Maps, una de las plataformas más utilizadas por los consumidores para compartir opiniones sobre sus experiencias en restaurantes. Estos datos se encuentran organizados en dos carpetas principales, cada una con una estructura específica que facilita el análisis detallado de la información.

**1. Carpeta: Metadata Sitios**

La carpeta Metadata Sitios contiene información relevante sobre los establecimientos de interés, en este caso, los restaurantes de comida china en la costa este de Estados Unidos. Esta carpeta incluye un total de 11 archivos JSON que deberán ser unificados en un solo archivo consolidado para facilitar su análisis. Cada archivo JSON en esta carpeta proporciona datos específicos sobre las características de los restaurantes, como su nombre, ubicación geográfica, tipo de cocina, horarios de atención, y otros detalles relevantes que permiten identificar y comparar a cada establecimiento dentro del mercado.

**2. Carpeta: Review-Estados**

La carpeta Review-Estados contiene una colección organizada de reseñas de clientes, separadas por estado, en formato JSON. Dentro de esta carpeta, cada subcarpeta representa un estado de la costa este de Estados Unidos, y a su vez, cada subcarpeta contiene múltiples archivos JSON que recogen las opiniones y calificaciones de los usuarios sobre los restaurantes. Estos archivos de reseñas capturan datos cruciales como la fecha de la reseña, la calificación otorgada, los comentarios detallados de los clientes, y otros atributos relevantes como el número de "me gusta" que ha recibido cada reseña.

**BIBLIOTECAS UTILIZADAS**

In [1]:
import pandas as pd
import re

### **1.1 Metadata-Sitios**

1. CARGA DEL JSON 1

In [None]:
#Ruta de tu archivo JSON1
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/metadata-sitios/1.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df

2. CARGA DEL JSON 2

In [None]:


#Ruta de tu archivo JSON 2
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/metadata-sitios/2.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df1 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df1

3. CARGA DEL JSON 3

In [None]:


#Ruta de tu archivo JSON3
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/metadata-sitios/3.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df2 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df2

4. CARGA DEL JSON 4

In [None]:


#Ruta de tu archivo JSON 4
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/metadata-sitios/4.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df3 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df3

5. CARGA DEL JSON 5

In [None]:


#Ruta de tu archivo JSON 5
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/metadata-sitios/5.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df4 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df4

6. CARGA DEL JSON 6

In [None]:


#Ruta de tu archivo JSON 6
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/metadata-sitios/6.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df5 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df5

7. CARGA DEL JSON 7

In [None]:


#Ruta de tu archivo JSON 7
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/metadata-sitios/7.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df6 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df6

8. CARGA DEL JSON 8

In [None]:


#Ruta de tu archivo JSON 8
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/metadata-sitios/8.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df7 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df7

9. CARGA DEL JSON 9

In [None]:


#Ruta de tu archivo JSON 9
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/metadata-sitios/9.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df8 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df8

10. CARGA DEL JSON 10

In [None]:


#Ruta de tu archivo JSON 10
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/metadata-sitios/10.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df9 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df9

11. CARGA DEL JSON 11

In [None]:


#Ruta de tu archivo JSON 11
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/metadata-sitios/11.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df10 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df10

### **Concatenacion de los json en un solo df**

Una vez cargados los json concatenamos el total en un solo dataframe para facilitar su manejo.

In [None]:
# Lista de todos tus DataFrames
dataframes = [df, df1, df2, df3, df4, df5, df6, df7, df8, df9, df10]




In [None]:
# Combina todos los DataFrames en uno solo
df_final = pd.concat(dataframes, ignore_index=True)

# Muestra el tamaño del DataFrame combinado
print(f"Tamaño del DataFrame combinado: {df_final.shape}")

### **Eliminar columnas**

 Se eliminaran las columnas por que sus tipos de datos no son necesarios en nuestri analisis de datos. 'description', 'MISC', 'state', 'relative_results', 'url'

In [None]:
# Eliminar las columnas especificadas del DataFrame
columnas_a_eliminar = ['description', 'MISC', 'state', 'relative_results', 'url']
df_final = df_final.drop(columns=columnas_a_eliminar)

# Verifica el resultado mostrando las primeras filas
print(df_final.head())


De acuerdo a la direccion en la columna Address se crea la Columna estado, que nos da el estado del local comercial, se hace por que nuestro dataset contiene todos los comercios del pais, y el analisis sera solo sobre la costa Este del pais. 

In [None]:

# Usamos una expresión regular para extraer el estado (dos letras antes del código postal)
df_final['estado'] = df_final['address'].str.extract(r',\s*([A-Z]{2})\s*\d{5}')

# Verifica que la nueva columna 'estado' se ha creado correctamente
print(df_final[['address', 'estado']].head())

Se eliminan las filas de los comercios que no estan en la costa este del pais.

In [None]:
# Lista de los estados que quieres conservar de la costa este
estados_deseados = [
    'ME',  # Maine
    'NH',  # New Hampshire
    'MA',  # Massachusetts
    'RI',  # Rhode Island
    'CT',  # Connecticut
    'NY',  # New York
    'NJ',  # New Jersey
    'DE',  # Delaware
    'MD',  # Maryland
    'VA',  # Virginia
    'NC',  # North Carolina
    'SC',  # South Carolina
    'GA',  # Georgia
    'FL'   # Florida
]

In [None]:

# Filtrar el DataFrame para que solo queden las filas con los estados deseados
df_final_filtrado = df_final[df_final['estado'].isin(estados_deseados)]

# Verifica que el filtrado se haya realizado correctamente
print(df_final_filtrado[['address', 'estado']].head())
print(f"Tamaño del DataFrame después del filtrado: {df_final_filtrado.shape}")

In [None]:
df_final_filtrado

Se agraga una nueva columna con el nombre completo del estado

In [None]:
# Diccionario de mapeo de abreviaturas a nombres completos de estados
mapa_estados = {
    'ME': 'Maine',
    'NH': 'New Hampshire',
    'MA': 'Massachusetts',
    'RI': 'Rhode Island',
    'CT': 'Connecticut',
    'NY': 'New York',
    'NJ': 'New Jersey',
    'DE': 'Delaware',
    'MD': 'Maryland',
    'VA': 'Virginia',
    'NC': 'North Carolina',
    'SC': 'South Carolina',
    'GA': 'Georgia',
    'FL': 'Florida'
}

# Crear la nueva columna 'nombre_estado' usando el mapeo
df_final_filtrado['nombre_estado'] = df_final_filtrado['estado'].map(mapa_estados)

# Verifica que la nueva columna se haya creado correctamente
print(df_final_filtrado[['estado', 'nombre_estado']].head())


In [None]:
# Muestra el tamaño del DataFrame combinado
print(f"Tamaño del DataFrame combinado: {df_final_filtrado.shape}")

Se exporta el dataframe a parquet para que su tamaño sea menor y su  velocidad de procesamiento sea mayor. 

In [None]:
# Guarda el DataFrame con la nueva columna en un archivo Parquet
df_final_filtrado.to_parquet('metadata-sitios-costaeste.parquet')


In [None]:
df_final_filtrado

Cargo el parquet por que la velocidad de procesamiento aumentara de manera significativa y hacer asi la limpiezza de datos de los datos que seran utlizados

In [None]:
# Especifica la ruta de tu archivo Parquet
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/metadata-sitios-costaeste.parquet'

# Cargar el archivo Parquet en un DataFrame
df = pd.read_parquet(ruta_archivo)

# Mostrar las primeras filas del DataFrame
print(df.head())


In [None]:
df

Se crea la columna ciudad de acuerdo a la columna addres para ser utlizada posteriormente en el analisis de datos

In [None]:

# Utilizamos una expresión regular para extraer la ciudad, que se encuentra entre la dirección y el estado
df['city'] = df['address'].str.extract(r',\s*([^,]+),\s*[A-Z]{2}\s*\d{5}')

# Mostrar las primeras filas para verificar
print(df[['address', 'city']].head())

In [None]:
df

In [None]:
# Guarda el DataFrame con la nueva columna en un archivo Parquet
df.to_parquet('metadata-sitios-costaeste-estado-ciudad.parquet')

# **Creacion de los archivos parquet de Reviews-Estados de Google maps**

### **01. Estado de la Florida**

01. CARGA DEL JSON 01

In [None]:

#Ruta de tu archivo JSON 1
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/reviews-estados/review-Florida/1.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df1 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df1

02 CARGA DEL JSON 2

In [None]:

#Ruta de tu archivo JSON 2
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/reviews-estados/review-Florida/2.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df2 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df2

03. CARGA DEL JSON 03

In [None]:

#Ruta de tu archivo JSON 3
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/reviews-estados/review-Florida/3.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df3 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df3

04. CARGA DEL JSON 4

In [None]:

#Ruta de tu archivo JSON 4
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/reviews-estados/review-Florida/4.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df4 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df4

5. CARGA DEL JSON 5

In [None]:

#Ruta de tu archivo JSON 5
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/reviews-estados/review-Florida/5.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df5 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df5

6. CARGA DEL JSON 6

In [None]:

#Ruta de tu archivo JSON 6
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/reviews-estados/review-Florida/6.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df6 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df6

7. CARGA DEL JSON 7

In [None]:

#Ruta de tu archivo JSON 7
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/reviews-estados/review-Florida/7.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df7 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df7

8. CARGA DEL JSON 8

In [None]:

#Ruta de tu archivo JSON 8
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/reviews-estados/review-Florida/8.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df8 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df8

9. CARGA DEL JSON 9

In [None]:

#Ruta de tu archivo JSON 9
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/reviews-estados/review-Florida/9.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df9 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df9

10. CARGA DEL JSON 10

In [None]:

#Ruta de tu archivo JSON 10
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/reviews-estados/review-Florida/10.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df10 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df10

11. CARGA DEL JSON 11

In [None]:

#Ruta de tu archivo JSON 11
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/reviews-estados/review-Florida/11.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df11 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df11

12. CARGA DEL JSON 12

In [None]:

#Ruta de tu archivo JSON 12
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/reviews-estados/review-Florida/12.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df12 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df12

13. CARGA DEL JSON 13

In [None]:

#Ruta de tu archivo JSON 13
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/reviews-estados/review-Florida/13.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df13 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df13

14. CARGA DEL JSON 14

In [None]:

#Ruta de tu archivo JSON 14
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/reviews-estados/review-Florida/14.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df14 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df14

15. CARGA DEL JSON 15

In [None]:

#Ruta de tu archivo JSON 15
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/reviews-estados/review-Florida/15.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df15 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df15

16. CARGA DEL JSON 16

In [None]:

#Ruta de tu archivo JSON 16
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/reviews-estados/review-Florida/16.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df16 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df16

17. CARGA DEL JSON 17

In [None]:

#Ruta de tu archivo JSON 17
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/reviews-estados/review-Florida/17.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df17 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df17

18. CARGA DEL JSON 18

In [None]:

#Ruta de tu archivo JSON 18
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/reviews-estados/review-Florida/18.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df18 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df18

19. CARGA DEL JSON 19

In [None]:

#Ruta de tu archivo JSON 19
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/reviews-estados/review-Florida/19.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df19 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df19

**Guardar todos los df en un solo df**

In [None]:
# Lista de todos tus DataFrames
dataframes = [df1, df2, df3, df4, df5, df6, df7, df8, df9, df10, df11, df12, df13, df14, df15, df16, df17, df18, df19]




In [None]:
# Combina todos los DataFrames en uno solo
df_final = pd.concat(dataframes, ignore_index=True)

# Muestra el tamaño del DataFrame combinado
print(f"Tamaño del DataFrame combinado: {df_final.shape}")

In [None]:
# Eliminar las columnas especificadas del DataFrame
columnas_a_eliminar = ['pics', 'resp']
df_final = df_final.drop(columns=columnas_a_eliminar)

# Verifica el resultado mostrando las primeras filas
print(df_final.head())

In [None]:
# Guarda el DataFrame en un archivo Parquet
df_final.to_parquet('Review-Florida.parquet')


### **02. Estado de Georgia**

01. CARGA DEL JSON 01

In [None]:

#Ruta de tu archivo JSON 1
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/reviews-estados/review-Georgia/1.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df1 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df1

02 CARGA DEL JSON 2

In [None]:

#Ruta de tu archivo JSON 2
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/reviews-estados/review-Georgia/2.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df2 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df2

03. CARGA DEL JSON 03

In [None]:

#Ruta de tu archivo JSON 3
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/reviews-estados/review-Georgia/3.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df3 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df3

04. CARGA DEL JSON 4

In [None]:

#Ruta de tu archivo JSON 4
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/reviews-estados/review-Georgia/4.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df4 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df4

5. CARGA DEL JSON 5

In [None]:

#Ruta de tu archivo JSON 5
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/reviews-estados/review-Georgia/5.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df5 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df5

6. CARGA DEL JSON 6

In [None]:

#Ruta de tu archivo JSON 6
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/reviews-estados/review-Georgia/6.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df6 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df6

7. CARGA DEL JSON 7

In [None]:

#Ruta de tu archivo JSON 7
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/reviews-estados/review-Georgia/7.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df7 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df7

8. CARGA DEL JSON 8

In [None]:

#Ruta de tu archivo JSON 8
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/reviews-estados/review-Georgia/8.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df8 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df8

9. CARGA DEL JSON 9

In [None]:

#Ruta de tu archivo JSON 9
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/reviews-estados/review-Georgia/9.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df9 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df9

10. CARGA DEL JSON 10

In [None]:

#Ruta de tu archivo JSON 10
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/reviews-estados/review-Georgia/10.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df10 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df10

11. CARGA DEL JSON 11

In [None]:

#Ruta de tu archivo JSON 11
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/reviews-estados/review-Georgia/11.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df11 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df11

12. CARGA DEL JSON 12

In [None]:

#Ruta de tu archivo JSON 12
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/reviews-estados/review-Georgia/12.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df12 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df12

13. CARGA DEL JSON 13

In [None]:

#Ruta de tu archivo JSON 13
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/reviews-estados/review-Georgia/13.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df13 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df13

**Guardar todos los df en un solo df**

In [None]:
# Lista de todos tus DataFrames
dataframes = [df1, df2, df3, df4, df5, df6, df7, df8, df9, df10, df11, df12, df13]




In [None]:
# Combina todos los DataFrames en uno solo
df_final = pd.concat(dataframes, ignore_index=True)

# Muestra el tamaño del DataFrame combinado
print(f"Tamaño del DataFrame combinado: {df_final.shape}")

In [None]:
# Eliminar las columnas especificadas del DataFrame
columnas_a_eliminar = ['pics', 'resp']
df_final = df_final.drop(columns=columnas_a_eliminar)

# Verifica el resultado mostrando las primeras filas
print(df_final.head())

In [None]:
# Guarda el DataFrame en un archivo Parquet
df_final.to_parquet('Review-Georgia.parquet')


### **03. Estado de North Carolina**

01. CARGA DEL JSON 01

In [None]:

#Ruta de tu archivo JSON 1
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/reviews-estados/review-North_Carolina/1.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df1 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df1

02 CARGA DEL JSON 2

In [None]:

#Ruta de tu archivo JSON 2
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/reviews-estados/review-North_Carolina/2.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df2 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df2

03. CARGA DEL JSON 03

In [None]:

#Ruta de tu archivo JSON 3
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/reviews-estados/review-North_Carolina/3.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df3 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df3

04. CARGA DEL JSON 4

In [None]:

#Ruta de tu archivo JSON 4
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/reviews-estados/review-North_Carolina/4.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df4 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df4

5. CARGA DEL JSON 5

In [None]:

#Ruta de tu archivo JSON 5
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/reviews-estados/review-North_Carolina/5.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df5 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df5

6. CARGA DEL JSON 6

In [None]:

#Ruta de tu archivo JSON 6
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/reviews-estados/review-North_Carolina/6.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df6 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df6

7. CARGA DEL JSON 7

In [None]:

#Ruta de tu archivo JSON 7
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/reviews-estados/review-North_Carolina/7.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df7 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df7

8. CARGA DEL JSON 8

In [None]:

#Ruta de tu archivo JSON 8
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/reviews-estados/review-North_Carolina/8.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df8 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df8

9. CARGA DEL JSON 9

In [None]:

#Ruta de tu archivo JSON 9
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/reviews-estados/review-North_Carolina/9.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df9 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df9

10. CARGA DEL JSON 10

In [None]:

#Ruta de tu archivo JSON 10
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/reviews-estados/review-North_Carolina/10.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df10 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df10

11. CARGA DEL JSON 11

In [None]:

#Ruta de tu archivo JSON 11
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/reviews-estados/review-North_Carolina/11.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df11 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df11

12. CARGA DEL JSON 12

In [None]:

#Ruta de tu archivo JSON 12
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/reviews-estados/review-North_Carolina/12.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df12 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df12

13. CARGA DEL JSON 13

In [None]:

#Ruta de tu archivo JSON 13
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/reviews-estados/review-North_Carolina/13.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df13 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df13

14. CARGA DEL JSON 14

In [None]:

#Ruta de tu archivo JSON 14
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/reviews-estados/review-North_Carolina/14.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df14 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df14

15. CARGA DEL JSON 15

In [None]:

#Ruta de tu archivo JSON 15
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/reviews-estados/review-North_Carolina/15.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df15 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df15

In [None]:
# Lista de todos tus DataFrames
dataframes = [df1, df2, df3, df4, df5, df6, df7, df8, df9, df10, df11, df12, df13, df14, df15]




In [None]:
# Combina todos los DataFrames en uno solo
df_final = pd.concat(dataframes, ignore_index=True)

# Muestra el tamaño del DataFrame combinado
print(f"Tamaño del DataFrame combinado: {df_final.shape}")

In [None]:
# Eliminar las columnas especificadas del DataFrame
columnas_a_eliminar = ['pics', 'resp']
df_final = df_final.drop(columns=columnas_a_eliminar)

# Verifica el resultado mostrando las primeras filas
print(df_final.head())

In [None]:
# Guarda el DataFrame en un archivo Parquet
df_final.to_parquet('Review-North-Carolina.parquet')


### **04. Estado de South Carolina**

01. CARGA DEL JSON 01

In [None]:

#Ruta de tu archivo JSON 1
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/reviews-estados/review-South_Carolina/1.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df1 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df1

02 CARGA DEL JSON 2

In [None]:

#Ruta de tu archivo JSON 2
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/reviews-estados/review-South_Carolina/2.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df2 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df2

03. CARGA DEL JSON 03

In [None]:

#Ruta de tu archivo JSON 3
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/reviews-estados/review-South_Carolina/3.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df3 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df3

04. CARGA DEL JSON 4

In [None]:

#Ruta de tu archivo JSON 4
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/reviews-estados/review-South_Carolina/4.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df4 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df4

5. CARGA DEL JSON 5

In [None]:

#Ruta de tu archivo JSON 5
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/reviews-estados/review-South_Carolina/5.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df5 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df5

6. CARGA DEL JSON 6

In [None]:

#Ruta de tu archivo JSON 6
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/reviews-estados/review-South_Carolina/6.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df6 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df6

7. CARGA DEL JSON 7

In [None]:

#Ruta de tu archivo JSON 7
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/reviews-estados/review-South_Carolina/7.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df7 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df7

8. CARGA DEL JSON 8

In [None]:

#Ruta de tu archivo JSON 8
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/reviews-estados/review-South_Carolina/8.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df8 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df8

9. CARGA DEL JSON 9

In [None]:

#Ruta de tu archivo JSON 9
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/reviews-estados/review-South_Carolina/9.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df9 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df9

10. CARGA DEL JSON 10

In [None]:

#Ruta de tu archivo JSON 10
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/reviews-estados/review-South_Carolina/10.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df10 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df10

11. CARGA DEL JSON 11

In [None]:

#Ruta de tu archivo JSON 11
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/reviews-estados/review-South_Carolina/11.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df11 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df11

12. CARGA DEL JSON 12

In [None]:

#Ruta de tu archivo JSON 12
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/reviews-estados/review-South_Carolina/12.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df12 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df12

13. CARGA DEL JSON 13

In [None]:

#Ruta de tu archivo JSON 13
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/reviews-estados/review-South_Carolina/13.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df13 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df13

14. CARGA DEL JSON 14

In [None]:

#Ruta de tu archivo JSON 14
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/reviews-estados/review-South_Carolina/14.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df14 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df14

In [None]:
# Lista de todos tus DataFrames
dataframes = [df1, df2, df3, df4, df5, df6, df7, df8, df9, df10, df11, df12, df13, df14]




In [None]:
# Combina todos los DataFrames en uno solo
df_final = pd.concat(dataframes, ignore_index=True)

# Muestra el tamaño del DataFrame combinado
print(f"Tamaño del DataFrame combinado: {df_final.shape}")

In [None]:
# Eliminar las columnas especificadas del DataFrame
columnas_a_eliminar = ['pics', 'resp']
df_final = df_final.drop(columns=columnas_a_eliminar)

# Verifica el resultado mostrando las primeras filas
print(df_final.head())

In [None]:
# Guarda el DataFrame en un archivo Parquet
df_final.to_parquet('Review-South-Carolina.parquet')


In [None]:

#Ruta de tu archivo JSON 14
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/GOOGLE MAPS/metadata-sitios/metadata-sitios-costaeste-estado-ciudad.parquet'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df14 = pd.read_parquet(ruta_archivo)

# Muestra el DataFrame
df14

### **05. Estado de Maine**

1. CARGA DEL JSON 1

In [None]:
#Ruta de tu archivo JSON1
ruta_archivo = '/Users/Intel/Desktop/data/Maine/1.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df1 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df1

2. CARGA DEL JSON 2

In [None]:
#Ruta de tu archivo JSON 2
ruta_archivo = '/Users/Intel/Desktop/data/Maine/2.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df2 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df2

3. CARGA DEL JSON 3

In [None]:


#Ruta de tu archivo JSON3
ruta_archivo = '/Users/Intel/Desktop/data/Maine/3.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df3 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df3

4. CARGA DEL JSON 4

In [None]:


#Ruta de tu archivo JSON 4
ruta_archivo = '/Users/Intel/Desktop/data/Maine/4.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df4 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df4

5. CARGA DEL JSON 5

In [None]:
#Ruta de tu archivo JSON 5
ruta_archivo = '/Users/Intel/Desktop/data/Maine/5.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df5 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df5

6. CARGA DEL JSON 6

In [None]:
#Ruta de tu archivo JSON 6
ruta_archivo = '/Users/Intel/Desktop/data/Maine/6.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df6 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df6

7. CARGA DEL JSON 7

In [None]:
#Ruta de tu archivo JSON 7
ruta_archivo = '/Users/Intel/Desktop/data/Maine/7.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df7 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df7

8. CARGA DEL JSON 8

In [None]:
#Ruta de tu archivo JSON 8
ruta_archivo = '/Users/Intel/Desktop/data/Maine/8.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df8 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df8

### **06. Estado de Massachusetts**

In [None]:
#Ruta de tu archivo JSON
ruta_archivo = '/Users/Intel/Desktop/data/Massachusetts/1.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
dfm1 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
dfm1

In [None]:
#Ruta de tu archivo JSON
ruta_archivo = '/Users/Intel/Desktop/data/Massachusetts/2.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
dfm2 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
dfm2

In [None]:
#Ruta de tu archivo JSON
ruta_archivo = '/Users/Intel/Desktop/data/Massachusetts/3.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
dfm3 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
dfm3

In [None]:
#Ruta de tu archivo JSON
ruta_archivo = '/Users/Intel/Desktop/data/Massachusetts/4.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
dfm4 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
dfm4

In [None]:
#Ruta de tu archivo JSON
ruta_archivo = '/Users/Intel/Desktop/data/Massachusetts/5.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
dfm5 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
dfm5

In [None]:
#Ruta de tu archivo JSON
ruta_archivo = '/Users/Intel/Desktop/data/Massachusetts/6.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
dfm6 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
dfm6

In [None]:
#Ruta de tu archivo JSON
ruta_archivo = '/Users/Intel/Desktop/data/Massachusetts/7.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
dfm7 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
dfm7

In [None]:
#Ruta de tu archivo JSON
ruta_archivo = '/Users/Intel/Desktop/data/Massachusetts/8.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
dfm8 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
dfm8

In [None]:
#Ruta de tu archivo JSON
ruta_archivo = '/Users/Intel/Desktop/data/Massachusetts/9.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
dfm9 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
dfm9

In [None]:
#Ruta de tu archivo JSON
ruta_archivo = '/Users/Intel/Desktop/data/Massachusetts/10.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
dfm10 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
dfm10

In [None]:
#Ruta de tu archivo JSON
ruta_archivo = '/Users/Intel/Desktop/data/Massachusetts/11.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
dfm11 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
dfm11

### **07. Estado de New Hampshire**

In [None]:
#Ruta de tu archivo JSON
ruta_archivo = '/Users/Intel/Desktop/data/NewHampshire/1.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
dfn1 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
dfn1

In [None]:
#Ruta de tu archivo JSON
ruta_archivo = '/Users/Intel/Desktop/data/NewHampshire/2.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
dfn2 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
dfn2

In [None]:
#Ruta de tu archivo JSON
ruta_archivo = '/Users/Intel/Desktop/data/NewHampshire/3.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
dfn3 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
dfn3

In [None]:
#Ruta de tu archivo JSON
ruta_archivo = '/Users/Intel/Desktop/data/NewHampshire/4.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
dfn4 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
dfn4

In [None]:
#Ruta de tu archivo JSON
ruta_archivo = '/Users/Intel/Desktop/data/NewHampshire/5.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
dfn5 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
dfn5

In [None]:
#Ruta de tu archivo JSON
ruta_archivo = '/Users/Intel/Desktop/data/NewHampshire/6.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
dfn6 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
dfn6

In [None]:
#Ruta de tu archivo JSON
ruta_archivo = '/Users/Intel/Desktop/data/NewHampshire/7.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
dfn7 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
dfn7

In [None]:
#Ruta de tu archivo JSON
ruta_archivo = '/Users/Intel/Desktop/data/NewHampshire/8.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
dfn8 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
dfn8

In [None]:
#Ruta de tu archivo JSON
ruta_archivo = '/Users/Intel/Desktop/data/NewHampshire/9.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
dfn9 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
dfn9

### **Union de los DF de los estados de Maine, Massachusetts y New Hampshire independientes**

In [None]:
# Lista de todos tus DataFrames
Maine = [df1, df2, df3, df4, df5, df6, df7, df8]
Massachusetts = [dfm1, dfm2, dfm3, dfm4, dfm5, dfm6, dfm7, dfm8, dfm9, dfm10, dfm11]
NewHampshire = [dfn1, dfn2, dfn3, dfn4, dfn5, dfn6, dfn7, dfn8, dfn9]



In [None]:
# Combina todos los DataFrames en uno solo
df_Maine = pd.concat(Maine, ignore_index=True)
print(f"Tamaño del DataFrame combinado: {df_Maine.shape}")

df_Massachusetts = pd.concat(Massachusetts, ignore_index=True)
print(f"Tamaño del DataFrame combinado: {df_Massachusetts.shape}")

df_NewHampshire = pd.concat(NewHampshire, ignore_index=True)
print(f"Tamaño del DataFrame combinado: {df_NewHampshire.shape}")

In [None]:
df_Maine

### **Eliminar columnas**

Se eliminan las columnas pics y resp por que no tiene información relevante para el analisis de datos que procede. 

In [None]:
# Eliminar las columnas especificadas del DataFrame
columnas_a_eliminar = ['pics', 'resp']
df_Maine = df_Maine.drop(columns=columnas_a_eliminar)

# Verifica el resultado mostrando las primeras filas
print(df_Maine.head())


columnas_a_eliminar = ['pics', 'resp']
df_Massachusetts = df_Massachusetts.drop(columns=columnas_a_eliminar)

print(df_Massachusetts.head())



columnas_a_eliminar = ['pics', 'resp']
df_NewHampshire = df_NewHampshire.drop(columns=columnas_a_eliminar)

print(df_NewHampshire.head())


In [None]:
# Muestra el tamaño del DataFrame combinado
print(f"Tamaño del DataFrame combinado: {df_Maine.shape}")
print(f"Tamaño del DataFrame combinado: {df_Massachusetts.shape}")
print(f"Tamaño del DataFrame combinado: {df_NewHampshire.shape}")

### **Exportacion de los nuevos dataframes a parquet**

In [None]:
# Guarda el DataFrame con la nueva columna en un archivo Parquet
df_Maine.to_parquet('reviews-maine.parquet')
df_Massachusetts.to_parquet('reviews-massachusetts.parquet')
df_NewHampshire.to_parquet('reviews-newhampshire.parquet')

### **08.Estado de Rhode Island**

1. Carga del Json 1 de Rhode Island

In [None]:
# Ruta del archivo JSON 1
ruta_archivo = r"C:\Users\ADMIN\Desktop\Practica PROYECTO FINAL\review-Rhode_Island-20240828T034929Z-001\review-Rhode_Island\1.json"

# Carga del archivo JSON en un DataFrame de pandas usando lines=True
df_RI_1 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df_RI_1

2. Carga del JSON 2 de Rhode Island

In [None]:
# Ruta del archivo JSON 2
ruta_archivo = r"C:\Users\ADMIN\Desktop\Practica PROYECTO FINAL\review-Rhode_Island-20240828T034929Z-001\review-Rhode_Island\2.json"

# Carga del archivo JSON en un DataFrame de pandas usando lines=True
df_RI_2 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df_RI_2

3. Carga del JSON 3 de Rhode Island

In [None]:
# Ruta del archivo JSON 3
ruta_archivo = r"C:\Users\ADMIN\Desktop\Practica PROYECTO FINAL\review-Rhode_Island-20240828T034929Z-001\review-Rhode_Island\3.json"

# Carga del archivo JSON en un DataFrame de pandas usando lines=True
df_RI_3 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df_RI_3

4. Carga del JSON 4 de Rhode Island

In [None]:
# Ruta del archivo JSON 4
ruta_archivo = r"C:\Users\ADMIN\Desktop\Practica PROYECTO FINAL\review-Rhode_Island-20240828T034929Z-001\review-Rhode_Island\4.json"

# Carga del archivo JSON en un DataFrame de pandas usando lines=True
df_RI_4 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df_RI_4

5. Carga del JSON 5 de Rhode Island

In [None]:
# Ruta del archivo JSON 4
ruta_archivo = r"C:\Users\ADMIN\Desktop\Practica PROYECTO FINAL\review-Rhode_Island-20240828T034929Z-001\review-Rhode_Island\5.json"

# Carga del archivo JSON en un DataFrame de pandas usando lines=True
df_RI_5 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df_RI_5

6. Carga del JSON 6 de Rhode Island

In [None]:
# Ruta del archivo JSON 4
ruta_archivo = r"C:\Users\ADMIN\Desktop\Practica PROYECTO FINAL\review-Rhode_Island-20240828T034929Z-001\review-Rhode_Island\6.json"

# Carga del archivo JSON en un DataFrame de pandas usando lines=True
df_RI_6 = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df_RI_6

#### Guardamos todos los JSON de Rhode Island en un solo archivo

In [None]:
# Lista de todos los DataFrames
dataframes = [df_RI_1, df_RI_2, df_RI_3, df_RI_4, df_RI_5, df_RI_6]

In [None]:
# Concatenamos todos los DataFrames en uno solo
df_RI_final= pd.concat(dataframes, ignore_index= True)

# Muestra del tamaño del DataFrame combinado
print(f"Tamaño del DataFrame combinado: {df_RI_final.shape}")


In [None]:
df_RI_final.info()

#### Eliminamos columnas no necesarias

In [None]:
#Eliminamos las columnas especificadas del DataFrame
columnas_a_eliminar = ["pics", "resp"]
df_RI_final = df_RI_final.drop(columns=columnas_a_eliminar)

In [None]:
#Verificamos el resultado con las primeras 5 filas
df_RI_final.head()

### Guardamos el Dataframe de Rhode Island

In [None]:
## Guardamos el Dataframe en formato Parquet
df_RI_final.to_parquet("Rhode-Island-reviews.parquet")

## **09.Estado de New York**

1. Carga del JSON 1 de New York

In [None]:
# Ruta del archivo JSON 1 de New York
ruta_archivo = r"C:\Users\ADMIN\Desktop\Practica PROYECTO FINAL\review-New_York-20240828T041907Z-001\review-New_York\1.json"

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df_NY_1 = pd.read_json(ruta_archivo, lines= True)

# Muestra el DataFrame
df_NY_1

2. Carga del JSON 2 de New York

In [None]:
# Ruta del archivo JSON 2 de New York
ruta_archivo = r"C:\Users\ADMIN\Desktop\Practica PROYECTO FINAL\review-New_York-20240828T041907Z-001\review-New_York\2.json"

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df_NY_2 = pd.read_json(ruta_archivo, lines= True)

# Muestra el DataFrame
df_NY_2

3. Carga del JSON 3 de New York

In [None]:
# Ruta del archivo JSON 3 de New York
ruta_archivo = r"C:\Users\ADMIN\Desktop\Practica PROYECTO FINAL\review-New_York-20240828T041907Z-001\review-New_York\3.json"

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df_NY_3 = pd.read_json(ruta_archivo, lines= True)

# Muestra el DataFrame
df_NY_3

4. Carga del JSON 4 de New York

In [None]:
# Ruta del archivo JSON 4 de New York
ruta_archivo = r"C:\Users\ADMIN\Desktop\Practica PROYECTO FINAL\review-New_York-20240828T041907Z-001\review-New_York\4.json"

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df_NY_4 = pd.read_json(ruta_archivo, lines= True)

# Muestra el DataFrame
df_NY_4

5. Carga del JSON 5 de New York

In [None]:
# Ruta del archivo JSON 5 de New York
ruta_archivo = r"C:\Users\ADMIN\Desktop\Practica PROYECTO FINAL\review-New_York-20240828T041907Z-001\review-New_York\5.json"

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df_NY_5 = pd.read_json(ruta_archivo, lines= True)

# Muestra el DataFrame
df_NY_5

6. Carga del JSON 6 de New York

In [None]:
# Ruta del archivo JSON 6 de New York
ruta_archivo = r"C:\Users\ADMIN\Desktop\Practica PROYECTO FINAL\review-New_York-20240828T041907Z-001\review-New_York\6.json"

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df_NY_6 = pd.read_json(ruta_archivo, lines= True)

# Muestra el DataFrame
df_NY_6

7. Carga del JSON 7 de New York

In [None]:
# Ruta del archivo JSON 7 de New York
ruta_archivo = r"C:\Users\ADMIN\Desktop\Practica PROYECTO FINAL\review-New_York-20240828T041907Z-001\review-New_York\7.json"

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df_NY_7 = pd.read_json(ruta_archivo, lines= True)

# Muestra el DataFrame
df_NY_7

8. Carga del JSON 8 de New York

In [None]:
# Ruta del archivo JSON 8 de New York
ruta_archivo = r"C:\Users\ADMIN\Desktop\Practica PROYECTO FINAL\review-New_York-20240828T041907Z-001\review-New_York\8.json"

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df_NY_8= pd.read_json(ruta_archivo, lines= True)

# Muestra el DataFrame
df_NY_8

9. Carga del JSON 9 de New York

In [None]:
# Ruta del archivo JSON 9 de New York
ruta_archivo = r"C:\Users\ADMIN\Desktop\Practica PROYECTO FINAL\review-New_York-20240828T041907Z-001\review-New_York\9.json"

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df_NY_9 = pd.read_json(ruta_archivo, lines= True)

# Muestra el DataFrame
df_NY_9

10. Carga del JSON 10 de New York

In [None]:
# Ruta del archivo JSON 10 de New York
ruta_archivo = r"C:\Users\ADMIN\Desktop\Practica PROYECTO FINAL\review-New_York-20240828T041907Z-001\review-New_York\10.json"

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df_NY_10 = pd.read_json(ruta_archivo, lines= True)

# Muestra el DataFrame
df_NY_10

11. Carga del JSON 11 de New York

In [None]:
# Ruta del archivo JSON 11 de New York
ruta_archivo = r"C:\Users\ADMIN\Desktop\Practica PROYECTO FINAL\review-New_York-20240828T041907Z-001\review-New_York\11.json"

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df_NY_11 = pd.read_json(ruta_archivo, lines= True)

# Muestra el DataFrame
df_NY_11

12. Carga del JSON 12 de New York

In [None]:
# Ruta del archivo JSON 12 de New York
ruta_archivo = r"C:\Users\ADMIN\Desktop\Practica PROYECTO FINAL\review-New_York-20240828T041907Z-001\review-New_York\12.json"

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df_NY_12 = pd.read_json(ruta_archivo, lines= True)

# Muestra el DataFrame
df_NY_12

13. Carga del JSON 13 de New York

In [None]:
# Ruta del archivo JSON 13 de New York
ruta_archivo = r"C:\Users\ADMIN\Desktop\Practica PROYECTO FINAL\review-New_York-20240828T041907Z-001\review-New_York\13.json"

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df_NY_13 = pd.read_json(ruta_archivo, lines= True)

# Muestra el DataFrame
df_NY_13

14. Carga del JSON 14 de New York

In [None]:
# Ruta del archivo JSON 14 de New York
ruta_archivo = r"C:\Users\ADMIN\Desktop\Practica PROYECTO FINAL\review-New_York-20240828T041907Z-001\review-New_York\14.json"

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df_NY_14 = pd.read_json(ruta_archivo, lines= True)

# Muestra el DataFrame
df_NY_14

15. Carga del JSON 15 de New York

In [None]:
# Ruta del archivo JSON 15 de New York
ruta_archivo = r"C:\Users\ADMIN\Desktop\Practica PROYECTO FINAL\review-New_York-20240828T041907Z-001\review-New_York\15.json"

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df_NY_15 = pd.read_json(ruta_archivo, lines= True)

# Muestra el DataFrame
df_NY_15

16. Carga del JSON 16 de New York

In [None]:
# Ruta del archivo JSON 16 de New York
ruta_archivo = r"C:\Users\ADMIN\Desktop\Practica PROYECTO FINAL\review-New_York-20240828T041907Z-001\review-New_York\16.json"

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df_NY_16 = pd.read_json(ruta_archivo, lines= True)

# Muestra el DataFrame
df_NY_16

17. Carga del JSON 17 de New York

In [None]:
# Ruta del archivo JSON 17 de New York
ruta_archivo = r"C:\Users\ADMIN\Desktop\Practica PROYECTO FINAL\review-New_York-20240828T041907Z-001\review-New_York\17.json"

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df_NY_17 = pd.read_json(ruta_archivo, lines= True)

# Muestra el DataFrame
df_NY_17

18. Carga del JSON 18 de New York

In [None]:
# Ruta del archivo JSON 18 de New York
ruta_archivo = r"C:\Users\ADMIN\Desktop\Practica PROYECTO FINAL\review-New_York-20240828T041907Z-001\review-New_York\18.json"

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df_NY_18 = pd.read_json(ruta_archivo, lines= True)

# Muestra el DataFrame
df_NY_18

#### Guardamos todos los JSON en un solo archivo

In [None]:
#Lista de todos los DataFrames
dataframes = [df_NY_1, df_NY_2, df_NY_3, df_NY_4, df_NY_5, df_NY_6, df_NY_7, df_NY_8, df_NY_9, df_NY_10, 
              df_NY_11, df_NY_12, df_NY_13, df_NY_14, df_NY_15, df_NY_16, df_NY_17, df_NY_18]

In [None]:
# Concatenamos todos los DataFrames en uno solo
df_NY_final = pd.concat(dataframes, ignore_index=True)

# Mostramos el tamaño del DataFrame 
print(f"Tamaño del DataFrame: {df_NY_final.shape}")

In [None]:
df_NY_final.info()

#### Eliminamos las columnas no necesarias

In [None]:
# Eliminamos las columnas especificadas del DataFrame
columnas_a_eliminar = ["pics", "resp"]
df_NY_final = df_NY_final.drop(columns=columnas_a_eliminar)


In [None]:
# Verificamos el resultado mostrando las primeras filas
df_NY_final.head()

### Guardamos el Dataframe de New York

In [None]:
df_NY_final.to_parquet("New-York-reviews.parquet")

### **10. Estado de Connecticut**

1. Carga del JSON 1 de Connecticut

In [None]:
# Ruta del archivo JSON 1
ruta_archivo = r"C:\Users\ADMIN\Desktop\Practica PROYECTO FINAL\review-Connecticut-20240828T034854Z-001\review-Connecticut\1.json"

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df_CO_1 = pd.read_json(ruta_archivo, lines = True)

# Muestra del DataFrame
df_CO_1

2. Carga del JSON 2 de Connecticut

In [None]:
# Ruta del archivo JSON 2
ruta_archivo = r"C:\Users\ADMIN\Desktop\Practica PROYECTO FINAL\review-Connecticut-20240828T034854Z-001\review-Connecticut\2.json"

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df_CO_2 = pd.read_json(ruta_archivo, lines = True)

# Muestra del DataFrame
df_CO_2

3. Carga del JSON 3 de Connecticut

In [None]:
# Ruta del archivo JSON 3
ruta_archivo = r"C:\Users\ADMIN\Desktop\Practica PROYECTO FINAL\review-Connecticut-20240828T034854Z-001\review-Connecticut\3.json"

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df_CO_3 = pd.read_json(ruta_archivo, lines = True)

# Muestra del DataFrame
df_CO_3

4. Carga del JSON 4 de Connecticut

In [None]:
# Ruta del archivo JSON 4
ruta_archivo = r"C:\Users\ADMIN\Desktop\Practica PROYECTO FINAL\review-Connecticut-20240828T034854Z-001\review-Connecticut\4.json"

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df_CO_4 = pd.read_json(ruta_archivo, lines = True)

# Muestra del DataFrame
df_CO_4

5. Carga del JSON 5 de Connecticut

In [None]:
# Ruta del archivo JSON 5
ruta_archivo = r"C:\Users\ADMIN\Desktop\Practica PROYECTO FINAL\review-Connecticut-20240828T034854Z-001\review-Connecticut\5.json"

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df_CO_5 = pd.read_json(ruta_archivo, lines = True)

# Muestra del DataFrame
df_CO_5

6. Carga del JSON 6 de Connecticut

In [None]:
# Ruta del archivo JSON 6
ruta_archivo = r"C:\Users\ADMIN\Desktop\Practica PROYECTO FINAL\review-Connecticut-20240828T034854Z-001\review-Connecticut\6.json"

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df_CO_6 = pd.read_json(ruta_archivo, lines = True)

# Muestra del DataFrame
df_CO_6

7. Carga del JSON 7 de Connecticut

In [None]:
# Ruta del archivo JSON 7
ruta_archivo = r"C:\Users\ADMIN\Desktop\Practica PROYECTO FINAL\review-Connecticut-20240828T034854Z-001\review-Connecticut\7.json"

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df_CO_7 = pd.read_json(ruta_archivo, lines = True)

# Muestra del DataFrame
df_CO_7

8. Carga del JSON 8 de Connecticut

In [None]:
# Ruta del archivo JSON 8
ruta_archivo = r"C:\Users\ADMIN\Desktop\Practica PROYECTO FINAL\review-Connecticut-20240828T034854Z-001\review-Connecticut\8.json"

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df_CO_8 = pd.read_json(ruta_archivo, lines = True)

# Muestra del DataFrame
df_CO_8

9. Carga del JSON 9 de Connecticut

In [None]:
# Ruta del archivo JSON 9
ruta_archivo = r"C:\Users\ADMIN\Desktop\Practica PROYECTO FINAL\review-Connecticut-20240828T034854Z-001\review-Connecticut\9.json"

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df_CO_9 = pd.read_json(ruta_archivo, lines = True)

# Muestra del DataFrame
df_CO_9

10. Carga del JSON 10 de Connecticut

In [None]:
# Ruta del archivo JSON 10
ruta_archivo = r"C:\Users\ADMIN\Desktop\Practica PROYECTO FINAL\review-Connecticut-20240828T034854Z-001\review-Connecticut\10.json"

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df_CO_10 = pd.read_json(ruta_archivo, lines = True)

# Muestra del DataFrame
df_CO_10

11. Carga del JSON 11 de Connecticut

In [None]:
# Ruta del archivo JSON 11
ruta_archivo = r"C:\Users\ADMIN\Desktop\Practica PROYECTO FINAL\review-Connecticut-20240828T034854Z-001\review-Connecticut\11.json"

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df_CO_11 = pd.read_json(ruta_archivo, lines = True)

# Muestra del DataFrame
df_CO_11

12. Carga del JSON 12 de Connecticut

In [None]:
# Ruta del archivo JSON 12
ruta_archivo = r"C:\Users\ADMIN\Desktop\Practica PROYECTO FINAL\review-Connecticut-20240828T034854Z-001\review-Connecticut\12.json"

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df_CO_12 = pd.read_json(ruta_archivo, lines = True)

# Muestra del DataFrame
df_CO_12

13. Carga del JSON 13 de Connecticut

In [None]:
# Ruta del archivo JSON 13
ruta_archivo = r"C:\Users\ADMIN\Desktop\Practica PROYECTO FINAL\review-Connecticut-20240828T034854Z-001\review-Connecticut\13.json"

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df_CO_13 = pd.read_json(ruta_archivo, lines = True)

# Muestra del DataFrame
df_CO_13

14. Carga del JSON 14 de Connecticut

In [None]:
# Ruta del archivo JSON 14
ruta_archivo = r"C:\Users\ADMIN\Desktop\Practica PROYECTO FINAL\review-Connecticut-20240828T034854Z-001\review-Connecticut\14.json"

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df_CO_14 = pd.read_json(ruta_archivo, lines = True)

# Muestra del DataFrame
df_CO_14

15. Carga del JSON 15 de Connecticut

In [None]:
# Ruta del archivo JSON 15
ruta_archivo = r"C:\Users\ADMIN\Desktop\Practica PROYECTO FINAL\review-Connecticut-20240828T034854Z-001\review-Connecticut\15.json"

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df_CO_15 = pd.read_json(ruta_archivo, lines = True)

# Muestra del DataFrame
df_CO_15

16. Carga del JSON 16 de Connecticut

In [None]:
# Ruta del archivo JSON 16
ruta_archivo = r"C:\Users\ADMIN\Desktop\Practica PROYECTO FINAL\review-Connecticut-20240828T034854Z-001\review-Connecticut\16.json"

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df_CO_16 = pd.read_json(ruta_archivo, lines = True)

# Muestra del DataFrame
df_CO_16

17. Carga del JSON 17 de Connecticut

In [None]:
# Ruta del archivo JSON 17
ruta_archivo = r"C:\Users\ADMIN\Desktop\Practica PROYECTO FINAL\review-Connecticut-20240828T034854Z-001\review-Connecticut\17.json"

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df_CO_17 = pd.read_json(ruta_archivo, lines = True)

# Muestra del DataFrame
df_CO_17

18. Carga del JSON 18 de Connecticut

In [None]:
# Ruta del archivo JSON 18
ruta_archivo = r"C:\Users\ADMIN\Desktop\Practica PROYECTO FINAL\review-Connecticut-20240828T034854Z-001\review-Connecticut\18.json"

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df_CO_18 = pd.read_json(ruta_archivo, lines = True)

# Muestra del DataFrame
df_CO_18

#### Guardamos todos los JSON en un solo archivo

In [None]:
# Lista de todos los DataFrames
dataframes = [df_CO_1, df_CO_2, df_CO_3, df_CO_4, df_CO_5, df_CO_6, df_CO_7, df_CO_8, df_CO_9, df_CO_10,
              df_CO_11, df_CO_12, df_CO_13, df_CO_14, df_CO_15, df_CO_16, df_CO_17, df_CO_18]

In [None]:
# Concatenamos todos los DataFrames en uno solo
df_CO_final = pd.concat(dataframes, ignore_index=True)

# Mostramos el tamaño del DataFrame 
print(f"Tamaño del DataFrame: {df_CO_final.shape}")

In [None]:
df_CO_final.info()

#### Eliminamos las columnas no necesarias

In [None]:
# Eliminamos las columnas especificadas del DataFrame
columnas_a_eliminar = ["pics", "resp"]
df_CO_final = df_CO_final.drop(columns=columnas_a_eliminar)


In [None]:
# Verificamos el resultado mostrando las primeras filas
df_CO_final.head()

### Guardamos el Dataframe de Connecticut

In [None]:
df_CO_final.to_parquet("Connecticut-reviews.parquet")

In [None]:
# Eliminamos las columnas especificadas del DataFrame
columnas_a_eliminar = ["pics", "resp"]
df_CO_final = df_CO_final.drop(columns=columnas_a_eliminar)


In [None]:
# Verificamos el resultado mostrando las primeras filas
df_CO_final.head()

In [None]:
df_CO_final.to_parquet("Connecticut-reviews.parquet")

# 11. Delaware


In [None]:
import pandas as pd
import glob
import os
import matplotlib.pyplot as plt
from datetime import datetime

In [None]:
# Definir la ruta del directorio
directory = 'Datasets/Google/review-estados/review-Delaware/'

# Use glob to get all the json files in the directory
json_files = glob.glob(os.path.join(directory, '*.json'))

# Crear una lista vacia para almacenar los dataframes
dfs = []

# Loop sobre los archivos y agregarlos a la lista de DataFrames
for file in json_files:
    df = pd.read_json(file, lines=True)
    dfs.append(df)

# Concatenar todos los dataframes en uno
df_delaware = pd.concat(dfs, ignore_index=True)

# Mostrar las primeras filas del DataFrame
df_delaware.head()

In [None]:
# Chequear el numero total de filas en el dataframe
print(f"Total de filas: {len(df_delaware)}")

In [None]:
# Remove the 'pics' and 'resp' columns
df_delaware = df_delaware.drop(columns=['pics', 'resp'], errors='ignore')

# Display the first few rows of the final DataFrame
df_delaware.head()

In [None]:
# Guardar el DataFrame como archivo Parquet
archivo_salida = 'Datasets/Google/review-estados/review-Delaware/review_delaware.parquet'
df_delaware.to_parquet(archivo_salida, index=False)

print(f"\nDataFrame guardado como archivo Parquet: {archivo_salida}")

## 12. New Jersey

In [None]:
# Definir la ruta del directorio
directory = 'Datasets/Google/review-estados/review-New_Jersey/'

# Use glob to get all the json files in the directory
json_files = glob.glob(os.path.join(directory, '*.json'))

# Crear una lista vacia para almacenar los dataframes
dfs = []

# Loop sobre los archivos y agregarlos a la lista de DataFrames
for file in json_files:
    df = pd.read_json(file, lines=True)
    dfs.append(df)

# Concatenar todos los dataframes en uno
df_new_jersey = pd.concat(dfs, ignore_index=True)

# Mostrar las primeras filas del DataFrame
df_new_jersey.head()

In [None]:
# Chequear el numero total de filas en el dataframe
print(f"Total de filas: {len(df_new_jersey)}")

In [None]:
# Remove the 'pics' and 'resp' columns
df_new_jersey = df_new_jersey.drop(columns=['pics', 'resp'], errors='ignore')

# Display the first few rows of the final DataFrame
df_new_jersey.head()

In [None]:
# Guardar el DataFrame como archivo Parquet
archivo_salida = 'Datasets/Google/review-estados/review-New_Jersey/review_new_jersey.parquet'
df_new_jersey.to_parquet(archivo_salida, index=False)

print(f"\nDataFrame guardado como archivo Parquet: {archivo_salida}")

# 13. Maryland

In [None]:
# Definir la ruta del directorio
directory = 'Datasets/Google/review-estados/review-Maryland/'

# Use glob to get all the json files in the directory
json_files = glob.glob(os.path.join(directory, '*.json'))

# Crear una lista vacia para almacenar los dataframes
dfs = []

# Loop sobre los archivos y agregarlos a la lista de DataFrames
for file in json_files:
    df = pd.read_json(file, lines=True)
    dfs.append(df)

# Concatenar todos los dataframes en uno
df_maryland = pd.concat(dfs, ignore_index=True)

# Mostrar las primeras filas del DataFrame
df_maryland.head()

In [None]:
# Chequear el numero total de filas en el dataframe
print(f"Total de filas: {len(df_maryland)}")

In [None]:
# Chequear el numero total de filas en el dataframe
print(f"Total de filas: {len(df_maryland)}")

# 14. Virginia

In [None]:
# Definir la ruta del directorio
directory = 'Datasets/Google/review-estados/review-Virginia/'

# Use glob to get all the json files in the directory
json_files = glob.glob(os.path.join(directory, '*.json'))

# Crear una lista vacia para almacenar los dataframes
dfs = []

# Loop sobre los archivos y agregarlos a la lista de DataFrames
for file in json_files:
    df = pd.read_json(file, lines=True)
    dfs.append(df)

# Concatenar todos los dataframes en uno
df_virginia = pd.concat(dfs, ignore_index=True)

# Mostrar las primeras filas del DataFrame
df_virginia.head()

In [None]:
# Chequear el numero total de filas en el dataframe
print(f"Total de filas: {len(df_virginia)}")

In [None]:
# Remove the 'pics' and 'resp' columns
df_virginia = df_virginia.drop(columns=['pics', 'resp'], errors='ignore')

# Display the first few rows of the final DataFrame
df_virginia.head()

In [None]:
# Guardar el DataFrame como archivo Parquet
archivo_salida = 'Datasets/Google/review-estados/review-Virginia/review_virginia.parquet'
df_virginia.to_parquet(archivo_salida, index=False)

print(f"\nDataFrame guardado como archivo Parquet: {archivo_salida}")

## **2. Carga de datos Yelp**

**Descripción de los Datos de Yelp**
Para el análisis de la cadena de restaurantes China Garden en la costa este de Estados Unidos, se han recopilado datos detallados de Yelp, una de las plataformas de reseñas de restaurantes más importantes. Estos datos se encuentran distribuidos en cinco archivos distintos, cada uno de los cuales proporciona información relevante para entender el comportamiento del mercado y la percepción de los consumidores.

**1. Archivo: business.pkl**

El archivo business.pkl contiene información esencial sobre los negocios listados en Yelp, específicamente sobre los restaurantes de interés. Este archivo proporciona datos detallados de cada establecimiento, incluyendo su nombre, dirección, categoría, atributos adicionales (como si ofrece opciones vegetarianas o si tiene estacionamiento), y su ubicación geográfica exacta. Estos datos son fundamentales para realizar un análisis geoespacial, identificar patrones en las ubicaciones de los restaurantes, y comparar características de los competidores dentro del mismo mercado.

**2. Archivo: Checkin.json**

El archivo Checkin.json proporciona los datos de horarios de reservas y registros de visitas de los usuarios a los restaurantes. Este archivo permite analizar las horas pico de actividad, la popularidad de los restaurantes en diferentes días de la semana, y la frecuencia de visitas de los clientes. Este análisis es crucial para entender los patrones de tráfico y comportamiento de los consumidores, lo que puede ayudar a optimizar los horarios de operación y estrategias de marketing.

**3. Archivo: Review.json**

El archivo Review.json contiene las reseñas de los clientes que han visitado los restaurantes de interés. Cada reseña incluye información valiosa como la calificación otorgada (de 1 a 5 estrellas), el texto de la reseña, la fecha en que se escribió, y otros atributos que reflejan la experiencia del cliente. Este archivo es fundamental para realizar un análisis de sentimientos y evaluar las opiniones de los consumidores sobre China Garden y sus competidores. Además, permite identificar temas recurrentes en los comentarios de los clientes, puntos fuertes, áreas de mejora, y tendencias emergentes en la percepción del mercado.

**4. Archivo: Tip**

El archivo Tip contiene una recopilación de recomendaciones o consejos breves que los usuarios han dejado sobre los restaurantes en Yelp. Aunque estos "tips" son más cortos que las reseñas tradicionales, a menudo proporcionan insights rápidos y directos sobre lo que los clientes consideran relevante o digno de destacar. Este archivo permite complementar el análisis de reseñas con datos adicionales que pueden ayudar a identificar las expectativas y preferencias de los clientes.

**5. Archivo: User**

El archivo User proporciona información sobre los usuarios de Yelp que han interactuado con los restaurantes de la cadena y sus competidores. Incluye detalles como el número total de reseñas realizadas por cada usuario, su ubicación, el promedio de calificaciones otorgadas, y otros comportamientos del usuario en la plataforma. Este archivo es clave para identificar clientes leales, entender los perfiles demográficos y de comportamiento de los clientes, y determinar cómo interactúan diferentes grupos de consumidores con los restaurantes de interés.

**Proceso de Preparación de los Dato**s
Para realizar un análisis integral, se procederá con la limpieza y unificación de los datos de cada archivo:

Integración de la información de negocios del archivo business.pkl con los datos de los archivos de reseñas, tips, check-ins y usuarios.
Procesamiento de los archivos JSON para extraer insights relevantes sobre la actividad de los clientes, patrones de reserva, y calificaciones.
Análisis combinado de los datos de Yelp para identificar oportunidades de mejora y estrategias de crecimiento para "China Garden" en la costa este de Estados Unidos.
Esta estructura de datos permitirá llevar a cabo un análisis exhaustivo que considere no solo la competencia y el posicionamiento actual de "China Garden", sino también las expectativas y percepciones de los clientes en tiempo real.

### **01. Carga y exportacion a parquet del archivo Bussiness.pkl**

In [None]:

# Ruta al archivo .pkl
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/YELP/business.pkl'

# Cargar el archivo .pkl en un DataFrame
df = pd.read_pickle(ruta_archivo)

# Mostrar las primeras filas del DataFrame para verificar que se haya cargado correctamente
print(df.head())

In [None]:
df

In [None]:
print(df.columns)

In [None]:
# Eliminar columnas duplicadas
df = df.loc[:, ~df.columns.duplicated()]

# Mostrar las columnas después de eliminar duplicados
print(df.columns)


In [None]:
df

In [None]:
# Eliminar las columnas especificadas del DataFrame
columnas_a_eliminar = ['address', 'is_open', 'attributes', 'hours']
df = df.drop(columns=columnas_a_eliminar)

df

In [None]:
# Lista de estados de la costa este que quieres mantener
east_coast_states = ['ME', 'NH', 'MA', 'RI', 'CT', 'NY', 'NJ', 'DE', 'MD', 'VA', 'NC', 'SC', 'GA', 'FL']

# Filtrar el DataFrame para eliminar los valores nulos en la columna 'state' 
# y mantener solo los estados de la costa este
df_filtrado = df[df['state'].isin(east_coast_states) & df['state'].notna()]

# Mostrar el DataFrame filtrado
print(df_filtrado)


In [None]:
# Diccionario de códigos de estado a nombres completos
state_names = {
    'ME': 'Maine',
    'NH': 'New Hampshire',
    'MA': 'Massachusetts',
    'RI': 'Rhode Island',
    'CT': 'Connecticut',
    'NY': 'New York',
    'NJ': 'New Jersey',
    'DE': 'Delaware',
    'MD': 'Maryland',
    'VA': 'Virginia',
    'NC': 'North Carolina',
    'SC': 'South Carolina',
    'GA': 'Georgia',
    'FL': 'Florida'
}

# Crear la nueva columna 'nombre_estado' utilizando el diccionario y el método .map()
df_filtrado['nombre_estado'] = df_filtrado['state'].map(state_names)

# Mostrar el DataFrame con la nueva columna
df_filtrado


In [None]:
df_filtrado


In [None]:
# Guarda el DataFrame en un archivo Parquet
df_filtrado.to_parquet('Business.parquet')

### **02. Carga y exportacion a parquet del archivo Checkin.pkl**

In [None]:

#Ruta de tu archivo JSON 1
ruta_archivo = '/Users/felipeamezquita/Library/Mobile Documents/com~apple~CloudDocs/Documents/HENRY/PROYECTO FINAL/DATA/YELP/checkin.json'

# Carga el archivo JSON en un DataFrame de pandas usando lines=True
df = pd.read_json(ruta_archivo, lines=True)

# Muestra el DataFrame
df

In [None]:
# Guarda el DataFrame en un archivo Parquet
df.to_parquet('Checkin.parquet')

### **03. Carga y exportacion a parquet del archivo review.jsno**

In [None]:
import pandas as pd
import pyarrow as pa
import pyarrow.parquet as pq

# Especificar el archivo Parquet de salida
# El siguiente código sirve para abrir review.json de Yelp, el cual como primer paso lo convierto en un parquet (output.parquet)

output_parquet = 'output.parquet'

# Leer el archivo JSON en chunks
chunksize = 10000  # Tamaño del chunk (puedes ajustarlo según tu memoria disponible)
first_chunk = True

for chunk in pd.read_json('review.json', lines=True, chunksize=chunksize):
    # Convertir el DataFrame en una tabla de Arrow
    table = pa.Table.from_pandas(chunk)
    
    if first_chunk:
        # Crear el archivo Parquet y escribir el primer chunk
        parquet_writer = pq.ParquetWriter(output_parquet, table.schema)
        parquet_writer.write_table(table)
        first_chunk = False
    else:
        # Adjuntar los siguientes chunks al archivo Parquet
        parquet_writer.write_table(table)

# Cerrar el escritor de Parquet al finalizar
parquet_writer.close()


### Abrir nuevamente el archivo output.parquet como dataframe "review"

In [None]:
review = pd.read_parquet("output.parquet")

In [None]:
review.drop(['useful', 'funny', 'cool'], axis=1, inplace=True)

In [None]:
review.to_parquet('review-yelp.parquet', index=False)

### Abrir nuevamente business.parquet para mergear los 14 estados en el dataframe review

In [None]:
business = pd.read_parquet("Business.parquet")

In [None]:
merged_df = pd.merge(business, review, on='business_id', how='inner')

### Exportar a parquet reviews-yelp

In [None]:
merged_df.to_parquet("reviews-yelp.parquet")

## Limpieza metadata_google

In [5]:
df_metadata_google = pd.read_parquet('metadata-sitios-costaeste-estado-ciudad.parquet')
df_metadata_google.head(3)

Unnamed: 0,name,address,gmap_id,latitude,longitude,category,avg_rating,num_of_reviews,price,hours,estado,nombre_estado,city
0,Porter Pharmacy,"Porter Pharmacy, 129 N Second St, Cochran, GA ...",0x88f16e41928ff687:0x883dad4fd048e8f8,32.3883,-83.3571,[Pharmacy],4.9,16,,"[[Friday, 8AM–6PM], [Saturday, 8AM–12PM], [Sun...",GA,Georgia,Cochran
14,NTK OUTDOOR,"NTK OUTDOOR, 2315 NW 107th Ave #1B18, Miami, F...",0x88d9beb4fe0532c1:0xef0555c169299d6,25.795204,-80.366038,[Corporate office],5.0,35,,"[[Thursday, 9AM–6PM], [Friday, 9AM–6PM], [Satu...",FL,Florida,Miami
45,Cruises Inc. - Connie Stewart,"Cruises Inc. - Connie Stewart, 6602 52nd Ln, P...",0x88c2e49b79f06c31:0x4ed8c8ce27e926e0,27.832187,-82.704805,[Cruise agency],5.0,2,,"[[Thursday, 9AM–5PM], [Friday, 9AM–5PM], [Satu...",FL,Florida,Pinellas Park


In [8]:
# Chequeo de duplicados en gmap_id
df_metadata_google.duplicated('gmap_id').sum()

np.int64(8345)

In [9]:
duplicados = df_metadata_google[df_metadata_google.duplicated(subset='gmap_id', keep=False)]
conteo = df_metadata_google['gmap_id'].value_counts()
repetidos = conteo[conteo > 1]

print(repetidos)


gmap_id
0x88f16e41928ff687:0x883dad4fd048e8f8    12
0x884d0db9065bd815:0xae8443b860eebe8e     2
0x89e841975461fb8f:0x16df15574a663326     2
0x88f5993c9c7382fd:0xfd57cf3b5826d3b9     2
0x88d9beb4fe0532c1:0xef0555c169299d6      2
                                         ..
0x88d9a4e66e40edf1:0xebbab577da8076fe     2
0x88d9aa92d831c45b:0x9b14ae9ded185345     2
0x88d9a67325994b17:0xdac6d8d4600fc268     2
0x88d9b937c540e7d7:0xc36f9d9593ca9008     2
0x4cb29c6a0460a84b:0x243771cbbefd58d9     2
Name: count, Length: 8335, dtype: int64


In [10]:
df_metadata_google = df_metadata_google.drop_duplicates(subset=['gmap_id'])

In [11]:
# Chequeo de duplicados en gmap_id
df_metadata_google.duplicated('gmap_id').sum()

np.int64(0)

In [18]:
df_metadata_google.isnull().sum()

name                0
address             0
gmap_id             0
latitude            0
longitude           0
category            0
avg_rating          0
num_of_reviews      0
estado              0
nombre_estado       0
city              667
dtype: int64

Borrar columna price y hours

In [14]:
# Eliminar las columnas especificadas del DataFrame
columnas_a_eliminar = ['price', 'hours']
df_metadata_google = df_metadata_google.drop(columns=columnas_a_eliminar)

Eliminar filas con categorias nulas

In [17]:
df_metadata_google= df_metadata_google.dropna(subset=['category'])

Columna city contiene 667 nulos... ubicar por latitud y longitud ???

In [19]:
import pandas as pd
import glob
import os

# Directorio donde se encuentran tus archivos .parquet
directorio = "reviews-estados"

# Lista todos los archivos .parquet en el directorio
archivos_parquet = glob.glob(os.path.join(directorio, "*.parquet"))

# Lee y concatena los archivos
df_concatenado = pd.concat([pd.read_parquet(archivo) for archivo in archivos_parquet], ignore_index=True)

In [20]:
df_concatenado.head(3)

Unnamed: 0,user_id,name,time,rating,text,gmap_id
0,1.140765e+20,Jeff Mccomish,1612059976820,5,Great friendly independent packie,0x89e64b04d274c9d9:0x84d833dcc10ae21d
1,1.015203e+20,Outlaw PiRu,1544752859553,5,Great Atmosphere and Great Service. Fantastic ...,0x89e64b04d274c9d9:0x84d833dcc10ae21d
2,1.118002e+20,Hector Acevedo,1564367962353,5,Nice neighborhood store with great sandwiches ...,0x89e64b04d274c9d9:0x84d833dcc10ae21d


In [21]:
df_concatenado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24598199 entries, 0 to 24598198
Data columns (total 6 columns):
 #   Column   Dtype  
---  ------   -----  
 0   user_id  float64
 1   name     object 
 2   time     int64  
 3   rating   int64  
 4   text     object 
 5   gmap_id  object 
dtypes: float64(1), int64(2), object(3)
memory usage: 1.1+ GB


In [24]:
df_concatenado.duplicated().sum()


np.int64(1318671)

In [26]:
duplicados_concatenado = df_concatenado[df_concatenado.duplicated(keep=False)]

In [35]:
df_concatenado.drop_duplicates(inplace=True)

In [36]:
df_concatenado.duplicated().sum()


np.int64(0)

In [37]:
df_concatenado.to_parquet("reviews_googlemap.parquet")

In [38]:
df_metadata_google.to_parquet("metadata-2.parquet")