In [2]:
import json
import os
import pandas as pd
from collections import Counter

Vamos a analizar la calidad de los datos en los archivos JSON siguiendo estos puntos:  

### 🔍 **Análisis de Calidad de Datos**
1. **Validez del JSON** → Verificamos si los archivos tienen una estructura JSON válida.
2. **Valores nulos o faltantes** → Campos como `text`, `pics`, y `resp` pueden estar vacíos o `null`.
3. **Distribución de ratings** → Revisamos si hay valores atípicos en `rating` (debe estar entre 1 y 5).
4. **Timestamps** → Validamos si `time` es una fecha coherente.
5. **Duplicados** → Revisamos si hay registros repetidos (`user_id`, `gmap_id`).
6. **Valores categóricos** → Evaluamos si `category` en metadata_sitios es consistente.  


In [3]:
# Función para cargar archivos JSON
def load_json(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        return [json.loads(line) for line in file]

# Función para analizar la calidad de los datos
def analyze_data(file_path):
    data = load_json(file_path)
    df = pd.DataFrame(data)
    
    print(f"\n📌 Análisis del archivo: {file_path}\n")
    
    # 1. Valores nulos o faltantes
    print("🔍 Valores nulos por columna:")
    print(df.isnull().sum())
    
    # 2. Distribución de ratings
    if 'rating' in df.columns:
        print("\n📊 Distribución de ratings:")
        print(df['rating'].value_counts())
    
    # 3. Verificación de timestamps
    if 'time' in df.columns:
        df['time'] = pd.to_datetime(df['time'], unit='ms', errors='coerce')
        print("\n🕒 Rango de fechas en 'time':")
        print(f"Desde: {df['time'].min()} - Hasta: {df['time'].max()}")
    
    # 4. Duplicados
    print("\n🛑 Duplicados en 'user_id' y 'gmap_id':")
    if 'user_id' in df.columns and 'gmap_id' in df.columns:
        print(f"Duplicados por usuario: {df.duplicated('user_id').sum()}")
        print(f"Duplicados por gmap_id: {df.duplicated('gmap_id').sum()}")
    
    # 5. Análisis de categorías
    if 'category' in df.columns:
        categories = Counter([item for sublist in df['category'].dropna() for item in sublist])
        print("\n📌 Categorías más frecuentes:")
        print(categories.most_common(10))
    
    print("\n✅ Análisis completado!\n")


## California

In [4]:
# Ruta de los archivos JSON
directory = "./dataMaps/review-California-20250209T110450Z-001/review-California/"  # Cambia esto a tu directorio con los archivos JSON
json_files = [os.path.join(directory, f) for f in os.listdir(directory) if f.endswith('.json')]


In [5]:
# Analizar los archivos JSON
for file in json_files:
    analyze_data(file)
# Lista para almacenar los DataFrames
all_data = []

# Cargar y combinar los datos de cada archivo JSON
for file in json_files:
    data = load_json(file)
    df = pd.DataFrame(data)
    all_data.append(df)

# Combinar todos los DataFrames en uno solo
combined_df = pd.concat(all_data, ignore_index=True)
combined_df.to_csv("./CSV/California.csv", index=False)


📌 Análisis del archivo: ./dataMaps/review-California-20250209T110450Z-001/review-California/1.json

🔍 Valores nulos por columna:
user_id         0
name            0
time            0
rating          0
text        60865
pics       144368
resp       133065
gmap_id         0
dtype: int64

📊 Distribución de ratings:
rating
5    101348
4     22103
1     11903
3     10384
2      4262
Name: count, dtype: int64

🕒 Rango de fechas en 'time':
Desde: 2004-04-07 00:00:00 - Hasta: 2021-09-09 01:00:32.337000

🛑 Duplicados en 'user_id' y 'gmap_id':
Duplicados por usuario: 31569
Duplicados por gmap_id: 142245

✅ Análisis completado!


📌 Análisis del archivo: ./dataMaps/review-California-20250209T110450Z-001/review-California/10.json

🔍 Valores nulos por columna:
user_id         0
name            0
time            0
rating          0
text        65500
pics       144932
resp       136182
gmap_id         0
dtype: int64

📊 Distribución de ratings:
rating
5    92373
4    30456
3    13995
1     8356
2     

El análisis de los datos muestra información valiosa sobre la calidad de los archivos JSON del estado de California. Aquí están algunos puntos clave a  considerar:

1. **Valores Nulos**:
   - Los campos `text`, `pics`, y `resp` tienen una cantidad significativa de valores faltantes (60865, 144368, y 133065 respectivamente). Esto podría indicar que muchos registros no tienen estos campos llenos.
   
2. **Distribución de Ratings**:
   - La mayoría de las calificaciones son 5 (101,348 registros), lo que podría ser un patrón importante a revisar. Si estás buscando un análisis más equilibrado, esto podría influir en el modelo que estés construyendo o en el análisis de comportamiento.
   
3. **Rango de Fechas en 'time'**:
   - El rango de fechas va desde 2004 hasta 2021. Esto puede ser útil si necesitas revisar la temporalidad de los datos o si hay una gran cantidad de registros antiguos que podrían no ser relevantes.
   
4. **Duplicados**:
   - Hay una cantidad considerable de duplicados por `gmap_id` (146,486). Deberías decidir si estos duplicados son un problema y cómo manejarlos (por ejemplo, eliminarlos o consolidarlos).
   
5. **Análisis de Categorías**:
   - Si tienes campos con categorías, podrías profundizar en las categorías más frecuentes. Este análisis te puede ayudar a entender mejor cómo se distribuyen los datos en términos de categorías.


In [6]:
# Ruta de los archivos JSON
directory = "./dataMaps/review-Florida-20250209T110518Z-001/review-Florida/"  # Cambia esto a tu directorio con los archivos JSON
json_files = [os.path.join(directory, f) for f in os.listdir(directory) if f.endswith('.json')]


# Analizar los archivos JSON
for file in json_files:
    analyze_data(file)
    
# Lista para almacenar los DataFrames
all_data = []

# Cargar y combinar los datos de cada archivo JSON
for file in json_files:
    data = load_json(file)
    df = pd.DataFrame(data)
    all_data.append(df)

# Combinar todos los DataFrames en uno solo
combined_df = pd.concat(all_data, ignore_index=True)
combined_df.to_csv("./CSV/Florida.csv", index=False)


📌 Análisis del archivo: ./dataMaps/review-Florida-20250209T110518Z-001/review-Florida/1.json

🔍 Valores nulos por columna:
user_id         0
name            0
time            0
rating          0
text        49977
pics       145423
resp       118033
gmap_id         0
dtype: int64

📊 Distribución de ratings:
rating
5    108942
4     15200
1     14652
3      7580
2      3626
Name: count, dtype: int64

🕒 Rango de fechas en 'time':
Desde: 2003-05-11 00:00:00 - Hasta: 2021-09-09 16:22:53.205000

🛑 Duplicados en 'user_id' y 'gmap_id':
Duplicados por usuario: 29170
Duplicados por gmap_id: 142287

✅ Análisis completado!


📌 Análisis del archivo: ./dataMaps/review-Florida-20250209T110518Z-001/review-Florida/10.json

🔍 Valores nulos por columna:
user_id         0
name            0
time            0
rating          0
text        59671
pics       145581
resp       129424
gmap_id         0
dtype: int64

📊 Distribución de ratings:
rating
5    94305
4    27506
3    13162
1     9840
2     5187
Name: c

El análisis de los datos muestra lo siguiente:

1. **Valores Nulos por Columna**:
   - Las columnas `user_id`, `name`, `time`, `rating`, y `gmap_id` no tienen valores nulos, lo que significa que todos los registros tienen datos completos en estas columnas.
   - Las columnas `text`, `pics`, y `resp` tienen valores faltantes:
     - `text` tiene 49,977 valores nulos.
     - `pics` tiene 145,423 valores nulos.
     - `resp` tiene 118,033 valores nulos.
   
   Esto sugiere que una gran parte de los registros no contienen datos en estos campos, lo cual podría ser importante dependiendo de cómo planeas utilizar estos datos.

2. **Distribución de Ratings**:
   - La mayoría de los registros tienen una calificación de 5 (108,942 registros), lo que es una distribución sesgada. Esto podría influir en el análisis si buscas patrones de comportamiento de los usuarios.
   - Otras calificaciones están distribuidas de la siguiente manera:
     - 4: 15,200
     - 1: 14,652
     - 3: 7,580
     - 2: 3,626
     
   Si la mayoría de las calificaciones son 5, puede ser útil considerar si este sesgo afecta los modelos de predicción o el análisis que deseas realizar.

3. **Rango de Fechas en 'time'**:
   - Las fechas en la columna `time` varían desde el 11 de mayo de 2003 hasta el 9 de septiembre de 2021. Esto indica que los datos cubren un período largo de tiempo.
   - Podrías analizar la evolución temporal de las calificaciones o el comportamiento de los usuarios a lo largo del tiempo.

4. **Duplicados por `gmap_id`**:
   - Existen 148,752 duplicados en la columna `gmap_id`. Esto significa que muchos registros tienen el mismo valor en `gmap_id`, lo que podría indicar entradas repetidas para el mismo lugar o evento. Sería útil investigar si estos duplicados son un problema, y si es necesario eliminar o consolidar los registros.

### Resumen:
- Los datos tienen varias columnas con valores nulos, especialmente en `text`, `pics`, y `resp`.
- La distribución de calificaciones está sesgada hacia las calificaciones de 5.
- Los registros abarcan un largo rango temporal (desde 2003 hasta 2021).
- Hay una gran cantidad de duplicados en la columna `gmap_id`, lo cual puede necesitar limpieza de datos.


In [7]:
# Ruta de los archivos JSON
directory = "./dataMaps/review-Hawaii-20250209T110522Z-001/review-Hawaii/"  # Cambia esto a tu directorio con los archivos JSON
json_files = [os.path.join(directory, f) for f in os.listdir(directory) if f.endswith('.json')]


# Analizar los archivos JSON
for file in json_files:
    analyze_data(file)
    
# Lista para almacenar los DataFrames
all_data = []

# Cargar y combinar los datos de cada archivo JSON
for file in json_files:
    data = load_json(file)
    df = pd.DataFrame(data)
    all_data.append(df)

# Combinar todos los DataFrames en uno solo
combined_df = pd.concat(all_data, ignore_index=True)
combined_df.to_csv("./CSV/Hawaii.csv", index=False)


📌 Análisis del archivo: ./dataMaps/review-Hawaii-20250209T110522Z-001/review-Hawaii/1.json

🔍 Valores nulos por columna:
user_id         0
name            0
time            0
rating          0
text        62682
pics       138045
resp       138601
gmap_id         0
dtype: int64

📊 Distribución de ratings:
rating
5    92316
4    35135
3    14229
1     4626
2     3694
Name: count, dtype: int64

🕒 Rango de fechas en 'time':
Desde: 2008-07-22 00:00:00 - Hasta: 2021-09-03 03:43:26.411000

🛑 Duplicados en 'user_id' y 'gmap_id':
Duplicados por usuario: 101659
Duplicados por gmap_id: 146218

✅ Análisis completado!


📌 Análisis del archivo: ./dataMaps/review-Hawaii-20250209T110522Z-001/review-Hawaii/10.json

🔍 Valores nulos por columna:
user_id         0
name            0
time            0
rating          0
text        67348
pics       135672
resp       140014
gmap_id         0
dtype: int64

📊 Distribución de ratings:
rating
5    92359
4    38319
3    14199
2     2999
1     2124
Name: count, dt

Aquí tienes un análisis de la respuesta:

### 1. **Valores nulos por columna**:
   - **text**: Tiene **62,682** valores nulos, lo cual podría indicar que muchos registros no tienen texto asociado.
   - **pics**: Tiene **138,045** valores nulos, lo que sugiere que la mayoría de los registros no tienen imágenes.
   - **resp**: Tiene **138,601** valores nulos, lo que indica que casi todos los registros no tienen respuestas asociadas.

   Las columnas `user_id`, `name`, `time`, `rating`, y `gmap_id` no tienen valores nulos, lo que indica que son esenciales y están completos en todos los registros.

### 2. **Distribución de ratings**:
   - El rating **5** es el más frecuente con **92,316** ocurrencias, lo que podría indicar que la mayoría de los registros tienen calificaciones altas.
   - **Rating 4** sigue con **35,135** registros.
   - Los ratings **1** y **2** son menos frecuentes, con **4,626** y **3,694** ocurrencias, respectivamente.

   **Conclusión**: La mayoría de los datos parecen tener una calificación alta (4 y 5), lo que puede ser relevante si estás analizando la calidad o el comportamiento de los usuarios.

### 3. **Rango de fechas en 'time'**:
   - La fecha más antigua registrada es **2008-07-22**, y la más reciente es **2021-09-03**.
   - El rango cubre más de 13 años, lo que sugiere que los datos abarcan un largo período, posiblemente importante para un análisis temporal de tendencias.

### 4. **Duplicados por gmap_id**:
   - Existen **149,691** registros duplicados para la columna `gmap_id`. Esto puede ser un indicio de que hay datos repetidos o que múltiples registros comparten el mismo identificador de Google Maps.

**Conclusión general**:
   - El conjunto de datos tiene varios valores nulos, especialmente en las columnas de texto, imágenes y respuestas, lo que sugiere que los datos en estas áreas son incompletos.
   - Hay una gran cantidad de calificaciones altas (4 y 5), lo que podría indicar que los usuarios tienden a ser positivos en sus valoraciones.
   - Los duplicados en `gmap_id` requieren una revisión para ver si representan registros redundantes o si hay otros motivos por los cuales los datos están repetidos.

In [8]:
# Ruta de los archivos JSON
directory = "./dataMaps/review-New_York-20250209T110506Z-001/review-New_York/"  # Cambia esto a tu directorio con los archivos JSON
json_files = [os.path.join(directory, f) for f in os.listdir(directory) if f.endswith('.json')]


# Analizar los archivos JSON
for file in json_files:
    analyze_data(file)
    
# Lista para almacenar los DataFrames
all_data = []

# Cargar y combinar los datos de cada archivo JSON
for file in json_files:
    data = load_json(file)
    df = pd.DataFrame(data)
    all_data.append(df)

# Combinar todos los DataFrames en uno solo
combined_df = pd.concat(all_data, ignore_index=True)
combined_df.to_csv("./CSV/NY.csv", index=False)


📌 Análisis del archivo: ./dataMaps/review-New_York-20250209T110506Z-001/review-New_York/1.json

🔍 Valores nulos por columna:
user_id         0
name            0
time            0
rating          0
text        62676
pics       145404
resp       133162
gmap_id         0
dtype: int64

📊 Distribución de ratings:
rating
5    99549
4    24298
3    10993
1    10986
2     4174
Name: count, dtype: int64

🕒 Rango de fechas en 'time':
Desde: 1990-12-31 00:00:00 - Hasta: 2021-09-08 02:08:59.373000

🛑 Duplicados en 'user_id' y 'gmap_id':
Duplicados por usuario: 38521
Duplicados por gmap_id: 142159

✅ Análisis completado!


📌 Análisis del archivo: ./dataMaps/review-New_York-20250209T110506Z-001/review-New_York/10.json

🔍 Valores nulos por columna:
user_id         0
name            0
time            0
rating          0
text        68231
pics       143997
resp       140275
gmap_id         0
dtype: int64

📊 Distribución de ratings:
rating
5    85140
4    35879
3    16426
1     7267
2     5288
Name: co

Aquí tienes la interpretación de los resultados:

### 1. **Valores nulos por columna**:
   - **text**: **62,676** valores nulos, lo que sugiere que una gran parte de los registros no contiene texto.
   - **pics**: **145,404** valores nulos, lo que indica que muchos registros no tienen imágenes.
   - **resp**: **133,162** valores nulos, lo que significa que la mayoría de los registros no tienen respuestas asociadas.
   - Las columnas `user_id`, `name`, `time`, `rating`, y `gmap_id` están completas sin valores nulos, lo cual es positivo para la integridad de los datos.

### 2. **Distribución de ratings**:
   - **Rating 5** es el más frecuente con **99,549** registros, lo que podría indicar una tendencia general a calificar de manera positiva.
   - **Rating 4** es el siguiente con **24,298** registros.
   - **Rating 1** y **Rating 3** tienen **10,986** y **10,993** registros respectivamente, lo que muestra una distribución de calificaciones con un sesgo hacia las calificaciones positivas (5 y 4).
   - **Rating 2** tiene **4,174** registros, que es el menos frecuente.

**Conclusión**: La mayoría de las calificaciones en este dataset son positivas (4 y 5), lo que podría sugerir una tendencia de los usuarios a dejar buenas valoraciones.

### 3. **Rango de fechas en 'time'**:
   - La fecha más antigua registrada es **1990-12-31**, lo que indica que los datos cubren un largo período de tiempo, desde 1990 hasta **2021-09-08**.
   - Esto puede ser relevante para análisis a largo plazo de tendencias y comportamientos de los usuarios.

### 4. **Duplicados por gmap_id**:
   - **148,299** registros tienen el mismo `gmap_id`, lo que sugiere que muchos registros pueden estar repetidos o que diferentes registros pueden estar asociados al mismo identificador de Google Maps.

**Conclusión general**:
   - Hay un alto porcentaje de valores nulos en las columnas `text`, `pics` y `resp`, lo que puede afectar el análisis de esos atributos.
   - Las calificaciones son en su mayoría altas, lo que podría reflejar una tendencia de los usuarios a ser más positivos en sus valoraciones.
   - Los duplicados en `gmap_id` deben investigarse, ya que podrían indicar registros redundantes o compartir el mismo identificador por razones que merecen revisión.

In [9]:
# Ruta de los archivos JSON
directory = "./dataMaps/review-Pennsylvania-20250209T110625Z-001/review-Pennsylvania/"  # Cambia esto a tu directorio con los archivos JSON
json_files = [os.path.join(directory, f) for f in os.listdir(directory) if f.endswith('.json')]


# Analizar los archivos JSON
for file in json_files:
    analyze_data(file)
    
# Lista para almacenar los DataFrames
all_data = []

# Cargar y combinar los datos de cada archivo JSON
for file in json_files:
    data = load_json(file)
    df = pd.DataFrame(data)
    all_data.append(df)

# Combinar todos los DataFrames en uno solo
combined_df = pd.concat(all_data, ignore_index=True)
combined_df.to_csv("./CSV/PN.csv", index=False)


📌 Análisis del archivo: ./dataMaps/review-Pennsylvania-20250209T110625Z-001/review-Pennsylvania/1.json

🔍 Valores nulos por columna:
user_id         0
name            0
time            0
rating          0
text        63400
pics       146302
resp       130470
gmap_id         0
dtype: int64

📊 Distribución de ratings:
rating
5    104452
4     22287
3      9887
1      9457
2      3917
Name: count, dtype: int64

🕒 Rango de fechas en 'time':
Desde: 1990-12-31 00:00:00 - Hasta: 2021-09-08 20:37:19.739000

🛑 Duplicados en 'user_id' y 'gmap_id':
Duplicados por usuario: 43731
Duplicados por gmap_id: 142153

✅ Análisis completado!


📌 Análisis del archivo: ./dataMaps/review-Pennsylvania-20250209T110625Z-001/review-Pennsylvania/10.json

🔍 Valores nulos por columna:
user_id         0
name            0
time            0
rating          0
text        62684
pics       146244
resp       128636
gmap_id         0
dtype: int64

📊 Distribución de ratings:
rating
5    97743
4    28290
3    12150
1     754

### Interpretación de los resultados:

### 1. **Valores nulos por columna**:
   - **text**: **63,400** valores nulos. Muchos registros no contienen texto, lo que podría afectar los análisis basados en el contenido textual.
   - **pics**: **146,302** valores nulos. Un gran número de registros no tiene fotos asociadas.
   - **resp**: **130,470** valores nulos. La mayoría de los registros no tienen respuestas.
   - Las columnas `user_id`, `name`, `time`, `rating`, y `gmap_id` están completas, lo que es positivo para la integridad de los datos.

### 2. **Distribución de ratings**:
   - **Rating 5** es el valor más frecuente con **104,452** registros, lo que indica que la mayoría de los usuarios otorgan calificaciones muy altas.
   - **Rating 4** sigue con **22,287** registros.
   - **Rating 1** y **Rating 3** tienen **9,457** y **9,887** registros respectivamente, lo que sugiere que las calificaciones negativas o neutrales no son tan comunes.
   - **Rating 2** tiene **3,917** registros, lo que es el valor menos frecuente.

**Conclusión**: Al igual que en las respuestas anteriores, las calificaciones son predominantemente positivas (4 y 5), lo que podría indicar una tendencia de los usuarios a otorgar buenas valoraciones.

### 3. **Rango de fechas en 'time'**:
   - El rango de fechas va desde **1990-12-31** hasta **2021-09-08**, lo que cubre un largo período de tiempo.
   - Esto permite realizar análisis de tendencias a lo largo de varios años, observando posibles cambios en el comportamiento de los usuarios.

### 4. **Duplicados por gmap_id**:
   - **146,126** registros tienen el mismo `gmap_id`, lo que sugiere que una gran cantidad de entradas pueden estar duplicadas o asociadas al mismo lugar, lo que merece ser investigado para evitar posibles errores o registros redundantes.

**Conclusión general**:
   - Existen muchos valores nulos en las columnas `text`, `pics` y `resp`, lo que podría afectar el análisis de estos atributos.
   - Las calificaciones son en su mayoría positivas, lo que refleja una tendencia hacia valoraciones altas por parte de los usuarios.
   - Los duplicados en `gmap_id` necesitan una revisión para entender si se trata de registros repetidos o de una asociación legítima entre entradas.

Cuando se encuentran valores nulos o faltantes en los datos, es importante decidir cómo manejarlos dependiendo del contexto y los objetivos del análisis. Aquí te doy algunas recomendaciones específicas para las columnas con valores nulos en tu caso:

### 1. **Columna `text` (63,400 valores nulos)**:
   - **Relleno**: Si el `text` es relevante, podrías considerar rellenarlo con un valor genérico (por ejemplo, "Sin comentario") o utilizar técnicas de imputación (por ejemplo, rellenar con el texto más común o el valor más frecuente).
   
### 2. **Columna `pics` (146,302 valores nulos)**:
   - **Eliminación**: Las fotos no son necesarias para el análisis, eliminar estas filas con valores nulos.
  
### 3. **Columna `resp` (130,470 valores nulos)**:
   - **Eliminación**: Las respuestas no son cruciales para el análisis y la falta de ellas es masiva, vamos a eliminar estas filas.


In [10]:
# Ruta a la carpeta con los archivos CSV
directory = "./CSV"  # Cambia esto a la ruta de tu carpeta

# Recorrer todos los archivos en la carpeta
for filename in os.listdir(directory):
    if filename.endswith(".csv"):  # Solo archivos CSV
        file_path = os.path.join(directory, filename)
        
        # Leer el archivo CSV
        df = pd.read_csv(file_path)
        
        # Eliminar las columnas 'resp' y 'pics'
        if 'resp' in df.columns:
            df = df.drop(columns=['resp'])
        if 'pics' in df.columns:
            df = df.drop(columns=['pics'])
        
        # Guardar el archivo CSV modificado
        df.to_csv(file_path, index=False)  # Sobrescribir el archivo original

        print(f"Se han eliminado las columnas de {filename}")

Se han eliminado las columnas de California.csv
Se han eliminado las columnas de Florida.csv
Se han eliminado las columnas de Hawaii.csv
Se han eliminado las columnas de NY.csv
Se han eliminado las columnas de PN.csv


In [11]:
# Recorrer todos los archivos en la carpeta
for filename in os.listdir(directory):
    if filename.endswith(".csv"):  # Solo archivos CSV
        file_path = os.path.join(directory, filename)
        
        # Leer el archivo CSV
        df = pd.read_csv(file_path)
        
        # Imprimir las columnas de cada archivo
        print(f"Columnas en {filename}:")
        print(df.columns.tolist())
        print("-" * 40)

Columnas en California.csv:
['user_id', 'name', 'time', 'rating', 'text', 'gmap_id']
----------------------------------------
Columnas en Florida.csv:
['user_id', 'name', 'time', 'rating', 'text', 'gmap_id']
----------------------------------------
Columnas en Hawaii.csv:
['user_id', 'name', 'time', 'rating', 'text', 'gmap_id']
----------------------------------------
Columnas en NY.csv:
['user_id', 'name', 'time', 'rating', 'text', 'gmap_id']
----------------------------------------
Columnas en PN.csv:
['user_id', 'name', 'time', 'rating', 'text', 'gmap_id']
----------------------------------------


In [18]:
# Ruta de los archivos JSON
directory = "./dataMaps/metadata-sitios/"  # Cambia esto a tu directorio con los archivos JSON
json_files = [os.path.join(directory, f) for f in os.listdir(directory) if f.endswith('.json')]


# Analizar los archivos JSON
for file in json_files:
    analyze_data(file)
    
# Lista para almacenar los DataFrames
all_data = []

# Cargar y combinar los datos de cada archivo JSON
for file in json_files:
    data = load_json(file)
    df = pd.DataFrame(data)
    all_data.append(df)

# Combinar todos los DataFrames en uno solo
combined_df = pd.concat(all_data, ignore_index=True)
combined_df.to_csv("./CSV/metadata.csv", index=False)


📌 Análisis del archivo: ./dataMaps/metadata-sitios/1.json

🔍 Valores nulos por columna:
name                     7
address              10062
gmap_id                  0
description         261846
latitude                 0
longitude                0
category              2261
avg_rating               0
num_of_reviews           0
price               261551
hours                82553
MISC                 80029
state                79478
relative_results     36230
url                      0
dtype: int64

🛑 Duplicados en 'user_id' y 'gmap_id':

📌 Categorías más frecuentes:
[('Service establishment', 10055), ('Beauty salon', 5612), ('Auto repair shop', 5499), ('Restaurant', 5386), ('Church', 5349), ('Convenience store', 5122), ('Gas station', 4786), ('Doctor', 4492), ('ATM', 4285), ('Insurance agency', 4094)]

✅ Análisis completado!


📌 Análisis del archivo: ./dataMaps/metadata-sitios/10.json

🔍 Valores nulos por columna:
name                     1
address               5205
gmap_id       

### 📊 **Análisis General de la metadata**  

#### 1️⃣ **Valores Nulos**  
- **Las columnas con más valores nulos:**  
  - `description` (~240,000 - 260,000 valores nulos).  
  - `price` (~236,000 - 261,000 valores nulos).  
  - `hours`, `MISC`, `state` y `relative_results` también tienen valores nulos en gran cantidad.  
- **Las columnas sin valores nulos:**  
  - `gmap_id`, `latitude`, `longitude`, `avg_rating`, `num_of_reviews`, y `url`.  

#### 2️⃣ **Duplicados en `user_id` y `gmap_id`**  
- No se muestra la cantidad exacta de duplicados, pero parece ser un problema que hay que revisar.  

#### 3️⃣ **Categorías Más Frecuentes**  
- **Las categorías más repetidas en todos los archivos:**  
  - `Restaurant`  
  - `Auto repair shop`  
  - `Gas station`  
  - `Beauty salon`  
  - `Convenience store`  
  - `Hair salon`  
  - `Church`  
  - `Nail salon`  
  - `ATM`  
  - `Doctor`  

### 🔎 **Posibles Acciones a Tomar**  
✅ **Limpieza de Datos:**  
- Remover o imputar valores nulos en `description`, `price`, y `hours`.  
- Revisar duplicados en `user_id` y `gmap_id` para evitar registros repetidos.  

✅ **Estructura de Datos:**  
- Asegurar que `category` no tenga variaciones en nombres (ej. `Restaurant` y `Fast food restaurant`).  

✅ **Análisis Adicional:**  
- Ver si `num_of_reviews` y `avg_rating` tienen correlación con alguna categoría en particular.  
- Analizar la distribución de coordenadas (`latitude`, `longitude`).  

¿Quieres que te ayude con código para limpiar los datos o hacer algún análisis específico? 🚀