## EDA de Google Maps
* Voy a traer los archivos desde el Drive. 
* Usaré una muestra de los datos. Usaré 6 estados para tener una noción sobre qué datos manejamos.
* Las librerías que voy a utilizar serán matplotlib, pandas y numpy.



# **Análisis Exploratorio de Datos (EDA) para el Proyecto Yelp-Google**

El Análisis Exploratorio de Datos (EDA) es el proceso de explorar y comprender los datos antes de realizar análisis más avanzados. En este Jupyter notebook, realizaremos un EDA para los conjuntos de datos relacionados con Yelp, con el objetivo de identificar problemas potenciales y comprender mejor la estructura de los datos. A continuación se describen los pasos que seguiremos:

---

### **1. Exploración Inicial**
- **1.1. Carga del Archivo**: Cargaremos cada archivo en un DataFrame de pandas.
- **1.2. Dimensiones del DataFrame**: Determinaremos cuántas filas y columnas tiene cada DataFrame.
- **1.3. Tipos de Datos**: Revisaremos los tipos de datos para cada columna.
- **1.4. Muestra Rápida**: Observaremos las primeras y últimas filas para tener una idea general del contenido del DataFrame.



### **2. Análisis de Datos Cualitativos**
- **2.1. Valores Nulos**: Identificaremos columnas con valores faltantes y cuántos valores nulos hay.
- **2.2. Estadísticas Básicas**: Utilizaremos `describe()` para obtener estadísticas como media, mediana, desviación estándar, etc.
- **2.3. Valores Únicos**: Contaremos cuántos valores únicos hay en cada columna para entender su diversidad.



### **3. Análisis de Datos Cuantitativos**
- **3.1. Distribuciones**: Crearemos histogramas para visualizar la distribución de las columnas numéricas.
- **3.2. Correlaciones**: Analizaremos las correlaciones entre columnas numéricas para encontrar relaciones significativas.
- **3.3. Detección de Outliers**: Usaremos gráficos como boxplots para detectar valores atípicos.



### **4. Análisis de Datos Categóricos**
- **4.1. Distribución de Categorías**: Verificaremos la frecuencia de las categorías para entender su diversidad.
- **4.2. Relaciones entre Categorías**: Usaremos gráficos de barras para ver cómo se relacionan las categorías con otras variables.



### **5. Preguntas Clave**
- **5.1. Columnas Importantes**: Identificaremos las columnas más relevantes para el análisis futuro.
- **5.2. Patrones y Tendencias**: Buscaremos patrones o tendencias útiles para el análisis posterior.
- **5.3. Correlaciones**: Exploraremos correlaciones entre columnas para identificar relaciones significativas.

---

Al final de este EDA, esperamos tener una comprensión clara de nuestros datos, permitiéndonos planificar y ejecutar análisis más avanzados. Este proceso establecerá una base sólida para el resto del proyecto y asegurará que estamos trabajando con datos limpios y consistentes.

---

In [32]:
import json
import pandas as pd
import numpy as np 
import matplotlib.pyplot as plt
import os

In [33]:
def cargar_json_a_dataframe(ruta):
    """
    Carga un archivo JSON línea por línea y lo convierte en un DataFrame de pandas.
    
    Args:
    ruta (str): La ruta al archivo JSON.
    
    Returns:
    pd.DataFrame: El DataFrame que contiene los datos del archivo JSON.
    """
    registros = []
    
    try:
        # Abre el archivo JSON y lee las líneas
        with open(ruta, 'r', encoding='utf-8') as f:
            for line in f:
                # Convierte cada línea en un diccionario usando json.loads
                registro = json.loads(line.strip())
                registros.append(registro)
                
        # Crea el DataFrame a partir de la lista de diccionarios
        df = pd.DataFrame(registros)
        return df
    
    except FileNotFoundError:
        print(f"El archivo {ruta} no se encontró.")
        return None
    except json.JSONDecodeError:
        print(f"Error al decodificar JSON en {ruta}.")
        return None


In [34]:
def cargar_y_concatenar_datasets(lista_rutas):
    """
    Carga varios datasets desde una lista de rutas y los concatena en un solo DataFrame.
    
    Args:
    lista_rutas (list): Lista de rutas de los archivos JSON a cargar.
    
    Returns:
    pd.DataFrame: Un DataFrame que contiene los datos concatenados de todos los datasets.
    """
    dataframes = []
    
    # Recorre la lista de rutas
    for ruta in lista_rutas:
        # Carga el DataFrame desde la ruta utilizando la función cargar_json_a_dataframe
        df = cargar_json_a_dataframe(ruta)
        
        # Añade el DataFrame cargado a la lista
        dataframes.append(df)
    
    # Concatenar todos los DataFrames en un solo DataFrame grande
    df_concatenado = pd.concat(dataframes, ignore_index=True)
    
    return df_concatenado

In [35]:
def cargar_y_concatenar_datasets_carpeta(carpeta):
    """
    Carga y concatena todos los datasets en formato JSON de una carpeta en un solo DataFrame.
    
    Args:
    carpeta (str): La ruta de la carpeta que contiene los datasets en formato JSON.
    
    Returns:
    pd.DataFrame: Un DataFrame que contiene los datos concatenados de todos los datasets.
    """
    dataframes = []
    
    # Recorre todos los archivos en la carpeta especificada
    for archivo in os.listdir(carpeta):
        # Construye la ruta completa del archivo
        ruta = os.path.join(carpeta, archivo)
        
        # Verifica si el archivo es un archivo JSON (puedes ajustar esta condición según el formato)
        if archivo.endswith('.json'):
            # Carga el DataFrame desde la ruta utilizando cargar_json_a_dataframe
            df = cargar_json_a_dataframe(ruta)
            
            # Añade el DataFrame cargado a la lista
            dataframes.append(df)
    
    # Concatenar todos los DataFrames en un solo DataFrame grande
    df_concatenado = pd.concat(dataframes, ignore_index=True)
    
    return df_concatenado


# Carga de datos


## Alabama

In [None]:
Rutas_Alabama = ['Estados/review-Alabama/1.json','Estados/review-Alabama/2.json','Estados/review-Alabama/3.json','Estados/review-Alabama/4.json','Estados/review-Alabama/5.json','Estados/review-Alabama/6.json','Estados/review-Alabama/7.json','Estados/review-Alabama/8.json','Estados/review-Alabama/9.json','Estados/review-Alabama/10.json','Estados/review-Alabama/11.json','Estados/review-Alabama/12.json']
Df_Alabama = cargar_y_concatenar_datasets(Rutas_Alabama)
Df_Alabama.info()


In [None]:
Df_Alabama.to_parquet('Estados_Concatenados/Alabama.parquet')

## Alaska

In [None]:
Rutas_Alaska = ['Estados/review-Alaska/1.json','Estados/review-Alaska/2.json','Estados/review-Alaska/3.json','Estados/review-Alaska/4.json']
Df_Alaska = cargar_y_concatenar_datasets(Rutas_Alaska)
Df_Alaska.info()
Df_Alaska.to_parquet('Estados_Concatenados/Alaska.parquet')

## Arizona

In [None]:
Rutas_Arizona = ['Estados/review-Arizona/1.json','Estados/review-Arizona/2.json','Estados/review-Arizona/3.json','Estados/review-Arizona/4.json','Estados/review-Arizona/5.json','Estados/review-Arizona/6.json','Estados/review-Arizona/7.json','Estados/review-Arizona/8.json','Estados/review-Arizona/9.json','Estados/review-Arizona/10.json','Estados/review-Arizona/11.json','Estados/review-Arizona/12.json','Estados/review-Arizona/13.json','Estados/review-Arizona/14.json']
Df_Arizona = cargar_y_concatenar_datasets(Rutas_Arizona)
Df_Arizona.info()
Df_Arizona.to_parquet('Estados_Concatenados/Arizona.parquet')

## Arkansas

In [None]:
Rutas_Arkansas = ['Estados/review-Arkansas/1.json','Estados/review-Arkansas/2.json','Estados/review-Arkansas/3.json','Estados/review-Arkansas/4.json','Estados/review-Arkansas/5.json','Estados/review-Arkansas/6.json','Estados/review-Arkansas/7.json','Estados/review-Arkansas/8.json','Estados/review-Arkansas/9.json','Estados/review-Arkansas/10.json','Estados/review-Arkansas/11.json','Estados/review-Arkansas/12.json','Estados/review-Arkansas/13.json','Estados/review-Arkansas/14.json','Estados/review-Arkansas/15.json','Estados/review-Arkansas/16.json']
Df_Arkansas = cargar_y_concatenar_datasets(Rutas_Arkansas)
Df_Arizona.info()
Df_Arizona.to_parquet('Estados_Concatenados/Arkansas.parquet')

## California

In [None]:
Df_California = cargar_y_concatenar_datasets_carpeta('Estados/review-California')
Df_California.info()
Df_California.to_parquet('Estados_Concatenados/California.parquet')

## Colorado

In [None]:
Df_Colorado = cargar_y_concatenar_datasets_carpeta('Estados/review-Colorado')
Df_Colorado.info()
Df_Colorado.to_parquet('Estados_Concatenados/Colorado.parquet')

## Connecticut

In [None]:
Df_Connecticut = cargar_y_concatenar_datasets_carpeta('Estados/review-Connecticut')
Df_Connecticut.info()
Df_Connecticut.to_parquet('Estados_Concatenados/Connecticut.parquet')

## Delaware


In [None]:
Df_Connecticut = cargar_y_concatenar_datasets_carpeta('Estados/review-Delaware')
Df_Connecticut.info()
Df_Connecticut.to_parquet('Estados_Concatenados/Delaware.parquet')

## Distrito de Columbia

In [None]:
Df_District_Of_Columbia = cargar_y_concatenar_datasets_carpeta('Estados/review-District_of_Columbia')
Df_District_Of_Columbia.info()
Df_District_Of_Columbia.to_parquet('Estados_Concatenados/Distrito_De_Columbia.parquet')

## Florida

In [None]:
Df_Florida = cargar_y_concatenar_datasets_carpeta('Estados/review-Florida')
Df_Florida.info()
Df_Florida.to_parquet('Estados_Concatenados/Florida.parquet')

## Georgia

In [None]:
Df_Georgia = cargar_y_concatenar_datasets_carpeta('Estados/review-Georgia')
Df_Georgia.info()
Df_Georgia.to_parquet('Estados_Concatenados/Georgia.parquet')

## Hawaii

In [None]:
Df_Hawaii = cargar_y_concatenar_datasets_carpeta('Estados/review-Hawaii')
Df_Hawaii.info()
Df_Hawaii.to_parquet('Estados_Concatenados/Hawaii.parquet')

## Idaho

In [None]:
Df_Idaho = cargar_y_concatenar_datasets_carpeta('Estados/review-Idaho')
Df_Idaho.info()
Df_Idaho.to_parquet('Estados_Concatenados/Idaho.parquet')

## Illinois

In [None]:
Df_Illinois = cargar_y_concatenar_datasets_carpeta('Estados/review-Illinois')
Df_Illinois.info()
Df_Illinois.to_parquet('Estados_Concatenados/Illinois.parquet')

## Indiana

In [None]:
Df_Indiana = cargar_y_concatenar_datasets_carpeta('Estados/review-Indiana')
Df_Indiana.info()
Df_Indiana.to_parquet('Estados_Concatenados/Indiana.parquet')

## Iowa

In [None]:
Df_Iowa = cargar_y_concatenar_datasets_carpeta('Estados/review-Iowa')
Df_Iowa.info()
Df_Iowa.to_parquet('Estados_Concatenados/Iowa.parquet')

## Kansas


In [None]:
Df_Kansas = cargar_y_concatenar_datasets_carpeta('Estados/review-Kansas')
Df_Kansas.info()
Df_Kansas.to_parquet('Estados_Concatenados/Kansas.parquet')

## Kentucky

In [None]:
Df_Kentucky = cargar_y_concatenar_datasets_carpeta('Estados/review-Kentucky')
Df_Kentucky.info()
Df_Kentucky.to_parquet('Estados_Concatenados/Kentucky.parquet')

## Louisiana

In [None]:
Df_Louisiana = cargar_y_concatenar_datasets_carpeta('Estados/review-Louisiana')
Df_Louisiana.info()
Df_Louisiana.to_parquet('Estados_Concatenados/Louisiana.parquet')

## Maine

In [None]:
Df_Maine = cargar_y_concatenar_datasets_carpeta('Estados/review-Maine')
Df_Maine.info()
Df_Maine.to_parquet('Estados_Concatenados/Maine.parquet')

## Maryland

In [None]:
Df_Maryland = cargar_y_concatenar_datasets_carpeta('Estados/review-Maryland')
Df_Maryland.info()
Df_Maryland.to_parquet('Estados_Concatenados/Maryland.parquet')

## Massachusetts

In [None]:
Df_Massachusetts = cargar_y_concatenar_datasets_carpeta('Estados/review-Massachusetts')
Df_Massachusetts.info()
Df_Massachusetts.to_parquet('Estados_Concatenados/Massachusetts.parquet')

## Michigan

In [None]:
Df_Michigan = cargar_y_concatenar_datasets_carpeta('Estados/review-Michigan')
Df_Michigan.info()
Df_Michigan.to_parquet('Estados_Concatenados/Michigan.parquet')

## Minnesota

In [None]:
Df_Minnesota = cargar_y_concatenar_datasets_carpeta('Estados/review-Minnesota')
Df_Minnesota.info()
Df_Minnesota.to_parquet('Estados_Concatenados/Minnsota.parquet')

## Mississippi

In [None]:
Df_Mississippi = cargar_y_concatenar_datasets_carpeta('Estados/review-Mississippi')
Df_Mississippi.info()
Df_Mississippi.to_parquet()

## Missouri

In [None]:
Df_Missouri = cargar_y_concatenar_datasets_carpeta('Estados/review-Missouri')
Df_Missouri.info()
Df_Missouri.to_parquet('Estados_Concatenados/Missouri.parquet')

## Montana

In [None]:
Df_Montana = cargar_y_concatenar_datasets_carpeta("Estados/review-Montana")
Df_Montana.info()
Df_Montana.to_parquet('Estados_Concatenados/Montana.parquet')

## Nebraska

In [None]:
Df_Nebraska = cargar_y_concatenar_datasets_carpeta('Estados/review-Nebraska')
Df_Nebraska.info()
Df_Nebraska.to_parquet('Estados_Concatenados/Nebraska.parquet')

## Nevada

In [None]:
Df_Nevada = cargar_y_concatenar_datasets_carpeta('Estados/review-Nevada')
Df_Nevada.info()
Df_Nevada.to_parquet('Estados_Concatenados/Nevada.parquet')

## New Hampshire

In [None]:
Df_New_Hampshire = cargar_y_concatenar_datasets_carpeta('Estados/review-New_Hampshire')
Df_New_Hampshire.to_parquet('Estados_Concatenados/New_Hampshire.parquet')

## New Jersey

In [None]:
Df_New_Jersey = cargar_y_concatenar_datasets_carpeta("Estados/review-New_Jersey")
Df_New_Jersey.to_parquet('Estados_Concatenados/New_Jersey.parquet')

## New Mexico

In [None]:
Df_New_Mexico = cargar_y_concatenar_datasets_carpeta("Estados/review-New_Mexico")
Df_New_Mexico.to_parquet('Estados_Concatenados/New_Mexico.parquet')

## New York

In [None]:
Df_New_York = cargar_y_concatenar_datasets_carpeta('Estados/review-New_York')
Df_New_York.to_parquet('Estados_Concatenados/New_York.parquet')

## North Carolina

In [None]:
Df_North_Carolina = cargar_y_concatenar_datasets_carpeta('Estados/review-North_Carolina')
Df_North_Carolina.to_parquet('Estados_Concatenados/North_Carolina.parquet')

## North Dakota

In [None]:
Df_North_Dakota = cargar_y_concatenar_datasets_carpeta('Estados/review-North_Dakota')
Df_North_Dakota.to_parquet('Estados_Concatenados/North_Dakota.parquet')

## Ohio

In [None]:
Df_Ohio = cargar_y_concatenar_datasets_carpeta('Estados/review-Ohio')
Df_Ohio.to_parquet('Estados_Concatenados/Ohio.parquet')

## Oklahoma

In [None]:
Df_Oklahoma = cargar_y_concatenar_datasets_carpeta('Estados/review-Oklahoma')
Df_Oklahoma.to_parquet('Estados_Concatenados/Oklahoma.parquet')

## Oregon

In [None]:
Df_Oregon = cargar_y_concatenar_datasets_carpeta('Estados/review-Oregon')
Df_Oregon.to_parquet('Estados_Concatenados/Oregon.parquet')

## Pennsylvania

In [None]:
Df_Pennsylvania = cargar_y_concatenar_datasets_carpeta('Estados/review-Pennsylvania')
Df_Pennsylvania.to_parquet('Estados_Concatenados/Pennsylvania.parquet')

## Rhode Island

In [None]:
Df_Rhode_Island = cargar_y_concatenar_datasets_carpeta('Estados/review-Rhode_Island')
Df_Rhode_Island.to_parquet('Estados_Concatenados/Rhode_Island.parquet')

## South Carolina

In [None]:
Df_South_Carolina = cargar_y_concatenar_datasets_carpeta('Estados/review-South_Carolina')
Df_South_Carolina.to_parquet('Estados_Concatenados/South_Carolina.parquet')

## South Dakota

In [None]:
Df_South_Dakota = cargar_y_concatenar_datasets_carpeta('Estados/review-South_Dakota')
Df_South_Dakota.to_parquet('Estados_Concatenados/South_Dakota.parquet')

## Tennessee

In [None]:
Df_Tennessee = cargar_y_concatenar_datasets_carpeta('Estados/review-Tennessee')
Df_Tennessee.to_parquet('Estados_Concatenados/Tennessee.parquet')

## Texas

In [None]:
Df_Texas = cargar_y_concatenar_datasets_carpeta('Estados/review-Texas')
Df_Texas.to_parquet('Estados_Concatenados/Texas.parquet')

## Utah

In [None]:
Df_Utah = cargar_y_concatenar_datasets_carpeta('Estados/review-Utah')
Df_Utah.to_parquet('Estados_Concatenados/Utah.parquet')

## Vermont 

In [None]:
Df_Vermont = cargar_y_concatenar_datasets_carpeta('Estados/review-Vermont')
Df_Vermont.to_parquet('Estados_Concatenados/Vermont.parquet')

## Virginia

In [31]:
Df_Virginia = cargar_y_concatenar_datasets_carpeta('Estados/review-Virginia')
Df_Virginia.to_parquet('Estados_Concatenados/Virginia.parquet')

## Washington

In [36]:
Df_Washington = cargar_y_concatenar_datasets_carpeta('Estados/review-Washington')
Df_Washington.to_parquet('Estados_Concatenados/Washington.parquet')

## West Virginia

In [37]:
Df_West_Virginia = cargar_y_concatenar_datasets_carpeta('Estados/review-West_Virginia')
Df_West_Virginia.to_parquet('Estados_Concatenados/West_Virginia.parquet')

## Wisconsin

In [38]:
Df_Wisconsin = cargar_y_concatenar_datasets_carpeta('Estados/review-Wisconsin')
Df_Wisconsin.to_parquet('Estados_Concatenados/Wisconsin.parquet')

## Wyoming

In [39]:
Df_Wyoming = cargar_y_concatenar_datasets_carpeta('Estados/review-Wyoming')
Df_Wyoming.to_parquet('Estados_Concatenados/Wyoming.parquet')