# ETL Business Google Maps


**En este archivo se concatenarán los archivos que componen la metadata de los sitios de google maps y se guardarán en formato parquet** 

In [2]:
import os
import pandas as pd
import json

In [3]:
def cargar_json_a_dataframe(ruta):
    # Abre el archivo JSON y lee las líneas
    with open(ruta, 'r', encoding='utf-8') as f:
        data = f.readlines()
    # Convierte cada línea en un diccionario usando json.loads
    registros = [json.loads(line.strip()) for line in data]
    # Crea el DataFrame a partir de la lista de diccionarios
    df = pd.DataFrame(registros)
    return df

# Directorio que contiene los archivos JSON
directorio = 'Gmap_business/'

# Lista para almacenar los DataFrames cargados desde cada archivo JSON
dataframes = []

# Itera sobre los archivos en el directorio
for filename in os.listdir(directorio):
    if filename.endswith('.json'):
        ruta_completa = os.path.join(directorio, filename)
        # Carga el archivo JSON en un DataFrame y lo agrega a la lista
        df = cargar_json_a_dataframe(ruta_completa)
        dataframes.append(df)

# Concatena todos los DataFrames en uno solo
Gmap_Business = pd.concat(dataframes, ignore_index=True)

# Muestra información sobre el DataFrame concatenado
print("Información del DataFrame concatenado:")
print(Gmap_Business.info())

# Muestra las primeras filas del DataFrame concatenado
print("\nPrimeras filas del DataFrame concatenado:")
print(Gmap_Business.head())

Información del DataFrame concatenado:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2750010 entries, 0 to 2750009
Data columns (total 15 columns):
 #   Column            Dtype  
---  ------            -----  
 0   name              object 
 1   address           object 
 2   gmap_id           object 
 3   description       object 
 4   latitude          float64
 5   longitude         float64
 6   category          object 
 7   avg_rating        float64
 8   num_of_reviews    int64  
 9   price             object 
 10  hours             object 
 11  MISC              object 
 12  state             object 
 13  relative_results  object 
 14  url               object 
dtypes: float64(3), int64(1), object(11)
memory usage: 314.7+ MB
None

Primeras filas del DataFrame concatenado:
               name                                            address  \
0   Porter Pharmacy  Porter Pharmacy, 129 N Second St, Cochran, GA ...   
1  Clean Air Vapors  Clean Air Vapors, 401 W Main St, Rivert

In [4]:
Gmap_Business.head(3)

Unnamed: 0,name,address,gmap_id,description,latitude,longitude,category,avg_rating,num_of_reviews,price,hours,MISC,state,relative_results,url
0,Porter Pharmacy,"Porter Pharmacy, 129 N Second St, Cochran, GA ...",0x88f16e41928ff687:0x883dad4fd048e8f8,,32.3883,-83.3571,[Pharmacy],4.9,16,,"[[Friday, 8AM–6PM], [Saturday, 8AM–12PM], [Sun...","{'Service options': ['In-store shopping', 'Sam...",Open ⋅ Closes 6PM,"[0x88f16e41929435cf:0x5b2532a2885e9ef6, 0x88f1...",https://www.google.com/maps/place//data=!4m2!3...
1,Clean Air Vapors,"Clean Air Vapors, 401 W Main St, Riverton, WY ...",0x8758dd1117f560df:0xe691711d0c88da68,,43.024439,-108.395705,[Store],4.6,68,,"[[Saturday, 9AM–7PM], [Sunday, Closed], [Monda...","{'Service options': ['In-store shopping', 'Del...",Open ⋅ Closes 7PM,[0x8758dd1cf86fffe7:0x6bb1a35d921b6caf],https://www.google.com/maps/place//data=!4m2!3...
2,Boot Bar,"Boot Bar, 702 E Main St, Riverton, WY 82501",0x8758dd1d120d3c0d:0xe49a6c2994c781c0,Retail chain with a variety of Western & work-...,43.024925,-108.381859,[Bar],4.3,98,$,"[[Saturday, 10AM–2AM], [Sunday, 12–10PM], [Mon...","{'Service options': ['Outdoor seating', 'Takeo...",Open ⋅ Closes 2AM,"[0x8758dd1b65464237:0x76cc809276a4a18c, 0x8758...",https://www.google.com/maps/place//data=!4m2!3...


Guardamos este dataframe en formato parquet

In [5]:
Gmap_Business.to_parquet('Gmap_Business/Gmap_Business.parquet')