# Exploratory Analysis 

In [1]:
import pandas as pd

# Create Helper Function to Process Data

In [2]:
# Import json library to load ejm2.json
import json

In [3]:
# Cargamos el archivo ejm2.json a la variable 'data' para poder visualizar su contenido
# 'r' es para leer (read) 
with open('ejm2.json', 'r') as f:
    data = json.load(f)

In [4]:
# Valores que obtendremos de value['itemList']
nested_values = ['desc', 'author', 'music', 'authorStats', 'stats', 'statsV2', 'video']
# Valores que necesitaremos de cada dato de nested_value
author_values = ['id', 'nickname', 'uniqueId', 'signature']
video_values = ['duration', 'format', 'height']
authorStats_values = ['followerCount', 'followingCount', 'heart', 'videoCount']
stats_values = ['commentCount', 'playCount']
music_values = ['album', 'authorName']      
statsV2_values = ['playCount', 'commentCount', 'diggCount']

In [5]:
# Nuevo diccionario para almacenar datos los keys() que necesitemos que estaran anidados para 
# Posteriormente extraer los ideales
flattened_data = {}
# Iteramos en la data desordenada que extrajimos
for value in data:
    # idx es el indice de la cantidad de busqueda que hicimos con la API de tiktok, esto nos arrojo 30 usuarios
    # crt vendrian a ser los valores
    # itemList es el key() principal donde esta toda la data que necesitamos
    for idx, crt in enumerate(value['itemList']):
        # En el diccionario creado anteriormente ordenamos los 30 usuarios que obtuvimos
        flattened_data[idx] = {}
        # de itemList extraemos toda la data que obtuvimos de la API
        for prop_idx, prop_value in crt.items():
            # Solo necesitamos datos predeterminados anteriormente en neste_values
            if prop_idx in nested_values:
                # Rellenamos nuestro diccionario con la data necesitada
                flattened_data[idx][prop_idx] = prop_value

In [9]:
flattened_data[0]['desc']

'Respuesta a @Josué López Donayre ¿Qué te pareció el precio? ¿Lo comprarías? 🥳 #inmobiliaria #realestate #bienesraices #venta #inmuebles #parati #foryoupage #home #inversion #casas '

In [13]:
# Nuevo diccionario para almacenar los datos filtrados de flattened_data
filtered_data = {}
# Iterar sobre los datos obtenidos anteriormente
for idx, crt in flattened_data.items():
    filtered_data[idx] = {}
    if 'desc' in crt:
        filtered_data[idx]['desc'] = {crt['desc']}
    # Extraer valores de 'author'
    if 'author' in crt:
        filtered_data[idx]['author'] = {key: value for key, value in crt['author'].items() if key in author_values}
    # Extraer valores de 'music'
    if 'music' in crt:
        filtered_data[idx]['music'] = {key: value for key, value in crt['music'].items() if key in music_values}
    # Extraer valores de 'authorStats'
    if 'authorStats' in crt:
        filtered_data[idx]['authorStats'] = {key: value for key, value in crt['authorStats'].items() if key in authorStats_values}
    # Extraer valores de 'stats'
    if 'stats' in crt:
        filtered_data[idx]['stats'] = {key: value for key, value in crt['stats'].items() if key in stats_values}
    # Extraer valores de 'statsV2'
    if 'statsV2' in crt:
        filtered_data[idx]['statsV2'] = {key: value for key, value in crt['statsV2'].items() if key in statsV2_values}


In [40]:
# Nuevo diccionario para almacenar los valores totales con claves modificadas
modified_data = {}
# Iterar sobre los datos filtrados
for idx, crt in filtered_data.items():
    modified_data[idx] = {}
    # Verificar y modificar los valores de 'author'
    if 'author' in crt:
        for key, value in crt['author'].items():
            modified_data[idx][f'author_{key}'] = value
    # Verificar y anadir desc a la data final
    if 'desc' in crt:
        # crt['desc'] vendria a ser un set, por lo que tenemos que cambiarlo a str 
        # Por lo que establecemos un delimitador que serian los espacios que hay dentro del set para al final 
        # poder unirlos y establecer nuestro 'desc' en str
        delimiter = ' '
        modified_data[idx]['desc'] = delimiter.join(crt['desc'])
    # Verificar y modificar los valores de 'music'
    if 'music' in crt:
        for key, value in crt['music'].items():
            modified_data[idx][f'music_{key}'] = value
    # Verificar y modificar los valores de 'authorStats'
    if 'authorStats' in crt:
        for key, value in crt['authorStats'].items():
            modified_data[idx][f'authorStats_{key}'] = value
    # Verificar y modificar los valores de 'stats'
    if 'stats' in crt:
        for key, value in crt['stats'].items():
            modified_data[idx][f'stats_{key}'] = value
    # Verificar y modificar los valores de 'statsV2'
    if 'statsV2' in crt:
        for key, value in crt['statsV2'].items():
            modified_data[idx][f'statsV2_{key}'] = value

In [41]:
modified_data[0]['desc']

'Respuesta a @Josué López Donayre ¿Qué te pareció el precio? ¿Lo comprarías? 🥳 #inmobiliaria #realestate #bienesraices #venta #inmuebles #parati #foryoupage #home #inversion #casas '

# Test out Output

In [42]:
df_test = pd.DataFrame.from_dict(modified_data, orient='index')

In [43]:
df_test.head()

Unnamed: 0,author_id,author_nickname,author_signature,author_uniqueId,desc,music_album,music_authorName,authorStats_followerCount,authorStats_followingCount,authorStats_heart,authorStats_videoCount,stats_commentCount,stats_playCount,statsV2_commentCount,statsV2_diggCount,statsV2_playCount
0,6997795733713945606,KysgoInmobiliaria,Somos cómplices en la búsqueda de tu inmueble ...,kysgoinmobiliaria,Respuesta a @Josué López Donayre ¿Qué te parec...,As It Was,Harry Styles,666900,0,7500000,76,21800,31600000,21816,2696556,31572181
1,6997795733713945606,KysgoInmobiliaria,Somos cómplices en la búsqueda de tu inmueble ...,kysgoinmobiliaria,Respuesta a @Nay😽 ¿Qué les parecio esta hermos...,STAY,The Kid LAROI & Justin Bieber,666900,0,7500000,76,8038,11400000,8038,944605,11444578
2,6997795733713945606,KysgoInmobiliaria,Somos cómplices en la búsqueda de tu inmueble ...,kysgoinmobiliaria,¿Desde dónde nos escribes?🥰 #inmobiliaria #rea...,STAY,The Kid LAROI & Justin Bieber,666900,0,7500000,76,13800,25900000,13777,801340,25925261
3,6780406664590296069,Xitlali Pasten,Mexicana 🇲🇽\nTe comparto educación financiera ...,xitlalipasten,Parte 2 en comentarios 🙌🏻 #emprendimiento #neg...,,Xitlali Pasten,224000,276,2500000,168,10900,31600000,10917,767130,31641992
4,6799819711283807238,SANTIRUBIOV,📍 GDL \nThe Main Broker. ✔️🏢\nNos vemos en ins...,santiagorubiov,Sell me this pen. 🖊️ #realestate #ventas #mar...,Hier Encore Sad Vibes Trap,Novia Nisa,42500,100,800900,53,1889,11600000,1889,764236,11606552


In [44]:
df_test.to_csv('data_inmobiliaria.csv')