<a href="https://colab.research.google.com/github/ollin02/leyendo-archivos-JSON-Pandas/blob/main/profundizando_en_la_normalizaci%C3%B3n.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## **Normalización de archivos JSON**

La normalización de datos es un proceso importante en la ciencia de datos que tiene como objetivo organizar y estandarizar datos para facilitar el análisis y la comparación entre ellos. Cuando se trata de datos en formato JSON (JavaScript Object Notation - Notación de objetos JavaScript), es común que estén anidados, lo que puede dificultar su análisis y manipulación.

La biblioteca Pandas cuenta con una función llamada json_normalize() que permite la transformación de datos a formato tabular, facilitando la visualización y análisis de las informaciones. A continuación, aprenderemos cómo usar esta función para normalizar diferentes tipos de JSON en DataFrames.

## **Normalizando un JSON simple**

A continuación tenemos una variable llamada datos y dentro de ella hay un objeto JSON con tres llaves y sus respectivos valores:

In [3]:
import pandas as pd

datos = {'Análisis': 'Principales indicadores de enfermedad cardíaca', 'Año': 2020, 'Numero_Pacientes':3}

Para normalizar esta variable, podemos pasarla dentro de la función json_normalize y analizar el DataFrame obtenido:

In [4]:
df = pd.json_normalize(datos)
df

Unnamed: 0,Análisis,Año,Numero_Pacientes
0,Principales indicadores de enfermedad cardíaca,2020,3


¡El resultado luce genial! Tenemos 3 columnas que son nuestras llaves y una fila que contiene los valores de cada llave.

## **Normalizando un JSON con múltiples niveles**

Hay situaciones en las que el archivo JSON puede contener más de un objeto, como es el caso del siguiente ejemplo, en el que tenemos una lista, almacenada en la variable json_lista, que contiene **dos objetos JSON**:

In [5]:
json_lista = [
    { 'ID': '01', 'Intervalo_edad': '55-59', 'Sexo_biologico': 'femenino'},
    { 'ID': '02', 'Intervalo_edad': '80 ó +', 'Sexo_biologico': 'femenino'}
]

Para normalizar esta lista podemos aplicar la función json_normalize:

In [6]:
pd.json_normalize(json_lista)

Unnamed: 0,ID,Intervalo_edad,Sexo_biologico
0,1,55-59,femenino
1,2,80 ó +,femenino


La función json_normalize() es capaz de convertir cada registro de la lista en una línea en forma tabular.

## **Normalizando un JSON con una lista anidada**

Bueno, notamos que la función json_normalize() funciona muy bien en las situaciones anteriores, pero ¿qué pasa en otras situaciones?

### **Datos como un diccionario**

Iniciemos observando la normalización cuando los datos son un diccionario. Tenemos un diccionario almacenado en la variable json_obj. Observe que en la llave “Salud” tenemos otro diccionario:

In [7]:
json_obj = {
    'ID': '01',
    'Intervalo_edad': '55-59',
    'Sexo_biologico': 'Femenino',
    'Salud': {'Dificultad_caminar': 'No',
              'Actividad_fisica': 'Sí',
              'IMC': 16.6,
              'Enfermedad_cardiaca': 'No',
          }
      }

In [8]:
pd.json_normalize(json_obj)

Unnamed: 0,ID,Intervalo_edad,Sexo_biologico,Salud.Dificultad_caminar,Salud.Actividad_fisica,Salud.IMC,Salud.Enfermedad_cardiaca
0,1,55-59,Femenino,No,Sí,16.6,No


El DataFrame generado tiene una columna para cada información contenida en el diccionario que estaba en “Salud”. Las columnas creadas tienen el prefijo “Salud.”, ya que la información proviene de esa misma llave.

### **Datos como una lista de diccionarios.**

Ahora tenemos una lista de diccionarios almacenados en la variable json_list:

In [9]:
json_list = [
    {
    'ID': '01',
    'Intervalo_edad': '55-59',
    'Sexo_biologico': 'Femenino',
    'Salud': {'Dificultad_caminar': 'No',
              'Actividad_fisica': 'Sí',
              'IMC': 16.6,
              'Enfermedad_cardiaca': 'No',
          }
      },
      {
          'ID': '02',
          'Intervalo_edad': '80 ó +',
          'Sexo_biologico': 'Femenino',
          'Salud': {'Dificultad_caminar': 'No',
                    'Actividad_fisica': 'Sí',
                    'IMC': 20.34,
                    'Enfermedad_cardiaca': 'Sí'}
       }
       ]

Haciendo la normalización:

In [10]:
pd.json_normalize(json_list)

Unnamed: 0,ID,Intervalo_edad,Sexo_biologico,Salud.Dificultad_caminar,Salud.Actividad_fisica,Salud.IMC,Salud.Enfermedad_cardiaca
0,1,55-59,Femenino,No,Sí,16.6,No
1,2,80 ó +,Femenino,No,Sí,20.34,Sí


Podemos ver que todos los valores anidados dentro de cada registro de la lista se han convertido en columnas separadas. ¿Qué pasa con los datos que normalizamos en el video anterior? ¿Recuerdas cómo su normalización se hizo de otra manera?

Resumiendo, vamos a copiar los datos del archivo paciente_2.json y vamos a guardarlos en una variable llamada datos_dict.

In [11]:
datos_dict = {
  "Investigación": "Indicadores clave de enfermedades cardíacas",
  "Año": 2020,
  "Pacientes": [
    {
     "ID": "01",
      "Rango_edad": "55-59",
      "Sexo_biologico": "Mujer",
      "Raza": "Blanca",
      "IMC": 16.6,
      "Fumador": "Sí",
      "Consumo_alcohol": "No",
      "Salud_física": 3,
      "Salud_mental": 30,
      "Dificultad_caminar": "No",
      "Actividad_física": "Sí",
      "Salud_general": "Muy buena",
      "Horas_sueño": 5,
      "Problemas_salud": [
        "Diabetes",
        "Asma",
        "Cancer_piel"
      ]
    },
    {
      "ID": "02",
      "Rango_edad": "80 ó +",
      "Sexo_biologico": "Mujer",
      "Raza": "Blanca",
      "IMC": 20.34,
      "Fumador": "No",
      "Consumo_alcohol": "No",
      "Salud_física": 0,
      "Salud_mental": 0,
      "Dificultad_caminar": "No",
      "Actividad_física": "Sí",
      "Salud_general": "Muy buena",
      "Horas_sueño": 7,
      "Problemas_salud": [
        "AVC"
      ]
    },
    {
      "ID": "03",
      "Rango_edad": "65-69",
      "Sexo_biologico": "Masculino",
      "Raza": "Blanca",
      "IMC": 26.58,
      "Fumador": "Sí",
      "Consumo_alcohol": "No",
      "Salud_física": 20,
      "Salud_mental": 30,
      "Dificultad_caminar": "No",
      "Actividad_física": "Sí",
      "Salud_general": "Muy buena",
      "Horas_sueño": 8,
      "Problemas_salud": [
        "Diabetes",
        "Asma"
      ]
    }
  ]
}

Si intentamos normalizar estos datos:

In [12]:
pd.json_normalize(datos_dict)

Unnamed: 0,Investigación,Año,Pacientes
0,Indicadores clave de enfermedades cardíacas,2020,"[{'ID': '01', 'Rango_edad': '55-59', 'Sexo_bio..."


Podemos observar que nuestra lista anidada está colocada en una única columna Pacientes. Entonces, usaremos el siguiente código para normalizar los datos, especificando qué columna está anidada:

In [13]:
pd.json_normalize(datos_dict['Pacientes'])

Unnamed: 0,ID,Rango_edad,Sexo_biologico,Raza,IMC,Fumador,Consumo_alcohol,Salud_física,Salud_mental,Dificultad_caminar,Actividad_física,Salud_general,Horas_sueño,Problemas_salud
0,1,55-59,Mujer,Blanca,16.6,Sí,No,3,30,No,Sí,Muy buena,5,"[Diabetes, Asma, Cancer_piel]"
1,2,80 ó +,Mujer,Blanca,20.34,No,No,0,0,No,Sí,Muy buena,7,[AVC]
2,3,65-69,Masculino,Blanca,26.58,Sí,No,20,30,No,Sí,Muy buena,8,"[Diabetes, Asma]"


También podemos hacer esto usando el parámetro record_path como ['Pacientes']. Este parámetro se utiliza en la función pd.json_normalize() para especificar la ruta a los registros que deben ser normalizados en un DataFrame separado:

In [14]:
pd.json_normalize(datos_dict, record_path=['Pacientes'])

Unnamed: 0,ID,Rango_edad,Sexo_biologico,Raza,IMC,Fumador,Consumo_alcohol,Salud_física,Salud_mental,Dificultad_caminar,Actividad_física,Salud_general,Horas_sueño,Problemas_salud
0,1,55-59,Mujer,Blanca,16.6,Sí,No,3,30,No,Sí,Muy buena,5,"[Diabetes, Asma, Cancer_piel]"
1,2,80 ó +,Mujer,Blanca,20.34,No,No,0,0,No,Sí,Muy buena,7,[AVC]
2,3,65-69,Masculino,Blanca,26.58,Sí,No,20,30,No,Sí,Muy buena,8,"[Diabetes, Asma]"


El resultado parece excelente, pero no incluye las columnas "Investigación" y "Año". Para incluirlas, podemos usar el parámetro meta para especificar otras columnas que queramos en el DataFrame.

In [16]:
pd.json_normalize( datos_dict, record_path =['Pacientes'],  meta=['Investigación', 'Año'])

Unnamed: 0,ID,Rango_edad,Sexo_biologico,Raza,IMC,Fumador,Consumo_alcohol,Salud_física,Salud_mental,Dificultad_caminar,Actividad_física,Salud_general,Horas_sueño,Problemas_salud,Investigación,Año
0,1,55-59,Mujer,Blanca,16.6,Sí,No,3,30,No,Sí,Muy buena,5,"[Diabetes, Asma, Cancer_piel]",Indicadores clave de enfermedades cardíacas,2020
1,2,80 ó +,Mujer,Blanca,20.34,No,No,0,0,No,Sí,Muy buena,7,[AVC],Indicadores clave de enfermedades cardíacas,2020
2,3,65-69,Masculino,Blanca,26.58,Sí,No,20,30,No,Sí,Muy buena,8,"[Diabetes, Asma]",Indicadores clave de enfermedades cardíacas,2020


¡De esa manera tenemos todas las columnas presentes en el DataFrame!

Importante: En clase nosotros realizamos la normalización en un archivo con formato JSON. Sin embargo, la función json_normalize() sólo acepta un diccionario o una lista de diccionarios. Por esto, en el video se utilizó la estrategia de usar el código: pd.json_normalize(datos_pacientes_2['Pacientes']). Sin embargo, si intentamos utilizar parámetros de la función json_normalize en un archivo JSON, pueden surgir errores. Para solucionar esto, necesitamos importar el módulo json y leer los archivos según el siguiente código:

In [19]:
#Importando la biblioteca Pandas
import pandas as pd

#Importando el módulo JSON
import json

# The data is already loaded into the datos_dict variable,
# so we don't need to read from a file.

#Normalizando los datos con los parámetros record_path y meta
pd.json_normalize(datos_dict, record_path='Pacientes', meta=['Investigación', 'Año'])

Unnamed: 0,ID,Rango_edad,Sexo_biologico,Raza,IMC,Fumador,Consumo_alcohol,Salud_física,Salud_mental,Dificultad_caminar,Actividad_física,Salud_general,Horas_sueño,Problemas_salud,Investigación,Año
0,1,55-59,Mujer,Blanca,16.6,Sí,No,3,30,No,Sí,Muy buena,5,"[Diabetes, Asma, Cancer_piel]",Indicadores clave de enfermedades cardíacas,2020
1,2,80 ó +,Mujer,Blanca,20.34,No,No,0,0,No,Sí,Muy buena,7,[AVC],Indicadores clave de enfermedades cardíacas,2020
2,3,65-69,Masculino,Blanca,26.58,Sí,No,20,30,No,Sí,Muy buena,8,"[Diabetes, Asma]",Indicadores clave de enfermedades cardíacas,2020


Y fue así que aprendimos cómo normalizar archivos JSON simples, con múltiples niveles y anidados.