# Cuaderno 6: Archivos .json

Este cuaderno te explica como abrir y presentar la informacion de un archivo tipo json. Este es un formato muy utilizado para el almacenamiento y transferencia de datos, especilamnete en los desarrollos web.
Cada registro de informacion (objeto) comienza y termina con llaves {}. Puede tener dos o más pares de claves/valor dentro, con una coma para separarlos.

En este ejemplo aprovecharemos para utilizar la API de Datos Abiertos Colombia (https://www.datos.gov.co/), que es el repositorio con información pública dispuesta en formatos que permiten su uso y reutilización bajo licencia abierta y sin restricciones legales para su aprovechamiento.

Se utilizara la base de datos de "negocios verdes y sostenibles" que contiene in listado de Negocios Verdes y Sostenibles, que generan un impacto ambiental positivo.
Para el buen desarrollo del ejercicio requieres la instalacion de la libreria sodapy (recuerda que en el numeral 3.5 del libro se explica en detalle como instalar una libreria en Anaconda).


### 1. Instalar una libreria

Recuerda que solo se realizada una vez, el resto de las ocasiones puedes reeemplazar el simbolo (!) por el simbolo de (#) que significa comentairos. Es decir qu eno sera considerado por la maquina en el momento de la ejecución.

In [1]:
# Instalacion de la libreria sodapy. 
!pip install sodapy                             



### 2. Llamado a las librerias
Como es costumbre te recordamos la importancia de llamar las librerias que utilizaras para el desarrollo de tu actividad.

In [2]:
import numpy as np                              #   
import pandas as pd                             # Libreria especializada en el manejo y estructura de datos
from sodapy import Socrata                      # De la libreria sodapy, se llama Socrata que se encargara de gestionar los datos


### 3. Conjunto de datos a utilizar

Como se trata de una base de datos publica, estas normalmente no requieren usuario (username), ni clave (passoword). Por esta razon encontraras que el llamado es muy simple y se limita al atributo "None".
Le indicamos ahora que los datos los traiga de la direccion de archivo que le mostramos en la linea anterior. Se acostumbra usar el parametro limit para indicarle cuantos registros deberia traer. Si este no esta presetente, asume un valor por omisión (default) que normalmente esta en 1.000.
Sin embargo nuestra recomendación es que lo uses, para asegurarte que en la eventualidad de una base de datos con muchos reguistros (miles o millones), esta no desborde la capacidad de la maquina.
Puede ocurrir que te genere un mensaje similar a este:

![image.png](attachment:image.png)

Es un mensaje de alerta (no error) indicandote que tu solicitud estara limitada a las capacidades del proceso



In [3]:
archivo = Socrata("www.datos.gov.co", None)         # Como es publica sin autenticacion se le coloca el atributo None
datos = archivo.get("rggv-qcwf", limit=2500)        # Carga en datos los primeros 2500 registros. 




Recuerda verificar los datos cargados en este caso no podras hacerlo con head(). Debes usar el nombre del conjunto de datos y entre [ ] el numero del resgistro que quieres visualizar. Recuerda que se numera desde 0.

In [4]:
datos[0:2]         # muestra los dos primeros registros del conjunto de datos

[{'a_o': '16',
  'autoridad_ambiental': 'CORPONARIÑO',
  'regi_n': 'Pacífico',
  'departamento': 'NARIÑO',
  'municipio': 'Pasto',
  'raz_n_social': 'Hass Nariño CBD-  DAVID RICARDO VERA MORALES',
  'descripci_n': 'Proyecto Agropecuario para  desarrolar procesos de investigación sobre el cultivo de Cannabis Medicinal con el fin de mejorarde la calidad de vida de personas con diferentes patologias como lo son  Cáncer, epilepsia, parálisis cerebral ypatologías de alto costo, proyecto importante para el mejoramiento de calidad de vida de la población del departamento de Nariño.',
  'categor_a': 'Bienes y Servicios Sostenibles Provenientes De Recursos Naturales',
  'sector': 'Agrosistemas sostenibles',
  'subsector': 'Agroecología',
  'producto_principal': 'Gotas sublengual',
  'nombre_representante': 'David Ricardo Vera Morales',
  'correo_electronico': 'hassnarinocbd@gmail.com',
  'resultado': 'Satisfactorio'},
 {'a_o': '17',
  'autoridad_ambiental': 'CDA',
  'regi_n': 'Amazonía',
  'dep

Cada registro se inicia con un "{". SIn emabrgo su lectura es un poco confusa, razon por la cual es oportuno convertirlo a un formato mas conocido por nosotros como las tablas, lo cual realizaremos utilizadno pandas.

In [5]:
datos_df = pd.DataFrame.from_records(datos)         # se convierte el conjunto de datos de formato json a un formato de tabla.
datos_df

Unnamed: 0,a_o,autoridad_ambiental,regi_n,departamento,municipio,raz_n_social,descripci_n,categor_a,sector,subsector,producto_principal,nombre_representante,correo_electronico,resultado
0,16,CORPONARIÑO,Pacífico,NARIÑO,Pasto,Hass Nariño CBD- DAVID RICARDO VERA MORALES,Proyecto Agropecuario para desarrolar proceso...,Bienes y Servicios Sostenibles Provenientes De...,Agrosistemas sostenibles,Agroecología,Gotas sublengual,David Ricardo Vera Morales,hassnarinocbd@gmail.com,Satisfactorio
1,17,CDA,Amazonía,VAUPÉS,Mitú,CORPORACION PARA EL PUEBLO CUBEO Y OTROS GRUPO...,"la comunidad indígena de wacuraba, se ha asoci...",Bienes y Servicios Sostenibles Provenientes De...,Biocomercio,No Maderables,aceite de cacai como cosmetico natural 100% or...,William Alexander Gonzalez Torres,willigon12@yahoo.es,Satisfactorio
2,17,CDA,Amazonía,GUAINÍA,Inírida,ASOCIACION IÑAPIRRICULLI (COMUNIDAD COCO VIEJO),Presta servicios de guianza mediante diversos ...,Bienes y Servicios Sostenibles Provenientes De...,Biocomercio,Ecoturismo/Turismo de Naturaleza,Artesanias,David Torcuato,No reporta,Básico
3,17,CDA,Amazonía,VAUPÉS,Mitú,Artesanías OTY'S,aprovechamiento de productos no maderables del...,Bienes y Servicios Sostenibles Provenientes De...,Biocomercio,No Maderables,Artesanías con diferentes materiales de la región,Otilia Yepes Restrepo,gusval66@gmail.com311,Satisfactorio
4,17,CDA,Amazonía,GUAINÍA,Inírida,TALLER INDIGENA CURRIPACO,"Etnoturismo, y venta de artesanias en fibra d...",Bienes y Servicios Sostenibles Provenientes De...,Biocomercio,No Maderables,artesanias en fibra de chiqui chiqui y palo br...,Gonzalo Garrido,gonzalogarridotgic@gmail.com,Básico
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2320,2020,CRQ,Eje Cafetero y Antioquia,QUINDIO,Quimbaya,AJIRO ARTESANÍAS,La empresa está enfocada a la producción de ar...,Bienes y Servicios Sostenibles Provenientes De...,Biocomercio,No Maderables,Cesteria,Jhon Fredy Collazos Restrepo,artesaniascollazos@hotmail.com,Intermedio
2321,2020,CRQ,Eje Cafetero y Antioquia,QUINDIO,Armenia,PLATFIBRAS,"ELABORACION DE PRODUCTOS EN FIBRA DE PLATANO, ...",Ecoproductos industriales,Aprovechamiento y valoración de residuos,Orgánicos,Pesebres,Maria Custodia Arias,CUSTOARTE@HOTMAIL.COM,Intermedio
2322,2020,CRQ,Eje Cafetero y Antioquia,QUINDIO,Montenegro,Bambú Turismo Verde Esmeralda SAS,"Turismo de Naturaleza educativo, con le fin de...",Bienes y Servicios Sostenibles Provenientes De...,Biocomercio,Ecoturismo/Turismo de Naturaleza,Turismo de Naturaleza,Maria Ximena Londoño De La Pava,ximelondo@gmail.com,Satisfactorio
2323,2020,CRQ,Eje Cafetero y Antioquia,QUINDIO,Calarcá,ECO DRINKS COLOMBIA,"Reciclaje, tranformación de botellas de vidrio...",Ecoproductos Industriales,Aprovechamiento y valoración de Residuos,Inorgánicos,Vaso 9 onzas,James Ivan Cadavid Lopez,ecodrinkscolombia@gmail.com,Satisfactorio


La ultima linea nos indica el numero de registros y filas que tienes nuestro conjunto de datos datos_df

### 4. Transformaciones del conjunto de datos

A partir de ahora realizaremos algunas transformaciones sobre nuestros datos.

Iniciaremos por renombrar algunas de las columnas de conjunto de datos.

In [6]:
datos_df = datos_df.rename(columns={'a_o':'año', 'regi_n' : 'región', 'raz_n_social' :'razón social'}) # Se renombran columnas
datos_df = datos_df.rename(columns={'descripci_n' : 'descripción','categor_a': 'categoría'})
datos_df

Unnamed: 0,año,autoridad_ambiental,región,departamento,municipio,razón social,descripción,categoría,sector,subsector,producto_principal,nombre_representante,correo_electronico,resultado
0,16,CORPONARIÑO,Pacífico,NARIÑO,Pasto,Hass Nariño CBD- DAVID RICARDO VERA MORALES,Proyecto Agropecuario para desarrolar proceso...,Bienes y Servicios Sostenibles Provenientes De...,Agrosistemas sostenibles,Agroecología,Gotas sublengual,David Ricardo Vera Morales,hassnarinocbd@gmail.com,Satisfactorio
1,17,CDA,Amazonía,VAUPÉS,Mitú,CORPORACION PARA EL PUEBLO CUBEO Y OTROS GRUPO...,"la comunidad indígena de wacuraba, se ha asoci...",Bienes y Servicios Sostenibles Provenientes De...,Biocomercio,No Maderables,aceite de cacai como cosmetico natural 100% or...,William Alexander Gonzalez Torres,willigon12@yahoo.es,Satisfactorio
2,17,CDA,Amazonía,GUAINÍA,Inírida,ASOCIACION IÑAPIRRICULLI (COMUNIDAD COCO VIEJO),Presta servicios de guianza mediante diversos ...,Bienes y Servicios Sostenibles Provenientes De...,Biocomercio,Ecoturismo/Turismo de Naturaleza,Artesanias,David Torcuato,No reporta,Básico
3,17,CDA,Amazonía,VAUPÉS,Mitú,Artesanías OTY'S,aprovechamiento de productos no maderables del...,Bienes y Servicios Sostenibles Provenientes De...,Biocomercio,No Maderables,Artesanías con diferentes materiales de la región,Otilia Yepes Restrepo,gusval66@gmail.com311,Satisfactorio
4,17,CDA,Amazonía,GUAINÍA,Inírida,TALLER INDIGENA CURRIPACO,"Etnoturismo, y venta de artesanias en fibra d...",Bienes y Servicios Sostenibles Provenientes De...,Biocomercio,No Maderables,artesanias en fibra de chiqui chiqui y palo br...,Gonzalo Garrido,gonzalogarridotgic@gmail.com,Básico
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2320,2020,CRQ,Eje Cafetero y Antioquia,QUINDIO,Quimbaya,AJIRO ARTESANÍAS,La empresa está enfocada a la producción de ar...,Bienes y Servicios Sostenibles Provenientes De...,Biocomercio,No Maderables,Cesteria,Jhon Fredy Collazos Restrepo,artesaniascollazos@hotmail.com,Intermedio
2321,2020,CRQ,Eje Cafetero y Antioquia,QUINDIO,Armenia,PLATFIBRAS,"ELABORACION DE PRODUCTOS EN FIBRA DE PLATANO, ...",Ecoproductos industriales,Aprovechamiento y valoración de residuos,Orgánicos,Pesebres,Maria Custodia Arias,CUSTOARTE@HOTMAIL.COM,Intermedio
2322,2020,CRQ,Eje Cafetero y Antioquia,QUINDIO,Montenegro,Bambú Turismo Verde Esmeralda SAS,"Turismo de Naturaleza educativo, con le fin de...",Bienes y Servicios Sostenibles Provenientes De...,Biocomercio,Ecoturismo/Turismo de Naturaleza,Turismo de Naturaleza,Maria Ximena Londoño De La Pava,ximelondo@gmail.com,Satisfactorio
2323,2020,CRQ,Eje Cafetero y Antioquia,QUINDIO,Calarcá,ECO DRINKS COLOMBIA,"Reciclaje, tranformación de botellas de vidrio...",Ecoproductos Industriales,Aprovechamiento y valoración de Residuos,Inorgánicos,Vaso 9 onzas,James Ivan Cadavid Lopez,ecodrinkscolombia@gmail.com,Satisfactorio


Podriamos ver las caracteristicas de cada una de las columnas de datos con el comando info(). Encontrando que todas las maneja como objetos o cadenas de caracteres.

In [7]:
datos_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2325 entries, 0 to 2324
Data columns (total 14 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   año                   2325 non-null   object
 1   autoridad_ambiental   2325 non-null   object
 2   región                2325 non-null   object
 3   departamento          2325 non-null   object
 4   municipio             2325 non-null   object
 5   razón social          2325 non-null   object
 6   descripción           2325 non-null   object
 7   categoría             2325 non-null   object
 8   sector                2325 non-null   object
 9   subsector             2325 non-null   object
 10  producto_principal    2325 non-null   object
 11  nombre_representante  2325 non-null   object
 12  correo_electronico    2325 non-null   object
 13  resultado             2325 non-null   object
dtypes: object(14)
memory usage: 254.4+ KB


Deseamos tener una comunicacion con estas empresas para efectos comerciales, para lo cual requerimos un archivo con solo su razon social, nombre del representante y correo electronico. 

In [8]:
prospecto = datos_df[['razón social', 'nombre_representante','correo_electronico']]  # subconjunto con tres columans de datos_df
prospecto                                                                

Unnamed: 0,razón social,nombre_representante,correo_electronico
0,Hass Nariño CBD- DAVID RICARDO VERA MORALES,David Ricardo Vera Morales,hassnarinocbd@gmail.com
1,CORPORACION PARA EL PUEBLO CUBEO Y OTROS GRUPO...,William Alexander Gonzalez Torres,willigon12@yahoo.es
2,ASOCIACION IÑAPIRRICULLI (COMUNIDAD COCO VIEJO),David Torcuato,No reporta
3,Artesanías OTY'S,Otilia Yepes Restrepo,gusval66@gmail.com311
4,TALLER INDIGENA CURRIPACO,Gonzalo Garrido,gonzalogarridotgic@gmail.com
...,...,...,...
2320,AJIRO ARTESANÍAS,Jhon Fredy Collazos Restrepo,artesaniascollazos@hotmail.com
2321,PLATFIBRAS,Maria Custodia Arias,CUSTOARTE@HOTMAIL.COM
2322,Bambú Turismo Verde Esmeralda SAS,Maria Ximena Londoño De La Pava,ximelondo@gmail.com
2323,ECO DRINKS COLOMBIA,James Ivan Cadavid Lopez,ecodrinkscolombia@gmail.com


Para la calidad de nuestra comunicación, sobre este subconjunto nos vamos a asegurar no haya valores nulos o vacios. 



In [9]:
datos_df.isnull().sum()                 # con el comnando isnull nos indicada si  hay valores nulos y con sum los agrupa por cada variable

año                     0
autoridad_ambiental     0
región                  0
departamento            0
municipio               0
razón social            0
descripción             0
categoría               0
sector                  0
subsector               0
producto_principal      0
nombre_representante    0
correo_electronico      0
resultado               0
dtype: int64

### 5. Analisis de Datos

In [10]:
pd.crosstab(datos_df['región'],datos_df['categoría'])

categoría,Bienes y Servicios Sostenibles Provenientes De Recursos Naturales,Bienes y servicios sostenibles provenientes de recursos naturales,Ecoproductos Industriales,Ecoproductos industriales,Mercados De Carbono
región,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Amazonía,324,0,20,0,0
Caribe,396,1,99,2,0
Central,426,0,84,1,0
Eje Cafetero y Antioquia,192,0,54,1,0
Llano,68,0,19,0,0
PACÍFICO,16,0,1,0,0
Pacífico,300,0,63,0,1
Santanderes,157,0,43,0,0
Seaflower,50,0,7,0,0


Este detalle podria ser ampliado a los departamento o a los sectores de la economia en los que se encuentran en estas empresas.

In [11]:
pd.crosstab(datos_df['departamento'],datos_df['categoría'])

categoría,Bienes y Servicios Sostenibles Provenientes De Recursos Naturales,Bienes y servicios sostenibles provenientes de recursos naturales,Ecoproductos Industriales,Ecoproductos industriales,Mercados De Carbono
departamento,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
AMAZONAS,71,0,1,0,0
ANTIOQUIA,74,0,32,0,0
ARAUCA,2,0,1,0,0
"ARCHIPIÉLAGO DE SAN ANDRÉS, PROVIDENCIA Y SANTA CATALINA",50,0,7,0,0
ATLÁNTICO,36,1,25,2,0
BOLÍVAR,69,0,27,0,0
BOYACÁ,65,0,10,0,0
CALDAS,41,0,3,0,0
CAQUETÁ,75,0,7,0,0
CASANARE,20,0,6,0,0


In [12]:
pd.crosstab(datos_df['sector'],datos_df['región'])

región,Amazonía,Caribe,Central,Eje Cafetero y Antioquia,Llano,PACÍFICO,Pacífico,Santanderes,Seaflower
sector,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
Agroindustria Sostenible,48,105,100,61,21,4,76,56,6
Agrosistemas sostenibles,64,153,184,46,27,8,102,81,9
Aprovechamiento y valoración de Residuos,12,72,63,47,14,1,49,34,4
Aprovechamiento y valoración de residuos,0,0,1,1,0,0,0,0,0
Biocomercio,209,130,135,82,20,4,120,19,35
Construcción Sostenible,0,1,0,0,0,0,0,0,0
Construcción sostenible,1,6,7,1,1,0,2,3,0
Fuentes no convencionales de energía renovable,0,11,2,2,1,0,2,2,0
Mercado Voluntario,0,0,0,0,0,0,1,0,0
Negocios para la restauración,3,9,7,3,0,0,1,1,0
