# Primer notebook exploratorio de datos

Este es el primer notebook exploratorio de datos para el concurso de transparencia de datos del gobierno de Chile 2024.

El primer paso es ir a buscar la información a la api rest del gobierno en https://datos.gob.cl

In [3]:
import requests

# La api rest utiliza el estandar ckan (https://docs.ckan.org/en/2.8/api/)
api_url = "https://datos.gob.cl/api/3/action/package_search?fq=groups:concurso-transparenta"

response = requests.get(api_url)
response: dict = response.json()

In [4]:
num_datasets: int = response['result']['count']
display(f'Hay {num_datasets} sets de datos disponibles para analizar en el concurso')

'Hay 20 sets de datos disponibles para analizar en el concurso'

In [5]:
results:list = response['result']['results']

In [9]:
display(f"Hay {len(results)} resultados en la respuesta")

resources = [result['resources'] for result in results]

display(f"Hay un total de {sum([len(resource) for resource in resources])} recursos")

for n, resource in enumerate(resources):
    display(f"El resultado nº{n+1} tiene {len(resource)} recurso(s)")




'Hay 10 resultados en la respuesta'

'Hay un total de 29 recursos'

'El resultado nº1 tiene 12 recurso(s)'

'El resultado nº2 tiene 5 recurso(s)'

'El resultado nº3 tiene 2 recurso(s)'

'El resultado nº4 tiene 2 recurso(s)'

'El resultado nº5 tiene 1 recurso(s)'

'El resultado nº6 tiene 1 recurso(s)'

'El resultado nº7 tiene 2 recurso(s)'

'El resultado nº8 tiene 1 recurso(s)'

'El resultado nº9 tiene 2 recurso(s)'

'El resultado nº10 tiene 1 recurso(s)'

Es muy extraño, porque se supone que hay solamente 20 sets de datos. Esto también se puede evidenciar en el sitio web.

Lo más probable es que no estén todos los sets de datos publicados.

Ahora debemos buscar una forma de organizar la información y diferenciar entre sets publicados y no publicados.

In [21]:
# First, we will flatten the resources
from itertools import chain

resources_flatten = list(chain.from_iterable(resources))



In [24]:
for n, resource in enumerate(resources_flatten):
    display(f"El recurso nº {n +1} tiene {len(resource.keys())} atributo(s)")

'El recurso nº 1 tiene 27 atributo(s)'

'El recurso nº 2 tiene 21 atributo(s)'

'El recurso nº 3 tiene 21 atributo(s)'

'El recurso nº 4 tiene 27 atributo(s)'

'El recurso nº 5 tiene 27 atributo(s)'

'El recurso nº 6 tiene 21 atributo(s)'

'El recurso nº 7 tiene 27 atributo(s)'

'El recurso nº 8 tiene 27 atributo(s)'

'El recurso nº 9 tiene 27 atributo(s)'

'El recurso nº 10 tiene 21 atributo(s)'

'El recurso nº 11 tiene 27 atributo(s)'

'El recurso nº 12 tiene 21 atributo(s)'

'El recurso nº 13 tiene 27 atributo(s)'

'El recurso nº 14 tiene 27 atributo(s)'

'El recurso nº 15 tiene 27 atributo(s)'

'El recurso nº 16 tiene 27 atributo(s)'

'El recurso nº 17 tiene 27 atributo(s)'

'El recurso nº 18 tiene 21 atributo(s)'

'El recurso nº 19 tiene 27 atributo(s)'

'El recurso nº 20 tiene 27 atributo(s)'

'El recurso nº 21 tiene 21 atributo(s)'

'El recurso nº 22 tiene 21 atributo(s)'

'El recurso nº 23 tiene 21 atributo(s)'

'El recurso nº 24 tiene 21 atributo(s)'

'El recurso nº 25 tiene 27 atributo(s)'

'El recurso nº 26 tiene 27 atributo(s)'

'El recurso nº 27 tiene 21 atributo(s)'

'El recurso nº 28 tiene 21 atributo(s)'

'El recurso nº 29 tiene 21 atributo(s)'

In [26]:
from collections import Counter

all_keys = [key for dict in resources_flatten for key in dict.keys()]

key_counts = Counter(all_keys)



In [39]:
key_counts_sorted = dict(sorted(key_counts.items(), key=lambda item: item[1], reverse=True))
key_counts_sorted

{'cache_last_updated': 29,
 'package_id': 29,
 'datastore_contains_all_records_of_source_file': 29,
 'datastore_active': 29,
 'id': 29,
 'size': 29,
 'state': 29,
 'hash': 29,
 'description': 29,
 'format': 29,
 'mimetype_inner': 29,
 'url_type': 29,
 'mimetype': 29,
 'cache_url': 29,
 'name': 29,
 'created': 29,
 'url': 29,
 'last_modified': 29,
 'position': 29,
 'revision_id': 29,
 'resource_type': 29,
 'original_url': 16,
 'resource_id': 16,
 'set_url_type': 16,
 'ignore_hash': 16,
 'ckan_url': 16,
 'task_created': 16}

In [32]:
import pandas as pd




df = pd.DataFrame.from_records(resources_flatten, columns=['cache_last_updated','package_id','datastore_contains_all_records_of_source_file','datastore_active','id','size','state','hash','description','format','mimetype_inner','url_type','mimetype','cache_url','name','created','url','last_modified','position','revision_id','resource_type'])

In [38]:
df.to_csv("../data/external/datasets_unfiltered.csv")