In [2]:
from pprint import pprint
import sys
import os, json, re, requests
import random

from pathlib import Path
import ckanapi.errors
from ckanapi.errors import NotFound
import pandas as pd


In [3]:
from ckanapi import RemoteCKAN

os.environ["CKAN_API_KEY"] ="" 

if not os.environ.get('CKAN_API_KEY'):
    print("You need to export environment variable `CKAN_API_KEY`. PLease generate an api key from this page: http://localhost:5000/user/dev/api-tokens")
    exit(1)
    
    
user_agent = None
CKAN_API_KEY = os.environ['CKAN_API_KEY']
CKAN_URL = os.environ.get('CKAN_URL', 'http://localhost:5000')

basedosdados = RemoteCKAN(CKAN_URL, user_agent=user_agent, apikey=CKAN_API_KEY)



In [4]:
def validate(package_dict):
    
    if package_dict.get('extras'):
        package_dict['extras'] = [kv for kv in package_dict.get('extras') if 'key' in kv and 'value' in kv] # there is a strange bug splitting extra dicts into dicts missing value and key, so we simply remove these, we aren't validating extras anyway
    try:
        basedosdados.action.package_validate(**package_dict)
    except ckanapi.errors.ValidationError as e:
        return e.error_dict['message']

def migrate_resource_external_link(resource_dict, package_dict):
    
    # brazilian_ip to country_ip_address_required
    resource_dict['country_ip_address_required'] = None
    if resource_dict.get('brazilian_ip') == 'yes':
        resource_dict['country_ip_address_required'] = ['bra']
    resource_dict.pop('brazilian_ip', None)

    # free to is_free
    resource_dict['is_free'] = resource_dict.pop('free', None)
    
    # license_type
    resource_dict.pop('license_type', None)
    resource_dict['license'] = 'mit' 
    
    # signup_needed to requires_registration
    resource_dict['requires_registration'] = resource_dict.pop('signup_needed', None)
    
    # delete version
    resource_dict.pop('version', None)
    
    # package API to has_api
    api_mapping = {'Não': 'no', 'Sim': 'yes'}
    api = package_dict.pop('API', None)
    if api:
        resource_dict['has_api'] = api_mapping.get(api)
    else:
        resource_dict['has_api'] = None
        
    # map update_frequency values
    update_frequency_mapping = {'empty': None}
    resource_dict['update_frequency'] =  update_frequency_mapping.get(resource_dict.get('update_frequency', None), None)
    
    # pop bdm_file_size
    resource_dict.pop('bdm_file_size', None)
    
    # clean extra from temporal coverage
    resource_dict['temporal_coverage'] = [v for v in resource_dict.get('temporal_coverage', []) if isinstance(v, int)] 
    
    return resource_dict

def migrate_resource_bdm_table(resource_dict, package_dict):
    
    # delete primary_keys
    resource_dict.pop('primary_keys', None)
    
    # structure published
    to_pop = [k for k in resource_dict.keys() if 'published_by.' in k]
    for k in to_pop:
        resource_dict.pop(k, None)
            
    resource_dict['published_by'] = dict(
        name=resource_dict.pop('publisher', None),
        email=resource_dict.pop('publisher_email', None),
        github_user=resource_dict.pop('publisher_github', None),
        website=resource_dict.pop('publisher_website', None)
    )
    
    # structure treated
    resource_dict['data_cleaned_by'] = dict(
        name=resource_dict.pop('treated_by.name', None),
        email=resource_dict.pop('treated_by.email', None),
        github_user=resource_dict.pop('treated_by.github', None),
        website=resource_dict.pop('treated_by.website', None),
        code_url=resource_dict.pop('treated_by.code_url', None)
    )
        
    
    # treatment_description to data_cleaning_description
    resource_dict['data_cleaning_description'] = resource_dict.pop('treatment_description', None)
    
    # pop url_ckan
    resource_dict.pop('url_ckan', None)
    
    # pop url_github
    resource_dict.pop('url_github', None)
    
    # columns
    cols = resource_dict.get('columns')
    if cols == '' or cols is None: 
        resource_dict.pop('columns', None)
        resource_dict['columns'] = []
    
    # spatial coverage
    spatial_coverage_mapping = {
        'vazio': None,
        'america_norte': ['north_america'],
        'africa': ['africa'],
        'europa': ['europe'],
        'internacional': ['all'],
        'america_sul': ['south_america'],
    }
    resource_dict['spatial_coverage'] = dict(
        continent=spatial_coverage_mapping.get(resource_dict.pop('spatial_coverage', None), None)
    )
    
    # observation level to entity
    res = resource_dict.get('observation_level')
    if res is None:
        resource_dict['entity'] = None
    elif res[0] == 'other' or None:
        resource_dict['entity'] = None
    else:
        resource_dict['entity'] = resource_dict.pop('observation_level', None)
    resource_dict.pop('observation_level', None)
    
    # clean extra from temporal coverage
    resource_dict['temporal_coverage'] = [v for v in resource_dict.get('temporal_coverage', []) if isinstance(v, int)] 

    return resource_dict
    
def migrate(package_dict):
    
    # Resources
    for resource in package_dict['resources']:
        
        if resource['resource_type'] == 'external_link':
            resource = migrate_resource_external_link(resource, package_dict)
        
        elif resource['resource_type'] == 'bdm_table':
            resource = migrate_resource_bdm_table(resource, package_dict)

    
    return package_dict

In [25]:
ORIGINAL_CKAN_URL = 'https://basedosdados.org'
api_url = ORIGINAL_CKAN_URL + '/api/3/action/package_list'
packages = requests.get(api_url, verify=False).json()['result']



In [18]:
def get_content(p):
    api_url = ORIGINAL_CKAN_URL + f'/api/3/action/package_show?id={p}'
    return requests.get(api_url).json()['result']

import json
for p in packages:
    json.dump(get_content(p), open(f'packages/{p}', 'w'))

In [19]:
def package_update(package_path, validate_only=True):
    package = json.load(open(package_path))
    migrated = migrate(package)
    if validate(migrated):
        raise Exception(res)
    
    if not validate_only:
        try:
            basedosdados.action.package_update(**migrated)
        except NotFound:
            print(package_path)

In [29]:
package = json.load(open('packages/br_abrinq_oca'))
# migrated = migrate(package)


In [194]:
full_input = ['id', 'name', 'title', 'type', 'notes', 'author', 'author_email', 'maintainer', 'maintainer_email', 'state', 'license_id', 'url', 'version', 'metadata_created', 'metadata_modified', 'creator_user_id', 'private', 'license_title', 'num_resources', 'resources', 'groups', 'owner_org', 'organization', 'num_tags', 'tags', 'relationships_as_object', 'relationships_as_subject', 'isopen', 'extras', 'download_type']

In [195]:
no_input = ['id', 'name', 'title', 'type', 'notes', 'author', 'author_email', 'maintainer', 'maintainer_email', 'state', 'license_id', 'url', 'version', 'metadata_created', 'metadata_modified', 'creator_user_id', 'private', 'license_title', 'num_resources', 'resources', 'groups', 'owner_org', 'organization', 'num_tags', 'tags', 'relationships_as_object', 'relationships_as_subject', 'isopen', 'extras']

In [187]:
ORIGINAL_CKAN_URL = 'http://localhost:5000'
api_url = ORIGINAL_CKAN_URL + '/api/3/action/package_show?id=br_abrinq_oca'

package = requests.get(api_url).json()['result']
# package = migrate(package)
if 'extras' in package.keys():
    print("Tem extras")

Tem extras


In [198]:
# package['extras'][6]
# package['extras'][6]['value'] = "BD Mais"

In [192]:
package.keys()

In [185]:
package.pop('download_type')

'BD Mais'

In [186]:
basedosdados.action.package_update(**package)

{'id': '360325f9-e18c-412d-a9c7-3047e5504b7a',
 'name': 'br_abrinq_oca',
 'title': 'Observatório da Criança e do Adolescente',
 'type': 'dataset',
 'notes': 'O Observatório da Criança e do Adolescente é um espaço virtual que possibilita a consulta, em um mesmo lugar, dos principais indicadores sociais relacionados direta e indiretamente à infância e adolescência no Brasil. Seu objetivo é organizar as informações e facilitar o acesso a bases de dados de diversas fontes púbicas e privadas sobre população, qualidade de vida e bem-estar de crianças e adolescentes com idades ente zero e 18 anos, permitindo uma análise da evolução das principais políticas, dos desafios e das desigualdades regionais. Destina-se a formadores de opinião, representantes da sociedade civil, pesquisadores, gestores públicos e quaisquer pessoas que queiram, a partir de um simples mecanismo de busca online, conhecer a realidade e os problemas sociais que mais afetam as crianças e os adolescentes no país.',
 'author'

In [31]:
package.keys()

dict_keys(['id', 'name', 'title', 'type', 'notes', 'author', 'author_email', 'maintainer', 'maintainer_email', 'state', 'license_id', 'url', 'version', 'metadata_created', 'metadata_modified', 'creator_user_id', 'private', 'license_title', 'num_resources', 'resources', 'groups', 'owner_org', 'organization', 'num_tags', 'tags', 'relationships_as_object', 'relationships_as_subject'])

In [21]:
package['download_type']

'BD Mais'

In [343]:
migrated['extras'] = {'download_type': 'BD Mais'}

In [344]:
basedosdados.action.package_update(**migrated)

{'id': 'fa5975ce-f295-474f-85c4-c5b283afb482',
 'name': 'br-ms-sim',
 'title': 'Sistema de Informações sobre Mortalidade (SIM)',
 'type': 'dataset',
 'notes': 'O Sistema de Informações sobre Mortalidade (SIM) foi criado pelo DATASUS para a obtenção regular de dados sobre mortalidade no país. A partir da criação do SIM foi possível a captação de dados sobre mortalidade, de forma abrangente, para subsidiar as diversas esferas de gestão na saúde pública. Com base nessas informações é possível realizar análises de situação, planejamento e avaliação das ações e programas na área.',
 'author': None,
 'author_email': None,
 'maintainer': None,
 'maintainer_email': None,
 'state': 'active',
 'license_id': None,
 'url': 'http://www2.datasus.gov.br/DATASUS/index.php?area=0901&item=1',
 'version': None,
 'metadata_created': '2019-09-21T14:06:23.493093',
 'metadata_modified': '2021-07-29T03:31:52.627800',
 'creator_user_id': '27eaffe3-f79b-469f-8f02-4716146bdfcc',
 'private': False,
 'license_titl

In [323]:
[package_path for package_path in Path().glob('packages/*') if 'tse' in package_path.name]

[PosixPath('packages/database-of-accredited-postsecondary-institutions-and-programs-dapip'),
 PosixPath('packages/br-tse-eleicoes'),
 PosixPath('packages/integrated-postseondary-education-data-system-ipeds'),
 PosixPath('packages/br-tse-filiacao-partidaria')]

In [320]:
for package_path in Path().glob('packages/*'):
    package_update(package_path, False)

packages/letourdataset
packages/marinetraffic
packages/covid-19-preprints
packages/cdc-s-social-vulnerability-index-svi
packages/world-sea-temperatures
packages/passageiros-no-titanic
packages/u-s-survey-of-doctorate-recipients-sdr
packages/world-atlas-of-language-structures-wals
packages/nobel-laureates-1901-present
packages/smithsonian-open-access
packages/global-carbon-atlas
packages/occupied-palestinian-territory
packages/genomic-data-commons-gdc
packages/the-microbe-directory
packages/atlas-da-violencia
packages/macro-financial-dataset
packages/large-logo-dataset-lld
packages/uniform-crime-reporting-ucr-program-data-arrests-by-age-sex-and-race
packages/diario-oficial-do-estado-do-distrito-federal
packages/pesquisa-de-opiniao-american-trends-panel
packages/oecd-tax-database
packages/global-attitudes-on-abortion
packages/prestadores-de-servicos-turisticos-cadastur
packages/human-mortality-database-hmd
packages/territorial-self-governance-dataset-terrgo
packages/museum-data-files-mdf

In [309]:
for package_path in Path().glob('packages/*'):
    package = json.load(open(package_path))
    migrated = migrate(package)
    res = validate(migrated)
    if res:
        print('-------' * 10)
        print(package_path.name)
#         print(package)
#         print(migrated)
        print(res)

In [288]:
basedosdados.action.package_update(**migrated)

{'id': '91292202-7188-4df1-a74d-e899e8fa824b',
 'name': 'br-tse-eleicoes',
 'title': 'Eleições Brasileiras',
 'type': 'dataset',
 'notes': 'Dados de eleições brasileiras desde 1945 fornecidos pelo TSE. Inclui dados de eleitorado, candidaturas, resultados e prestação de contas.',
 'author': None,
 'author_email': None,
 'maintainer': None,
 'maintainer_email': None,
 'state': 'active',
 'license_id': '',
 'url': None,
 'version': None,
 'metadata_created': '2019-09-17T16:59:07.230588',
 'metadata_modified': '2021-07-29T01:43:40.745271',
 'creator_user_id': '27eaffe3-f79b-469f-8f02-4716146bdfcc',
 'private': False,
 'license_title': '',
 'num_resources': 19,
 'resources': [{'id': '2db55974-351d-4c6d-a20c-ced47bf3e7b7',
   'name': 'Baixar',
   'description': '',
   'position': 0,
   'url': 'http://www.tse.jus.br/eleicoes/estatisticas/repositorio-de-dados-eleitorais-1',
   'cache_last_updated': None,
   'cache_url': None,
   'created': '2019-09-17T16:59:23.688867',
   'datastore_active': F

In [52]:
# migrated_list = []

In [64]:
for m in migrated_list:
    packages.remove(m)

In [104]:
content

{'id': 'acd27881-6e01-4aa6-bc20-75dd0926b0d5',
 'name': 'worldwide-mobile-data-pricing',
 'title': 'Worldwide Mobile Data Pricing',
 'type': 'dataset',
 'notes': 'Dados de 5.554 planos de dados móveis em 228 países foram coletados e analisados por Cable.co.uk entre 3 de fevereiro e 25 de fevereiro de 2020. O custo médio de um gigabyte (1 GB) foi então calculado e comparado para formar uma tabela mundial de preços de dados móveis .\r\n\r\nAo contrário de nossas medições de velocidade de banda larga em todo o mundo e preços de banda larga em todo o mundo, onde a falta de infraestrutura de linha fixa significava lacunas significativas, o fornecimento de dados móveis é quase onipresente. No entanto, ainda existem alguns países ou territórios onde não existe oferta, existe apenas infraestrutura 2G, disponibilizando apenas chamadas e / ou SMS, ou os dados simplesmente não estão disponíveis. E há países e regiões onde os problemas com a moeda não permitem uma comparação útil.',
 'author': Non

In [115]:
for p in packages:
    print('-' * 20)
    print(p)
    api_url = ORIGINAL_CKAN_URL + f'/api/3/action/package_show?id={p}'
    content = requests.get(api_url).json()['result']
    errs = validate(migrate(content))
    if errs:
        if errs[0]['errors']['owner_org'] == ['A organização não existe']:
            pass
        print(errs)
        print(content)
    else:
        migrated_list.append(p)
        packages.remove(p)

--------------------
acaps-covid-19-government-measures-dataset
--------------------
acessos-dos-servicos-de-tv-por-assinatura-no-brasil
--------------------
acidentes-de-transito
--------------------
aea-rct-registry-dataverse
--------------------
afrobarometer
--------------------
a-global-database-on-central-banks-monetary-responses-to-covid-19
--------------------
agrofit
--------------------
aiddata-s-geocoded-global-chinese-official-finance
--------------------
aldeias-indigenas-sistema-indigenista-de-informacoes
--------------------
allsides-media-bias-chart
--------------------
amazonia-minada
--------------------
american-national-election-studies-anes
--------------------
americasbarometer
--------------------
analise-de-movimento-durante-covid-19-para-a-america-latina
--------------------
antarctic-iceberg-tracking-database
--------------------
anuario-estatistico-da-antaq
--------------------
anuario-estatistico-de-acidentes-do-trabalho-aeat
--------------------
arab-barome

KeyError: 'errors'

--------------------
acaps-covid-19-government-measures-dataset
--------------------
acessos-de-telefonia-fixa-no-brasil
[{'loc': ['API'], 'msg': 'extra fields not permitted', 'type': 'value_error.extra'}]
{'id': 'e2ac8cfb-9d0a-4b52-87f3-9c3437c0c2a2', 'name': 'acessos-de-telefonia-fixa-no-brasil', 'title': 'Acessos de telefonia fixa no Brasil', 'type': 'dataset', 'notes': 'A Agência Nacional de Telecomunicações (Anatel) informa mensalmente a quantidade de acessos existentes no Brasil relativos aos principais serviços de telecomunicações.\r\n\r\nOs dados apresentados abaixo referem-se aos acessos individuais do Serviço de Telefonia Fixa Comutada, não incluindo os acessos referentes aos telefones de uso público (orelhões).', 'author': '', 'author_email': '', 'maintainer': '', 'maintainer_email': '', 'state': 'active', 'license_id': 'cc-by', 'url': '', 'version': '', 'metadata_created': '2019-11-13T16:48:03.680651', 'metadata_modified': '2019-11-13T16:48:24.279223', 'creator_user_id': '2

KeyboardInterrupt: 

In [11]:
basedosdados.action.package_show(id=packages[0])

CKANAPIError: ['http://staging.basedosdados.org/api/action/package_show', 301, '<html>\r\n<head><title>301 Moved Permanently</title></head>\r\n<body>\r\n<center><h1>301 Moved Permanently</h1></center>\r\n<hr><center>nginx/1.19.2</center>\r\n</body>\r\n</html>\r\n']

In [None]:
for p in packages:
    print(p)
    validate(migrate(
             )
        )

In [124]:
# basedosdados.action.package_update(
#     **migrate(
#             basedosdados.action.package_show(id=p)))

In [118]:
migrate(basedosdados.action.package_show(id=p))

{'id': '85eb1869-c619-4ce0-bba6-345582bf728e',
 'name': 'world-inequality-database',
 'title': 'World Inequality Database',
 'type': 'dataset',
 'notes': 'O World Inequality Database (WID.world) visa fornecer acesso aberto e conveniente ao banco de dados mais amplo disponível sobre a evolução histórica da distribuição mundial de renda e riqueza, tanto dentro dos países como entre países.\r\n\r\nNos últimos quinze anos, o interesse renovado pela evolução de longo prazo da desigualdade de renda e riqueza deu origem a uma literatura florescente. Em particular, uma sucessão de estudos construiu as principais séries de compartilhamento de renda para um grande número de países (ver Thomas Piketty 2001, 2003, T. Piketty e Emmanuel Saez 2003, e os dois volumes multinacionais de renda superior editados por Anthony B. Atkinson e T. Piketty 2007, 2010; ver também AB Atkinson et al. 2011 e Facundo Alvaredo et al. 2013 para pesquisas desta literatura). Esses projetos geraram um grande volume de dad

In [112]:
packages

['aea-rct-registry-dataverse',
 'a-global-database-on-central-banks-monetary-responses-to-covid-19',
 'a-global-scale-data-set-of-mining-areas',
 'al-urayya-project',
 'anage-the-animal-ageing-and-longevity-database',
 'analise-de-movimento-durante-covid-19-para-a-america-latina',
 'a-spatial-database-of-health-facilities-managed-by-the-public-health-sector-in-sub-saharan-africa',
 'awarded-grants-by-bill-and-melinda-gates-foundation',
 'bloomberg-billionaires-index',
 'bp-statistical-review-of-world-energy',
 'br_abrinq_oca',
 'br-ana-atlas-esgotos',
 'br-anvisa-medicamentos-industrializados',
 'br-ba-feiradesantana-camara-leis',
 'br-bd-diretorios-brasil',
 'br-bd-diretorios-data-tempo',
 'br_camara_atividade_legislativa',
 'br-denatran-frota',
 'br-geobr-mapas',
 'br-ibge-amc',
 'br-ibge-censo-demografico',
 'br-ibge-nomes-brasil',
 'br-ibge-pam',
 'br-ibge-pib',
 'br-ibge-pnadc',
 'br-ibge-pnad-covid',
 'br-ibge-populacao',
 'br-ibge-ppm',
 'br-imprensa-nacional-dou',
 'br-inep-ide

In [71]:
a.pop('a')

1

In [72]:
a

{}