# Introdução a JSON

## Load Dados a partir objetos predefinidos

- A partir Dictionary
- A partir List

Biblioteca pprint: https://docs.python.org/3/library/pprint.html

In [None]:
# Ler JSON de um Dicionario
import pprint
import json

# Criar um Dictionary (exemplo dados municipios)
municipios = {
    "Almada": {
        "populacao": 177400        
    },
    "Cascais": {
        "populacao": 214124        
    },
    "Seixal": {
        "populacao": 160000
    },
    "Entroncamento": {
        "populacao": 20141
    },
    "Cadaval": {
        "populacao": 13372
    },
    "Sintra": {
        "populacao": 385606
    }
}
print(type(municipios))
# Converter o Dictionary para uma string JSON
mn_json = json.dumps(municipios)
print(type(mn_json))

# Fazer Load do JSON
data_json = json.loads(mn_json)
print(type(data_json))
# Mostrar População Cascais
print ("População Cascais:",data_json["Cascais"]["populacao"])

# Imprimir o Type do Object Devolvido
print('Tipo Objecto:', type(data_json))

# Imprimir o objecto com PrettyPrinter
pp = pprint.PrettyPrinter(indent=4)

# Imprimir o dicionário
pp.pprint(data_json)

In [None]:
# Criar JSOn a partir de uma Listagem:
import json
import pprint

# Exemplo cidades de Portugal
cidades = ["Lisboa", "Porto", "Vila Nova de Gaia", "Amadora", "Braga", "Funchal", "Coimbra", "Almada", "Setúbal", "Agualva-Cacém"]

# Converter a lista para uma string JSON
cidades_json = json.dumps(cidades)
print('Tipo Objecto após json.dumps:', type(cidades_json))
# Converter a string JSON de volta para uma lista
data_json = json.loads(cidades_json)


# Imprimir o Type do Object Devolvido
print('Tipo Objecto após json.loads:', type(data_json))

# Imprimir os dados carregados
# Criar um objeto PrettyPrinter
pp = pprint.PrettyPrinter(indent=4)

# Imprimir o dicionário
pp.pprint(data_json)

## Ler Dados de um Ficheiro
- Ler dados de um ficheiro no servidor
- Ler dados de um ficheiro na net

Exemplo de um ficheiro JSON com municipios do distrito Madrid: 
- Ficheiro: municipio_comunidad_madrid.json
- URL: https://datos.comunidad.madrid/catalogo/dataset/032474a0-bf11-4465-bb92-392052962866/resource/301aed82-339b-4005-ab20-06db41ee7017/download/municipio_comunidad_madrid.json


In [None]:
import json
import pandas as pd
# Ler Dados de um Ficheiro no computador (Municipios de Provincia de Madrid)
jsonfile = r"C:\temp\municipio_comunidad_madrid.json"

# Abrir Ficheiro e fazer Load
with open(jsonfile, 'r') as f:
    json_data = json.load(f)

print(type(json_data))
    
# Verificar Tipo de Dados Devolvido e mostrar informação
if isinstance(json_data, list):
    print("JSON object is a list.")
    if json_obj:
        print("Numero Registos:", len(json_data))
        print("Registo Exemplo:", json_data[0])
elif isinstance(json_data, dict):
    print("JSON object is a dictionary.")
    print("Keys do Object:", list(json_data.keys()))
else:
    print("Unknown JSON object type.")

novoelem = json_data["data"]  
print (type(novoelem))

df = pd.DataFrame(novoelem)
print(df.info())


## Ler Dados de um URL

In [None]:
import json
import requests

proxies = {
  'http': 'http://proxy.ine.pt:8080',
  'https': 'http://proxy.ine.pt:8080',
}


url = "https://datos.comunidad.madrid/catalogo/dataset/032474a0-bf11-4465-bb92-392052962866/resource/301aed82-339b-4005-ab20-06db41ee7017/download/municipio_comunidad_madrid.json"

# Make an HTTP GET request to fetch the JSON data from the URL
# 
response = requests.get(url, proxies=proxies)

# Verificar Resposta
# Respostas Possiveis
if response.status_code == 200:
    #Obter JSON response
    json_data = response.json()
else:
    print("Failed to fetch data. Status code:", response.status_code)
    exit()


# Verificar Tipo de Dados Devolvido e mostrar informação
if isinstance(json_data, list):
    print("JSON object is a list.")
    if json_data:
        print("Numero Registos:", len(json_data))
        print("Registo Exemplo:", json_data[0])
elif isinstance(json_data, dict):
    print("JSON object is a dictionary.")
    print("Keys do Object:", list(json_data.keys()))
else:
    print("Unknown JSON object type.")

## Converter para Pandas DataFrame

**Links**
- pandas.read_json(): https://pandas.pydata.org/docs/reference/api/pandas.read_json.html
- Artigo sobre processo: https://towardsdatascience.com/how-to-convert-json-into-a-pandas-dataframe-100b2ae1e0d8
- Flatten Nested JSON in Pandas: https://www.kaggle.com/code/jboysen/quick-tutorial-flatten-nested-json-in-pandas
- Pandas Normalize: https://pandas.pydata.org/docs/reference/api/pandas.json_normalize.html



### Ler Dados de uma listagem normal

In [None]:
import pandas as pd
# Ler Informacao JSOn Municipios:
df_mn = pd.read_json(r'C:\temp\municipios.json')

print(df_mn.info())
print('Primeiro Municipio',df_mn['municipio'][0])

### Ler de um ficheiro com mais níveis (Nested Data)

In [None]:
import pandas as pd
# Ler Informacao JSOn Municipios:
df_frmn = pd.read_json(r"C:\temp\municipiosfreguesias.json")
print(df_frmn.info())
print('Primeiro Municipio',df_frmn['municipio'][0])

# Ver o tipo do atributo freguesias - Series
print(type(df_frmn['freguesias']))

# Selecionar o primeiro municipio
df_frmn = df_frmn.loc[df_frmn['municipio'] == 'Almada']

# Mostrar os valores das freguesias
print(df_frmn['freguesias'])


### Utilizar json_normalize()

In [None]:
# Utilizar a funcao json_normalize para criar um DF apenas das freguesias

# Load the JSON file
with open(r"C:\temp\municipiosfreguesias.json", "r", encoding="utf-8") as f:
    municipalities = json.load(f)

# Convert the JSON into a DataFrame
df = pd.json_normalize(municipalities, record_path=['freguesias'])

# Print the DataFrame
print(df)
print(df.info())

### Criar DataFrame utilizando um Loop

In [None]:
# Alternativa para criar Informação das Freguesias
# Ler os dados
with open(r"C:\temp\municipiosfreguesias.json", "r", encoding="utf-8") as f:
    municipalities = json.load(f)
    
# Criar Lista das linhas do INPUT
rows = []

# Percorrer os municipios
for municipality in municipalities:
    # Iterate over the freguesias
    for freguesia in municipality['freguesias']:
        # Criar novo registo
        row = {
            'municipio': municipality['municipio'],
            'freguesia': freguesia['nome'],
            'populacao': freguesia['populacao']
        }

        # Adicionar Registo a Lista
        rows.append(row)

# Criar DataFame
df = pd.DataFrame(rows)

# Print the DataFrame
print(df)


## Exercio \ Desafio

**A partir do objecto pt_info**
1. Converter o dicionário para uma string JSON  
2. Converter a string JSON de volta para um dicionário
3. Obter o tipo do objecto devolvido
4. Imprimir as chaves
5. Converter para DataFrame
6. Fazer algumas pesquisas
    - População de Vila Nova de Gaia
    - Area de Portugal
 
 

 

In [None]:
# Dictionary com informcao Portugal:
# Também é Nested
pt_info = {
  "country": "Portugal",
  "capital": "Lisbon",
  "population": 10347892,
  "area": 92212,
  "language": "Portuguese",
  "currency": "Euro",
  "cities": [
    {
      "name": "Lisbon",
      "population": 504762,
      "region": "Lisboa"
    },
    {
      "name": "Porto",
      "population": 219419,
      "region": "Norte"
    },
    {
      "name": "Vila Nova de Gaia",
      "population": 301877,
      "region": "Norte"
    },
    {
      "name": "Matosinhos",
      "population": 174339,
      "region": "Norte"
    },
    {
      "name": "Almada",
      "population": 174033,
      "region": "Lisboa"
    }
  ]
}



# JSON INE

## Pedidos a Portal INE

**Exemplos de algumas variáveis**
- Variavel 0011609: População residente (N.º) por Local de residência à data dos Censos [2021] (NUTS - 2013)
- Variável 0008074: Taxa de criminalidade (‰) por Localização geográfica (NUTS - 2013) e Categoria de crime
    - Dim3 : 3 
- Variável 0009234: Alunas/os inscritas/os no ensino superior (N.º) por Localização geográfica (NUTS - 2013) e Nacionalidade; 
    - Pesquisa último ano toda a geografia

**Alguns exemplos de URL's**
- https://www.ine.pt/ine/json_indicador/pindica.jsp?op=2&varcd=0008074&Dim1=S7A2015&Dim3=T&lang=PT
- https://www.ine.pt/ine/json_indicador/pindica.jsp?op=2&varcd=0011609&Dim1=S7A2021&Dim3=T&Dim4=T&lang=PT
- https://www.ine.pt/ine/json_indicador/pindica.jsp?op=2&varcd=0008074&Dim1=S7A2015&Dim2=200,300&Dim3=3&lang=PT
- https://www.ine.pt/ine/json_indicador/pindica.jsp?op=2&varcd=0011609&Dim3=T&Dim4=T&lang=PT




## Ler Dados do portal

**Exemplo Taxa de criminalidade (0008074)**

In [None]:
import requests
import os
# Ler Dados Inicial para JSON
# Indicador 0008074: Taxa de criminalida, último ano, todos os níveis geográficos, indicador 
# Categorias no SMI do Dim3: http://smi-i.ine.pt/Versao/Detalhes/902 
proxies = {
  'http': 'http://proxy.ine.pt:8080',
  'https': 'http://proxy.ine.pt:8080',
}

os.environ['http_proxy'] = 'http://proxy.ine.pt:8080'
os.environ['https_proxy'] = 'http://proxy.ine.pt:8080'

# Dim1=T: Dados de todos os anos
url = "https://www.ine.pt/ine/json_indicador/pindica.jsp?op=2&varcd=0008074&Dim1=T&Dim3=3&lang=PT"
print(url)
# Make an HTTP GET request to fetch the JSON data from the URL
response = requests.get(url, proxies=proxies)

# Verificar Resposta
# Respostas Possiveis
if response.status_code == 200:
    #Obter JSON response
    json_data = response.json()
else:
    print("Failed to fetch data. Status code:", response.status_code)
    exit()


# Verificar Tipo de Dados Devolvido e mostrar informação
if isinstance(json_data, list):
    print("JSON object is a list.")
    if json_data:
        print("Numero Registos:", len(json_data))
        #print("Registo Exemplo:", json_data[0])
        print("Tipo 1º elementos:", type(json_data[0]))
elif isinstance(json_data, dict):
    print("JSON object is a dictionary.")
    print("Keys do Object:", list(json_data.keys()))
else:
    print("Unknown JSON object type.")

    
# Obter tipo de keys no dictionary
print("Keys existentes:", list(json_data[0].keys()))

# Key com os dados


## Analisar o Objecto JSON Devolvido

- Boa maneira é ver o resultado do pedido num browser (firefox)


In [None]:
# Para poder Importar será necessário de fazer uma análise do Objeto Devolvido

# Obter Keys no Dados
# Existe um Key para Cada Ano
print("Keys existentes nos Dados:", list(json_data[0]['Dados'].keys()) )

# Ver Tipo de conteudo 2022:
print("Tipo Objecto:", type(json_data[0]['Dados']['2022']) )

# Tipo é Listagem de Dictionary's
# Ver conteudo e informação 1º elemento
print("Tipo primeiro elemento:", type(json_data[0]['Dados']['2022'][0]), 'Numero Elementos:', len(json_data[0]['Dados']['2022']) )
# Atributos de cada dictionary
print("Keys existentes no Ano:", list(json_data[0]['Dados']['2022'][0].keys()) )

_Mostrar os Anos_

In [None]:
# Fazer um Loop por todos os anos
for ky in list(json_data[0]['Dados'].keys()):
    print(ky)

## Criar DataFrame dos dados

In [None]:
import geopandas as gpd

dadosmn = r"c:\temp\GPK_CAOP_MN.gpkg"
# Ler os dados do GeoPackage para um GeoDataFrame
gdfmn = gpd.read_file(dadosmn, encoding='utf-8')
print(gdfmn.info())
print(gdfmn.head())

In [None]:
import pandas as pd
# Os dados para importar dzem respeito a uma listagem de dictionary's. 

# Os dados podem ser importados a partir destas listagem com função pd.DataFrame()
# Para assegurar o tipo de dados deveria ser especificado o tipo de atributos das colunas 
columns = ["geocod", "geodsg", "dim_3", "dim_3_t", "valor"]
data_types = {"geocod": str, "geodsg": str, "dim_3": str, "dim_3_t": str, "valor": float}

# Convert the list of dictionaries to a Pandas DataFrame
df_ine = pd.DataFrame(json_data[0]['Dados']['2022'], columns=columns).astype(data_types)

# Mostrar o Resultado:
print(df_ine.info())
print(df_ine.head(8))
print('Numero registos:',len(df_ine))

# Novo Cell - filter NUTS3 (length geocod == 3):
# Alternativa - seria criar uma listagem unica a 34]
df_nuts3 = df_ine[df_ine['geocod'].str.len() == 3]
print(df_nuts3.info())

#df_nuts3['codmn'] = df_nuts3['geocod'].str[-4:]
# df_nuts3['geocod'].str[-4:]
#print(df_nuts3.head(10))


### Futuras alterações API

~~~
Alterações PAI Geografia: Olá, Francisco, tenho aqui uns umas chamadas à API com os níveis geográficos já implementados. 

https://portalteste.ine.pt/ine/json_indicador/pindica.jsp?op=2&varcd=0001149&DIM1=S7A2010&DIM2=lvl@2&DIM3=5&lang=PT

https://portalteste.ine.pt/ine/json_indicador/pindica.jsp?op=2&varcd=0001149&DIM1=S7A2010&DIM2=lvl@1,2&DIM3=5&lang=PT

https://portalteste.ine.pt/ine/json_indicador/pindica.jsp?op=2&varcd=0008074&Dim1=S7A2015&Dim2=<*>30&Dim3=3&lang=PT

~~~


## Visualizar os dados como mapa

_Neste momento está a ser desenvolvido a possibilidade de definir melhor a geografia_

In [None]:
# Mostrar valores unicos chave
import numpy as np
print(np.sort(df_nuts3.geocod.unique()))
print(df_nuts3[['geocod','geodsg','valor']])

In [None]:
# Corrigir Valores NaN
df_nuts3 = df_nuts3.fillna(0)

In [None]:
# Import packages
import matplotlib.pyplot as plt
import pandas as pd
import geopandas as gpd

# Definir Figura e Axis
f, ax = plt.subplots(1, figsize=(9, 9))


# Ler os dados NUTS3
gpk = r"c:\temp\GPK_NUTS3.gpkg"

# Ler os dados do GeoPackage para um GeoDataFrame
gdfnuts3 = gpd.read_file(gpk)
print(gdfnuts3.info())
# Selecionar Dados Portugal Continental:
# Fazer Seleção da NUTS1, Atributo NUTS3
# Sem seleção a area da visualização é muito grande
gdf_nuts3_sel = gdfnuts3[gdfnuts3['NUTS3'].str.startswith('1')]

print(gdf_nuts3_sel.info())

# Fazer Merge dos dados
# Fazer o Join, especificar: DF
gdf_nuts3_2 = gdf_nuts3_sel.merge(df_nuts3, left_on='NUTS3', right_on='geocod', how='left')

# Definir Legenda 
lgnd_kwds = {'loc': 'upper left', 
             'bbox_to_anchor': (1, 1.03), 
             'ncol': 2}

# Generate the choropleth and store the axis
# natural_breaks
ax = gdf_nuts3_2.plot(column=gdf_nuts3_2.valor, 
                      scheme='quantiles', # natural_breaks, quantiles, equal_interval 
                      k=7, 
                      cmap='YlGn', 
                      legend=True,
                      edgecolor = 'dimgray',
                      legend_kwds  = lgnd_kwds,
                      ax=ax)
 
# Remover frames, ticks e tick labels do axis
ax.set_axis_off()

plt.title('Indicador ')
plt.show()


In [None]:
gdfnuts3.info()
print(gdf_nuts3_sel.NUTS3.unique())
print(df_nuts3.geocod.unique())
# Valores unicos NUTS3 

## Exercício\Desafio

**Observações:**
- Faz a Adaptação do código seguinte para importar outro indicador ao nível de municipio ou NUTS3
- Ler Dados Indicador XXXX de um ano a escolha
    - Ver pagina SMI Indicadores: https://smi.ine.pt/Indicador?clear=True
    - Testar url antes de incluir no script
- Importar para Pandas Dataframe as áreas NUTS3
- Criar mapa dos resultados

**Informação URL**
- varcd: código de difusão
- Dim1 (periódo de referência): 
    - Ano (de acordo com portal, por exemplo S7A2016<)
    - Sem valores, devolvido dados último ano
    - T: Dados de todos os anos
- Dim2:
    - Sem dados: retornados dados todas as geografias
    - Geografias separados por vírgula
- Dim3=T: Informação disponível no SMI


_Ler Dados API INE_

In [None]:
import requests
import os
import pandas as pd

# Ler Dados Inicial para JSON
# Indicador 0008074: Taxa de criminalida, último ano, todos os níveis geográficos, indicador 
# Categorias no SMI do Dim3: http://smi-i.ine.pt/Versao/Detalhes/902 
proxies = {
  'http': 'http://proxy.ine.pt:8080',
  'https': 'http://proxy.ine.pt:8080',
}

os.environ['http_proxy'] = 'http://proxy.ine.pt:8080'
os.environ['https_proxy'] = 'http://proxy.ine.pt:8080'

# Dim1: Ultimo ano, Dim2: Todas as geografias 
url = r'https://www.ine.pt/ine/json_indicador/pindica.jsp?op=2&varcd=0008265&lang=PT'

# Make an HTTP GET request to fetch the JSON data from the URL
response = requests.get(url, proxies=proxies)

# Verificar Resposta
# Respostas Possiveis
if response.status_code == 200:
    #Obter JSON response
    json_data = response.json()
else:
    print("Failed to fetch data. Status code:", response.status_code)
    exit()

print (type(json_data))


# Verificar Tipo de Dados Devolvido e mostrar informação
if isinstance(json_data, list):
    print("JSON object is a list.")
    if json_data:
        print("Numero Registos:", len(json_data))
        #print("Registo Exemplo:", json_data[0])
        print("Tipo 1º elementos:", type(json_data[0]))
elif isinstance(json_data, dict):
    print("JSON object is a dictionary.")
    print("Keys do Object:", list(json_data.keys()))
else:
    print("Unknown JSON object type.")

    
# Obter tipo de keys no dictionary
print("Keys existentes:", list(json_data[0].keys()))


In [None]:
# Fazer um Loop por todos os anos
for ky in list(json_data[0]['Dados'].keys()):
    print(ky)

In [None]:
# Obter Keys no Dados
# Existe um Key para Cada Ano
# Resultado json_data
print("Keys existentes nos Dados:", list(json_data[0]['Dados'].keys()) )

# Ver Tipo de conteudo 2022:
print("Tipo Objecto:", type(json_data[0]['Dados']['2022']) )

# Tipo é Listagem de Dictionary's
# Ver conteudo e informação 1º elemento
print("Tipo primeiro elemento:", type(json_data[0]['Dados']['2022'][0]), 'Numero Elementos:', len(json_data[0]['Dados']['2022']) )
# Atributos de cada dictionary
# json_data[0] = Conteudo de resposta
# json_data[0]['Dados'] = Vamos buscar os proprios dados
# Obter os dados do ano 2022 - deste conteudo podmeos criar DataFrame: json_data[0]['Dados']['2022']
print("Keys existentes no Ano:", list(json_data[0]['Dados']['2022'][0].keys()) )



In [None]:
# criar Dataframe:
# Para assegurar o tipo de dados deveria ser especificado o tipo de atributos das colunas 
columns = ["geocod", "geodsg", "valor"]
data_types = {"geocod": str, "geodsg": str, "valor": float}

# Convert the list of dictionaries to a Pandas DataFrame
df_ine = pd.DataFrame(json_data[0]['Dados']['2022'], columns=columns).astype(data_types)
print (df_ine.head())

In [None]:
# Mostrar os dados ao nivel de NUTS3:
# Filtragem no DF - Seleção Length 7
df_nuts3 = df_ine[df_ine['geocod'].str.len() == 7].copy()
df_nuts3['codmn'] = df_nuts3['geocod'].str[-4:]
print(df_nuts3.head())

In [None]:
# ImportR gEOPackage
# Import packages
import matplotlib.pyplot as plt
import pandas as pd
import geopandas as gpd
 
# Ler os dados CAOP
gpk = r"c:\temp\GPK_CAOP_MN.gpkg"

# Ler os dados do GeoPackage para um GeoDataFrame
gdfnuts3 = gpd.read_file(gpk)
print(gdfnuts3.head())



In [None]:
# Merge dos Dados:
gdf_nuts3_2 = gdfnuts3.merge(df_nuts3, left_on='DTMN', right_on='codmn', how='left')
print(gdf_nuts3_2.head())

In [None]:


# Definir Figura e Axis
f, ax = plt.subplots(1, figsize=(9, 9))

# Mostrar Dados 
# Definir Legenda 

lgnd_kwds = {'loc': 'upper left', 
             'bbox_to_anchor': (1, 1.03), 
             'ncol': 2}

# Generate the choropleth and store the axis
# natural_breaks
ax = gdf_nuts3_2.plot(column=gdf_nuts3_2.valor, 
                      scheme='quantiles', # natural_breaks, quantiles, equal_interval 
                      k=7, 
                      cmap='YlGn', 
                      legend=True,
                      edgecolor = 'dimgray',
                      legend_kwds  = lgnd_kwds,
                      ax=ax)
 
# Remover frames, ticks e tick labels do axis
ax.set_axis_off()

plt.title('Taxa bruta de mortalidade (‰) por Local de residência (NUTS - 2013)')
plt.show()