![Insper](https://github.com/danielscarvalho/Insper-DS-Dicas/blob/master/Insper-Logo.png?raw=true)

# Insper Pós-Graduação
## Programa Avançado em Data Science e Decisão [»](https://www.insper.edu.br/pos-graduacao/programas-avancados/programa-avancado-em-data-science-e-decisao/)

# Trabalhando com formato JSON

Vamos explorar mais sobre JSON e chamadas de WEB APIs

JSON (abreviatura para *JavaScript Object Notation*) tornou-se um dos formatos padrões para envio de dados em requisições HTTP entre navegadores WEB e outras aplicações.

É um formato de dados muito mais livre e flexível que um formato de texto tabular, como o CSV. Que permite enviar estrutura de dados mais complexas e encadeadas.

Um JSON é basicamente a mesma estrutura de dados que o dicionário do Python (dict):
- https://docs.python.org/3/tutorial/datastructures.html#dictionaries
- https://penseallen.github.io/PensePython2e/11-dicionarios.html

Misteriosa URL:

![](https://www.hostinger.com/tutorials/wp-content/uploads/sites/2/2022/07/the-structure-of-a-url-1024x431.webp)

https://www.hostinger.com/tutorials/what-is-a-url

![](https://substackcdn.com/image/fetch/f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fbucketeer-e05bbc84-baa3-437e-9518-adb32be77984.s3.amazonaws.com%2Fpublic%2Fimages%2Fda8966d9-d27d-44dd-ac0b-d4ba998434a7_1102x360.png)

https://www.seoforgooglenews.com/p/everything-urls-news-publishers

In [None]:
import json
import pandas as pd
from urllib.request import urlopen

Urllib faz parte dos pacotes padrão do Python:
- https://docs.python.org/3/library/urllib.request.html#module-urllib.request

## Um JSON clássico

Documentação: http://doc.seade.gov.br/index.php/API-SEADE

In [None]:
url = 'https://api-imp.seade.gov.br/v1/localidade/10'

In [None]:
type(url)

In [None]:
import ssl
ssl._create_default_https_context = ssl._create_unverified_context

In [None]:
urlopen(url).read()

In [None]:
type(_)

In [None]:
seade = json.loads(urlopen(url).read())

In [None]:
# FIX hint at: https://stackoverflow.com/questions/50236117/scraping-ssl-certificate-verify-failed-error-for-http-en-wikipedia-org

import ssl 
ssl._create_default_https_context = ssl._create_unverified_context

In [None]:
seade

In [None]:
type(seade)

In [None]:
seade["localidade"]

In [None]:
seade["localidade"]["nome_pai"]

> Aulas em que utilizamos recursos externos na Internet, podemos ter surpresas pois as WEB APIs podem mudar de site, estrutura de dados ou até se tornarem fechadas ou indisponíveis... tudo depende de quem as fornece...

In [None]:
import requests

requests.get("https://api-imp.seade.gov.br/v1/localidade/10").json

In [None]:
!curl --x https://api-imp.seade.gov.br/v1/localidade/10

## Outro exemplo

Agora usando a biblioteca **requests** com a WEB API do DuckDuckGo, chamando a WEB e já convertendo o texto HTTP em dicionário do Python (JSON)

Documentação: https://requests.readthedocs.io/en/latest/

In [None]:
import requests

res=requests.get('https://api.duckduckgo.com/?format=json&pretty=1&q=COVID').json()

In [None]:
res

In [None]:
type(res)

In [None]:
res["Abstract"]

## JSON aninhados

In [None]:
url = 'https://corgis-edu.github.io/corgis/datasets/json/covid/covid.json'
covid = json.loads(urlopen(url).read())

In [None]:
covid

In [None]:
len(covid)

In [None]:
type(covid)

In [None]:
type(covid[0])

In [None]:
covid[0]

## Lendo um JSON como um DataFrame

É fácil perceber que JSON com estruturas encadeadas não são bem processados no Pandas.<br>
O Pandas processa bem dados tabulares, cartesianos, com linhas e colunas...

In [None]:
covid_df = pd.read_json(url)

In [None]:
covid_df

In [None]:
covid_df = pd.DataFrame.from_dict(covid)

In [None]:
covid_df.head()

Como o JSON tem estruturas aninhadas (*nested JSON*) podemos usar a função `json_normalize` da biblioteca Pandas para extrair os dados de cada estrutura aninhada, e concatenar os dataframes resultantes em um único.

In [None]:
covid_date = pd.json_normalize(covid_df['Date'])
covid_date.head()

In [None]:
covid_data = pd.json_normalize(covid_df['Data'])
covid_data.head()

In [None]:
covid_location = pd.json_normalize(covid_df['Location'])
covid_location.head()

In [None]:
pd.concat([pd.json_normalize(covid_df['Date']), \
           pd.json_normalize(covid_df['Data']), \
           pd.json_normalize(covid_df['Location'])], axis=1)

In [None]:
covid_df = pd.concat([covid_date, covid_data, covid_location], axis=1)

In [None]:
covid_df.head()

In [None]:
covid_df['Date'] = pd.to_datetime(covid_df[['Day', 'Month', 'Year']])

In [None]:
covid_df

Listar países (top 10) com maior números de mortes...

In [None]:
top10 = covid_df.groupby('Code')[['Cases']].sum().sort_values('Cases', ascending=False)[:10].index

In [None]:
covid_top10 = covid_df.query('Code in @top10')

In [None]:
covid_top10.head()

In [None]:
covid_top10.groupby('Code')[['Cases']].sum()

In [None]:
covid_top10.groupby(['Code','Population'])[['Cases']].sum()

In [None]:
import altair as alt

In [None]:
covid_top10

Vamos ordernar todos os registros por Data e País (Date, Code).

In [None]:
covid_top10 = covid_top10.sort_values(by=['Date', 'Code'])

Como os dados são registros de casos no dia, um gráfico temporal ficaria com 'altos e baixos'.

In [None]:
alt.Chart(covid_top10).mark_line().encode(
    x='Date',
    y='Cases',
    color='Code',
    tooltip=['Code', 'Date', 'Cases']
).properties(
    width=800,
    height=500).interactive()

O que podemos tentar visualizar é o crescimento do número **total** de casos, para isso, temos que fazer uso de dois `group by`, já assumindo que os dados estão *ordenados*. A estrutura do primeiro Groupby é conhecida como *Multi index*, por isso que no segundo groupby nós precisamos falar sob quais dos índices queremos o agrupamento. 

In [None]:
covid_top10.groupby(['Date', 'Code'])['Cases'].sum().groupby(level=1).cumsum()

In [None]:
covid_top10['Cumsum'] = covid_top10.groupby(['Date', 'Code'])['Cases'].sum( \
).groupby(level=1).cumsum().reset_index()['Cases'].values

In [None]:
covid_top10

In [None]:
covid_top10.query('Code == "BRA"')

In [None]:
alt.Chart(covid_top10).mark_line().encode(
    x='Date:T',
    y=alt.Y('Cumsum:Q', title='Casos acumulados'),
    color='Code:N',
    tooltip=['Code', 'Date', 'Cumsum']
).properties(
    title='Infecções por COVID-19 (2020)',
    width=800,
    height=500).interactive()

## Extra: Buscando dados de WEB API com chave (key)

Registre-se no site e obtenha sua própria chave para acesso aos dados.<br>
Os provedores de serviços e dados (WEB SERVICES) normalmente tem um nível de acesso gratuito...

https://newsdata.io/docs

In [None]:
key="pub_998f3aa216425b80ba4f24bacfe2a6d540a"
news_url="https://newsdata.io/api/1/news?apikey=" + key

In [None]:
import requests

news_dict=requests.get(news_url).json()

In [None]:
news_dict

In [None]:
import pandas as pd

pd.DataFrame.from_dict(news_dict["results"])

Mais exemplos:

Exchange Rate

- https://www.exchangerate-api.com/docs/standard-requests

In [None]:
import requests
import pandas as pd
from pandas import json_normalize


KEY="83a86b7e52ae32f98450f45e"

url = f"https://v6.exchangerate-api.com/v6/{KEY}/latest/USD"
usd_df = pd.read_json(url)
usd_df

In [None]:
usd_df['conversion_rates'].plot()

Bitcon trade data:

https://www.mercadobitcoin.com.br/api-doc/

In [None]:
URL="https://www.mercadobitcoin.net/api/BTC/trades/"

btc_df=pd.read_json(requests.get(URL).text)

In [None]:
btc_df

In [None]:
btc_df['price'].plot()

In [None]:
btc_df['price'].hist()

In [None]:
btc_df['amount'].plot()

In [None]:
btc_df['amount'].hist()

Faça teste com Etherium!

Wolfram|Alpha short answare WEB API (Artificial Intelligence):

https://products.wolframalpha.com/short-answers-api/explorer/

In [None]:
def wolfram(query):
    KEY="QUHXR3-9LAX3KYJQ7"
    URL=f"https://api.wolframalpha.com/v1/result?i={query}&appid={KEY}"
    return requests.get(URL).text

In [None]:
wolfram("Distance from Earth and Moon")

In [None]:
wolfram("Distance from NYC to Paris")

In [None]:
wolfram('Distance from USP to UFRJ')

In [None]:
wolfram('NYC temperature')

In [None]:
wolfram("Temperature at my place")

In [None]:
wolfram("Sonia Braga age")

In [None]:
wolfram("What is the boiling point of water at mount everest?")

### OpenAI

OpenAI: https://platform.openai.com/docs/introduction

In [None]:
!conda install openai -y

Configurar sua chave do OpenAI como variável de ambiente
Inserir no arquivo .bash_profile ou .bashrc

```bash
export OPENAI_API_KEY=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
````

In [None]:
import os
import openai

openai.__version__

In [None]:
client = openai.OpenAI(
    # This is the default and can be omitted
    api_key=os.environ.get("OPENAI_API_KEY"),
)

In [None]:
chat_completion = client.chat.completions.create(
    messages=[
        {
            "role": "user",
            "content": "The 10 biggest countries in size are: ",
        }
    ],
    model="gpt-3.5-turbo",
)

In [None]:
print(chat_completion.choices[0].message.content)

In [None]:
client.close()

In [None]:
client = OpenAI()

stream = client.chat.completions.create(
    model="gpt-4",
    messages=[{"role": "user", "content": "Those are the 5 Python questions for beginner in Data Science"}],
    stream=True,
)
for chunk in stream:
    print(chunk.choices[0].delta.content or "", end="")

In [None]:
stream = client.chat.completions.create(
    model="gpt-4",
    messages=[{"role": "user", "content": "In statistics the term standard deviation means: "}],
    stream=True,
)
for chunk in stream:
    print(chunk.choices[0].delta.content or "", end="")

In [None]:
stream = client.chat.completions.create(
    model="gpt-4",
    messages=[{"role": "user", "content": "In math the determinant is used to"}],
    stream=True,
)
for chunk in stream:
    print(chunk.choices[0].delta.content or "", end="")

In [None]:
def aiquery(query):
    chat_completion = client.chat.completions.create(
        messages=[
            {
                "role": "user",
                "content": query,
            }
        ],
        model="gpt-4o-mini",
    )
    
    return chat_completion.choices[0].message.content

In [None]:
print(aiquery("Who is Batman?"))

In [None]:
print(aiquery("What is the most powerfull Pokemon, and about comparing Zubat and Pikachu?"))

In [None]:
print(aiquery("What is the meaning of life?"))

In [None]:
print(aiquery("What is the highest point in the planet Earth?"))

In [None]:
print(aiquery("Create a Python function to calculate a Fibonacci number"))

### Automação de processos com LLMs

Podemos automatizar processos criando funções com os algoritmos de IA LLM:

Função para gerar uma lista de referências de livros, dado um livro inicial:

In [None]:
def book_reference(query):
    chat_completion = client.chat.completions.create(
        messages=[
            {
                "role": "user",
                "content": f"List 10 academic books cited alongside '{query}' on articles at IEEE citation format, just books, authors, publisher and year no other comments",
            }
        ],
        model="gpt-4o-mini",
        stream=False,
        temperature=1
    )
    
    return chat_completion.choices[0].message.content

In [None]:
print(book_reference('Artificial Intelligence: A Modern Approach Livro by Peter Norvig and Stuart Russell'))

Listar 10 filmes relativos a um filme informado, recomendação:

In [None]:
def move_references(query):
    chat_completion = client.chat.completions.create(
        messages=[
            {
                "role": "user",
                "content": f"Recomend a list of 10 movies for a person that likes the movie '{query}', just cite the movie name and lunching year, no additional message",
            }
        ],
        model="gpt-4o-mini",
        stream=False,
        temperature=1
    )
    
    return chat_completion.choices[0].message.content

In [None]:
print(move_references("Avatar"))

In [None]:
print(move_references("The Matrix"))

In [None]:
print(move_references("Jexi"))

Obter/converter a cor informada para formato hexadecimal, conforme a cor informada arbitrariamente...

In [None]:
def hex_color(query):
    chat_completion = client.chat.completions.create(
        messages=[
            {
                "role": "user",
                "content": f"What is the equivalente HTML hexadecimal color for '{query}', just answare the color at format #ffffff, no additional text",
            }
        ],
        model="gpt-4o-mini",
        stream=False,
        temperature=1
    )
    
    return chat_completion.choices[0].message.content

In [None]:
hex_color("Brown")

In [None]:
hex_color("LightBlue")

In [None]:
hex_color("255 255 0")

In [None]:
hex_color("0.0 0.5 0.8")

In [None]:
hex_color('Verde musgo')

Teste de cor usando HTML e CSS em uma célula MARKDOWN:

<div style="width: 100px; height: 100px; background-color: #4E7F3D;">&nbsp;<div>

### LAB

Escolher uma WEB API pública, obter chave de acesso se necessário, obter os dados em um data frame pandas e gerar gráficos para análise:

- https://github.com/public-apis/public-apis

### Referência

- https://pandas.pydata.org/docs/user_guide/index.html
- https://pandas.pydata.org/docs/user_guide/io.html?highlight=json_normalize#normalization
- https://docs.python.org/3/library/json.html?highlight=json
- https://docs.python.org/3/howto/urllib2.html?highlight=urllib
- https://docs.python-requests.org/en/master/
- https://docs.python-requests.org/en/latest/user/quickstart/
- https://penseallen.github.io/PensePython2e/
- https://en.wikipedia.org/wiki/URL
- https://altair-viz.github.io/

### Dicas de Ciências dos Dados

- https://github.com/danielscarvalho/Insper-DS-Dicas