## Aula 4 - Pandas e Fontes de dados

In [3]:
import pandas as pd
import numpy as np

### Função apply
#### Aplica uma função às linhas ou às colunas de um DataFrame

In [4]:
# Considere o dataframe abaixo
frame = pd.DataFrame(np.random.randn(4, 3), columns=list('bde'),
                        index=['Utah', 'Ohio', 'Texas', 'Oregon'])
frame

Unnamed: 0,b,d,e
Utah,0.807185,-1.135001,-1.071895
Ohio,1.943592,0.151843,1.507981
Texas,-0.374554,0.076108,1.625286
Oregon,0.252045,1.726434,-0.300007


In [7]:
# Crie uma função lambda para calcular o valor máximo de uma Serie e multiplica-lo por 2, 
#   e aplique-a ao dataframe frame, fazendo o cálculo no eixo das linhas
f = lambda x: x.max()*2
frame.apply(f, axis='rows')

b    3.887184
d    3.452868
e    3.250571
dtype: float64

In [8]:
# aplique afunção lambda ao dataframe frame, fazendo o cálculo no eixo das colunas
frame.apply(f, axis='columns')

Utah      1.614371
Ohio      3.887184
Texas     3.250571
Oregon    3.452868
dtype: float64

### Função applymap
#### Aplica uma função a cada element (element-wise)

In [None]:
# Crie uma função lambda para formatar um número float com duas casas decimais,
#    e aplique-a ao dataframe frame
format = lambda x: '%.2f' % x
frame.applymap(format)

### Sumarização e Estatística Descritiva

In [None]:
# Considere o dataframe abaixo
df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5],
                    [np.nan, np.nan], [0.75, -1.3]],
                    index=['a', 'b', 'c', 'd'],
                    columns=['one', 'two'])
df

In [None]:
# Calcule a soma ao longo do eixo das linhas
df.sum()

In [None]:
# Calcule a soma ao longo do eixo das colunas
df.sum(axis='columns')

### mean (média)
#### Os valores de NA são excluídos, a menos que a fatia inteira linha ou coluna seja NA.
#### Isso pode ser desativado com a opção skipna

In [None]:
# Calcule a média ao longo do eixo das linhas desconsiderando valores NA
df.mean(axis='columns')

In [None]:
# Calcule a média ao longo do eixo das linhas 
#    retornando NA para colunas que tenham algum NA
df.mean(axis='columns', skipna=False)

### describe (resumo de várias estatísticas)

In [None]:
# Aplique um método para calcular várias estatísticas do dataframe df
df.describe()

### Manipulação de Fontes de Dados

In [1]:
import pandas as pd
import numpy as np

#### Carregar dados de um Arquivo XLS

In [2]:
### Ler o arquivo com o pib dos municípios brasileiros e guarde numa variável df_pib
### Você pode ler de um arquivo local ou fazer o download de uma URL
df_pib = pd.read_excel('https://github.com/alexlopespereira/curso_ciencia_dados2021/raw/master/data/originais/pib/pib_municipios.xlsx', sheet_name='Tabela', skiprows=3)
# sheet_name é o argumento para o aba da planilha desejada. 
# Se você quiser a 1a aba, não precisa especificar.


In [3]:
# Mostra os primeiros 4 registros da variavel df_pib
df_pib.head(4)
### As 3 primeiras e a ultima linha são inuteis

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,2007,2009,2011,2013,2015,2017
0,MU,1100015.0,Alta Floresta D'Oeste (RO),191364,256986,280510,341325.0,421300.0,498864.0
1,MU,1100023.0,Ariquemes (RO),905203,1133095,1651885,1799853.0,2037799.0,2296074.0
2,MU,1100031.0,Cabixi (RO),49166,69776,77217,96365.0,116565.0,138894.0
3,MU,1100049.0,Cacoal (RO),814890,985479,1259024,1433254.0,1794478.0,2127523.0


In [4]:
# Mostra os ultimos 4 registros da variavel df_pib
df_pib.tail(4)

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,2007,2009,2011,2013,2015,2017
5567,MU,5222203.0,Vila Boa (GO),31897.0,73367.0,84103.0,103233.0,111229.0,137500.0
5568,MU,5222302.0,Vila Propício (GO),76868.0,107125.0,112821.0,142970.0,198935.0,182175.0
5569,MU,5300108.0,Brasília (DF),93404001.0,124323753.0,154568954.0,175906726.0,215612863.0,244682756.0
5570,"Fonte: IBGE, em parceria com os &Oacute;rg&ati...",,,,,,,,


In [5]:
# Ler o arquivo do pib removendo as 3 primeiras linhas e a última
df_pib = pd.read_excel('https://github.com/alexlopespereira/curso_ciencia_dados2021/raw/master/data/originais/pib/pib_municipios.xlsx', skiprows=3, skipfooter=1)
# Mostra os primeiros registros
df_pib.head()
# O nome das 3 primeiras colunas está incoerente

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,2007,2009,2011,2013,2015,2017
0,MU,1100015,Alta Floresta D'Oeste (RO),191364,256986,280510,341325,421300,498864
1,MU,1100023,Ariquemes (RO),905203,1133095,1651885,1799853,2037799,2296074
2,MU,1100031,Cabixi (RO),49166,69776,77217,96365,116565,138894
3,MU,1100049,Cacoal (RO),814890,985479,1259024,1433254,1794478,2127523
4,MU,1100056,Cerejeiras (RO),143270,190902,260142,353270,397736,448524


In [3]:
# Renomear estas colunas
df_pib.rename(columns={'Unnamed: 0': 'nivel', 'Unnamed: 1': 'cod_ibge7', 
                      'Unnamed: 2': 'municipio'}, inplace=True)
# Mostra os primeiros registros
df_pib.head()

Unnamed: 0,nivel,cod_ibge7,municipio,2007,2009,2011,2013,2015,2017
0,MU,1100015,Alta Floresta D'Oeste (RO),191364,256986,280510,341325,421300,498864
1,MU,1100023,Ariquemes (RO),905203,1133095,1651885,1799853,2037799,2296074
2,MU,1100031,Cabixi (RO),49166,69776,77217,96365,116565,138894
3,MU,1100049,Cacoal (RO),814890,985479,1259024,1433254,1794478,2127523
4,MU,1100056,Cerejeiras (RO),143270,190902,260142,353270,397736,448524


#### Carregar dados de um Arquivo CSV

In [7]:
# Salvar este dataframe em formato CSV
# O separador padrão é vírgula. Use o ; para testar a especificação de um separador
# Recomendação para nomes de arquivos: use nomes simples, sem espaço e sem caracteres especiais.
df_pib.to_csv('./pib_municipios.csv', sep=";", index=False)
# Para mostrar as primeiras linhas do arquivo no Linux: !head ~/work/curso_ciencia_dados2020/data/pib_municipios.csv

In [8]:
# Carregue o arquivo pib_municipios.csv. Atente para o separador correto.
df_pib_csv = pd.read_csv('./pib_municipios.csv', sep=";")
# Mostra os primeiros registros
df_pib_csv.head()

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,2007,2009,2011,2013,2015,2017
0,MU,1100015,Alta Floresta D'Oeste (RO),191364,256986,280510,341325,421300,498864
1,MU,1100023,Ariquemes (RO),905203,1133095,1651885,1799853,2037799,2296074
2,MU,1100031,Cabixi (RO),49166,69776,77217,96365,116565,138894
3,MU,1100049,Cacoal (RO),814890,985479,1259024,1433254,1794478,2127523
4,MU,1100056,Cerejeiras (RO),143270,190902,260142,353270,397736,448524


#### Carregar dados de uma API REST e Arquivo JSON

In [10]:
# Ler um arquivo JSON de uma URL para um dataframe df_dolar. 
# Pode-se carregar de uma pasta local também.
url = "https://api.exchangerate-api.com/v4/latest/USD"
df_dolar = pd.read_json(url)

In [11]:
# Mostra os primeiros registros deste dataframe df_dolar
df_dolar.head()

Unnamed: 0,base,date,time_last_updated,rates
AED,USD,2020-11-11,1605053042,3.671993
ARS,USD,2020-11-11,1605053042,79.342105
AUD,USD,2020-11-11,1605053042,1.373683
BGN,USD,2020-11-11,1605053042,1.65643
BRL,USD,2020-11-11,1605053042,5.378133


In [12]:
# Teste a conversão para DataFrame a partir de um JSON mais complexo 
# Carregue o dataframe retornado pela chamada 
#   GET à URL "https://www.servicos.gov.br/api/v1/servicos/9029"
url_servicos = "https://www.servicos.gov.br/api/v1/servicos/9029"
df_servicos = pd.read_json(url_servicos)
# Mostra os primeiros registros
df_servicos.head()
# O resultado não foi como esperado

Unnamed: 0,resposta,mensagem,hasErro
areasDeInteresse,"{'item': ['Saúde e Vigilância Sanitária', 'Saú...",,False
avaliacoes,"{'positivas': 0, 'negativas': 0}",,False
condicoesAcessibilidade,Rampa,,False
contato,"<strong>Telefone:</strong> 21 2562-1637 , 21 2...",,False
descricao,<p>O Laboratório de Referência Nacional para C...,,False


#### A função read_json não conseguiu processar e criar o DataFrame esperado a partir do JSON
#### A solução alternativa é selecionar os atributos do JSON e colocar num dicionário para construir um DataFrame

In [13]:
import requests # Biblioteca que realiza requisições HTTP em python

def get_servicos(siorg):
    '''Retorna os dados da API de serviços para o órgao especificado pelo argumento siorg
    '''
    url = f'https://servicos.gov.br/api/v1/servicos/orgao/{siorg}'
    input_json = requests.get(url).json() # Realiza uma requisição http
    result = []
    for i in input_json['resposta']: # iteração para cada serviço do órgão
        servico_id = i['id'].split('/')[-1]
        servico_nome = i['nome']
        servico_url = i['url'][36:]
        orgao_id = i['orgao']['id'].split('/')[-1]
        orgao_dbId = i['orgao']['dbId']
        orgao_nome = i['orgao']['nomeOrgao']
        result.append({'servico_id': servico_id, 'servico_nome': servico_nome, 'servico_url': servico_url, 'orgao_nome': orgao_nome,
                              'orgao_id': orgao_id, 'orgao_dbId': orgao_dbId})
    return result


In [14]:
# Testa o método com o sirgo da Fio Cruz
d = get_servicos(315) 
# Transforma a lista de dicionários num DataFrame
df_servicos = pd.DataFrame(d) 
# # Mostra os primeiros registros
df_servicos.head()

Unnamed: 0,servico_id,servico_nome,servico_url,orgao_nome,orgao_id,orgao_dbId
0,9029,Solicitar diagnóstico de referência em 'Bacill...,solicitar-diagnostico-de-referencia-em-bacillu...,Fundação Oswaldo Cruz (FIOCRUZ),315,34312
1,9031,Solicitar diagnóstico de referência em chikung...,solicitar-diagnostico-de-referencia-em-chikung...,Fundação Oswaldo Cruz (FIOCRUZ),315,34312
2,9033,Solicitar diagnóstico de referência em dengue,solicitar-diagnostico-de-referencia-em-dengue,Fundação Oswaldo Cruz (FIOCRUZ),315,34312
3,9065,Solicitar diagnóstico de referência para Esqui...,solicitar-diagnostico-de-referencia-para-esqui...,Fundação Oswaldo Cruz (FIOCRUZ),315,34312
4,9060,Solicitar diagnóstico de referência em rotavírus,solicitar-diagnostico-de-referencia-em-rotavirus,Fundação Oswaldo Cruz (FIOCRUZ),315,34312


### Outras Operacoes no Pandas

#### Descartando valores faltantes (NA ou NaN)

In [23]:
from numpy import nan as NA
# Considere a serie a seguir
data = pd.Series([1, NA, 3.5, NA, 7])
# Remova os valores NA
data.dropna()

0    1.0
2    3.5
4    7.0
dtype: float64

In [None]:
# Comando equivalente ao dropna, mas usando o método notnull()
data[data.notnull()]

#### Preenchendo valores faltantes

In [35]:
# Considere o seguinte DataFrame
# Construir um dataframe a partir de uma matriz de 7 x 3 de números aleatórios 
# de uma distribuição normal padrão
df = pd.DataFrame(np.random.randn(7, 3)) 
# Preenchendo o DataFrame com alguns valores NA
df.iloc[:4, 1] = NA
df.iloc[:2, 2] = NA
df

Unnamed: 0,0,1,2
0,-0.929843,,
1,0.105707,,
2,0.596772,,0.292889
3,0.238995,,1.472422
4,-0.373666,0.62064,-1.249549
5,-0.262874,2.111605,-1.310735
6,0.845053,0.552839,-0.562123


In [30]:
# Preencha os valores NA com zero
df.fillna(0, inplace=True)
df

Unnamed: 0,0,1,2
0,0.194585,0.0,0.0
1,-0.436352,0.0,0.0
2,1.190758,0.0,-0.054377
3,-1.538019,0.0,-1.10816
4,1.943635,-1.006458,0.987603
5,-0.592393,-0.044183,-0.853219
6,0.717662,0.164543,0.802988


In [36]:
# Use um mapeamento (com dicionário) para preencher os valores NA
# Na coluna 1 substitua NA por 0.5 e na coluna 2 substitua NA por 0
df.fillna({1: 0.5, 2: 0})

Unnamed: 0,0,1,2
0,-0.929843,0.5,0.0
1,0.105707,0.5,0.0
2,0.596772,0.5,0.292889
3,0.238995,0.5,1.472422
4,-0.373666,0.62064,-1.249549
5,-0.262874,2.111605,-1.310735
6,0.845053,0.552839,-0.562123


In [37]:
# Preencha com zero alterando o DataFrame df
df.fillna(0, inplace=True)
df

Unnamed: 0,0,1,2
0,-0.929843,0.0,0.0
1,0.105707,0.0,0.0
2,0.596772,0.0,0.292889
3,0.238995,0.0,1.472422
4,-0.373666,0.62064,-1.249549
5,-0.262874,2.111605,-1.310735
6,0.845053,0.552839,-0.562123


In [53]:
# Considere o seguinte dataframe
df = pd.DataFrame(np.random.randn(7, 3)) 
# Preencha o DataFrame com alguns valores NA
df.iloc[1:4, 1] = NA
df.iloc[1:3, 2] = NA
df.iloc[5, 1] = NA
df

Unnamed: 0,0,1,2
0,1.005783,0.180319,-0.274747
1,-1.59838,,
2,0.166568,,
3,0.06595,,-0.768924
4,-0.782748,0.154978,0.230577
5,-0.206056,,0.31018
6,-0.859639,-1.519494,-3.091118


In [46]:
df.isnull()

Unnamed: 0,0,1,2
0,False,False,False
1,False,True,True
2,False,True,True
3,False,True,False
4,False,False,False
5,False,True,False
6,False,False,False


In [47]:
df.isnull().iloc[:, 1].sum()

4

In [50]:
# Preencha os valores NA com o método ffill 
df.fillna(method='ffill', inplace=True)

In [51]:
df.isnull().iloc[:, 1].sum()

0

In [57]:
df.to_markdown()

'|    |          0 |          1 |          2 |\n|---:|-----------:|-----------:|-----------:|\n|  0 |  1.00578   |   0.180319 |  -0.274747 |\n|  1 | -1.59838   | nan        | nan        |\n|  2 |  0.166568  | nan        | nan        |\n|  3 |  0.0659505 | nan        |  -0.768924 |\n|  4 | -0.782748  |   0.154978 |   0.230577 |\n|  5 | -0.206056  | nan        |   0.31018  |\n|  6 | -0.859639  |  -1.51949  |  -3.09112  |'

### Remover duplicatas

In [None]:
# Considere o seguinte dataframe
data = pd.DataFrame({'k1': ['one', 'two'] * 3 + ['two'], 'k2': [1, 1, 2, 3, 3, 4, 4]})
data

In [None]:
# Mostre quais desses itens são duplicados
data.duplicated()

In [None]:
# Remova os itens duplicados
data.drop_duplicates()

### Indexação Hierárquica

#### Possibilita mais de um nível de indexação num eixo

In [None]:
# Considere a seguinte Serie
data = pd.Series(np.random.randn(9), index=[['a', 'a', 'a', 'b', 'b', 'c', 'c', 'd', 'd'],
                                            [1, 2, 3, 1, 3, 1, 2, 2, 3]])
# Mostre o indice hierárquico
data.index

In [None]:
# Faça um filtro com uma lista
data.loc[['b', 'd']]

In [None]:
# Faça um filtro no 2o Nível (mais interno)
data.loc[:, 2]

In [None]:
# Considere o seguinte dataframe
frame = pd.DataFrame(np.arange(12).reshape((4, 3)),
                     index=[['a', 'a', 'b', 'b'], [1, 2, 1, 2]],
                     columns=[['Ohio', 'Ohio', 'Colorado'],['Green', 'Red', 'Green']])
frame.index.names = ['key1', 'key2']
frame.columns.names = ['state', 'color']
frame

In [None]:
# Resumo estatístico por nível
# Extraia a soma da agregação do nível 2 (mais interno)
frame.sum(level='key2')