## Aula 6 - Pandas e Fontes de dados

In [None]:
import pandas as pd
import numpy as np

### Função apply
#### Aplica uma função às linhas ou às colunas de um DataFrame

In [None]:
# Considere o dataframe abaixo
frame = pd.DataFrame(np.random.randn(4, 3), columns=list('bde'),
                        index=['Utah', 'Ohio', 'Texas', 'Oregon'])
frame

In [None]:
# Crie uma função lambda para calcular o valor máximo de uma Serie e multiplica-lo por 2, 
#   e aplique-a ao dataframe frame, fazendo o cálculo no eixo das linhas
f = lambda x: x.max()*2
frame.apply(f, axis='rows')

In [None]:
# aplique afunção lambda ao dataframe frame, fazendo o cálculo no eixo das colunas
frame.apply(f, axis='columns')

### Função applymap
#### Aplica uma função a cada element (element-wise)

In [None]:
# Crie uma função lambda para formatar um número float com duas casas decimais,
#    e aplique-a ao dataframe frame
format = lambda x: '%.2f' % x
frame.applymap(format)

### Sumarização e Estatística Descritiva

In [None]:
# Considere o dataframe abaixo
df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5],
                    [np.nan, np.nan], [0.75, -1.3]],
                    index=['a', 'b', 'c', 'd'],
                    columns=['one', 'two'])
df

In [None]:
# Calcule a soma ao longo do eixo das linhas
df.sum()

In [None]:
# Calcule a soma ao longo do eixo das colunas
df.sum(axis='columns')

### mean (média)
#### Os valores de NA são excluídos, a menos que a fatia inteira linha ou coluna seja NA.
#### Isso pode ser desativado com a opção skipna

In [None]:
# Calcule a média ao longo do eixo das linhas desconsiderando valores NA
df.mean(axis='columns')

In [None]:
# Calcule a média ao longo do eixo das linhas 
#    retornando NA para colunas que tenham algum NA
df.mean(axis='columns', skipna=False)

### describe (resumo de várias estatísticas)

In [None]:
# Aplique um método para calcular várias estatísticas do dataframe df
df.describe()

### Manipulação de Fontes de Dados

In [None]:
import pandas as pd
import numpy as np

#### Carregar dados de um Arquivo XLS

In [None]:
### Ler o arquivo com o pib dos municípios brasileiros e guarde numa variável df_pib
### Você pode ler de um arquivo local ou fazer o download de uma URL
df_pib = pd.read_excel('https://github.com/alexlopespereira/enapespcd2021/raw/main/data/originais/pib/pib_municipios.xlsx', sheet_name='Tabela', skiprows=3)
# sheet_name é o argumento para o aba da planilha desejada. 
# Se você quiser a 1a aba, não precisa especificar.


In [None]:
# Mostra os primeiros 4 registros da variavel df_pib
df_pib.head(4)
### As 3 primeiras e a ultima linha são inuteis

In [None]:
# Mostra os ultimos 4 registros da variavel df_pib
df_pib.tail(4)

In [None]:
# Ler o arquivo do pib removendo as 3 primeiras linhas e a última
df_pib = pd.read_excel('https://github.com/alexlopespereira/enapespcd2021/raw/main/data/originais/pib/pib_municipios.xlsx', skiprows=3, skipfooter=1)
# Mostra os primeiros registros
df_pib.head()
# O nome das 3 primeiras colunas está incoerente

In [None]:
# Renomear estas colunas
df_pib.rename(columns={'Unnamed: 0': 'nivel', 'Unnamed: 1': 'cod_ibge7', 
                      'Unnamed: 2': 'municipio'}, inplace=True)
# Mostra os primeiros registros
df_pib.head()

#### Carregar dados de um Arquivo CSV

In [None]:
# Salvar este dataframe em formato CSV
# O separador padrão é vírgula. Use o ; para testar a especificação de um separador
# Recomendação para nomes de arquivos: use nomes simples, sem espaço e sem caracteres especiais.
df_pib.to_csv('./pib_municipios.csv', sep=";", index=False)
# Para mostrar as primeiras linhas do arquivo no Linux: !head ./pib_municipios.csv

In [None]:
# Carregue o arquivo pib_municipios.csv. Atente para o separador correto.
df_pib_csv = pd.read_csv('./pib_municipios.csv', sep=";")
# Mostra os primeiros registros
df_pib_csv.head()

### Outras Operacoes no Pandas

#### Descartando valores faltantes (NA ou NaN)

In [None]:
from numpy import nan as NA
# Considere a serie a seguir
data = pd.Series([1, NA, 3.5, NA, 7])
# Remova os valores NA
data.dropna()

In [None]:
# Comando equivalente ao dropna, mas usando o método notnull()
data[data.notnull()]

#### Preenchendo valores faltantes

In [None]:
# Considere o seguinte DataFrame
# Construir um dataframe a partir de uma matriz de 7 x 3 de números aleatórios 
# de uma distribuição normal padrão
df = pd.DataFrame(np.random.randn(7, 3)) 
# Preenchendo o DataFrame com alguns valores NA
df.iloc[:4, 1] = NA
df.iloc[:2, 2] = NA
df

In [None]:
# Preencha os valores NA com zero
df.fillna(0, inplace=True)
df

In [None]:
# Use um mapeamento (com dicionário) para preencher os valores NA
# Na coluna 1 substitua NA por 0.5 e na coluna 2 substitua NA por 0
df.fillna({1: 0.5, 2: 0})

In [None]:
# Preencha com zero alterando o DataFrame df
df.fillna(0, inplace=True)
df

In [None]:
# Considere o seguinte dataframe
df = pd.DataFrame(np.random.randn(7, 3)) 
# Preencha o DataFrame com alguns valores NA
df.iloc[1:4, 1] = NA
df.iloc[1:3, 2] = NA
df.iloc[5, 1] = NA
df

In [None]:
df.isnull()

In [None]:
df.isnull().iloc[:, 1].sum()

In [None]:
# Preencha os valores NA com o método ffill 
df.fillna(method='ffill', inplace=True)

In [None]:
df.isnull().iloc[:, 1].sum()

In [None]:
df.to_markdown()

### Remover duplicatas

In [None]:
# Considere o seguinte dataframe
data = pd.DataFrame({'k1': ['one', 'two'] * 3 + ['two'], 'k2': [1, 1, 2, 3, 3, 4, 4]})
data

In [None]:
# Mostre quais desses itens são duplicados
data.duplicated()

In [None]:
# Remova os itens duplicados
data.drop_duplicates()

### Indexação Hierárquica

#### Possibilita mais de um nível de indexação num eixo

In [None]:
# Considere a seguinte Serie
data = pd.Series(np.random.randn(9), index=[['a', 'a', 'a', 'b', 'b', 'c', 'c', 'd', 'd'],
                                            [1, 2, 3, 1, 3, 1, 2, 2, 3]])
# Mostre o indice hierárquico
data.index

In [None]:
# Faça um filtro com uma lista
data.loc[['b', 'd']]

In [None]:
# Faça um filtro no 2o Nível (mais interno)
data.loc[:, 2]

In [None]:
# Considere o seguinte dataframe
frame = pd.DataFrame(np.arange(12).reshape((4, 3)),
                     index=[['a', 'a', 'b', 'b'], [1, 2, 1, 2]],
                     columns=[['Ohio', 'Ohio', 'Colorado'],['Green', 'Red', 'Green']])
frame.index.names = ['key1', 'key2']
frame.columns.names = ['state', 'color']
frame

In [None]:
# Resumo estatístico por nível
# Extraia a soma da agregação do nível 2 (mais interno)
frame.sum(level='key2')