In [1]:
%run ../configura_display.py

# Pandas

http://pandas.pydata.org/

https://github.com/pandas-dev/pandas/raw/master/doc/cheatsheet/Pandas_Cheat_Sheet.pdf

Biblioteca que contém estruturas de dados e ferramentas para análise de dados.

Por default utiliza as estruturas de dados do numpy(arrays), que são otimizadas para processmento de dados.

In [4]:
# alias normalmente utilizados
import pandas as pd
import numpy as np
from datetime import datetime

# Estruturas de dados

Muito do que vai ser visto aqui com as estruturas de dados do Pandas se aplica às estruturas de dados do numpy, que é utilizado por baixo dos panos pelo Pandas.

## Series

http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.html

Lista de dados associados a labels, denominados *index*.

Outra forma de pensar sobre uma Series é que ela é um dicionário ordenado de tamanho fixo.

In [201]:
serie = pd.Series([1, 5, -10, 9])

serie
# labels default [0, N-1]

0     1
1     5
2   -10
3     9
dtype: int64

In [202]:
serie.values

array([  1,   5, -10,   9])

In [203]:
serie.index

RangeIndex(start=0, stop=4, step=1)

In [204]:
serie = pd.Series(data=[1, 5, -10, 9], # dados
                  index=["a", "c", "d", "g"], # index
                  name="Série legal", # nome da series
                  dtype="int") # tipo dos dados > se não especificado, é inferido

serie.index.name = "letras" # index name

serie

letras
a     1
c     5
d   -10
g     9
Name: Série legal, dtype: int64

In [205]:
serie['g'] # selecionando valor por índice

9

In [206]:
type(serie['g']) # tipo de um valor

numpy.int64

In [207]:
serie[['a', 'g']] # selecionando valores por índices

letras
a    1
g    9
Name: Série legal, dtype: int64

In [208]:
type(serie[['a', 'g']]) # tipo da estrutura com os valores

pandas.core.series.Series

In [209]:
serie['g'] = 10 # update

serie

letras
a     1
c     5
d   -10
g    10
Name: Série legal, dtype: int64

In [210]:
'g' in serie # pertinência

True

# Exercício 1

<hr />

### Indexando

http://pandas.pydata.org/pandas-docs/stable/api.html#indexing-iteration

In [213]:
s['z'] # label indexing

10

In [214]:
s.iloc[1] # integer indexing

30

In [215]:
s.iloc[[1, 0]] # mais de um valor

b    30
z    10
dtype: int64

In [216]:
s[[True, False, True, False]] # boolean indexing

z    10
a    45
dtype: int64

In [217]:
s.iloc[1:3] # do índice 1 ao índice 3 - 1 = 2

b    30
a    45
dtype: int64

In [218]:
s.iloc[2:] # até o fim

a    45
x     4
dtype: int64

In [219]:
s.iloc[:2] # até o 2 - 1

z    10
b    30
dtype: int64

In [220]:
s['b':'a'] # label slice inclui ambos os extremos!

b    30
a    45
dtype: int64

In [221]:
s[::-1]

x     4
a    45
b    30
z    10
dtype: int64

# Exercício 2

<hr />

### Operações com primitivas

In [222]:
s

z    10
b    30
a    45
x     4
dtype: int64

In [223]:
s + 10

z    20
b    40
a    55
x    14
dtype: int64

In [224]:
s - 5

z     5
b    25
a    40
x    -1
dtype: int64

In [225]:
s * 2

z    20
b    60
a    90
x     8
dtype: int64

In [226]:
s < 20 # ver que é retornada series de boolean > pode ser utilizada como indexador!

z     True
b    False
a    False
x     True
dtype: bool

### Operações entre series

In [227]:
a = pd.Series(np.arange(0, 5))
b = pd.Series(np.arange(10, 15))

a
b

0    0
1    1
2    2
3    3
4    4
dtype: int64

0    10
1    11
2    12
3    13
4    14
dtype: int64

In [228]:
a + b

0    10
1    12
2    14
3    16
4    18
dtype: int64

In [229]:
a * b

0     0
1    11
2    24
3    39
4    56
dtype: int64

### Filtrando

In [230]:
s < 20

z     True
b    False
a    False
x     True
dtype: bool

In [231]:
s[s < 20]

z    10
x     4
dtype: int64

# Exercício 3

<hr />

### Alinhamento

In [232]:
a = pd.Series({"a": 10, 
               "b": 30})
b = pd.Series({"b": 50, 
               "c": 10})

a + b

a     NaN
b    80.0
c     NaN
dtype: float64

### UFuncs

Funções que são aplicadas a todos elementos de um array.

In [233]:
a = pd.Series(np.random.randint(-100, 100, 10))

a

0    32
1     8
2   -18
3    62
4   -89
5   -66
6   -27
7    34
8    68
9   -81
dtype: int64

In [234]:
# soma dos valores
a.sum()

-77

In [235]:
# média dos valores
a.mean()

-7.7

In [236]:
# informações dos valores, de acordo com o tipo
a.describe()

count    10.000000
mean     -7.700000
std      57.744745
min     -89.000000
25%     -56.250000
50%      -5.000000
75%      33.500000
max      68.000000
dtype: float64

In [237]:
# valor absoluto dos valores
a.abs()

0    32
1     8
2    18
3    62
4    89
5    66
6    27
7    34
8    68
9    81
dtype: int64

# Exercício 4

<hr />

## DataFrame

http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html

Estrutura similar a um dicionário de Series. Possui tanto um índice para linhas quanto para colunas.

In [70]:
# dicionário, as chaves se tornam colunas e seus valores, listas, se tornam
#    os valores das colunas
# outras formas de inicializar um data frame:
# http://pbpython.com/pandas-list-dict.html
data = {"nome": ["Abelardo", "Juliana", "Rodesbaldo"],
        "idade": [27, 29, 88],
        "profissão": ["Anapropégua", "Médico", "Ditador"]}

df = pd.DataFrame(data)

df
# colunas em ordem natural

Unnamed: 0,idade,nome,profissão
0,27,Abelardo,Anapropégua
1,29,Juliana,Médico
2,88,Rodesbaldo,Ditador


In [71]:
df.T # transposta

Unnamed: 0,0,1,2
idade,27,29,88
nome,Abelardo,Juliana,Rodesbaldo
profissão,Anapropégua,Médico,Ditador


In [101]:
# ordem de colunas = especificada
# as colunas utilizadas serão apenas as passadas em columns
# se não houver dados em data, é criada com valores NaN
df = pd.DataFrame(data, 
             columns=["nome", "idade", "profissão", "salário"], 
             index=["um", "dois", "três"])

df

Unnamed: 0,nome,idade,profissão,salário
um,Abelardo,27,Anapropégua,
dois,Juliana,29,Médico,
três,Rodesbaldo,88,Ditador,


In [102]:
# selecionando coluna
# retorna uma Series com index igual ao index do dataframe e valores 
#    iguais aos valores da coluna
# notação df.column_name válida apenas se o nome da coluna for um identificador válido python
df.nome

um        Abelardo
dois       Juliana
três    Rodesbaldo
Name: nome, dtype: object

In [103]:
# selecionando coluna
#   notação válida com qualquer identificador de coluna
df['nome']

um        Abelardo
dois       Juliana
três    Rodesbaldo
Name: nome, dtype: object

In [104]:
# um dataframe pode ser indexado com o operador []
#    passando tanto labels quanto índices posicionais
#    o ideal é ser explícito, utilizando os operadores
#    loc[] para indexação por label
#    iloc[] para indexação por índice posicional
df[1:2]
df.iloc[1:2, :]

Unnamed: 0,nome,idade,profissão,salário
dois,Juliana,29,Médico,


Unnamed: 0,nome,idade,profissão,salário
dois,Juliana,29,Médico,


In [105]:
# iloc também recebe índices negativos
df.iloc[-1]

nome         Rodesbaldo
idade                88
profissão       Ditador
salário             NaN
Name: três, dtype: object

In [76]:
# mesmo funcionamento de slice de lista
df[::2]
df.iloc[::2, :]

Unnamed: 0,nome,idade,profissão,salário
um,Abelardo,27,Anapropégua,
três,Rodesbaldo,88,Ditador,


Unnamed: 0,nome,idade,profissão,salário
um,Abelardo,27,Anapropégua,
três,Rodesbaldo,88,Ditador,


In [78]:
# como passei a localização de uma célula, retorna um valor
df.loc["um", "nome"]

'Abelardo'

In [79]:
# como pedi para todas as linhas em ["um"] o único atributo "nome"
#    retorna uma Series
df.loc[["um"], "nome"]

um    Abelardo
Name: nome, dtype: object

In [80]:
# como pedi para todas as linhas em ["um"] todos os atributos em ["nome"]
#    retorna um DataFrame
df.loc[["um"], ["nome"]]

Unnamed: 0,nome
um,Abelardo


### Alterando o dataframe

In [50]:
# criação de nova coluna
# df["nome_da_coluna"] = series_com_valores_da_coluna
df["random"] = pd.Series(np.random.randn(3), index=df.index)

df

Unnamed: 0,nome,idade,random
um,Abelardo,27,50
dois,Juliana,29,-122
três,Rodesbaldo,88,134


In [33]:
# atribui à coluna "idade" da linha de índice "três" o valor 45
df.loc["três", "idade"] = 45

df

Unnamed: 0,nome,idade,profissão,salário
um,Abelardo,27,Anapropégua,
dois,Juliana,29,Médico,
três,Rodesbaldo,45,Ditador,


In [34]:
# altera a linha de índice posicional 0
df.iloc[0] = pd.Series({"nome": "Josberto", 
              "idade": 99, 
              "profissão": "faz tudo",
              "random": .4})

df

Unnamed: 0,nome,idade,profissão,salário
um,Josberto,99,faz tudo,
dois,Juliana,29,Médico,
três,Rodesbaldo,45,Ditador,


In [44]:
# na atribuição de valores a uma coluna
#    os valores são atribuídos de acordo com o índice
#    no exemplo, como apenas o índice "um" está contido nos novos valores
#    apenas ele é atualizado
df['salário'] = pd.Series([0, 20000, 10**7], index = [0, 1, "um"])

df

Unnamed: 0,nome,idade,profissão,salário
um,Abelardo,27,Anapropégua,"10.000.000,00"
dois,Juliana,29,Médico,
três,Rodesbaldo,88,Ditador,


In [45]:
# para remover uma coluna, utilizar o operador del
del df['salário']
df

# ou utilizar o método drop
#    informando axis=1, indicando que deve ser dropando das colunas

df = df.drop("profissão", axis=1)
df

Unnamed: 0,nome,idade,profissão
um,Abelardo,27,Anapropégua
dois,Juliana,29,Médico
três,Rodesbaldo,88,Ditador


Unnamed: 0,nome,idade
um,Abelardo,27
dois,Juliana,29
três,Rodesbaldo,88


In [58]:
# criação de coluna em função de outra coluna
df['is_random_gt_0'] = df.random > 0
df

Unnamed: 0,nome,idade,random,is_random_gt_0
um,Abelardo,27,50,True
dois,Juliana,29,-122,False
três,Rodesbaldo,88,134,True


## Axis

Axis = 0 -> rows

Axis = 1 -> columns

In [60]:
df.drop('um', axis=0) # 0=label, não inplace
# axis=0 default

Unnamed: 0,nome,idade,random,is_random_gt_0
dois,Juliana,29,-122,False
três,Rodesbaldo,88,134,True


In [61]:
df.drop("nome", axis=1)

Unnamed: 0,idade,random,is_random_gt_0
um,27,50,True
dois,29,-122,False
três,88,134,True


In [62]:
nuns = pd.DataFrame(np.arange(9).reshape(3, 3), index=['a', 'b', 'c'], columns=['x', 'y', 'z'])

nuns

Unnamed: 0,x,y,z
a,0,1,2
b,3,4,5
c,6,7,8


In [63]:
nuns.sum(axis=0) # soma as linhas

x    9
y   12
z   15
dtype: int64

In [64]:
nuns.sum(axis=1) # soma as colunas

a    3
b   12
c   21
dtype: int64

In [255]:
# nova versão do pandas permite passar o nome do axis
nuns.sum(axis="index")
nuns.sum(axis="columns")

x     9
y    12
z    15
dtype: int64

a     3
b    12
c    21
dtype: int64

# Exercício 5

<hr />

## Filtrando

In [5]:
fcpc = pd.read_csv("2017 - 19-02.csv", 
                   thousands=".", 
                   decimal=",",
                   parse_dates=["DATA"],
                   date_parser=lambda x: datetime.strptime(x, "%d/%m/%Y"))

fcpc.head()

Unnamed: 0,CNPJ,NOME,PROJETO,DATA,VALOR (R$)
0,***.00.000/****-90,BANCO DO BRASIL SA,0101 - FCPC,2017-01-13,"6.694,90"
1,***.00.071/****-21,LUREX DISTRIBUIDORA DE BATERIAS LTDA,0101 - FCPC,2017-01-06,45300
2,***.00.125/****-52,BONTEMPO REFRIGERACAO LTDA,3224 - TC SMART/UFC/FCPC - DESENVOLVIMENTO DE ...,2017-01-03,"1.360,00"
3,***.00.204/****-20,NONO TABELIONATO DE NOTAS,0101 - FCPC,2017-02-01,39627
4,***.00.204/****-20,NONO TABELIONATO DE NOTAS,0101 - FCPC,2017-01-02,2481


In [6]:
(fcpc["VALOR (R$)"] < 1000).head() # head apenas para encurtar o output

0    False
1     True
2    False
3     True
4     True
Name: VALOR (R$), dtype: bool

In [7]:
fcpc[fcpc["VALOR (R$)"] > 100000]

Unnamed: 0,CNPJ,NOME,PROJETO,DATA,VALOR (R$)
354,***.07.272/****-31,UNIVERSIDADE FEDERAL DO CEARA,0101 - FCPC,2017-01-05,"142.017,21"
412,***.10.352/****-69,ENPECEL ENGENHARIA LTDA,2585 - CV.FINEP/UFC/FCPC-CTINFRA 09,2017-01-06,"471.982,89"


In [8]:
# outra forma de se filtrar uma Series/DataFrame é passar
#    uma função para o .loc[] que receba um valor/series e retorne um booleano
#    indicando se aquele valor/series deve ser retornado
fcpc.loc[lambda row: row["VALOR (R$)"] > 100000, :] # útil para quando não se quer guardar um df temporário em uma variável

Unnamed: 0,CNPJ,NOME,PROJETO,DATA,VALOR (R$)
354,***.07.272/****-31,UNIVERSIDADE FEDERAL DO CEARA,0101 - FCPC,2017-01-05,"142.017,21"
412,***.10.352/****-69,ENPECEL ENGENHARIA LTDA,2585 - CV.FINEP/UFC/FCPC-CTINFRA 09,2017-01-06,"471.982,89"


In [99]:
# filtrando e retornando apenas algumas colunas
fcpc.loc[lambda row: row["VALOR (R$)"] > 100000, ["NOME", "VALOR (R$)"]]

Unnamed: 0,NOME,VALOR (R$)
354,UNIVERSIDADE FEDERAL DO CEARA,"142.017,21"
412,ENPECEL ENGENHARIA LTDA,"471.982,89"


In [100]:
# retornando valores com labels em um slice
fcpc.loc[10:12] # lembrar que o loc inclui ambos os limites do slice

Unnamed: 0,CNPJ,NOME,PROJETO,DATA,VALOR (R$)
10,***.00.360/****-04,CAIXA ECONOMICA FEDERAL,3191 - TC FURUKAWA/UFC/FCPC - SISTEMA DE GESTÃ...,01/02/2017,12000
11,***.00.360/****-04,CAIXA ECONOMICA FEDERAL,3191 - TC FURUKAWA/UFC/FCPC - SISTEMA DE GESTÃ...,01/02/2017,25952
12,***.00.360/****-04,CAIXA ECONOMICA FEDERAL,3191 - TC FURUKAWA/UFC/FCPC - SISTEMA DE GESTÃ...,01/02/2017,35184


In [108]:
%%timeit 

# para captura de um valor, df.get_value é mais performático
fcpc.get_value(100, 'PROJETO')

The slowest run took 199.76 times longer than the fastest. This could mean that an intermediate result is being cached.
100000 loops, best of 3: 2.26 µs per loop


In [110]:
%%timeit

fcpc.loc[100, 'PROJETO']

The slowest run took 7.27 times longer than the fastest. This could mean that an intermediate result is being cached.
100000 loops, best of 3: 7.77 µs per loop


In [113]:
# para alterar um valor, df.set_value é mais performático
fcpc_ = fcpc.set_value(0, 'NOME', 'Bar do Zé')

fcpc_.head()

Unnamed: 0,CNPJ,NOME,PROJETO,DATA,VALOR (R$)
0,***.00.000/****-90,Bar do Zé,0101 - FCPC,13/01/2017,"6.694,90"
1,***.00.071/****-21,LUREX DISTRIBUIDORA DE BATERIAS LTDA,0101 - FCPC,06/01/2017,45300
2,***.00.125/****-52,BONTEMPO REFRIGERACAO LTDA,3224 - TC SMART/UFC/FCPC - DESENVOLVIMENTO DE ...,03/01/2017,"1.360,00"
3,***.00.204/****-20,NONO TABELIONATO DE NOTAS,0101 - FCPC,01/02/2017,39627
4,***.00.204/****-20,NONO TABELIONATO DE NOTAS,0101 - FCPC,02/01/2017,2481


## Aritmética

In [114]:
s1 = pd.Series(np.random.randint(0, 100, 5), index=range(5))
s2 = pd.Series(np.random.randint(-10, 0, 5), index=range(0, 10, 2))

s1
s2

0   65
1   64
2   89
3   64
4   66
dtype: int64

0   -10
2    -3
4    -4
6    -6
8    -8
dtype: int64

In [115]:
s1+s2

0   55,00
1     nan
2   86,00
3     nan
4   62,00
6     nan
8     nan
dtype: float64

In [116]:
df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)), columns=list('bcd'), 
                   index=['Fortaleza', 'São Paulo', 'Rio de Janeiro'])
df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'), 
                   index=['Utah', 'Fortaleza', 'São Paulo', 'Crateús'])

df1
df2

Unnamed: 0,b,c,d
Fortaleza,0,100,200
São Paulo,300,400,500
Rio de Janeiro,600,700,800


Unnamed: 0,b,d,e
Utah,0,100,200
Fortaleza,300,400,500
São Paulo,600,700,800
Crateús,900,1000,1100


In [117]:
df1+df2 # op(x, y) = NaN if x = NaN or y = NaN
# - * /

Unnamed: 0,b,c,d,e
Crateús,,,,
Fortaleza,300.0,,600.0,
Rio de Janeiro,,,,
São Paulo,900.0,,1200.0,
Utah,,,,


In [118]:
df1.add(df2, fill_value=0) # usa 0 para missing values
# sub, div, mul, add

Unnamed: 0,b,c,d,e
Crateús,900,,1000,1100.0
Fortaleza,300,100.0,600,500.0
Rio de Janeiro,600,700.0,800,
São Paulo,900,400.0,1200,800.0
Utah,0,,100,200.0


# Exercício 6

<hr />

## Functions

In [9]:
fcpc.head()

Unnamed: 0,CNPJ,NOME,PROJETO,DATA,VALOR (R$)
0,***.00.000/****-90,BANCO DO BRASIL SA,0101 - FCPC,2017-01-13,"6.694,90"
1,***.00.071/****-21,LUREX DISTRIBUIDORA DE BATERIAS LTDA,0101 - FCPC,2017-01-06,45300
2,***.00.125/****-52,BONTEMPO REFRIGERACAO LTDA,3224 - TC SMART/UFC/FCPC - DESENVOLVIMENTO DE ...,2017-01-03,"1.360,00"
3,***.00.204/****-20,NONO TABELIONATO DE NOTAS,0101 - FCPC,2017-02-01,39627
4,***.00.204/****-20,NONO TABELIONATO DE NOTAS,0101 - FCPC,2017-01-02,2481


In [10]:
# captura o valor numérico que inicia os valores em PROJETO
#    considera que são os 4 primeiros caracteres
fcpc["PROJETO_ID"] = fcpc.PROJETO.apply(lambda p: p[:4])
fcpc.PROJETO_ID.sample(10)

1      0101
135    2924
207    1016
32     3253
68     3205
472    2925
992    0101
49     3143
111    3224
329    0101
Name: PROJETO_ID, dtype: object

In [124]:
df = pd.DataFrame(np.random.randn(4, 3), 
                  columns=list('abc'), 
                  index=['DSI', 'DADM', 'DSM', 'DPU'])

df

Unnamed: 0,a,b,c
DSI,-91,91,115
DADM,45,-200,-134
DSM,-20,198,7
DPU,68,90,3


In [125]:
# por default axis = 0
#    axis indica qual índice da estrutura que será passada para a função
#    axis = 0 é o índice das linhas
#    logo serão passadas colunas para a função
#    é a forma mais intuitiva que achei até o momento :)
df.apply(lambda x: x.max() - x.min())

a   1,59
b   3,98
c   2,49
dtype: float64

In [126]:
# com axis = 1, são passadas as linhas
#    axis = 1 -> índice das colunas
df.apply(lambda x: x.max() - x.min(), axis=1)

DSI    2,06
DADM   2,44
DSM    2,18
DPU    0,86
dtype: float64

In [129]:
# é possível retornar mais de um valor
# para isso, deve-se retornar uma Series
# o resultado será um dataframe com estrutura similar
#    à do df, a menos que a dimensão que foi reduzida
#    é substituída pela nova dimensão retornada, indicada
#    pelo index da Series retornada
#    chega a parecer um poema
df.apply(lambda x: pd.Series([x.min(), x.max(), x.max() - x.min()], 
                             index=['min', 'max', 'range']))
df.apply(lambda x: pd.Series([x.min(), x.max(), x.max() - x.min()], 
                             index=['min', 'max', 'range']),
        axis=1)

Unnamed: 0,a,b,c
min,-91,-200,-134
max,68,198,115
range,159,398,249


Unnamed: 0,min,max,range
DSI,-91,115,206
DADM,-200,45,244
DSM,-20,198,218
DPU,3,90,86


In [133]:
# o df.applymap recebe uma função e a aplica a todos os elementos
#    do dataframe
#    retornando um dataframe com mesmos índices do dataframe original
df.applymap(lambda x: "{0:0>10.2f}".format(x))

Unnamed: 0,a,b,c
DSI,00000-0.91,0000000.91,0000001.15
DADM,0000000.45,00000-2.00,00000-1.34
DSM,00000-0.20,0000001.98,0000000.07
DPU,0000000.68,0000000.90,0000000.03


In [137]:
# diferença entre Series.map e Series.apply
# apply constrói um dataframe do resultado
df.a.apply(lambda x: pd.Series(x))
df.a.map(lambda x: pd.Series(x))

Unnamed: 0,0
DSI,-91
DADM,45
DSM,-20
DPU,68


DSI     0   -0,91
dtype: float64
DADM     0   0,45
dtype: float64
DSM     0   -0,20
dtype: float64
DPU      0   0,68
dtype: float64
Name: a, dtype: object

In [139]:
# map permite passar também dict
df.columns.to_series().map({'a': 'A', 'b': 'B', 'c': 'C'})

a    A
b    B
c    C
dtype: object

## Sorting

In [140]:
s = pd.Series(np.random.randint(-10, 10, 4), index=list('dabc'))

s

d   -3
a    9
b    8
c    6
dtype: int64

In [141]:
# retorna uma view da series, ordenada pelo índice -> ordem natural
s.sort_index()

a    9
b    8
c    6
d   -3
dtype: int64

In [143]:
# retorna uma view da series, ordenada pelos valores
# ascending indica a ordem, default é True
s.sort_values()

d   -3
c    6
b    8
a    9
dtype: int64

In [144]:
df = pd.DataFrame(np.arange(12).reshape((3, 4)), 
                  index=['três', 'dois', 'sete'], 
                  columns=list('dabc'))

df

Unnamed: 0,d,a,b,c
três,0,1,2,3
dois,4,5,6,7
sete,8,9,10,11


In [145]:
df.sort_index()

Unnamed: 0,d,a,b,c
dois,4,5,6,7
sete,8,9,10,11
três,0,1,2,3


In [146]:
# como tem 2 index, pode-se especificar o index das colunas
df.sort_index(axis=1)

Unnamed: 0,a,b,c,d
três,1,2,3,0
dois,5,6,7,4
sete,9,10,11,8


In [147]:
df.sort_index(axis=1, ascending=False)

Unnamed: 0,d,c,b,a
três,0,3,2,1
dois,4,7,6,5
sete,8,11,10,9


In [148]:
# ordenar pela coluna 'a' ascending=False
df.sort_values('a', ascending=False)

Unnamed: 0,d,a,b,c
sete,8,9,10,11
dois,4,5,6,7
três,0,1,2,3


In [149]:
# ordenar pelas colunas 'a' e 'b', desc, asc
df.sort_values(['a', 'b'], ascending=[False, True])

Unnamed: 0,d,a,b,c
sete,8,9,10,11
dois,4,5,6,7
três,0,1,2,3


# Exercício 7

<hr />

## Summarizing

In [11]:
df = pd.DataFrame({'1': [1.4, 7.1, np.nan, .75], 
                   '2': [np.nan, -4.5, np.nan, -1.3],
                   '3': [True, False, True, True]},
                  index=list('abcd'))

df

Unnamed: 0,1,2,3
a,140.0,,True
b,710.0,-450.0,False
c,,,True
d,75.0,-130.0,True


In [12]:
# soma uma dimensão
# por default, soma as linhas(axis = 0)
# por default, ignora valores NaN
df.sum()

1    9,25
2   -5,80
3    3,00
dtype: float64

In [14]:
# soma colunas(axis = 1)
df.sum(axis=1)

a   2,40
b   2,60
c   1,00
d   0,45
dtype: float64

In [16]:
# média dos valores das linhas
# observar que se skipna=True(default)
#    os valores NaN são ignorados, sendo 
#    N = #valores não NaN

# há também .median, que retorna o valor abaixo do qual
#    50% dos dados se concentram
df.mean(axis=1, skipna=False)

a    nan
b   0,87
c    nan
d   0,15
dtype: float64

In [18]:
# para cada coluna(axis = 0), índice do registro com maior valor
df.idxmax()

1    b
2    d
3    a
dtype: object

In [20]:
# para cada linha(axis = 1), índice do registro com maior valor
df.idxmax(axis=1)

a    1
b    1
c    3
d    3
dtype: object

In [21]:
# mesmo para Series
df['1'].argmin()

'd'

In [23]:
# soma cumulativa sobre linhas, ignorando NaN
df.cumsum()

Unnamed: 0,1,2,3
a,140.0,,True
b,850.0,-450.0,1
c,,,2
d,925.0,-580.0,3


In [24]:
# soma cumulativa sobre linhas, não ignorando NaN
# há também cummin, cummax, cumprod
df.cumsum(skipna=False)

Unnamed: 0,1,2,3
a,140.0,,True
b,850.0,,1
c,,,2
d,,,3


In [26]:
# método que retorna valores estatísticos
#    caso queira das linhas, usar a transposta do dataframe
df.describe()

Unnamed: 0,1,2
count,300,200
mean,308,-290
std,349,226
min,75,-450
25%,107,-370
50%,140,-290
75%,425,-210
max,710,-130


In [30]:
# True se existe um True
df['3'].any()

True

In [31]:
# True se all True
df['3'].all()

False

In [35]:
df = pd.DataFrame(np.arange(10).reshape((5, 2)))

df

Unnamed: 0,0,1
0,0,1
1,2,3
2,4,5
3,6,7
4,8,9


Mais em: https://pandas.pydata.org/pandas-docs/stable/basics.html#descriptive-statistics

# Exercício 8

<hr />

# Group by

In [37]:
fcpc.head()

Unnamed: 0,CNPJ,NOME,PROJETO,DATA,VALOR (R$),PROJETO_ID
0,***.00.000/****-90,BANCO DO BRASIL SA,0101 - FCPC,2017-01-13,"6.694,90",101
1,***.00.071/****-21,LUREX DISTRIBUIDORA DE BATERIAS LTDA,0101 - FCPC,2017-01-06,45300,101
2,***.00.125/****-52,BONTEMPO REFRIGERACAO LTDA,3224 - TC SMART/UFC/FCPC - DESENVOLVIMENTO DE ...,2017-01-03,"1.360,00",3224
3,***.00.204/****-20,NONO TABELIONATO DE NOTAS,0101 - FCPC,2017-02-01,39627,101
4,***.00.204/****-20,NONO TABELIONATO DE NOTAS,0101 - FCPC,2017-01-02,2481,101


Soma de VALOR (R$) por PROJETO.

```SQL
    SELECT projeto, SUM(valor)
    FROM fcpc
    GROUP BY projeto
```

In [51]:
# sum, mean, max, min, describe, size etc
fcpc\
.groupby("PROJETO")\
["VALOR (R$)"]\
.sum()\
.nlargest(5) # apenas os 5 maiores

PROJETO
2585 - CV.FINEP/UFC/FCPC-CTINFRA 09                                              471.982,89
0101 - FCPC                                                                      441.964,26
0104 - FCPC - 124.176-1 - ENCARGOS                                               253.635,02
3143 - TC - LG/UFC/FCPC - MOBILE, TOOLS & CAS                                    107.069,01
2978 - CT - UFC/FCPC - LACT - LABORATOIRO DE ANALISES CLINICAS E TOXICOLOGICAS    75.519,35
Name: VALOR (R$), dtype: float64

Soma de VALOR (R$) por PROJETO, apenas valores > 200.000.

```SQL
    SELECT projeto, SUM(valor)
    FROM fcpc
    GROUP BY projeto
    HAVING SUM(valor) > 200000
```

In [52]:
fcpc\
.groupby("PROJETO")\
["VALOR (R$)"]\
.sum()\
.loc[lambda v: v > 200000]

PROJETO
0101 - FCPC                           441.964,26
0104 - FCPC - 124.176-1 - ENCARGOS    253.635,02
2585 - CV.FINEP/UFC/FCPC-CTINFRA 09   471.982,89
Name: VALOR (R$), dtype: float64

Os registros com maior VALOR (R\$) por PROJETO

In [54]:
fcpc\
.groupby("PROJETO")\
.apply(lambda g: g.nlargest(1, "VALOR (R$)"))\
.head(3)

Unnamed: 0_level_0,Unnamed: 1_level_0,CNPJ,NOME,PROJETO,DATA,VALOR (R$),PROJETO_ID
PROJETO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
0101 - FCPC,354,***.07.272/****-31,UNIVERSIDADE FEDERAL DO CEARA,0101 - FCPC,2017-01-05,"142.017,21",101
0104 - FCPC - 124.176-1 - ENCARGOS,729,***.69.034/****-56,SODEXO PASS DO BRASIL SERVICOS E COMERCIO S.A,0104 - FCPC - 124.176-1 - ENCARGOS,2017-01-25,"98.817,64",104
1016 - CARTA - UFC/FCPC RADIO UNIVERSITARIA FM,206,***.00.474/****-62,ECAD - ESCRITORIO CENTRAL DE ARRECADACAO E DIS...,1016 - CARTA - UFC/FCPC RADIO UNIVERSITARIA FM,2017-02-02,"6.955,60",1016


Soma de valores por PROJETO e NOME

```SQL
    SELECT projeto, nome, SUM(valor)
    FROM fcpc
    GROUP BY projeto, nome
```

In [55]:
# NaNs quando não há valores para a combinação
#    lembrar que sum tem skipna=True por default

# o método .unstack() passa o nível mais interno de um index
#    para a outra dimensão
# no exemplo, o nível mais interno após o group by é NOME(último elemento do .groupby)
#    ao executar .unstack(), ele passa a ser utilizado nas colunas
fcpc\
.groupby(["PROJETO", "NOME"])\
["VALOR (R$)"]\
.sum()\
.unstack()\
.head(2)

NOME,A & C COMERCIO DE ARTIGOS DE PESCA E LAZER LTDA - EPP,A C Q COMERCIO E REP.LTDA ME,ALEXANDRE DA SILVA RIBEIRO-ME,ALTERNATE SISTEMAS E INFOMATICA LTDA,APA COMERCIO DE PRODUTOS MED. HOSP. E LAB. LTDA. EPP,APEFERR COM DE FERRAMENTAS EPIS E MAQUINAS LTDA ME,APIGUANA MAQUINAS E FERRAMENTAS LTDA,AQUATIK INTELIGENCIA E SERVICO ESPEC EM AQUATICULTURA LTDA,ASSOC LOJ SHONPPING ALDEOTA,ASSOCI BRASILEIRA DAS EDIT UNIVERSITARI,...,UNIVERSIDADE FEDERAL DO CEARA,UPS DO BRASIL REM. EXP. LTDA,VALKA INDUSTRIA E COMERCIO DE CERCS LTDA-ME,VALMIR PONTES ALCIMOR ROCHA SOCIEDADE SOCIEDADE DE ADVOGADOS,VICTOR BRUNO RODRIGUES PARENTE,VIDEOMAR REDE NORDESTE S/A,W&M PUBLICIDADE LTDA - EPP,WAMA PRODUTOS PARA LABORATORIO LTDA,WF XIMENES - ME,"ZARARTE TURISMO, AGENCIAMENTO, EVENTOS E CONSULTORIA LTDA -ME"
PROJETO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
0101 - FCPC,,,90000.0,,,,54200.0,,2140.0,,...,"147.018,95",,,"10.000,00",,38145.0,,,,
0104 - FCPC - 124.176-1 - ENCARGOS,,,,,,,,,,,...,,,,,,,,,,


In [57]:
# mesmo resultado com pd.pivot_table
# data
# index -> informa o que deve ser utilizado como index de linhas
# columns -> informa o que deve ser utilizado como index de colunas
# values -> informa o que deve ser utilizado para gerar os valores
# aggfunc -> informa que função deve ser utilizada para agregar os values

pd.pivot_table(fcpc,
               index="PROJETO", 
               columns="NOME", 
               values="VALOR (R$)", 
               aggfunc="sum")\
.head(2)

NOME,A & C COMERCIO DE ARTIGOS DE PESCA E LAZER LTDA - EPP,A C Q COMERCIO E REP.LTDA ME,ALEXANDRE DA SILVA RIBEIRO-ME,ALTERNATE SISTEMAS E INFOMATICA LTDA,APA COMERCIO DE PRODUTOS MED. HOSP. E LAB. LTDA. EPP,APEFERR COM DE FERRAMENTAS EPIS E MAQUINAS LTDA ME,APIGUANA MAQUINAS E FERRAMENTAS LTDA,AQUATIK INTELIGENCIA E SERVICO ESPEC EM AQUATICULTURA LTDA,ASSOC LOJ SHONPPING ALDEOTA,ASSOCI BRASILEIRA DAS EDIT UNIVERSITARI,...,UNIVERSIDADE FEDERAL DO CEARA,UPS DO BRASIL REM. EXP. LTDA,VALKA INDUSTRIA E COMERCIO DE CERCS LTDA-ME,VALMIR PONTES ALCIMOR ROCHA SOCIEDADE SOCIEDADE DE ADVOGADOS,VICTOR BRUNO RODRIGUES PARENTE,VIDEOMAR REDE NORDESTE S/A,W&M PUBLICIDADE LTDA - EPP,WAMA PRODUTOS PARA LABORATORIO LTDA,WF XIMENES - ME,"ZARARTE TURISMO, AGENCIAMENTO, EVENTOS E CONSULTORIA LTDA -ME"
PROJETO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
0101 - FCPC,,,90000.0,,,,54200.0,,2140.0,,...,"147.018,95",,,"10.000,00",,38145.0,,,,
0104 - FCPC - 124.176-1 - ENCARGOS,,,,,,,,,,,...,,,,,,,,,,


# Operações de conjuntos

In [58]:
n = pd.Series(['Brasil', "USA", "UK", "Argentina", "Brasil"])

n

0       Brasil
1          USA
2           UK
3    Argentina
4       Brasil
dtype: object

In [350]:
# retorna um array contendo os valores únicos para a Series
n.unique()

array(['Brasil', 'USA', 'UK', 'Argentina'], dtype=object)

In [352]:
# retorna uma Series booleana indicando para cada índice de n
#    se ele está contido ou não na lista passada
n.isin(['Brasil', 'Argentina'])

0     True
1    False
2    False
3     True
4     True
dtype: bool

In [61]:
# filtrando os registros cujos valores estejam no conjunto
n[n.isin(['Brasil', 'Argentina'])]

0       Brasil
3    Argentina
4       Brasil
dtype: object

# Exercício 9