In [35]:
import pandas as pd
import numpy as np
%run ../configura_display.py

# Leitura e Escrita

## CSV

Parâmetros importantes:

* **sep**: indica a string a ser utilizada como separador de valores. Default ','
* **decimal**: indica a string a ser utilizada como separador de decimal. Default '.'
* **thousands**: indica a string a ser utilizada como separador de milhares. Default None
* **encoding**: especifica o encoding a ser utilizado na leitura. Default UTF-8

http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html

In [28]:
!head -n 6 2017\ -\ 19-02.csv

﻿"CNPJ","NOME","PROJETO","DATA","VALOR (R$)"
"***.00.000/****-90","BANCO DO BRASIL SA","0101 - FCPC","13/01/2017","6.694,90"
"***.00.071/****-21","LUREX DISTRIBUIDORA DE BATERIAS LTDA","0101 - FCPC","06/01/2017","453,00"
"***.00.125/****-52","BONTEMPO REFRIGERACAO LTDA","3224 - TC SMART/UFC/FCPC - DESENVOLVIMENTO DE UM SISTEMA DE DETECÇÃO DE FALHA SMART RMA F_2","03/01/2017","1.360,00"
"***.00.204/****-20","NONO TABELIONATO DE NOTAS","0101 - FCPC","01/02/2017","396,27"
"***.00.204/****-20","NONO TABELIONATO DE NOTAS","0101 - FCPC","02/01/2017","24,81"


In [41]:
df = pd.read_csv("2017 - 19-02.csv")
df.head()

Unnamed: 0,CNPJ,NOME,PROJETO,DATA,VALOR (R$)
0,***.00.000/****-90,BANCO DO BRASIL SA,0101 - FCPC,13/01/2017,"6.694,90"
1,***.00.071/****-21,LUREX DISTRIBUIDORA DE BATERIAS LTDA,0101 - FCPC,06/01/2017,45300
2,***.00.125/****-52,BONTEMPO REFRIGERACAO LTDA,3224 - TC SMART/UFC/FCPC - DESENVOLVIMENTO DE ...,03/01/2017,"1.360,00"
3,***.00.204/****-20,NONO TABELIONATO DE NOTAS,0101 - FCPC,01/02/2017,39627
4,***.00.204/****-20,NONO TABELIONATO DE NOTAS,0101 - FCPC,02/01/2017,2481


In [42]:
df.dtypes

CNPJ          object
NOME          object
PROJETO       object
DATA          object
VALOR (R$)    object
dtype: object

In [37]:
df['VALOR (R$)'].sum()[:100]

'6.694,90453,001.360,00396,2724,813.060,007.380,00420,96378,48757,12120,00259,52351,84248,00295,66286'

In [38]:
# por default, separador de decimal é '.' e não há separador de milhares 
#    > ao não conseguir parsear a coluna VALOR (R$)
#    como numérico, parseia como string
df = pd.read_csv("2017 - 19-02.csv", )
df['VALOR (R$)'].sum()

2198927.279999998

In [39]:
df.dtypes

CNPJ           object
NOME           object
PROJETO        object
DATA           object
VALOR (R$)    float64
dtype: object

In [58]:
# header=None não considera a primeira linha como header
#       =0 é o default, faz uso da primeira linha
# names especifica o nome das colunas > tem maior prioridade que header
df = pd.read_csv("2017 - 19-02.csv", header=0, names=['col1', 'col2', 'col3', 'col4', 'col5'],
                 decimal=",", thousands=".")
df.head()

Unnamed: 0,col1,col2,col3,col4,col5
0,***.00.000/****-90,BANCO DO BRASIL SA,0101 - FCPC,13/01/2017,"6.694,90"
1,***.00.071/****-21,LUREX DISTRIBUIDORA DE BATERIAS LTDA,0101 - FCPC,06/01/2017,45300
2,***.00.125/****-52,BONTEMPO REFRIGERACAO LTDA,3224 - TC SMART/UFC/FCPC - DESENVOLVIMENTO DE ...,03/01/2017,"1.360,00"
3,***.00.204/****-20,NONO TABELIONATO DE NOTAS,0101 - FCPC,01/02/2017,39627
4,***.00.204/****-20,NONO TABELIONATO DE NOTAS,0101 - FCPC,02/01/2017,2481


In [59]:
# col4 interpretada como string
df.col4.describe()

count           1055
unique            31
top       20/01/2017
freq             193
Name: col4, dtype: object

In [60]:
# API python para trabalhar com timestamp
from datetime import datetime

# função que converterá uma string em um datetime
def converte_data(data):
    
    return datetime.strptime(data, "%d/%m/%Y")

df = pd.read_csv("2017 - 19-02.csv", parse_dates=["col4"], date_parser=converte_data,
                 header=0, names=['col1', 'col2', 'col3', 'col4', 'col5'],
                 decimal=",", thousands=".")
df.head()

Unnamed: 0,col1,col2,col3,col4,col5
0,***.00.000/****-90,BANCO DO BRASIL SA,0101 - FCPC,2017-01-13,"6.694,90"
1,***.00.071/****-21,LUREX DISTRIBUIDORA DE BATERIAS LTDA,0101 - FCPC,2017-01-06,45300
2,***.00.125/****-52,BONTEMPO REFRIGERACAO LTDA,3224 - TC SMART/UFC/FCPC - DESENVOLVIMENTO DE ...,2017-01-03,"1.360,00"
3,***.00.204/****-20,NONO TABELIONATO DE NOTAS,0101 - FCPC,2017-02-01,39627
4,***.00.204/****-20,NONO TABELIONATO DE NOTAS,0101 - FCPC,2017-01-02,2481


In [61]:
df.dtypes

col1            object
col2            object
col3            object
col4    datetime64[ns]
col5           float64
dtype: object

In [62]:
df.describe()

Unnamed: 0,col5
count,"1.055,00"
mean,"2.084,29"
std,"16.217,79"
min,054
25%,7496
50%,31200
75%,90809
max,"471.982,89"


In [68]:
# para leitura de arquivos em pedaços(chunks)
# por exemplo, quando não são necessários todos os dados ao mesmo tempo para realizar
#    determinado cálculo

chunker = pd.read_csv("2017 - 19-02.csv", parse_dates=["col4"], date_parser=converte_data,
                 header=0, names=['col1', 'col2', 'col3', 'col4', 'col5'],
                 decimal=",", thousands=".", chunksize=1000)

tudo = []
for piece in chunker:
    
    tudo.append(piece)
    
df = pd.concat(tudo)

df.head()

Unnamed: 0,col1,col2,col3,col4,col5
0,***.00.000/****-90,BANCO DO BRASIL SA,0101 - FCPC,2017-01-13,"6.694,90"
1,***.00.071/****-21,LUREX DISTRIBUIDORA DE BATERIAS LTDA,0101 - FCPC,2017-01-06,45300
2,***.00.125/****-52,BONTEMPO REFRIGERACAO LTDA,3224 - TC SMART/UFC/FCPC - DESENVOLVIMENTO DE ...,2017-01-03,"1.360,00"
3,***.00.204/****-20,NONO TABELIONATO DE NOTAS,0101 - FCPC,2017-02-01,39627
4,***.00.204/****-20,NONO TABELIONATO DE NOTAS,0101 - FCPC,2017-01-02,2481


In [70]:
df[df['col5'] < 100].to_csv("ex_output.csv")

In [73]:
!head -n 5 ex_output.csv

,col1,col2,col3,col4,col5
4,***.00.204/****-20,NONO TABELIONATO DE NOTAS,0101 - FCPC,2017-01-02,24.81
18,***.00.360/****-04,CAIXA ECONOMICA FEDERAL,"3143 - TC - LG/UFC/FCPC - MOBILE, TOOLS & CAS",2017-01-26,40.59
50,***.00.360/****-04,CAIXA ECONOMICA FEDERAL,"3143 - TC - LG/UFC/FCPC - MOBILE, TOOLS & CAS",2017-01-24,40.59
79,***.00.360/****-04,CAIXA ECONOMICA FEDERAL,3178 - CT.UFC/FCPC-FARMACIA ESCOLA,2017-01-20,89.95


## XML/HTML

p. 166

## Excel

p. 172

## Web API/json

p. 173

## Database

p.174

# Ranking

In [3]:
s = pd.Series([6, -2, 6, 3, 1, 0, 3])

s

0    6
1   -2
2    6
3    3
4    1
5    0
6    3
dtype: int64

In [4]:
s.rank()

0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

In [5]:
s.rank(method='first') # em caso de empate, rank baseado na ordem em que aparece na series

0    6.0
1    1.0
2    7.0
3    4.0
4    3.0
5    2.0
6    5.0
dtype: float64

In [6]:
s.rank(method='max') # empatados recebem o maior valor do grupo

0    7.0
1    1.0
2    7.0
3    5.0
4    3.0
5    2.0
6    5.0
dtype: float64

In [7]:
s.rank(ascending=False)

0    1.5
1    7.0
2    1.5
3    3.5
4    5.0
5    6.0
6    3.5
dtype: float64

In [8]:
df = pd.DataFrame({'b': [4.3, 7, -3, 2], 'a': [0, 1, 0, 1], 'c': [-2, 5, 8, -2.5]})

df

Unnamed: 0,a,b,c
0,0,4.3,-2.0
1,1,7.0,5.0
2,0,-3.0,8.0
3,1,2.0,-2.5


In [9]:
df.rank() # rank colunas

Unnamed: 0,a,b,c
0,1.5,3.0,2.0
1,3.5,4.0,3.0
2,1.5,1.0,4.0
3,3.5,2.0,1.0


In [10]:
df.rank(axis=1) # rank linhas

Unnamed: 0,a,b,c
0,2.0,3.0,1.0
1,1.0,3.0,2.0
2,2.0,1.0,3.0
3,2.0,3.0,1.0


# Hierarchical Index

In [2]:
data = pd.Series(np.random.randn(10), 
                 index=[list('aaabbbccdd'), list('1231231223')])

data

a  1    0.786336
   2   -0.569857
   3    0.767586
b  1    0.249749
   2    1.251457
   3    0.400850
c  1   -0.511621
   2   -0.891545
d  2    0.290265
   3   -1.107820
dtype: float64

In [3]:
data['b']

1    0.249749
2    1.251457
3    0.400850
dtype: float64

In [4]:
data['b':'c']

b  1    0.249749
   2    1.251457
   3    0.400850
c  1   -0.511621
   2   -0.891545
dtype: float64

In [6]:
data[:, '2']

a   -0.569857
b    1.251457
c   -0.891545
d    0.290265
dtype: float64

In [7]:
data.unstack()

Unnamed: 0,1,2,3
a,0.786336,-0.569857,0.767586
b,0.249749,1.251457,0.40085
c,-0.511621,-0.891545,
d,,0.290265,-1.10782


In [8]:
df = pd.DataFrame(np.arange(12).reshape((4, 3)),
                  index=[list('aabb'), list('1212')],
                  columns=[['ohio', 'ohio', 'colorado'],
                           ['green', 'red', 'gree']])

df

Unnamed: 0_level_0,Unnamed: 1_level_0,ohio,ohio,colorado
Unnamed: 0_level_1,Unnamed: 1_level_1,green,red,gree
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [9]:
df['ohio']

Unnamed: 0,Unnamed: 1,green,red
a,1,0,1
a,2,3,4
b,1,6,7
b,2,9,10


In [12]:
df.loc['a', 'ohio']

Unnamed: 0,green,red
1,0,1
2,3,4


In [14]:
df.loc[(slice(None), '1'), 'ohio']

Unnamed: 0,Unnamed: 1,green,red
a,1,0,1
b,1,6,7


In [17]:
df.sort_index(level=1)

Unnamed: 0_level_0,Unnamed: 1_level_0,ohio,ohio,colorado
Unnamed: 0_level_1,Unnamed: 1_level_1,green,red,gree
a,1,0,1,2
b,1,6,7,8
a,2,3,4,5
b,2,9,10,11


In [19]:
df.swaplevel(0, 1).sort_index(level=0)

Unnamed: 0_level_0,Unnamed: 1_level_0,ohio,ohio,colorado
Unnamed: 0_level_1,Unnamed: 1_level_1,green,red,gree
1,a,0,1,2
1,b,6,7,8
2,a,3,4,5
2,b,9,10,11


In [21]:
df.sum(level=1)

Unnamed: 0_level_0,ohio,ohio,colorado
Unnamed: 0_level_1,green,red,gree
1,6,8,10
2,12,14,16
