## Manipulando e Agrupando dados com Pandas


In [1]:
import pandas as pd
dados=pd.read_csv('files/berkley.csv',sep=',')

In [2]:
dados.index

RangeIndex(start=0, stop=24, step=1)

In [3]:
dados.columns

Index([u'Admit', u'Gender', u'Dept', u'Freq'], dtype='object')

In [6]:
dados

Unnamed: 0,Admit,Gender,Dept,Freq
0,Admitted,Male,A,512
1,Rejected,Male,A,313
2,Admitted,Female,A,89
3,Rejected,Female,A,19
4,Admitted,Male,B,353
5,Rejected,Male,B,207
6,Admitted,Female,B,17
7,Rejected,Female,B,8
8,Admitted,Male,C,120
9,Rejected,Male,C,205


### Selecionando dados de apenas duas colunas

In [5]:
print(dados.columns)
dados[['Admit','Gender']]

Index([u'Admit', u'Gender', u'Dept', u'Freq'], dtype='object')


Unnamed: 0,Admit,Gender
0,Admitted,Male
1,Rejected,Male
2,Admitted,Female
3,Rejected,Female
4,Admitted,Male
5,Rejected,Male
6,Admitted,Female
7,Rejected,Female
8,Admitted,Male
9,Rejected,Male


#### Contando registros no dataframe

In [6]:
dados.count()

Admit     24
Gender    24
Dept      24
Freq      24
dtype: int64

#### Mostrando somente o campo Frequencia dos primeiros registros

In [7]:
dados.head(3)[['Freq']]

Unnamed: 0,Freq
0,512
1,313
2,89


#### Mostrando registros de 2 a 5 dos atributos Gender e Dept (by attribute name)

In [6]:
dados.loc[2:5,['Gender','Dept']]

Unnamed: 0,Gender,Dept
2,Female,A
3,Female,A
4,Male,B
5,Male,B


#### Mostrando registros de 3 a 4 dos atributos Admit e Gender (by attribute index)

In [7]:
dados.iloc[3:5,0:2] #3:5 representa linhas e 0:2 representa colunas

Unnamed: 0,Admit,Gender
3,Rejected,Female
4,Admitted,Male


#### Agrupando dados por departamento e Admit e fazendo soma de frequencia

In [13]:
(dados.groupby(by=['Dept','Admit']).sum())

Unnamed: 0_level_0,Unnamed: 1_level_0,Freq
Dept,Admit,Unnamed: 2_level_1
A,Admitted,601
A,Rejected,332
B,Admitted,370
B,Rejected,215
C,Admitted,322
C,Rejected,596
D,Admitted,269
D,Rejected,523
E,Admitted,147
E,Rejected,437


#### localizando dados maiores que 380 em todo o dataframe

In [14]:
dados[dados.Freq>380] #localizando dados maiores que 380 em todo o dataframe

Unnamed: 0,Admit,Gender,Dept,Freq
0,Admitted,Male,A,512
11,Rejected,Female,C,391


#### Media dos dados nos campos numéricos

In [10]:
dados.mean()

Freq    188.583333
dtype: float64

### Pivot Table dos dados (OLAP/ Multiplas dimensões)

#### Values:  sao os valores que serão utilizados para análise no cubo (Métricas) 
#### index: valores que serão agrupados a esquerda com distribuicao em forma de linhas
#### columns: valores que serão agrupados acima com distribuicao em forma de colunas

In [19]:
pd.pivot_table(dados,values='Freq',index=['Dept'],columns=['Gender','Admit'])
#pd.pivot_table(dados, values='Freq', index=[campo_chave_analise],columns=[dimensoes_de_analise])

Gender,Female,Female,Male,Male
Admit,Admitted,Rejected,Admitted,Rejected
Dept,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
A,89,19,512,313
B,17,8,353,207
C,202,391,120,205
D,131,244,138,279
E,94,299,53,138
F,24,317,22,351


Observe que o resultado acima disponibilizado pelo pivot_table se assemelha ao de baixo, mas com um formato mais agradável e resumido

In [13]:
(dados.groupby(by=['Dept','Admit','Gender']).sum())

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Freq
Dept,Admit,Gender,Unnamed: 3_level_1
A,Admitted,Female,89
A,Admitted,Male,512
A,Rejected,Female,19
A,Rejected,Male,313
B,Admitted,Female,17
B,Admitted,Male,353
B,Rejected,Female,8
B,Rejected,Male,207
C,Admitted,Female,202
C,Admitted,Male,120


Reference: 
1. http://pandas.pydata.org/pandas-docs/stable/10min.html
1. https://www.hdfgroup.org/why-hdf/
2. https://support.hdfgroup.org/downloads/index.html