In [51]:
import numpy as np
import pandas as pd

In [52]:
from numpy.random import randn

### Criando um DataFrame
* **pd.DataFrame(table, lines_names, columns_names)**: Cria um DataFrame  
  * **table**: tabela a ser usada  
  * **lines_names**: lista dos nomes das linhas (opcional)  
  * **columns_names**: lista dos nomes das colunas (opcional)  
  
* **randn(x, y)**: Cria uma tabela de números aleatórios  
  * **x**: linhas  
  * **y**: colunas  

In [53]:
df = pd.DataFrame(randn(5,4), ['A','B','C','D','E'], ['X','Y','W','Z'])

In [54]:
df

Unnamed: 0,X,Y,W,Z
A,1.521916,-0.179026,-1.484028,0.007427
B,-0.572287,-0.277158,-0.556592,1.049044
C,-0.307392,0.483699,-0.80101,-0.391093
D,1.359305,-0.312021,-1.895855,0.506769
E,0.666152,0.811918,1.366555,-0.74068


### Acessando uma Série
Um DataFrame é composto de multiplas Séries, para acessar alguma delas:  

* **df[column_name]**: Obtém a série daquela coluna  
  * **column_name**: nome da coluna a qual quer obter a série  
* **df.loc[line_name]**: Obtém a série daquela linha  
  * **line_name**: nome da linha a qual quer obter a série  
  
*loc == location*

In [55]:
df['W']

A   -1.484028
B   -0.556592
C   -0.801010
D   -1.895855
E    1.366555
Name: W, dtype: float64

In [56]:
df.loc['A']

X    1.521916
Y   -0.179026
W   -1.484028
Z    0.007427
Name: A, dtype: float64

### Acessando valores de Series
Uma série funciona como um array  
* **s[0]**: Obtém o valor daquela posição da série  

In [60]:
s = df['W']
s[0]

-1.4840276001410784

### Acessando valores de um DataFrame
Primeiro precisa obter a série e depois o valor  

* **df[column_name]**: Obtém a série  
  * **df[column_name][0]**: Obtém o valor  
* **df.loc[line_name]**: Obtém a série
  * **df[line_name][0]**: Obtém o valor  

In [59]:
df['W'][0]

-1.4840276001410784

In [61]:
df.loc['A'][0]

1.5219164358694761

### Acessando um "sub DataFrame"
Se o primeiro valor passado for uma *lista de strings* em vez de uma *string*, retorna um DataFrame composto por essas linhas/colunas

* **df[[column_1, column_2]]**: Obtém um DataFrame com as duas colunas passadas
* **df.loc[[line_1, line2]]**: Obtém um DataFrame com as duas linhas passadas

In [62]:
df[['X','Y']]

Unnamed: 0,X,Y
A,1.521916,-0.179026
B,-0.572287,-0.277158
C,-0.307392,0.483699
D,1.359305,-0.312021
E,0.666152,0.811918


In [63]:
df.loc[['A','B']]

Unnamed: 0,X,Y,W,Z
A,1.521916,-0.179026,-1.484028,0.007427
B,-0.572287,-0.277158,-0.556592,1.049044


### Acessando por Index
É como se estivesse acessando uma matriz normalmente  

* **df.iloc[pos]**: Obtém a linha na posição  


* **df.iloc[:, pos]**: Obtém a coluna na posição  
* **df.iloc[pos, :]**: Obtém a linha na posição   

*Lembre que ':' quer dizer todas as posições*

In [65]:
df.iloc[0]

X    1.521916
Y   -0.179026
W   -1.484028
Z    0.007427
Name: A, dtype: float64

In [67]:
df.iloc[:, 0]

A    1.521916
B   -0.572287
C   -0.307392
D    1.359305
E    0.666152
Name: X, dtype: float64

In [68]:
df.iloc[0, :]

X    1.521916
Y   -0.179026
W   -1.484028
Z    0.007427
Name: A, dtype: float64

### Acessando um "sub DataFrame" por Index
Se for passada uma *lista de inteiros* em vez de um *inteiro*, você vai acessar aquelas posições na lista  

* **df.iloc[[pos_1, pos_2]]**: Obtém as linhas na lista  


* **df.iloc[:, [pos_1, pos_2]]**: Obtém as colunas na lista  
* **df.iloc[[pos_1, pos_2], :]**: Obtém as linhas na lista  

*Pode trocar ':' por a posição desejada ou por outra lista*

In [71]:
df.iloc[[0, 1]]

Unnamed: 0,X,Y,W,Z
A,1.521916,-0.179026,-1.484028,0.007427
B,-0.572287,-0.277158,-0.556592,1.049044


In [70]:
df.iloc[:, [0, 1]]

Unnamed: 0,X,Y
A,1.521916,-0.179026
B,-0.572287,-0.277158
C,-0.307392,0.483699
D,1.359305,-0.312021
E,0.666152,0.811918


In [72]:
df.iloc[[0, 1], :]

Unnamed: 0,X,Y,W,Z
A,1.521916,-0.179026,-1.484028,0.007427
B,-0.572287,-0.277158,-0.556592,1.049044


In [73]:
df.iloc[[0, 1], 1]

A   -0.179026
B   -0.277158
Name: Y, dtype: float64

### Acessando Intervalo

* **df[:]**: Obtém todo DataFrame  
* **df[line_1 : line_2]**: Obtém o intervalo de linhas (nome da linha)  
* **df[pos_1 : pos_2]**: Obtém o intervalo de linhas (index)  

*Obs: note que o comportamento é diferente do normal que obtém colunas*  

* **df[column_1]**: Obtém a coluna  

*Obs: note que você pode obter uma linha utilizando **df.loc[line]** ou definindo intervalo **df[line:line]**  

* **df.loc[line] == df[line:line]**: Equivalentes

In [132]:
df[:]

Unnamed: 0,X,Y,W,Z
A,1.521916,-0.179026,-1.484028,0.007427
B,-0.572287,-0.277158,-0.556592,1.049044
C,-0.307392,0.483699,-0.80101,-0.391093
D,1.359305,-0.312021,-1.895855,0.506769
E,0.666152,0.811918,1.366555,-0.74068


In [149]:
df['A':'B']

Unnamed: 0,X,Y,W,Z
A,1.521916,-0.179026,-1.484028,0.007427
B,-0.572287,-0.277158,-0.556592,1.049044


In [152]:
df[0:2]

Unnamed: 0,X,Y,W,Z
A,1.521916,-0.179026,-1.484028,0.007427
B,-0.572287,-0.277158,-0.556592,1.049044


In [153]:
df['X']

A    1.521916
B   -0.572287
C   -0.307392
D    1.359305
E    0.666152
Name: X, dtype: float64

In [159]:
df.loc['A'] == df['A':'A']

Unnamed: 0,X,Y,W,Z
A,True,True,True,True


### Excluir Linhas
Se passar apenas uma *string*, deleta apenas uma série da tabela  
Se passar uma *lista de strings*, deleta todas aquelas séries da tabela  
Exclui linhas ou colunas, dependendo do parâmetro *axis*  

* **df.drop(line_1)**: Exclui a linha  
* **df.drop([line_1, line_2])**: Exclui as linhas  


* **df.drop(line_1, axis=0)**: Exclui a linha  
* **df.drop([line_1, line_2], axis=0)**: Exclui as linhas  
* **df.drop(column_1, axis=1)**: Exclui a coluna  
* **df.drop([column_1, column_2], axis=1)**: Exclui as colunas  

In [76]:
df.drop('A')

Unnamed: 0,X,Y,W,Z
B,-0.572287,-0.277158,-0.556592,1.049044
C,-0.307392,0.483699,-0.80101,-0.391093
D,1.359305,-0.312021,-1.895855,0.506769
E,0.666152,0.811918,1.366555,-0.74068


In [77]:
df.drop(['A','B'])

Unnamed: 0,X,Y,W,Z
C,-0.307392,0.483699,-0.80101,-0.391093
D,1.359305,-0.312021,-1.895855,0.506769
E,0.666152,0.811918,1.366555,-0.74068


In [78]:
df.drop('X', axis=1)

Unnamed: 0,Y,W,Z
A,-0.179026,-1.484028,0.007427
B,-0.277158,-0.556592,1.049044
C,0.483699,-0.80101,-0.391093
D,-0.312021,-1.895855,0.506769
E,0.811918,1.366555,-0.74068


In [80]:
df.drop(['X', 'Y'], axis=1)

Unnamed: 0,W,Z
A,-1.484028,0.007427
B,-0.556592,1.049044
C,-0.80101,-0.391093
D,-1.895855,0.506769
E,1.366555,-0.74068


In [81]:
df.drop('A', axis=0)

Unnamed: 0,X,Y,W,Z
B,-0.572287,-0.277158,-0.556592,1.049044
C,-0.307392,0.483699,-0.80101,-0.391093
D,1.359305,-0.312021,-1.895855,0.506769
E,0.666152,0.811918,1.366555,-0.74068


In [82]:
df.drop(['A', 'B'], axis=0)

Unnamed: 0,X,Y,W,Z
C,-0.307392,0.483699,-0.80101,-0.391093
D,1.359305,-0.312021,-1.895855,0.506769
E,0.666152,0.811918,1.366555,-0.74068


### Operações sobre DataFrame
É possível fazer operações sobre DataFrame

* **df + 1**: Retorna um DataFrame com 1 somado a todos os valores  
* **df > 0**: Retorna um DataFrame com o resultado dessa comparação para cada um dos valores  

Basicamente você consegue utilizar os operadores normais para criar um novo DataFrame baseado no anterior  

In [87]:
df + 1

Unnamed: 0,X,Y,W,Z
A,2.521916,0.820974,-0.484028,1.007427
B,0.427713,0.722842,0.443408,2.049044
C,0.692608,1.483699,0.19899,0.608907
D,2.359305,0.687979,-0.895855,1.506769
E,1.666152,1.811918,2.366555,0.25932


In [88]:
df > 0

Unnamed: 0,X,Y,W,Z
A,True,False,False,True
B,False,False,False,True
C,False,True,False,False
D,True,False,False,True
E,True,True,True,False


### Passando Boolean Array para o DataFrame
O array precisa ter a mesma quantia de linhas do DataFrame, cada posição do array vai se referênciar a uma linha.  
Todas as linhas associadas a False serão removidas do DataFrame

* **df[[True, True, True, True, True]]**: Não remove nenhuma linha  
* **df[[True, True, True, True, False]]**: Remove a ultima linha  

In [165]:
df[[True, True, True, True, True]]

Unnamed: 0,X,Y,W,Z
A,1.521916,-0.179026,-1.484028,0.007427
B,-0.572287,-0.277158,-0.556592,1.049044
C,-0.307392,0.483699,-0.80101,-0.391093
D,1.359305,-0.312021,-1.895855,0.506769
E,0.666152,0.811918,1.366555,-0.74068


In [164]:
df[[True, True, True, True, False]]

Unnamed: 0,X,Y,W,Z
A,1.521916,-0.179026,-1.484028,0.007427
B,-0.572287,-0.277158,-0.556592,1.049044
C,-0.307392,0.483699,-0.80101,-0.391093
D,1.359305,-0.312021,-1.895855,0.506769


### Passando uma Série de Boolean para o DataFrame
Funciona da mesma maneira que passar um array de booleano  

* **df[column_name]** é uma série  
* **df[column_name] > 0** é uma série de booleans  
* **df[df.loc[column_name] > 0]** retira as linhas associadas a false  


* **df.loc[line_name]** é uma série  
* **df.loc[line_name] > 0** é uma série de booleans  

In [169]:
df['X']

A    1.521916
B   -0.572287
C   -0.307392
D    1.359305
E    0.666152
Name: X, dtype: float64

In [172]:
df['X'] > 0

A     True
B    False
C    False
D     True
E     True
Name: X, dtype: bool

In [173]:
df[df['X'] > 0]

Unnamed: 0,X,Y,W,Z
A,1.521916,-0.179026,-1.484028,0.007427
D,1.359305,-0.312021,-1.895855,0.506769
E,0.666152,0.811918,1.366555,-0.74068


In [174]:
df.loc['A']

X    1.521916
Y   -0.179026
W   -1.484028
Z    0.007427
Name: A, dtype: float64

In [175]:
df.loc['A'] > 0

X     True
Y    False
W    False
Z     True
Name: A, dtype: bool

### Passando um DataFrame de Boolean para o DataFrame

* **df > 0**: DataFrame de booleans   
* **df[df > 0]**: A linha x coluna associada a false são substituidas por None  

In [185]:
df > 0

Unnamed: 0,X,Y,W,Z
A,True,False,False,True
B,False,False,False,True
C,False,True,False,False
D,True,False,False,True
E,True,True,True,False


In [186]:
df[df > 0]

Unnamed: 0,X,Y,W,Z
A,1.521916,,,0.007427
B,,,,1.049044
C,,0.483699,,
D,1.359305,,,0.506769
E,0.666152,0.811918,1.366555,


### And e Or sobre DataFrames
**and** e **or** só podem operar sobre valores booleanos, por isso para essas operações você utiliza os operadores de bit **&** e **|**  
Os parênteses são importantes para não executar na ordem errada as verificações  

* **(df > -1) & (df < 1)**: DataFrame com o resultado do **and** entre as linhas x colunas dos DataFrames  
* **(df < -1) || (df > 1)**: DataFrame com o resultado do **or** entre as linhas x colunas dos DataFrames  

In [198]:
df

Unnamed: 0,X,Y,W,Z
A,1.521916,-0.179026,-1.484028,0.007427
B,-0.572287,-0.277158,-0.556592,1.049044
C,-0.307392,0.483699,-0.80101,-0.391093
D,1.359305,-0.312021,-1.895855,0.506769
E,0.666152,0.811918,1.366555,-0.74068


In [203]:
(df > -1) & (df < 1)

Unnamed: 0,X,Y,W,Z
A,False,True,False,True
B,True,True,True,False
C,True,True,True,True
D,False,True,False,True
E,True,True,False,True


In [202]:
(df < -1) | (df > 1)

Unnamed: 0,X,Y,W,Z
A,True,False,True,False
B,False,False,False,True
C,False,False,False,False
D,True,False,True,False
E,False,False,True,False


### Adicionar Coluna e Linha
Basta se referênciar à aquela coluna/linha como se ela já existisse e adicionar os valores que ela deveria armazenar  

* **df['new_column'] = [value_1, value_2, value_3, ...]**: Nova coluna  
* **df.loc['new_line'] = [value_1, value_2, value_3, ...]**: Nova linha  

In [214]:
df['NEW'] = [1,2,3,4,5]
df

Unnamed: 0,X,Y,W,Z,NEW
A,1.521916,-0.179026,-1.484028,0.007427,1
B,-0.572287,-0.277158,-0.556592,1.049044,2
C,-0.307392,0.483699,-0.80101,-0.391093,3
D,1.359305,-0.312021,-1.895855,0.506769,4
E,0.666152,0.811918,1.366555,-0.74068,5


In [216]:
df.loc['KKK'] = [10,20,30,40,50]
df

Unnamed: 0,X,Y,W,Z,NEW
A,1.521916,-0.179026,-1.484028,0.007427,1
B,-0.572287,-0.277158,-0.556592,1.049044,2
C,-0.307392,0.483699,-0.80101,-0.391093,3
D,1.359305,-0.312021,-1.895855,0.506769,4
E,0.666152,0.811918,1.366555,-0.74068,5
KKK,10.0,20.0,30.0,40.0,50


### Trabalhando com Index
Embora tenhamos definido os nomes das linhas como 'A','B','C','D' e 'E', estas linhas são na verdade referênciadas como posições de 0 até X  
Se não tivessemos definido os nomes, estariamos vendo linhas de 0 até 4  

* **df.reset_index()**: Reseta os indices para o normal e armazena os nomes em uma coluna  
* **df.set_index([name_1, name_2, name_3, ...])**: Define uma nova coluna para ser o nome dos index  

In [218]:
df.reset_index()

Unnamed: 0,index,X,Y,W,Z,NEW
0,A,1.521916,-0.179026,-1.484028,0.007427,1
1,B,-0.572287,-0.277158,-0.556592,1.049044,2
2,C,-0.307392,0.483699,-0.80101,-0.391093,3
3,D,1.359305,-0.312021,-1.895855,0.506769,4
4,E,0.666152,0.811918,1.366555,-0.74068,5
5,KKK,10.0,20.0,30.0,40.0,50


In [222]:
df.set_index(['NEW'])

Unnamed: 0_level_0,X,Y,W,Z
NEW,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,1.521916,-0.179026,-1.484028,0.007427
2,-0.572287,-0.277158,-0.556592,1.049044
3,-0.307392,0.483699,-0.80101,-0.391093
4,1.359305,-0.312021,-1.895855,0.506769
5,0.666152,0.811918,1.366555,-0.74068
50,10.0,20.0,30.0,40.0


In [233]:
df.loc['A']

X      1.521916
Y     -0.179026
W     -1.484028
Z      0.007427
NEW    1.000000
Name: A, dtype: float64