# Pandas Dataframes

Agora que já vimos Series, podemos ver toda a capacidade do Pandas em ação com os Dataframes, o verdadeiro poder do Pandas.

Dataframes são várias Series unidas para formar uma matriz de dados.

**Cada LINHA de um Dataframe é uma Series. Assim como cada COLUNA também é uma Series!**

In [1]:
import numpy as np
import pandas as pd

In [2]:
arr = np.random.randn(5,4)

In [3]:
arr

array([[-0.06584585, -0.6801047 , -0.6555421 , -0.67948501],
       [ 0.02687692, -0.01896736, -1.23048323, -1.60628339],
       [-0.85365446, -0.21854572,  0.20828465, -0.59273846],
       [ 0.55121649, -0.40946388, -0.42785011,  0.13168707],
       [ 0.17459926,  0.65880105, -0.20844939, -0.10332223]])

In [4]:
pd.DataFrame(data=arr,index=['A','B','C','D','E'], columns=['Joao','Maria','Gabriel','Alexandre'])

Unnamed: 0,Joao,Maria,Gabriel,Alexandre
A,-0.065846,-0.680105,-0.655542,-0.679485
B,0.026877,-0.018967,-1.230483,-1.606283
C,-0.853654,-0.218546,0.208285,-0.592738
D,0.551216,-0.409464,-0.42785,0.131687
E,0.174599,0.658801,-0.208449,-0.103322


In [5]:
#Muito comum chamarmos os dataframes de "df"
df = pd.DataFrame(data=arr,index=['A','B','C','D','E'], columns=['Joao','Maria','Gabriel','Alexandre'])

### Consultando coluna num Dataframe 

Note que uma Series é retornada.

In [8]:
df['Alexandre']

A   -0.679485
B   -1.606283
C   -0.592738
D    0.131687
E   -0.103322
Name: Alexandre, dtype: float64

### Criando coluna num Dataframe

In [6]:
df['Fernando'] = np.random.randn(5)

In [7]:
df

Unnamed: 0,Joao,Maria,Gabriel,Alexandre,Fernando
A,-0.065846,-0.680105,-0.655542,-0.679485,-1.106337
B,0.026877,-0.018967,-1.230483,-1.606283,-0.023805
C,-0.853654,-0.218546,0.208285,-0.592738,-1.490792
D,0.551216,-0.409464,-0.42785,0.131687,-0.501005
E,0.174599,0.658801,-0.208449,-0.103322,1.54038


### Consultando linha num Dataframe

Para muitos essa notação é confusa no início, mas logo se pega o jeito.

Utilizamos **loc** para consultar linha de um Dataframe.

Note que também retorna uma Series

In [12]:
df.loc['A']

Joao        -0.065846
Maria       -0.680105
Gabriel     -0.655542
Alexandre   -0.679485
Fernando    -1.106337
Name: A, dtype: float64

Se por algum acaso não soubermos o nome da linha mas soubermos a posição que está, podemos utilizar **iloc** passando entre colchetes a posição.

In [13]:
df.iloc[0] #equivalente a df.loc['A']

Joao        -0.065846
Maria       -0.680105
Gabriel     -0.655542
Alexandre   -0.679485
Fernando    -1.106337
Name: A, dtype: float64

In [14]:
df.iloc[2] #equivalente a df.loc['C']

Joao        -0.853654
Maria       -0.218546
Gabriel      0.208285
Alexandre   -0.592738
Fernando    -1.490792
Name: C, dtype: float64

### Deletando colunas e linhas

In [15]:
df

Unnamed: 0,Joao,Maria,Gabriel,Alexandre,Fernando
A,-0.065846,-0.680105,-0.655542,-0.679485,-1.106337
B,0.026877,-0.018967,-1.230483,-1.606283,-0.023805
C,-0.853654,-0.218546,0.208285,-0.592738,-1.490792
D,0.551216,-0.409464,-0.42785,0.131687,-0.501005
E,0.174599,0.658801,-0.208449,-0.103322,1.54038


In [16]:
df.drop('Fernando', axis=1)

Unnamed: 0,Joao,Maria,Gabriel,Alexandre
A,-0.065846,-0.680105,-0.655542,-0.679485
B,0.026877,-0.018967,-1.230483,-1.606283
C,-0.853654,-0.218546,0.208285,-0.592738
D,0.551216,-0.409464,-0.42785,0.131687
E,0.174599,0.658801,-0.208449,-0.103322


Note que nos é retornado outro dataframe. Note também que foi passado um argumento "axis=1", isso quer dizer que estamos querendo remover uma coluna. 

Pense no atributo "shape" de NumPy Arrays, lembre-se que o segundo elemento da tupla retornada por "shape" é responsável pela quantidade de **colunas**.

Ou apenas lembre-se que uma matriz bidimensional é representada por N x M linhas e colunas. Considere N como o eixo(axis) 0 e M como o eixo(axis) 1.

Se não especificássemos corretamente o eixo(axis), acabaríamos por excluir uma linha chamada "Fernando" (que no caso não existe, e portanto um erro apropriado seria retornado)

In [17]:
df.drop('A', axis=0)
#O padrão já é axis=0, mas apenas quis ilustrar.

Unnamed: 0,Joao,Maria,Gabriel,Alexandre,Fernando
B,0.026877,-0.018967,-1.230483,-1.606283,-0.023805
C,-0.853654,-0.218546,0.208285,-0.592738,-1.490792
D,0.551216,-0.409464,-0.42785,0.131687,-0.501005
E,0.174599,0.658801,-0.208449,-0.103322,1.54038


Como eu disse anteriormente, o "drop" está retornando um outro dataframe. Relacionado com isso está a ideia que muitas vezes é confusa de que as mudanças não estão feitas "inplace", ou seja, na verdade o nosso dataframe "df" continua intacto, e você pode ter percebido isso ao ver que a coluna "Fernando" não foi deletada mesmo após termos orientado anteriormente.

A verdade por trás disso é que, por segurança, "drop" por padrão retorna uma **cópia** do dataframe original com as alterações sugeridas. **E isso acontece com vários métodos de dataframes!**

In [18]:
df

Unnamed: 0,Joao,Maria,Gabriel,Alexandre,Fernando
A,-0.065846,-0.680105,-0.655542,-0.679485,-1.106337
B,0.026877,-0.018967,-1.230483,-1.606283,-0.023805
C,-0.853654,-0.218546,0.208285,-0.592738,-1.490792
D,0.551216,-0.409464,-0.42785,0.131687,-0.501005
E,0.174599,0.658801,-0.208449,-0.103322,1.54038


Para que as mudanças sejam feitas **inplace**, devemos definir **inplace=True**

In [19]:
df.drop('Alexandre', axis=1, inplace=True)

Note como agora não nos foi retornado um dataframe

In [20]:
df

Unnamed: 0,Joao,Maria,Gabriel,Fernando
A,-0.065846,-0.680105,-0.655542,-1.106337
B,0.026877,-0.018967,-1.230483,-0.023805
C,-0.853654,-0.218546,0.208285,-1.490792
D,0.551216,-0.409464,-0.42785,-0.501005
E,0.174599,0.658801,-0.208449,1.54038


E de fato a coluna "Alexandre" foi removida do dataframe em si.


Para finalizar, vale dizer que para remover múltiplas linhas ou colunas basta passar uma lista das linhas ou colunas que deseja remover.

In [21]:
df.drop(['Joao','Maria'],axis=1)

Unnamed: 0,Gabriel,Fernando
A,-0.655542,-1.106337
B,-1.230483,-0.023805
C,0.208285,-1.490792
D,-0.42785,-0.501005
E,-0.208449,1.54038


# Vale a pena buscar aprender Dataframes mais a fundo (indexing/selecting, conditional selection, reset_index, set_index, Groupby, Missing Data...), afinal Dataframes demonstram o verdadeiro poder de Pandas e são o coração da análise de dados.