# Pandas Cheat Sheet

## Sintáxe - Criando Dataframes

In [1]:
import pandas as pd

df = pd.DataFrame({'a': [4, 5, 6], 'b': [7, 8, 9], 'c': [10, 11, 12]}, index=[1, 2, 3])
# Específica valores para cada coluna

In [2]:
df

Unnamed: 0,a,b,c
1,4,7,10
2,5,8,11
3,6,9,12


In [3]:
df = pd.DataFrame([[4,7,10], [5,8,11], [6,9,12]], index=[1,2,3], columns=['a','b','c'])
# Específica valores para cada linha

In [4]:
df

Unnamed: 0,a,b,c
1,4,7,10
2,5,8,11
3,6,9,12


In [5]:
df = pd.DataFrame({'a': [4, 5, 6], 'b': [7, 8, 9], 'c': [10, 11, 12]}, index = pd.MultiIndex.from_tuples([('d',1),('d',2),('e',2)], names=['n','v']))
# Cria um DataFrame com Múltiplos Índices

In [6]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4,7,10
d,2,5,8,11
e,2,6,9,12


## Encadeamento de Métodos

A maioria dos métodos em pandas retornam um DataFrame de forma que outro método pandas possa ser aplicado no resultado. Isso melhora a leitura do código

In [7]:
df = (pd.melt(df)).rename(columns={'variable': 'var', 'value': 'val'}).query('val >= 200')

## Alterando a Forma dos Dados 

Trocando o layout do conjunto de Dados

In [8]:
df1 = pd.DataFrame({'a': [4, 20, 6], 'b': [7, 8, 9], 'c': [10, 11, 12]}, index=[1, 2, 3])
df2 = pd.DataFrame({'a': [10, 11, 7], 'b': [22, 5, 1], 'c': [15, 1, 13]}, index=[1, 2, 3])

In [9]:
df1

Unnamed: 0,a,b,c
1,4,7,10
2,20,8,11
3,6,9,12


In [10]:
df2

Unnamed: 0,a,b,c
1,10,22,15
2,11,5,1
3,7,1,13


In [11]:
pd.melt(df1) # Coletando as colunas em linhas

Unnamed: 0,variable,value
0,a,4
1,a,20
2,a,6
3,b,7
4,b,8
5,b,9
6,c,10
7,c,11
8,c,12


In [12]:
pd.concat([df1,df2]) # Anexa linhas do DataFrame

Unnamed: 0,a,b,c
1,4,7,10
2,20,8,11
3,6,9,12
1,10,22,15
2,11,5,1
3,7,1,13


In [13]:
pd.concat([df1,df2], axis=1) # Anexa colunas do DataFrame

Unnamed: 0,a,b,c,a.1,b.1,c.1
1,4,7,10,10,22,15
2,20,8,11,11,5,1
3,6,9,12,7,1,13


In [14]:
df1.sort_values('a') # Ordena as linhas por valores da coluna (do menor para o maior)

Unnamed: 0,a,b,c
1,4,7,10
3,6,9,12
2,20,8,11


In [15]:
df1.sort_values('a', ascending=False) # Ordena as linhas por valores da coluna (do maior para o menor)

Unnamed: 0,a,b,c
2,20,8,11
3,6,9,12
1,4,7,10


In [16]:
df1.rename(columns = {'a':'x'}) # Renomeia as colunas do DataFrame

Unnamed: 0,x,b,c
1,4,7,10
2,20,8,11
3,6,9,12


In [17]:
df1.sort_index() # Organiza o índice do DataFrame

Unnamed: 0,a,b,c
1,4,7,10
2,20,8,11
3,6,9,12


In [18]:
df1.reset_index() # Reseta o índice do DataFrame para números de linha, movendo o índice para as colunas

Unnamed: 0,index,a,b,c
0,1,4,7,10
1,2,20,8,11
2,3,6,9,12


In [19]:
df1.drop(columns=['a','b']) # Dropa as colunas do DataFrame

Unnamed: 0,c
1,10
2,11
3,12
