# Operações úteis em dataframes

In [2]:
import pandas as pd
df_one = pd.DataFrame({'k1':['A','A','B','B','C','C'],
                      'col1':[100,200,300,300,400,500],
                      'col2':['NY','CA','WA','WA','AK','NV']})

In [4]:
# Retornando os valores nao repetidos da coluna
df_one['col2'].unique()

array(['NY', 'CA', 'WA', 'AK', 'NV'], dtype=object)

In [5]:
# Retornando a quantidade de valores unicos da coluna
df_one['col2'].nunique()

5

In [7]:
# Retornando a quantidade de cada valor unico da coluna
df_one['col2'].value_counts()

col2
WA    2
NY    1
CA    1
AK    1
NV    1
Name: count, dtype: int64

In [9]:
# Através da funcao drop_duplicates podemos excluir linhas que possuem valores iguais
df_one.drop_duplicates()

Unnamed: 0,k1,col1,col2
0,A,100,NY
1,A,200,CA
2,B,300,WA
4,C,400,AK
5,C,500,NV


In [13]:
# Com o método apply, podemos passar uma callback para ser 
# executada em cada item de determinada coluna

def get_first_letter(value):
    return value[0]

# Lembrar de passar sem os parenteses
df_one['col2'].apply(get_first_letter)

0    N
1    C
2    W
3    W
4    A
5    N
Name: col2, dtype: object

In [15]:
df_one['first_letter'] = df_one['col2'].apply(get_first_letter)

In [16]:
df_one

Unnamed: 0,k1,col1,col2,first_letter
0,A,100,NY,N
1,A,200,CA,C
2,B,300,WA,W
3,B,300,WA,W
4,C,400,AK,A
5,C,500,NV,N


In [21]:
# Podemos mapear elementos com valores de um dicionario
# Ou seja associar uma chave do dicionario a um valor na coluna
my_map = {
    'A': 1,
    'B': 2,
    'C': 3
}

In [24]:
# Antes de chamar o metodo map, temos que nos certificas de que as 
# chaves do dicionario correspondem aos valores encontrados na coluna
df_one['num'] = df_one['k1'].map(my_map)

In [25]:
df_one

Unnamed: 0,k1,col1,col2,first_letter,num
0,A,100,NY,N,1
1,A,200,CA,C,1
2,B,300,WA,W,2
3,B,300,WA,W,2
4,C,400,AK,A,3
5,C,500,NV,N,3


In [33]:
# Para acessar o valor maximo da coluna
df_one['col1'].max()

500

In [34]:
# Para acessar a localizacao do valor maximo da coluna

In [35]:
df_one['col1'].idxmax()

5

In [37]:
# Recuperando um array com os nomes das colunas
df_one.columns

Index(['k1', 'col1', 'col2', 'first_letter', 'num'], dtype='object')

In [42]:
# Para reatribuirmos os nomes das colunas usamos o operador = 
# Essa mudanca é permanente
df_one.columns = ['C1','C2','C3','C4','C5']

In [43]:
df_one

Unnamed: 0,C1,C2,C3,C4,C5
0,A,100,NY,N,1
1,A,200,CA,C,1
2,B,300,WA,W,2
3,B,300,WA,W,2
4,C,400,AK,A,3
5,C,500,NV,N,3


In [45]:
# Se quisemos exibir o dataframe pela ordem de determinada coluna, usamos o sort_values
df_one.sort_values('C3', ascending=False)

Unnamed: 0,C1,C2,C3,C4,C5
2,B,300,WA,W,2
3,B,300,WA,W,2
0,A,100,NY,N,1
5,C,500,NV,N,3
1,A,200,CA,C,1
4,C,400,AK,A,3


# Concatenando dataframes

In [47]:
features = pd.DataFrame({'A':[100,200,300,400,500],
                        'B':[12,13,14,15,16]})
predictions = pd.DataFrame({'pred':[0,1,1,0,1]})

In [49]:
# Utilizamos o metodo concat para unir dataframes
# Normalmente, o metodo pressupoe que possui dataframes com colunas iguais, 
# portanto ele concatena um dataframe apos a ultima linha do outro.
# Se tivermos dataframes com colunas diferentes mas numero de linhas iguais, 
# podemos concatenar axis=1 para adicionar as colunas com  valores do segundo dataframe 
pd.concat([features,predictions],axis=1)

Unnamed: 0,A,B,pred
0,100,12,0
1,200,13,1
2,300,14,1
3,400,15,0
4,500,16,1


In [51]:
# Isso será muito útil em machine learning
pd.get_dummies(df_one['C1'])

Unnamed: 0,A,B,C
0,True,False,False
1,True,False,False
2,False,True,False
3,False,True,False
4,False,False,True
5,False,False,True
