# Operações

Há muitas operações com pandas que serão realmente úteis para você, mas não se enquadram em nenhuma categoria distinta. Vamos mostrar aqui nesta aula:

In [5]:
import pandas as pd
df = pd.DataFrame({'col1':[1,2,3,4],'col2':[444,555,666,444],'col3':['abc','def','ghi','xyz']})
df.head()

Unnamed: 0,col1,col2,col3
0,1,444,abc
1,2,555,def
2,3,666,ghi
3,4,444,xyz


### Informação sobre valores exclusivos

In [6]:
# valores únicos na coluna 'col2'
df['col2'].unique()

array([444, 555, 666], dtype=int64)

In [7]:
# valores não únicos na coluna 'col2'
df['col2'].nunique()

3

In [8]:
# contagem dos valores das colunas
df['col2'].value_counts()

444    2
555    1
666    1
Name: col2, dtype: int64

### Selecionando dados

In [9]:
# Selecione do DataFrame usando critérios de várias colunas
newdf = df[(df['col1']>2) & (df['col2']==444)]

In [10]:
newdf

Unnamed: 0,col1,col2,col3
3,4,444,xyz


### Aplicando funções

In [14]:
def dobro(x):
    return x*2

In [18]:
df

Unnamed: 0,col1,col2,col3
0,1,444,abc
1,2,555,def
2,3,666,ghi
3,4,444,xyz


In [16]:
# importante este tópico
df['col1'].apply(dobro)

0    2
1    4
2    6
3    8
Name: col1, dtype: int64

In [13]:
df['col3'].apply(len)

0    3
1    3
2    3
3    3
Name: col3, dtype: int64

In [17]:
# somam os valores da coluna 'col1'
df['col1'].sum()

10

**Removendo colunas permanentemente**

In [19]:
del df['col1']

In [21]:
df

Unnamed: 0,col2,col3
0,444,abc
1,555,def
2,666,ghi
3,444,xyz


**Obter nomes de coluna e índice:**

In [22]:
df.columns

Index(['col2', 'col3'], dtype='object')

In [23]:
df.index

RangeIndex(start=0, stop=4, step=1)

**Ordenando um DataFrame**

In [32]:
df

Unnamed: 0,col2,col3
0,444,abc
1,555,def
2,666,ghi
3,444,xyz


In [33]:
help(df.sort_values)

Help on method sort_values in module pandas.core.frame:

sort_values(by, axis=0, ascending=True, inplace=False, kind='quicksort', na_position='last') method of pandas.core.frame.DataFrame instance
    Sort by the values along either axis
    
    Parameters
    ----------
            by : str or list of str
                Name or list of names to sort by.
    
                - if `axis` is 0 or `'index'` then `by` may contain index
                  levels and/or column labels
                - if `axis` is 1 or `'columns'` then `by` may contain column
                  levels and/or index labels
    
                .. versionchanged:: 0.23.0
                   Allow specifying index or column level names.
    axis : {0 or 'index', 1 or 'columns'}, default 0
         Axis to be sorted
    ascending : bool or list of bool, default True
         Sort ascending vs. descending. Specify list for multiple sort
         orders.  If this is a list of bools, must match the length of
        

In [41]:
#inplace=False por padrão
df.sort_values(by='col2', inplace=True) 

In [42]:
df

Unnamed: 0,col2,col3
0,444,abc
3,444,xyz
1,555,def
2,666,ghi


**Encontre Valores Nulos ou Verifique Valores Nulos**

In [35]:
df.isnull()

Unnamed: 0,col2,col3
0,False,False
1,False,False
2,False,False
3,False,False


In [38]:
# Deleta linhas com valores NaN
df.dropna()

Unnamed: 0,col2,col3
0,444,abc
1,555,def
2,666,ghi
3,444,xyz


**Preenchendo os valores de NaN com outra coisa:**

In [43]:
import numpy as np

df = pd.DataFrame({'col1':[1,2,3,np.nan],
                   'col2':[np.nan,555,666,444],
                   'col3':['abc','def','ghi','xyz']})
df.head()

Unnamed: 0,col1,col2,col3
0,1.0,,abc
1,2.0,555.0,def
2,3.0,666.0,ghi
3,,444.0,xyz


In [44]:
# Preecher NaN com 'Preencher'
df.fillna('Preencher')

Unnamed: 0,col1,col2,col3
0,1,Preencher,abc
1,2,555,def
2,3,666,ghi
3,Preencher,444,xyz


In [48]:
data = {'A':['foo','foo','foo','bar','bar','bar'],
     'B':['one','one','two','two','one','one'],
       'C':['x','y','x','y','x','y'],
       'D':[1,3,2,5,4,1]}

df = pd.DataFrame(data)

In [50]:
df

Unnamed: 0,A,B,C,D
0,foo,one,x,1
1,foo,one,y,3
2,foo,two,x,2
3,bar,two,y,5
4,bar,one,x,4
5,bar,one,y,1


In [52]:
# os índices serão 'A' e 'B' sendo agrupados por 'A'
# o nome das colunas serão os valores que estão em 'C'
# os valores serão obtidos da coluna 'D'
df.pivot_table(values='D',index=['A', 'B'],columns=['C'])

Unnamed: 0_level_0,C,x,y
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,4.0,1.0
bar,two,,5.0
foo,one,1.0,3.0
foo,two,2.0,
