# **DataFrames**
> ## **Operações**
> *Operações a serem feitas em DataFrames*
> 

In [38]:
import pandas as pd
df = pd.DataFrame({'col1':[1,2,3,4], 'col2':[444,555,666,444], 'col3':['abc','def','ghi','xyz']})

In [39]:
df.head()

Unnamed: 0,col1,col2,col3
0,1,444,abc
1,2,555,def
2,3,666,ghi
3,4,444,xyz


In [40]:
df

Unnamed: 0,col1,col2,col3
0,1,444,abc
1,2,555,def
2,3,666,ghi
3,4,444,xyz


### Unique

> Unique() exibe os valores únicos em certa seção, sem exibir as suas repetições. nunique exibe a quantidade de valores unicos, sem contar suas repetições

In [41]:
df['col2'].unique()

array([444, 555, 666], dtype=int64)

In [42]:
import numpy as np

In [43]:
np.unique(df['col2'])

array([444, 555, 666], dtype=int64)

### Len

> Calcula a quantidade de valores em certa seção

In [44]:
len(df['col2'].unique())

3

In [45]:
df['col2'].nunique() # nunique calcula a quantidade de valores unicos

3

### value_counts

> Exibe os valores de certa seçao e a quantidade que ele aparece

In [46]:
df['col2'].value_counts()

col2
444    2
555    1
666    1
Name: count, dtype: int64

### Operações lógicas como indice

> é utilizado para exibir apenas os valores que satisfazem as condições passadas e exibe os índices que cumprem tais condições

In [47]:
df[df['col1']>2]

Unnamed: 0,col1,col2,col3
2,3,666,ghi
3,4,444,xyz


In [48]:
df[(df['col1']>2) & (df['col2']==444)]

Unnamed: 0,col1,col2,col3
3,4,444,xyz


### apply()

> Permite aplicar funções no DataFrame

> Definindo função para calcular potência de 3 e aplicando em df na coluna 2

In [49]:
def aocubo(x):
        return x**3

In [50]:
df['col2'].apply(aocubo)

0     87528384
1    170953875
2    295408296
3     87528384
Name: col2, dtype: int64

> Aplicando a função len

In [51]:
df['col3'].apply(len)

0    3
1    3
2    3
3    3
Name: col3, dtype: int64

> Aplicando aocubo nas colunas 1 e 2

In [52]:
df[['col1','col2']].apply(aocubo)

Unnamed: 0,col1,col2
0,1,87528384
1,8,170953875
2,27,295408296
3,64,87528384


> Aplicando função lambda para elevar números ao quadrado

In [53]:
df[['col1','col2']].apply(lambda x: (x*x))

Unnamed: 0,col1,col2
0,1,197136
1,4,308025
2,9,443556
3,16,197136


> Deletando a coluna 2

In [54]:
del df['col2']

In [55]:
df

Unnamed: 0,col1,col3
0,1,abc
1,2,def
2,3,ghi
3,4,xyz


In [56]:
df.columns

Index(['col1', 'col3'], dtype='object')

> Adicionando um novo índice col para o DataFrame

In [57]:
col = (0,1,2,3) 
df['index'] = col


In [58]:
df.set_index('index', inplace = True)

In [59]:
df

Unnamed: 0_level_0,col1,col3
index,Unnamed: 1_level_1,Unnamed: 2_level_1
0,1,abc
1,2,def
2,3,ghi
3,4,xyz


In [60]:
df.index

Index([0, 1, 2, 3], dtype='int64', name='index')

> Aplicando função aocubo em valores cujo índice é maior que 2

In [61]:
df[df.index.values > 2]['col1'].apply(aocubo)

index
3    64
Name: col1, dtype: int64

### sort_values

> Ordena os valores de acordo com os parâmetros passados a função

In [62]:
df.sort_values(by='col3', inplace=True)

In [63]:
df

Unnamed: 0_level_0,col1,col3
index,Unnamed: 1_level_1,Unnamed: 2_level_1
0,1,abc
1,2,def
2,3,ghi
3,4,xyz


> Atribuindo um novo DataFrame à df e utilizando pivot_table para reordená-lo de diversas formas

In [64]:
df = pd.DataFrame({'col1':[1,2,3,np.nan],
                  'col2':[np.nan, 555, 666, 444],
                  'col3':['abc', 'def', 'ghi', 'xyz']})
df.head()

Unnamed: 0,col1,col2,col3
0,1.0,,abc
1,2.0,555.0,def
2,3.0,666.0,ghi
3,,444.0,xyz


In [65]:
df['col1'].fillna(value=df['col1'].mean())

0    1.0
1    2.0
2    3.0
3    2.0
Name: col1, dtype: float64

### pivot_table

> Reordena o DataFrame

In [66]:
data = {'A':['foo','foo','foo','bar','bar','bar'],
       'B': ['one','one','two','two','one','one'],
       'C': ['x','y','x','y','x','y'],
       'D': [1,3,2,5,4,1]}

df=pd.DataFrame(data)

In [67]:
df

Unnamed: 0,A,B,C,D
0,foo,one,x,1
1,foo,one,y,3
2,foo,two,x,2
3,bar,two,y,5
4,bar,one,x,4
5,bar,one,y,1


In [68]:
df.pivot_table(values='D', index=['A', 'B'], columns=['C'])

Unnamed: 0_level_0,C,x,y
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,4.0,1.0
bar,two,,5.0
foo,one,1.0,3.0
foo,two,2.0,


In [69]:
df.pivot_table(values='D', index= ['B'], columns=['A'])

A,bar,foo
B,Unnamed: 1_level_1,Unnamed: 2_level_1
one,2.5,2.0
two,5.0,2.0


In [70]:
df.pivot_table(values='D', index= ['B','C'], columns=['A']).ffill(axis='index')

Unnamed: 0_level_0,A,bar,foo
B,C,Unnamed: 2_level_1,Unnamed: 3_level_1
one,x,4.0,1.0
one,y,1.0,3.0
two,x,1.0,2.0
two,y,5.0,2.0


In [71]:
df.pivot_table(values='D', index= ['B','C'], columns=['A']).fillna(value=df['D'].mean())

Unnamed: 0_level_0,A,bar,foo
B,C,Unnamed: 2_level_1,Unnamed: 3_level_1
one,x,4.0,1.0
one,y,1.0,3.0
two,x,2.666667,2.0
two,y,5.0,2.666667


In [72]:
del df

In [73]:
df

NameError: name 'df' is not defined