# Operações com Dataframes

## 1. Operações básicas no Pandas

| Operação | Descrição |
| :- | :- |
| dataframe.head() | Mostra as linhas do topo de uma tabela | 
| dataframe.tail()| Mostra as linhas do final de uma tabela | 
| dataframe.index | Mostra o index de cada series(linha) da tabela | 
| dataframe.columns | Mostra o index de cada coluna da tabela | 
| dataframe.describe() | Mostra um resumo estatístoc dos seus dados |
| dataframe.sort_values(by="B") | Ordena o dataframe com base nos valores da coluna ou linha definida |
| dataframe.info() | Mostra o tipo de dado, o número de linhas, de colunas e de valores não nulos | 
| dataframef.memory_usage() | Mostra o uso de memória de cada coluna de um dataframe | 
| Valores exclusivos | No pandas, valores exclusivos se referem à elementos únicos presentes em uma serie ou coluna |
| dataframe["col2"].unique() | Mostra um array com os elementos únicos da coluna | 
| dataframe["col2"].nunique() | Mostra a quantidade de elementos únicos da coluna | 
| dataframe["col2"].value_counts() | Mostra a quantidade de vezes que cada um dos elementos aparece na coluna |
| df["col1"].sum() | Mostra a soma dos valores da coluna selecionada |
| df["col1"].mean() | Mostra a média dos valores da coluna selecionada |
| df["col1"].product() | Mostra o resultado da multiplicação de todos os valores da coluna (produto) |
| df["col1"].std() | Mostra o desvio padrão dos valores da coluna | 
| df["col1"].max() | Mostra o maior valor da coluna | 
| df["col1"].min() | Mostra o menor valor da coluna |
| df["col1"].idxmax() | Mostra o index do maior valor da coluna |
| df["col1"].idxmin() | Mostra o id do menor valor da coluna |
| df[df["col2"] == 444] |Retorna um dataframe contendo apenas as series cujos valores da col2 é igual à 444 | 
| df[df["col2"] == 444]["col1"].sum() | Retorna a soma dos valores de col1 quando o  dataframe tem apenas as series valores da col2 é igual à 444 |

## 2.Operações pandas na prática

In [70]:
import pandas as pd
df = pd.DataFrame({"col1": [1, 2, 3, 4],
                   "col2": [444, 555, 666, 444],
                   "col3": ["abc", "def", "ghi", "xyz"]})

### Informations

In [4]:
df.head()

Unnamed: 0,col1,col2,col3
0,1,444,abc
1,2,555,def
2,3,666,ghi
3,4,444,xyz


In [5]:
df.tail()

Unnamed: 0,col1,col2,col3
0,1,444,abc
1,2,555,def
2,3,666,ghi
3,4,444,xyz


In [6]:
df.index

RangeIndex(start=0, stop=4, step=1)

In [7]:
df.columns

Index(['col1', 'col2', 'col3'], dtype='str')

In [8]:
df.describe()

Unnamed: 0,col1,col2
count,4.0,4.0
mean,2.5,527.25
std,1.290994,106.274409
min,1.0,444.0
25%,1.75,444.0
50%,2.5,499.5
75%,3.25,582.75
max,4.0,666.0


In [9]:
df.sort_values(by="col2")

Unnamed: 0,col1,col2,col3
0,1,444,abc
3,4,444,xyz
1,2,555,def
2,3,666,ghi


In [10]:
df.info()

<class 'pandas.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   col1    4 non-null      int64
 1   col2    4 non-null      int64
 2   col3    4 non-null      str  
dtypes: int64(2), str(1)
memory usage: 228.0 bytes


In [11]:
df.memory_usage()

Index    132
col1      32
col2      32
col3      32
dtype: int64

### Uniqueness

In [13]:
df["col2"].unique()

array([444, 555, 666])

In [15]:
df["col2"].nunique()

3

In [16]:
df["col2"].value_counts()

col2
444    2
555    1
666    1
Name: count, dtype: int64

### Funções e lambda

In [56]:
df = pd.DataFrame({"col1": [1, 2, 3, 4],
                   "col2": [444, 555, 666, 444],
                   "col3": ["abc", "def", "ghi", "xyz"]})

In [57]:
df

Unnamed: 0,col1,col2,col3
0,1,444,abc
1,2,555,def
2,3,666,ghi
3,4,444,xyz


In [58]:
def calc(x):
    return x ** 2 + 4

In [59]:
df["col1"].apply(calc)

0     5
1     8
2    13
3    20
Name: col1, dtype: int64

In [60]:
df["calculus"] = df["col1"].apply(calc)

In [61]:
df

Unnamed: 0,col1,col2,col3,calculus
0,1,444,abc,5
1,2,555,def,8
2,3,666,ghi,13
3,4,444,xyz,20


In [62]:
df["col1"].apply(lambda x: x ** 2 + 4)

0     5
1     8
2    13
3    20
Name: col1, dtype: int64

In [65]:
df["calc_lambda"] = df["col1"].apply(lambda x: x ** 2 + 4)

In [66]:
df

Unnamed: 0,col1,col2,col3,calculus,cal_lambda,calc_lambda
0,1,444,abc,5,5,5
1,2,555,def,8,8,8
2,3,666,ghi,13,13,13
3,4,444,xyz,20,20,20


### Funções matemáticas

In [31]:
df["col1"].sum()

np.int64(10)

In [32]:
df["col1"].mean()

np.float64(2.5)

In [33]:
df["col1"].product()

np.int64(24)

In [34]:
df["col1"].std()

np.float64(1.2909944487358056)

In [35]:
df["col1"].max()

np.int64(4)

In [36]:
df["col1"].min()

np.int64(1)

In [37]:
df["col1"].idxmax()

3

In [38]:
df["col1"].idxmin()

0

### Dataframes 

In [68]:
df = pd.DataFrame({"col1": [1, 2, 3, 4],
                   "col2": [444, 555, 666, 444],
                   "col3": ["abc", "def", "ghi", "xyz"]})

In [69]:
df[df["col2"] == 444]

Unnamed: 0,col1,col2,col3
0,1,444,abc
3,4,444,xyz


In [41]:
df[df["col2"] == 444]["col1"].sum()

np.int64(5)

In [43]:
data = {
    'A': ['foo', 'foo', 'foo', 'bar', 'bar', 'bar'],
    'B': ['one', 'one', 'two', 'two', 'one', 'one'],
    'C': ['x', 'y', 'x', 'y', 'x', 'y'],
    'D': [1, 3, 2, 5, 4, 1]
}

dataframe = pd.DataFrame(data)

In [44]:
dataframe

Unnamed: 0,A,B,C,D
0,foo,one,x,1
1,foo,one,y,3
2,foo,two,x,2
3,bar,two,y,5
4,bar,one,x,4
5,bar,one,y,1


In [45]:
dict_map = {"one": 1, "two": 2}

In [50]:
dataframe["C"] = dataframe["B"].map(dict_map)

In [51]:
dataframe

Unnamed: 0,A,B,C,D,E
0,foo,one,1,1,1
1,foo,one,1,3,1
2,foo,two,2,2,2
3,bar,two,2,5,2
4,bar,one,1,4,1
5,bar,one,1,1,1


In [53]:
dataframe.pivot_table(index="A", columns="B", values="D")

B,one,two
A,Unnamed: 1_level_1,Unnamed: 2_level_1
bar,2.5,5.0
foo,2.0,2.0
