# Funções Pandas

Exemplos de funções úteis da biblioteca Pandas.

Para mais detalhes, verifique a documentação oficial: [pandas.pydata.org](https://pandas.pydata.org/)

## Criando um DataFrame

Primeiramente, vamos começar definindo um DataFrame para os nossos exemplos.

In [21]:
import pandas as pd

df = pd.DataFrame({"Linguagens": ["C","C++","Java","Python","Go","Rust"]})
df

Unnamed: 0,Linguagens
0,C
1,C++
2,Java
3,Python
4,Go
5,Rust


## 1. Como recuperar um valor de coluna de um Dataframe

Obtendo o valor da primeira coluna

In [22]:
df.iloc[0].Linguagens

'C'

Obtendo o valor da última coluna

In [23]:
df.iloc[-1].Linguagens

'Rust'

Obtendo o valor de uma coluna por índice

Por padrão, o DataFrame possui índices de **0** até **N**, onde **N** é o número de Linhas

In [24]:
df.loc[1,"Linguagens"]

'C++'

Existem duas maneiras de recuperar valores de coluna de um DataFrame:

- com base na indexação de localização inteira (**iloc**)
- com base na indexação do rótulo (**loc**)

## 2. Como alterar o valor de uma coluna em um Dataframe

Alterando o valor da primeira coluna

In [25]:
df.iloc[0].Linguagens = "R"
df

Unnamed: 0,Linguagens
0,R
1,C++
2,Java
3,Python
4,Go
5,Rust


Alterando o valor da última coluna

In [26]:
df.iloc[-1].Linguagens = "PHP"
df

Unnamed: 0,Linguagens
0,R
1,C++
2,Java
3,Python
4,Go
5,PHP


Alterando o valor de uma coluna por índice

Por padrão, o DataFrame possui índices de 0 até N, onde N é o número de Linhas

In [27]:
df.loc[2,"Linguagens"] = "Javascript"
df

Unnamed: 0,Linguagens
0,R
1,C++
2,Javascript
3,Python
4,Go
5,PHP


## 3. A maneira adequada de adicionar uma nova coluna a um DataFrame

Criando os dados para a nova coluna

In [28]:
nova_coluna = list(range(len(df)))
print(nova_coluna)

[0, 1, 2, 3, 4, 5]


Uma maneira eficaz de adicionar uma nova coluna

In [29]:
df.loc[:,'Números'] = nova_coluna
df

Unnamed: 0,Linguagens,Números
0,R,0
1,C++,1
2,Javascript,2
3,Python,3
4,Go,4
5,PHP,5


A maneira mais adequada de adicionar uma nova coluna, com a função **assign**

In [31]:
df.assign(Coluna=nova_coluna)

Unnamed: 0,Linguagens,Números,Coluna
0,R,0,0
1,C++,1,1
2,Javascript,2,2
3,Python,3,3
4,Go,4,4
5,PHP,5,5


## 4. Como recuperar uma série ou um DataFrame

Obtendo uma **Series** de um **DataFrame**

In [32]:
df['Linguagens']

0             R
1           C++
2    Javascript
3        Python
4            Go
5           PHP
Name: Linguagens, dtype: object

Verificando o tipo de dados

In [33]:
type(df['Linguagens'])

pandas.core.series.Series

Como obter um **DataFrame** (com um subconjunto de colunas) de um **DataFrame**

In [36]:
df[['Linguagens']]

Unnamed: 0,Linguagens
0,R
1,C++
2,Javascript
3,Python
4,Go
5,PHP


Verificando o tipo de dados

In [37]:
type(df[['Linguagens']])

pandas.core.frame.DataFrame

Ao usar colchetes `[ ]` com o **pandas DataFrame**, ele retorna:

- Uma **Series** se você usar colchetes simples
- um **Dataframe** se você usar colchetes duplos

## 5. Como criar um DataFrame a partir de uma Series pandas

Vamos definir um novo **DataFrame** para este exemplo

In [39]:
data_frame = pd.DataFrame(
    {
        "coluna 1": ["X","Y","X","Z","X","Y"],
        "coluna 2": [1,2,3,4,5,6]
    }
)
data_frame

Unnamed: 0,coluna 1,coluna 2
0,X,1
1,Y,2
2,X,3
3,Z,4
4,X,5
5,Y,6


Ao realizar um **agrupamento** com agregação, o pandas retorna uma **Series**

In [43]:
df_group = data_frame.groupby("coluna 1")["coluna 2"].sum()
df_group

coluna 1
X    9
Y    8
Z    4
Name: coluna 2, dtype: int64

Podemos confirmar que **df_group** é uma Series com a função **type()**

In [44]:
type(df_group)

pandas.core.series.Series

**Series** tem uma função **to_frame**, que pode converter uma Series de volta em DataFrame

In [45]:
df_group.to_frame()

Unnamed: 0_level_0,coluna 2
coluna 1,Unnamed: 1_level_1
X,9
Y,8
Z,4


## 6. Filtrando com a função between

Digamos que temos um **DataFrame** com preços e gostaríamos de filtrar os preços entre **2** e **4**

In [46]:
dados = pd.DataFrame({'preço': [1.99, 3, 5, 0.5, 3.5, 5.5, 3.9]})
dados

Unnamed: 0,preço
0,1.99
1,3.0
2,5.0
3,0.5
4,3.5
5,5.5
6,3.9


Com a função **between**, podemos reduzir o filtro a seguir

In [48]:
dados[(dados.preço >= 2) & (dados.preço <= 4)]

Unnamed: 0,preço
1,3.0
4,3.5
6,3.9


Para uma forma muito mais simples

In [50]:
dados[dados.preço.between(2,4)]

Unnamed: 0,preço
1,3.0
4,3.5
6,3.9


A função **between** seta o intervalo: 

esquerda **<=** series **<=** direita