# Dataframes 

São estruturas de dados com duas dimensões. As colunas podem conter diferentes tipos de dados

In [2]:
import pandas as pd
import numpy as np

In [3]:
df = {
    "Nome" : ["João", "Pedro", "Marcelo"],
    "Idade" : [10, 20, 30],
    "Cidade" : ["Belo Horizonte", "Rio de Janeiro", "São Paulo"]
}

In [4]:
df = pd.DataFrame(df) # Recebe dicionários, arrays
print(df)

# Argumentos: index = [], columns = [] 

      Nome  Idade          Cidade
0     João     10  Belo Horizonte
1    Pedro     20  Rio de Janeiro
2  Marcelo     30       São Paulo


### Visualização de dataframes:

In [5]:
df.head(1)

Unnamed: 0,Nome,Idade,Cidade
0,João,10,Belo Horizonte


In [6]:
df.tail(1)

Unnamed: 0,Nome,Idade,Cidade
2,Marcelo,30,São Paulo


### Selecionar colunas

In [7]:
df["Nome"] # retorna a coluna como um objeto Series

0       João
1      Pedro
2    Marcelo
Name: Nome, dtype: object

In [8]:
df[["Nome", "Idade"]] # retorna duas ou mais colunas como objeto DataFrame

Unnamed: 0,Nome,Idade
0,João,10
1,Pedro,20
2,Marcelo,30


### Estatísticas descritivas e Groupby

In [9]:
df.describe() # retorna estatísticas descritivas das colunas que possuem números inteiros

Unnamed: 0,Idade
count,3.0
mean,20.0
std,10.0
min,10.0
25%,15.0
50%,20.0
75%,25.0
max,30.0


In [10]:
df.info() # retorna algumas das características das variáveis

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Nome    3 non-null      object
 1   Idade   3 non-null      int64 
 2   Cidade  3 non-null      object
dtypes: int64(1), object(2)
memory usage: 200.0+ bytes


Podemos aplicar também funções que criam categorizam o dataframe com base em alguma variável, e depois retornam estatísticas descritivas por grupos

In [11]:
df2 = df.copy()
df1 = df.copy()
tmp = pd.concat([df1,df2])
print(tmp)

tmp.groupby("Nome").mean()

      Nome  Idade          Cidade
0     João     10  Belo Horizonte
1    Pedro     20  Rio de Janeiro
2  Marcelo     30       São Paulo
0     João     10  Belo Horizonte
1    Pedro     20  Rio de Janeiro
2  Marcelo     30       São Paulo


Unnamed: 0_level_0,Idade
Nome,Unnamed: 1_level_1
João,10
Marcelo,30
Pedro,20


### Funções que retornam apenas características dos dataframes:

# NÃO USE PARÊNTESES

In [12]:
df.dtypes # retorna os tipos das variáveis

Nome      object
Idade      int64
Cidade    object
dtype: object

In [13]:
df.shape # retorna o comprimento do DataFrame

(3, 3)

In [14]:
df.columns # rótulos das colunas

Index(['Nome', 'Idade', 'Cidade'], dtype='object')

In [15]:
df.index # rótulos dos índices

RangeIndex(start=0, stop=3, step=1)

In [16]:
df.axes # rótulos das linhas e colunas

[RangeIndex(start=0, stop=3, step=1),
 Index(['Nome', 'Idade', 'Cidade'], dtype='object')]

In [17]:
df.size # quantidade de valores obtidos

9

In [18]:
df.T # transposição do DataFrame

Unnamed: 0,0,1,2
Nome,João,Pedro,Marcelo
Idade,10,20,30
Cidade,Belo Horizonte,Rio de Janeiro,São Paulo


In [19]:
df.values # converte o DataFrame para um array

array([['João', 10, 'Belo Horizonte'],
       ['Pedro', 20, 'Rio de Janeiro'],
       ['Marcelo', 30, 'São Paulo']], dtype=object)

In [20]:
df.size

9

# Métodos para manipular dataframes

Possuem atributos comuns, que incluem:

* `inplace`: define se a alteração deve ser feita na variável original, ou se deve ser criado um novo df (padrão)


* `ignore_index`: define se ao manipular mais de um dataframe, os índices de cada um devem ser preservados


* `axis`: define se a operação deve ser feita orientada pelas linhas (0) ou pelas colunas (1)

### Filtrando valores: loc (locate) e iloc (index locate)

Podemos filtrar tanto linhas quanto colunas

#### loc: filtra linhas e colunas pelo rótulo (atualmente são os índices padrões)

In [21]:
df.loc[1] # filtra linhas

Nome               Pedro
Idade                 20
Cidade    Rio de Janeiro
Name: 1, dtype: object

In [22]:
df.loc[1:2, "Cidade"] # filtra linhas e depois seleciona colunas

1    Rio de Janeiro
2         São Paulo
Name: Cidade, dtype: object

Podemos incluir um teste lógico dentro da função "loc", retornando as observações que atendem ao critério desejado.

In [23]:
df.loc[df["Idade"] >= 15] 

Unnamed: 0,Nome,Idade,Cidade
1,Pedro,20,Rio de Janeiro
2,Marcelo,30,São Paulo


In [24]:
df.loc[(df["Idade"] >= 15) & (df["Cidade"] == "Rio de Janeiro")] 

# os testes lógicos devem ser separados por parênteses!

# Argumentos lógicos: & = and, | = or,  

Unnamed: 0,Nome,Idade,Cidade
1,Pedro,20,Rio de Janeiro


Podemos também alterar os valores de uma outra coluna caso um critério lógico seja satisfeito.

In [25]:
tmp = df.copy() # cria uma cópia do DataFrame original

tmp.loc[tmp["Idade"] > 15, "Cidade"] = "Alterado" 

tmp

# caso a coluna "Idade" atenda ao critério, a coluna "Cidade" será alterada

Unnamed: 0,Nome,Idade,Cidade
0,João,10,Belo Horizonte
1,Pedro,20,Alterado
2,Marcelo,30,Alterado


#### iloc: filtrando linhas e colunas pelos seus índices

In [26]:
df.iloc[1] # filtra linhas

Nome               Pedro
Idade                 20
Cidade    Rio de Janeiro
Name: 1, dtype: object

In [27]:
df.iloc[1, 0] # filtra linhas e colunas

'Pedro'

**Obs.:** sempre que filtramos valores, os índices das linhas permanecem assim como os originais. Podemos corrigir isso aplicando o método reset_index() no DataFrame filtrado

### Localizando e alterando valores

Localizar valores pelo seu rótulo

In [28]:
df.at[0, "Nome"]

'João'

In [29]:
df.at[0, "Nome"] = "Bruno" # Localizando e alterando alterando um valor
df

Unnamed: 0,Nome,Idade,Cidade
0,Bruno,10,Belo Horizonte
1,Pedro,20,Rio de Janeiro
2,Marcelo,30,São Paulo


Localizar valores pelos seus índices

In [30]:
df.iat[0, 0]

'Bruno'

In [31]:
df.iat[0, 0] = "João"
df

Unnamed: 0,Nome,Idade,Cidade
0,João,10,Belo Horizonte
1,Pedro,20,Rio de Janeiro
2,Marcelo,30,São Paulo


### Operações com DataFrames

As operações com colunas de DataFrames funcionam de forma similar às operações com arrays (ou vetores), pois elas são objetos do tipo "Series". 

In [32]:
df["Idade"]*2 # multiplica cada elemento por 2

0    20
1    40
2    60
Name: Idade, dtype: int64

In [33]:
df["Cidade"] + " " + df["Nome"] # soma cada elemento

0     Belo Horizonte João
1    Rio de Janeiro Pedro
2       São Paulo Marcelo
dtype: object

### Renomeando Linhas e Colunas

Existem duas formas de renomear colunas

In [34]:
df.columns = ["A", "B", "C"] # devemos explicitar os nomes de todas as colunas
df

Unnamed: 0,A,B,C
0,João,10,Belo Horizonte
1,Pedro,20,Rio de Janeiro
2,Marcelo,30,São Paulo


In [35]:
df.rename(columns = {"A" : "Nome", "B" : "Idade", "C" : "Cidade"}) 

# Não precisamos explicitar os nomes de todas as colunas, só os que desejamos alterar

Unnamed: 0,Nome,Idade,Cidade
0,João,10,Belo Horizonte
1,Pedro,20,Rio de Janeiro
2,Marcelo,30,São Paulo


In [36]:
df.columns = ["Nome", "Idade", "Cidade"] # Consertando o df

Para renomear índices, realizamos processo similar

In [37]:
df.rename(index = {0 : "A", 1 : "B", 2 : "C"}) 


Unnamed: 0,Nome,Idade,Cidade
A,João,10,Belo Horizonte
B,Pedro,20,Rio de Janeiro
C,Marcelo,30,São Paulo


Podemos apenas especificar o dicionário, e incluir o argumento "axis" (0 para linhas, 1 para colunas)

### Apagando linhas e colunas

Apagando colunas

In [38]:
df.drop(labels = "Idade", axis = 1)

Unnamed: 0,Nome,Cidade
0,João,Belo Horizonte
1,Pedro,Rio de Janeiro
2,Marcelo,São Paulo


Apagando linhas

In [43]:
df

Unnamed: 0,Nome,Idade,Cidade
0,João,10,Belo Horizonte
1,Pedro,20,Rio de Janeiro
2,Marcelo,30,São Paulo


In [47]:
df.drop(1, axis = 0)

Unnamed: 0,Nome,Idade,Cidade
0,João,10,Belo Horizonte
2,Marcelo,30,São Paulo


### Incluindo prefixos e sufixos em todos os rótulos

In [48]:
df.add_prefix("col_")

Unnamed: 0,col_Nome,col_Idade,col_Cidade
0,João,10,Belo Horizonte
1,Pedro,20,Rio de Janeiro
2,Marcelo,30,São Paulo


In [49]:
df.add_suffix(" col")

Unnamed: 0,Nome col,Idade col,Cidade col
0,João,10,Belo Horizonte
1,Pedro,20,Rio de Janeiro
2,Marcelo,30,São Paulo


### Alterando índices para o padrão

In [50]:
df.reset_index() # cria uma coluna nova com os índices (índices são resetados para o range do DataFrame)

Unnamed: 0,index,Nome,Idade,Cidade
0,0,João,10,Belo Horizonte
1,1,Pedro,20,Rio de Janeiro
2,2,Marcelo,30,São Paulo


In [51]:
df.reset_index(drop = True) # Reseta os índices para o formado range(len(DataFrame))

Unnamed: 0,Nome,Idade,Cidade
0,João,10,Belo Horizonte
1,Pedro,20,Rio de Janeiro
2,Marcelo,30,São Paulo


### Eliminando duplicatas

In [55]:
df.drop_duplicates() # elimina linhas que contenham algum valor duplicado em relação aos anteriores de uma mesma coluna

Unnamed: 0,Nome,Idade,Cidade
0,João,10,Belo Horizonte
1,Pedro,20,Rio de Janeiro
2,Marcelo,30,São Paulo


In [54]:
df.drop_duplicates(subset = "Nome", keep = "last") 

# busca e elimina valores duplicados com base em uma coluna. Caso existam, eliminam a linha correspondente a esse valor.

# subset = coluna de base
# keep = qual valor dentre as duplicatas será mantido (primeiro ou último encontrado)

Unnamed: 0,Nome,Idade,Cidade
0,João,10,Belo Horizonte
1,Pedro,20,Rio de Janeiro
2,Marcelo,30,São Paulo


### Alterar tipo dos dados da coluna

In [61]:
df.astype(str)

Unnamed: 0,Nome,Idade,Cidade
0,João,10,Belo Horizonte
1,Pedro,20,Rio de Janeiro
2,Marcelo,30,São Paulo


Podemos definir qual coluna receberá qual alteração de tipo, com um dicionário

In [62]:
df.astype({"Idade" : "int64"})

Unnamed: 0,Nome,Idade,Cidade
0,João,10,Belo Horizonte
1,Pedro,20,Rio de Janeiro
2,Marcelo,30,São Paulo


### Ordenar com base em uma coluna

In [64]:
df.sort_values("Idade") # ordem crescente de idade

Unnamed: 0,Nome,Idade,Cidade
0,João,10,Belo Horizonte
1,Pedro,20,Rio de Janeiro
2,Marcelo,30,São Paulo


In [65]:
df.sort_values("Idade", ascending = False) # ordem decrescente de idade

Unnamed: 0,Nome,Idade,Cidade
2,Marcelo,30,São Paulo
1,Pedro,20,Rio de Janeiro
0,João,10,Belo Horizonte
