#Data Frame

Podemos comparar a estrutura de dados Data Frame com uma série contendo mais de uma coluna. 

Por definição, o Data Frame pode ser definido como uma série de **duas dimensões**.

Cada coluna terá um denominação própria.

In [0]:
import pandas as pd

In [0]:
usuario_1 = pd.Series(["Gabriela","Nintendo Switch",2500], index = ["Nome","Produto","Valor"])
usuario_2 = pd.Series(["Leonardo","Passagem aerea", 1800], index = ["Nome","Produto", "Valor"])
usuario_3 = pd.Series(["Joao", "Livro", 50], index = ["Nome","Produto", "Valor"])

print(usuario_1)
print("\n")
print(usuario_2)
print("\n")
print(usuario_3)


Nome              Gabriela
Produto    Nintendo Switch
Valor                 2500
dtype: object


Nome             Leonardo
Produto    Passagem aerea
Valor                1800
dtype: object


Nome        Joao
Produto    Livro
Valor         50
dtype: object


In [0]:
data_frame = pd.DataFrame([usuario_1,usuario_2,usuario_3], index = ["Loja 1","Loja 2","Loja 3"])
data_frame

Unnamed: 0,Nome,Produto,Valor
Loja 1,Gabriela,Nintendo Switch,2500
Loja 2,Leonardo,Passagem aerea,1800
Loja 3,Joao,Livro,50


No nosso exemplo, as três séries foram unidas formando um data frame.

Assim como em uma série, podemos usar as funções **.iloc[*índice_numérico*]** e **.loc["*índice*"]** para resgatar os valores das linhas da tabela:

In [0]:
print(data_frame.loc["Loja 1"])
print("\n")
print(data_frame.iloc[0])


Nome              Gabriela
Produto    Nintendo Switch
Valor                 2500
Name: Loja 1, dtype: object


Nome              Gabriela
Produto    Nintendo Switch
Valor                 2500
Name: Loja 1, dtype: object


**É importante lembrar que: os índices númericos são sempre uma maneira de acessar os valores.**

Diferentemente das séries, temos informações referentes a *linhas* e *colunas*.

Sabemos que as informações das *linhas* serão obtidas por **.loc[*indice*]** ou **.iloc[*índice_numérico*]**.

Já as informações das *colunas* serão resgatadas trivialmente, ou seja, **data_frame["*nome_coluna*"]**.

In [0]:
#temos as colunas Nome, Produto e Valor:
print(data_frame["Nome"])
print("\n")
print(data_frame["Produto"])
print("\n")
print(data_frame["Valor"])

Loja 1    Gabriela
Loja 2    Leonardo
Loja 3        Joao
Name: Nome, dtype: object


Loja 1    Nintendo Switch
Loja 2     Passagem aerea
Loja 3              Livro
Name: Produto, dtype: object


Loja 1    2500
Loja 2    1800
Loja 3      50
Name: Valor, dtype: int64


Dado nosso exemplo, vamos supor que é desejado separar apenas o *Produto* que foi comprado na *Loja 1*:

In [0]:
print(data_frame.loc["Loja 1", "Produto"])

Nintendo Switch


Podemos então usar a função **.loc** definindo as informações que queremos retornar.

Usar slicing é um recurso muito útil também:

In [0]:
print(data_frame.loc["Loja 2":, "Produto"])
print("\n")
print(data_frame.loc["Loja 1",:]) # : equivale a Nome:Valor

Loja 2    Passagem aerea
Loja 3             Livro
Name: Produto, dtype: object


Nome              Gabriela
Produto    Nintendo Switch
Valor                 2500
Name: Loja 1, dtype: object


É possível encadear a função **.loc** para obter o mesmo resultado de antes:

In [0]:
print(data_frame.loc["Loja 1", "Valor"])
print(data_frame.loc["Loja 1"]["Valor"])

2500
2500


Porém, o encadeamento geralmente gera uma cópia do data_frame original.

Logo, qualquer alteração nessa cópia não alterará o data_frame original.

In [0]:
data_frame.loc["Loja 1", "Valor"] = 2000 
data_frame.loc["Loja 2"]["Valor"] = 30 #nao ira mudar

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


In [0]:
data_frame

Unnamed: 0,Nome,Produto,Valor
Loja 1,Gabriela,Nintendo Switch,2000
Loja 2,Leonardo,Passagem aerea,1800
Loja 3,Joao,Livro,50


#Adicionando nova linha ou coluna:

Uma nova linha pode ser criada chamando **.loc["*índice*"]** em um índice não existente do data frame e atribuindo os valores desejados:

In [0]:
data_frame.loc["Loja 4"] = ["Lucas","Cartao SD","65"]
data_frame

Unnamed: 0,Nome,Produto,Valor
Loja 1,Gabriela,Nintendo Switch,2000
Loja 2,Leonardo,Passagem aerea,1800
Loja 3,Joao,Livro,50
Loja 4,Lucas,Cartao SD,65


In [0]:
apd = pd.DataFrame({"Nome" : "Florenza","Produto" : "Caderno","Valor" : "15"}, index = ["Loja 5"])
apd

Unnamed: 0,Nome,Produto,Valor
Loja 5,Florenza,Caderno,15


Com a função **.append("*nome_data_frame*")**, podemos aglutinar dois data frames:

In [0]:
data_frame = data_frame.append(apd)
data_frame

Unnamed: 0,Nome,Produto,Valor
Loja 1,Gabriela,Nintendo Switch,2000
Loja 2,Leonardo,Passagem aerea,1800
Loja 3,Joao,Livro,50
Loja 4,Lucas,Cartao SD,65
Loja 5,Florenza,Caderno,15


A coluna é criada de maneira parecida.

Basta acessar diretamente uma coluna não existente e atribuir os valores:

In [0]:
data_frame["Em Estoque"] = ["Sim","Sim","Nao","Nao","Sim"]
data_frame

Unnamed: 0,Nome,Produto,Valor,Em Estoque
Loja 1,Gabriela,Nintendo Switch,2000,Sim
Loja 2,Leonardo,Passagem aerea,1800,Sim
Loja 3,Joao,Livro,50,Nao
Loja 4,Lucas,Cartao SD,65,Nao
Loja 5,Florenza,Caderno,15,Sim


# Excluindo linha ou coluna do Data Frame:

Existe mais de uma maneira para manipular um data frame de maneira que o resultado seja uma parte do data frame original.

A função **.drop("*índice*")** irá criar uma copia do data frame original sem a coluna passada por referência.

In [0]:
data_frame.drop("Loja 1")


Unnamed: 0,Nome,Produto,Valor,Em Estoque
Loja 2,Leonardo,Passagem aerea,1800,Sim
Loja 3,Joao,Livro,50,Nao
Loja 4,Lucas,Cartao SD,65,Nao
Loja 5,Florenza,Caderno,15,Sim


Entretanto, como o resultado é uma cópia, o data frame original não é alterado.

In [0]:
data_frame

Unnamed: 0,Nome,Produto,Valor,Em Estoque
Loja 1,Gabriela,Nintendo Switch,2000,Sim
Loja 2,Leonardo,Passagem aerea,1800,Sim
Loja 3,Joao,Livro,50,Nao
Loja 4,Lucas,Cartao SD,65,Nao
Loja 5,Florenza,Caderno,15,Sim


Podemos atribuir essa cópia a outra variável de maneira que o novo data frame fique armazenado. 

In [0]:
data_frame_copy = data_frame.drop("Loja 1")
data_frame_copy

Unnamed: 0,Nome,Produto,Valor,Em Estoque
Loja 2,Leonardo,Passagem aerea,1800,Sim
Loja 3,Joao,Livro,50,Nao
Loja 4,Lucas,Cartao SD,65,Nao
Loja 5,Florenza,Caderno,15,Sim


Porém, caso seja desejável excluir uma linha em definitivo, o parâmetro **inplace** precisa receber True.

In [0]:
data_frame.drop("Loja 2", inplace = True)


KeyError: ignored

In [0]:
data_frame

Unnamed: 0,Nome,Produto,Valor,Em Estoque
Loja 1,Gabriela,Nintendo Switch,2000,Sim
Loja 3,Joao,Livro,50,Nao
Loja 4,Lucas,Cartao SD,65,Nao
Loja 5,Florenza,Caderno,15,Sim


A linha *Loja 2* foi excluida do data frame original.

Assim como inplace, existem outros parâmetros padrões para quando nenhum valor for passado.

Para definir a exclusão de uma coluna, o parâmetro **axis** precisa ser alterado para **1**.

A função está pré-definida como **axis = 0**, ou seja, exluir linhas.



In [0]:
data_frame.drop("Valor", axis = 1, inplace = True)

In [0]:
data_frame

Unnamed: 0,Nome,Produto,Em Estoque
Loja 1,Gabriela,Nintendo Switch,Sim
Loja 3,Joao,Livro,Nao
Loja 4,Lucas,Cartao SD,Nao
Loja 5,Florenza,Caderno,Sim
