# Tratamento de Dados no Python com o Pandas

Para a manipulação e o tratamento de dados no Python vamos fazer uso da bibliteca do python chamada Pandas, vamos abordar os principais comandos do panda para que você possa utilizá-lo de forma eficiente.

##### Importação dessa biblioteca para dentro do Python.

In [1]:
# Caso não tenha intalado: !pip install pandas

import pandas as pd 


##### Criar um dateframe a partir de um dicionário

O pandas funciona com **DataFrames**, que nada mais são do que **tabelas dentro do Python**.

In [2]:
# dataframe vazio:
df_vazio = pd.DataFrame()

# dicionário:
venda = {'data': ['15/02/2021', '16/02/2021', '26/02/2021', '16/06/2019', '16/07/2022'],
         'valor': [500, 300, 200, 100, 700],
         'produto': ['feijao', 'arroz', 'milho', 'manga', 'batata'],
         'qtde': [50, 70, 60, 23, 43]
        }

# data frame com as informações do dicinário:
df = pd.DataFrame(venda)
df

Unnamed: 0,data,valor,produto,qtde
0,15/02/2021,500,feijao,50
1,16/02/2021,300,arroz,70
2,26/02/2021,200,milho,60
3,16/06/2019,100,manga,23
4,16/07/2022,700,batata,43


##### Visualização dos dados

 * print()
 * display()

In [3]:
print(df)


         data  valor produto  qtde
0  15/02/2021    500  feijao    50
1  16/02/2021    300   arroz    70
2  26/02/2021    200   milho    60
3  16/06/2019    100   manga    23
4  16/07/2022    700  batata    43


In [4]:
display(df)


Unnamed: 0,data,valor,produto,qtde
0,15/02/2021,500,feijao,50
1,16/02/2021,300,arroz,70
2,26/02/2021,200,milho,60
3,16/06/2019,100,manga,23
4,16/07/2022,700,batata,43


##### Criando um D.F. a partir da importação de um arquivo 

   * Vamos abrir um arquivo em Excel no mesmo local/pasta onde temos o arquivo do nosso código.
   * Usa-se **read_excel()** para arquivos no formato excel

In [5]:
# o arquivo está salvo com "Tabela_Loja_Pandas.xlsx"

tab = pd.read_excel("Tabela_Loja_Pandas.xlsx")


##### Resumo e visualização: 
  * .head(n de linhas) ; 
  * .shape
  * .describe() (o mais interessante, fornece um resumo das informações numéricos)
    

In [6]:
tab.head(5)


Unnamed: 0,Código de Vendas,Data,Loja,ID Loja,Produto,Quantidade,Valor unitário,Valor final
0,1,2023-01-01,Supermercado Max,5,Produto C,3,40.42,121.26
1,2,2023-01-02,Lojas Centro,1,Produto D,8,70.73,565.82
2,3,2023-01-03,Fashion Mall,4,Produto C,3,38.55,115.64
3,4,2023-01-04,Fashion Mall,4,Produto D,1,80.05,80.05
4,5,2023-01-05,Fashion Mall,4,Produto A,1,95.46,95.46


In [7]:
tab.shape


(40, 8)

In [8]:
tab.describe()

Unnamed: 0,Código de Vendas,ID Loja,Quantidade,Valor unitário,Valor final
count,40.0,40.0,40.0,40.0,40.0
mean,20.5,2.825,5.55,57.8295,309.56725
std,11.690452,1.430214,2.66939,27.550214,229.503681
min,1.0,1.0,1.0,10.84,67.33
25%,10.75,1.75,4.0,37.66,114.6625
50%,20.5,3.0,5.0,57.81,226.125
75%,30.25,4.0,8.0,85.7425,457.495
max,40.0,5.0,10.0,98.16,929.04


##  Métodos de edição do dataframe

#####  Selecionando uma ou mais colunas: pd.df[["coluna 1","Coluna 2"]]

In [9]:
# colunas ?
tab.columns

Index(['Código de Vendas', 'Data', 'Loja', 'ID Loja', 'Produto', 'Quantidade',
       'Valor unitário', 'Valor final'],
      dtype='object')

In [10]:
tab["Produto"]


0     Produto C
1     Produto D
2     Produto C
3     Produto D
4     Produto A
5     Produto A
6     Produto A
7     Produto D
8     Produto A
9     Produto C
10    Produto C
11    Produto A
12    Produto E
13    Produto D
14    Produto E
15    Produto A
16    Produto E
17    Produto D
18    Produto D
19    Produto E
20    Produto B
21    Produto D
22    Produto A
23    Produto A
24    Produto A
25    Produto B
26    Produto A
27    Produto E
28    Produto B
29    Produto D
30    Produto B
31    Produto A
32    Produto A
33    Produto E
34    Produto D
35    Produto D
36    Produto B
37    Produto A
38    Produto A
39    Produto B
Name: Produto, dtype: object

#####  Selecionar uma linha, ou linhas, ou até mesmo um valor específico: df.loc[  ]. 

In [33]:
# df.loc[1:5]

tab.loc[[4,6,7],["Produto","Valor final"]]

Unnamed: 0,Produto,Valor final
4,Produto A,95.46
6,Produto A,67.33
7,Produto D,396.34


##### Selecionar linhas que correspondem a uma condição: df.loc[df['ID Loja'] == 1]

In [35]:
# loc[df['Loja'] == "Mega Store"]
tab.loc[tab['Loja'] == "Mega Store"]

Unnamed: 0,Código de Vendas,Data,Loja,ID Loja,Produto,Quantidade,Valor unitário,Valor final,Imposto,Comissão
7,8,2023-01-08,Mega Store,3,Produto D,6,66.06,396.34,0,19.817
12,13,2023-01-13,Mega Store,3,Produto E,5,15.01,75.07,0,3.7535
24,25,2023-01-25,Mega Store,3,Produto A,1,87.86,87.86,0,4.393
36,37,2023-02-06,Mega Store,3,Produto B,9,59.75,537.79,0,26.8895


In [13]:
# pegar várias linhas e colunas usando o loc
#df.loc[df['Loja'] == "Mega Store", ["ID Loja", "Produto", "Quantidade"]]
tab.loc[tab['Loja'] == "Mega Store", ["ID Loja", "Produto", "Quantidade"]]


Unnamed: 0,ID Loja,Produto,Quantidade
7,3,Produto D,6
12,3,Produto E,5
24,3,Produto A,1
36,3,Produto B,9


In [14]:
# pegar 1 valor específico: df.loc[1, 'Produto']

tab.loc[2,["Produto"]]

Produto    Produto C
Name: 2, dtype: object

##### Criar ou adicionar uma coluna dentro da nossa tabela

In [38]:
# criar uma coluna com valor padrão: df.loc[:, "Imposto"] = 0

tab.loc[:,"Imposto"] = 0
tab.head(5)

Unnamed: 0,Código de Vendas,Data,Loja,ID Loja,Produto,Quantidade,Valor unitário,Valor final,Imposto,Comissão
0,1,2023-01-01,Supermercado Max,5,Produto C,3,40.42,121.26,0,6.063
1,2,2023-01-02,Lojas Centro,1,Produto D,8,70.73,565.82,0,28.291
2,3,2023-01-03,Fashion Mall,4,Produto C,3,38.55,115.64,0,5.782
3,4,2023-01-04,Fashion Mall,4,Produto D,1,80.05,80.05,0,4.0025
4,5,2023-01-05,Fashion Mall,4,Produto A,1,95.46,95.46,0,4.773


In [39]:
# a partir de uma coluna que existe: df['Comissão'] = df['Valor final'] * 0.05

tab["Comissão"] = tab["Valor final"]*0.05
tab.head(5)

Unnamed: 0,Código de Vendas,Data,Loja,ID Loja,Produto,Quantidade,Valor unitário,Valor final,Imposto,Comissão
0,1,2023-01-01,Supermercado Max,5,Produto C,3,40.42,121.26,0,6.063
1,2,2023-01-02,Lojas Centro,1,Produto D,8,70.73,565.82,0,28.291
2,3,2023-01-03,Fashion Mall,4,Produto C,3,38.55,115.64,0,5.782
3,4,2023-01-04,Fashion Mall,4,Produto D,1,80.05,80.05,0,4.0025
4,5,2023-01-05,Fashion Mall,4,Produto A,1,95.46,95.46,0,4.773


##### Juntando duas tabelas: vendas de 2022 + 2023 

In [40]:
# importar Tabela_Loja_Pandas22.xlsx

tab22 = pd.read_excel("Tabela_Loja_Pandas22.xlsx")
tab22.head(5)


Unnamed: 0,Código de Vendas,Data,Loja,ID Loja,Produto,Quantidade,Valor unitário,Valor final
0,1,2022-09-02,Supermercado Max,5,Produto C,3,40.42,121.26
1,2,2022-09-02,Lojas Centro,1,Produto D,8,70.73,565.82
2,3,2022-09-02,Fashion Mall,4,Produto C,3,38.55,115.64
3,4,2022-09-02,Fashion Mall,4,Produto D,1,80.05,80.05
4,5,2022-09-02,Fashion Mall,4,Produto A,1,95.46,95.46


In [41]:
# Juntar/concatenar as tudas tabelas: pd2 = pd.concat([Tab1,Tab2,...])

tab2 = pd.concat([tab,tab22])
tab2

Unnamed: 0,Código de Vendas,Data,Loja,ID Loja,Produto,Quantidade,Valor unitário,Valor final,Imposto,Comissão
0,1,2023-01-01,Supermercado Max,5,Produto C,3,40.42,121.26,0.0,6.0630
1,2,2023-01-02,Lojas Centro,1,Produto D,8,70.73,565.82,0.0,28.2910
2,3,2023-01-03,Fashion Mall,4,Produto C,3,38.55,115.64,0.0,5.7820
3,4,2023-01-04,Fashion Mall,4,Produto D,1,80.05,80.05,0.0,4.0025
4,5,2023-01-05,Fashion Mall,4,Produto A,1,95.46,95.46,0.0,4.7730
...,...,...,...,...,...,...,...,...,...,...
35,36,2022-09-02,Lojas Centro,1,Produto D,5,45.80,229.02,,
36,37,2022-09-02,Mega Store,3,Produto B,9,59.75,537.79,,
37,38,2022-09-02,Supermercado Max,5,Produto A,5,24.84,124.22,,
38,39,2022-09-02,Fashion Mall,4,Produto A,4,43.28,173.13,,


##### Excluir linhas e colunas


In [42]:
# df.drop(x1 ,x2) => x1 -> nº da linha ou nome da coluna ; x2 -> axis = 0 (linhas) e axis = 1 (colunas).

tab2 = tab2.drop(4,axis=0)
tab2.head(5) 

Unnamed: 0,Código de Vendas,Data,Loja,ID Loja,Produto,Quantidade,Valor unitário,Valor final,Imposto,Comissão
0,1,2023-01-01,Supermercado Max,5,Produto C,3,40.42,121.26,0.0,6.063
1,2,2023-01-02,Lojas Centro,1,Produto D,8,70.73,565.82,0.0,28.291
2,3,2023-01-03,Fashion Mall,4,Produto C,3,38.55,115.64,0.0,5.782
3,4,2023-01-04,Fashion Mall,4,Produto D,1,80.05,80.05,0.0,4.0025
5,6,2023-01-06,Shopping Village,2,Produto A,5,69.63,348.14,0.0,17.407


## EXTRA – Para Tratamento e Análise de Dados

In [20]:
# deletar linhas e colunas completamente vazias:  df.dropna(how='all', axis=1)



In [45]:
# deletar linhas que possuem pelo menos 1 valor vazio:  df.dropna()

tabx = tab2.dropna(axis=1) # axis = 1 ->  colunas 
tabx.head(5)

Unnamed: 0,Código de Vendas,Data,Loja,ID Loja,Produto,Quantidade,Valor unitário,Valor final
0,1,2023-01-01,Supermercado Max,5,Produto C,3,40.42,121.26
1,2,2023-01-02,Lojas Centro,1,Produto D,8,70.73,565.82
2,3,2023-01-03,Fashion Mall,4,Produto C,3,38.55,115.64
3,4,2023-01-04,Fashion Mall,4,Produto D,1,80.05,80.05
5,6,2023-01-06,Shopping Village,2,Produto A,5,69.63,348.14


Note que a tabela tab22 Juntada/concatenada com a tabela tab não possuia as colunas de Imposto e Comissão, logo essas colunas possuiam valores vazios. Assim, o comando anterior deletou essas colunas. 

In [48]:
# preencher valores vazios
# preencher com a média da coluna: df['Comissão'] = df['Comissão'].fillna( df['Comissão'].mean() )
tab2['Comissão']= tab2['Comissão'].fillna( tab2['Comissão'].mean() )
tab2


Unnamed: 0,Código de Vendas,Data,Loja,ID Loja,Produto,Quantidade,Valor unitário,Valor final,Imposto,Comissão
0,1,2023-01-01,Supermercado Max,5,Produto C,3,40.42,121.26,0.0,6.063000
1,2,2023-01-02,Lojas Centro,1,Produto D,8,70.73,565.82,0.0,28.291000
2,3,2023-01-03,Fashion Mall,4,Produto C,3,38.55,115.64,0.0,5.782000
3,4,2023-01-04,Fashion Mall,4,Produto D,1,80.05,80.05,0.0,4.002500
5,6,2023-01-06,Shopping Village,2,Produto A,5,69.63,348.14,0.0,17.407000
...,...,...,...,...,...,...,...,...,...,...
35,36,2022-09-02,Lojas Centro,1,Produto D,5,45.80,229.02,,15.752859
36,37,2022-09-02,Mega Store,3,Produto B,9,59.75,537.79,,15.752859
37,38,2022-09-02,Supermercado Max,5,Produto A,5,24.84,124.22,,15.752859
38,39,2022-09-02,Fashion Mall,4,Produto A,4,43.28,173.13,,15.752859


In [49]:
# preencher valores vazios
# preencher com o último valor:  df.ffill()

tab2['Imposto']= tab2['Imposto'].ffill( )
tab2


Unnamed: 0,Código de Vendas,Data,Loja,ID Loja,Produto,Quantidade,Valor unitário,Valor final,Imposto,Comissão
0,1,2023-01-01,Supermercado Max,5,Produto C,3,40.42,121.26,0.0,6.063000
1,2,2023-01-02,Lojas Centro,1,Produto D,8,70.73,565.82,0.0,28.291000
2,3,2023-01-03,Fashion Mall,4,Produto C,3,38.55,115.64,0.0,5.782000
3,4,2023-01-04,Fashion Mall,4,Produto D,1,80.05,80.05,0.0,4.002500
5,6,2023-01-06,Shopping Village,2,Produto A,5,69.63,348.14,0.0,17.407000
...,...,...,...,...,...,...,...,...,...,...
35,36,2022-09-02,Lojas Centro,1,Produto D,5,45.80,229.02,0.0,15.752859
36,37,2022-09-02,Mega Store,3,Produto B,9,59.75,537.79,0.0,15.752859
37,38,2022-09-02,Supermercado Max,5,Produto A,5,24.84,124.22,0.0,15.752859
38,39,2022-09-02,Fashion Mall,4,Produto A,4,43.28,173.13,0.0,15.752859


##### Cálculo de indicadores

In [50]:
# Qual Loja vendeu produtos? -> df["Loja"].value_counts()

tab2["Loja"].value_counts()


Fashion Mall        22
Lojas Centro        20
Shopping Village    18
Supermercado Max    10
Mega Store           8
Name: Loja, dtype: int64

In [25]:
# Qual Produto que mais saiu ? -> df["Produto"].value_counts()
tab2["Produto"].value_counts()


Produto A    26
Produto D    20
Produto E    12
Produto B    12
Produto C     8
Name: Produto, dtype: int64

In [51]:
# Agrupando por produtos -> para cada produto será realizada uma somar do "valor final"
#    desta forma vamos saber qual o valor total de cada um dos produtos dessa loja.

# group by: faturamento_produto = df[['Produto', 'Valor final']].groupby('Produto').sum()

taby = tab2[['Loja', 'Valor final']].groupby("Loja").sum()
taby

Unnamed: 0_level_0,Valor final
Loja,Unnamed: 1_level_1
Fashion Mall,3552.32
Lojas Centro,8754.94
Mega Store,2194.12
Shopping Village,6930.24
Supermercado Max,3142.84


In [55]:
# Ordene a tabela do Protudo mais vendido para o menos vendido: df.sort_values(by='Quantidade', ascending=False)
tab3 = tab2.sort_values(by='Quantidade', ascending=False)
tab3


Unnamed: 0,Código de Vendas,Data,Loja,ID Loja,Produto,Quantidade,Valor unitário,Valor final,Imposto,Comissão
27,28,2022-09-02,Shopping Village,2,Produto E,10,92.90,929.04,0.0,15.752859
27,28,2023-01-28,Shopping Village,2,Produto E,10,92.90,929.04,0.0,46.452000
13,14,2022-09-02,Shopping Village,2,Produto D,10,50.60,506.04,0.0,15.752859
13,14,2023-01-14,Shopping Village,2,Produto D,10,50.60,506.04,0.0,25.302000
19,20,2023-01-20,Supermercado Max,5,Produto E,10,71.98,719.80,0.0,35.990000
...,...,...,...,...,...,...,...,...,...,...
11,12,2023-01-12,Supermercado Max,5,Produto A,2,55.87,111.73,0.0,5.586500
24,25,2022-09-02,Mega Store,3,Produto A,1,87.86,87.86,0.0,15.752859
3,4,2022-09-02,Fashion Mall,4,Produto D,1,80.05,80.05,0.0,15.752859
24,25,2023-01-25,Mega Store,3,Produto A,1,87.86,87.86,0.0,4.393000


#### Salvando em arquivo Excel:

In [56]:
# df.to_excel("nome_arquivo.xlsx", index=False)

tab2.to_excel("tab_manipulada.xlsx",index=False)


# Exercícios:

**Exercício 1**:
Considere o seguinte DataFrame chamado "dados":

In [30]:
import pandas as pd

dados = pd.DataFrame({
    'Nome': ['Ana', 'Pedro', 'Maria', 'João'],
    'Idade': [25, 30, 20, 35],
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Curitiba', 'Salvador']
})


Escreva um código para exibir as primeiras 3 linhas do DataFrame.

**Exercício 2:**
Usando o DataFrame "dados" do exercício anterior, escreva um código para exibir apenas as informações das pessoas com idade superior a 25 anos.

**Exercício 3:**
Considere o seguinte DataFrame chamado "vendas":

In [31]:
import pandas as pd

vendas = pd.DataFrame({
    'Produto': ['Camiseta', 'Calça', 'Tênis', 'Bolsa'],
    'Quantidade': [10, 5, 8, 3],
    'Preço': [29.99, 49.99, 79.99, 39.99]
})

Escreva um código para calcular o total de vendas (quantidade * preço) de cada produto e adicione uma nova coluna chamada "Total" ao DataFrame.

**Exercício 4:**
Usando o DataFrame "vendas" do exercício anterior, escreva um código para encontrar o produto mais vendido (com maior quantidade).

**Exercício 5:**
Considere o seguinte DataFrame chamado "alunos":

In [32]:
import pandas as pd

alunos = pd.DataFrame({
    'Nome': ['Ana', 'Pedro', 'Maria', 'João'],
    'Idade': [25, 30, 20, 35],
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Curitiba', 'Salvador']
})

Escreva um código para classificar o DataFrame "alunos" em ordem decrescente de idade.