***
# Pandas - "A melhor biblioteca do Python para Dados"
***
- Quase sempre que você for trabalhar com dados no Python você vai usar o pandas, então é importante você saber trabalhar com essa biblioteca muito bem

- Vamos aprender os principais comandos e os princípios básicos do pandas

Documentação: https://pandas.pydata.org/pandas-docs/stable/reference/series.html

In [1]:
import pandas as pd

## <font color=red> 1) Series </font>
 Uma Series é como um array unidimensional, uma lista de valores. Toda Series possui um índice,<font color=red>o index</font>, que dá rótulos a cada elemento da lista. Abaixo criamos uma Series notas, o <font color=red>o index</font> desta Series é a coluna à esquerda, que vai de 0 a 4 neste caso, que o pandas criou automaticamente, já que não especificamos uma lista de rótulos.

In [33]:
notas = pd.Series([2,7,5,10,6])
notas

0     2
1     7
2     5
3    10
4     6
dtype: int64

Já podemos aqui verificar os atributos da nossa Series, comecemos pelos valores e o índice, os dois atributos fundamentais nesta estrutura:

In [34]:
print(notas.values)
print()
print(notas.index)

[ 2  7  5 10  6]

RangeIndex(start=0, stop=5, step=1)


Como ao criar a Series não demos um índice específico o pandas usou os inteiros positivos crescentes como padrão. Pode ser conveniente atribuirmos um índice diferente do padrão, supondo que essas sejam notas de uma turma, poderíamos atribuir nomes ao index:

In [52]:
notas = pd.Series([2,7,5,10,6], index=["Wilfred", "Abbie", "Harry", "Julia", "Carrie"])
print(notas)

Wilfred     2
Abbie       7
Harry       5
Julia      10
Carrie      6
dtype: int64

O index nos ajuda para referenciar um determinado valor, ele nos permite acessar os valores pelo seu rótulo:

In [36]:
print(notas["Julia"])

10


Métodos que fornecem informações estatísticas sobre os valores, como média ```.mean()``` e desvio padrão ```.std()```.

Geralmente para resumir brevemente as estatísticas dos dados se usa o ```.describe()```

In [37]:
print("Média:", notas.mean())
print("Desvio padrão:", notas.std())
notas.describe()

Média: 6.0
Desvio padrão: 2.9154759474226504


count     5.000000
mean      6.000000
std       2.915476
min       2.000000
25%       5.000000
50%       6.000000
75%       7.000000
max      10.000000
dtype: float64

## <font color=red> 2) Criando um dataframe a partir de um dicionário </font>
 - Dataframe é uma tabela no Python

In [55]:
df = pd.DataFrame({'Aluno' : ["Wilfred", "Abbie", "Harry", "Julia", "Carrie"],
                   'Faltas' : [3,4,2,1,4],
                   'Prova' : [2,7,5,10,6],
                   'Seminário': [8.5,7.5,9.0,7.5,8.0]})
display(df)

Unnamed: 0,Aluno,Faltas,Prova,Seminário
0,Wilfred,3,2,8.5
1,Abbie,4,7,7.5
2,Harry,2,5,9.0
3,Julia,1,10,7.5
4,Carrie,4,6,8.0


```.columns ``` = Acessar todas as colunas facilmente

In [56]:
df.columns

Index(['Aluno', 'Faltas', 'Prova', 'Seminário'], dtype='object')

```.sort_values``` = Colocar os valores em ordem crescente

In [57]:
df.sort_values(by="Seminário")


Unnamed: 0,Aluno,Faltas,Prova,Seminário
1,Abbie,4,7,7.5
3,Julia,1,10,7.5
4,Carrie,4,6,8.0
0,Wilfred,3,2,8.5
2,Harry,2,5,9.0


In [4]:
# Criação de um Data Frame(vai estar vazio)
# dataframe = pd.DataFrame()

# Criação de um Data Frame(Preenchido)
venda = {'data': ['15/02/2021', '16/02/2021'],
         'valor': [500, 300],
         'produto': ['feijao', 'arroz'],
         'qtde': [50, 70],
        }
vendas_df0 = pd.DataFrame(venda) 
display(vendas_df0)
print("------------------------------")
print(vendas_df0.dtypes)

Unnamed: 0,data,valor,produto,qtde
0,15/02/2021,500,feijao,50
1,16/02/2021,300,arroz,70


------------------------------
data       object
valor       int64
produto    object
qtde        int64
dtype: object


## <font color=red> 3) Importando arquivos e bases de dados </font> 

```pd.read_csv ``` = para ler arquivos .csv, formato comum de armazenar dados de tabelas

```pd.read_xlsx``` = para ler arquivos Excel .xlsx, é necessário instalar uma biblioteca adicional pra esta funcionalidade.

```pd.read_html``` = para ler tabelas diretamente de um website

In [5]:
vendas_df = pd.read_excel("Vendas.xlsx")
display(vendas_df)

Unnamed: 0,Código Venda,Data,ID Loja,Produto,Quantidade,Valor Unitário,Valor Final
0,1,2019-01-01,Iguatemi Esplanada,Sapato Estampa,1,358,358
1,1,2019-01-01,Iguatemi Esplanada,Camiseta,2,180,360
2,1,2019-01-01,Iguatemi Esplanada,Sapato Xadrez,1,368,368
3,2,2019-01-02,Norte Shopping,Relógio,3,200,600
4,2,2019-01-02,Norte Shopping,Chinelo Liso,1,71,71
...,...,...,...,...,...,...,...
93905,65012,2019-11-30,Shopping Vila Velha,Mochila Xadrez,2,283,566
93906,65013,2019-11-30,Ribeirão Shopping,Pulseira Listrado,2,79,158
93907,65013,2019-11-30,Ribeirão Shopping,Cueca Listrado,3,67,201
93908,65014,2019-11-30,Shopping Morumbi,Pulseira Linho,5,114,570


## <font color=red> 4) Resumos de Visualização de Dados simples e úteis </font>
 - head
 - describe

###  => head: Serve para visualizar as linhas que voce deseja

In [40]:
display(vendas_df.head(10))
print(vendas_df.shape) #Mostra o quanto de linhas e colunas mesmo usando o <head>

Unnamed: 0,Código Venda,Data,ID Loja,Produto,Quantidade,Valor Unitário,Valor Final
0,1,2019-01-01,Iguatemi Esplanada,Sapato Estampa,1,358,358
1,1,2019-01-01,Iguatemi Esplanada,Camiseta,2,180,360
2,1,2019-01-01,Iguatemi Esplanada,Sapato Xadrez,1,368,368
3,2,2019-01-02,Norte Shopping,Relógio,3,200,600
4,2,2019-01-02,Norte Shopping,Chinelo Liso,1,71,71
5,3,2019-01-02,Rio Mar Shopping Fortaleza,Cinto Linho,1,248,248
6,5,2019-01-02,Shopping Barra,Calça,1,170,170
7,6,2019-01-02,Shopping Ibirapuera,Polo Listrado,4,149,596
8,7,2019-01-02,Norte Shopping,Camisa Gola V Listrado,1,116,116
9,7,2019-01-02,Norte Shopping,Camisa Liso,1,105,105


(93910, 7)


### => describe: Um resumo de toda tabela com dados estatisticos

In [41]:
display(vendas_df.describe())

Unnamed: 0,Código Venda,Quantidade,Valor Unitário,Valor Final
count,93910.0,93910.0,93910.0,93910.0
mean,32464.762155,2.166553,191.725886,414.862656
std,18809.007093,1.258732,145.215519,434.846228
min,1.0,1.0,30.0,30.0
25%,16204.0,1.0,100.0,156.0
50%,32367.0,2.0,155.0,274.0
75%,48793.75,3.0,248.0,524.0
max,65014.0,5.0,750.0,3750.0


## <font color=red> 5) Pegar Linhas e Colunas (e os pd.Series) </font>

- Coloar o nome da coluna em [ 'x' , 'y' ]

In [None]:
produtos = vendas_df[['Produto', 'ID Loja']]
display(produtos)

Unnamed: 0,Produto,ID Loja
0,Sapato Estampa,Iguatemi Esplanada
1,Camiseta,Iguatemi Esplanada
2,Sapato Xadrez,Iguatemi Esplanada
3,Relógio,Norte Shopping
4,Chinelo Liso,Norte Shopping
...,...,...
93905,Mochila Xadrez,Shopping Vila Velha
93906,Pulseira Listrado,Ribeirão Shopping
93907,Cueca Listrado,Ribeirão Shopping
93908,Pulseira Linho,Shopping Morumbi


## <font color=red> 6) ```.loc```  = um método muito importante </font>
 - Pegar 1 linha
 - Pegar linhas de acordo com alguma condição
 - pegar linhas e colunas especificas
 - Pegar um valor especifico

### → Pegar 1 linha
- Pegar a linha 1 ate a linha 5

In [8]:
display(vendas_df.loc[1:5])

Unnamed: 0,Código Venda,Data,ID Loja,Produto,Quantidade,Valor Unitário,Valor Final
1,1,2019-01-01,Iguatemi Esplanada,Camiseta,2,180,360
2,1,2019-01-01,Iguatemi Esplanada,Sapato Xadrez,1,368,368
3,2,2019-01-02,Norte Shopping,Relógio,3,200,600
4,2,2019-01-02,Norte Shopping,Chinelo Liso,1,71,71
5,3,2019-01-02,Rio Mar Shopping Fortaleza,Cinto Linho,1,248,248


### → Pegar linhas de acordo com alguma condição
- Pegar todas as linhas que possuem o ```NORTE SHOPPING``` na coluna ```ID LOJA```

In [7]:

vendas_norteshopping_df = vendas_df.loc[vendas_df['ID Loja'] == 'Norte Shopping']
display(vendas_norteshopping_df)

Unnamed: 0,Código Venda,Data,ID Loja,Produto,Quantidade,Valor Unitário,Valor Final
3,2,2019-01-02,Norte Shopping,Relógio,3,200,600
4,2,2019-01-02,Norte Shopping,Chinelo Liso,1,71,71
8,7,2019-01-02,Norte Shopping,Camisa Gola V Listrado,1,116,116
9,7,2019-01-02,Norte Shopping,Camisa Liso,1,105,105
100,73,2019-01-02,Norte Shopping,Cueca Xadrez,5,60,300
...,...,...,...,...,...,...,...
93716,64888,2019-11-30,Norte Shopping,Polo Xadrez,1,142,142
93754,64914,2019-11-30,Norte Shopping,Calça Liso,1,190,190
93755,64914,2019-11-30,Norte Shopping,Casaco Estampa,2,256,512
93756,64914,2019-11-30,Norte Shopping,Gorro,2,80,160


### Pegar linhas e colunas específicas
- pegar várias linhas e colunas usando o loc

- ```vendas_norteshopping_df = vendas_df.loc[ linhas, colunas ]```

In [9]:
vendas_norteshopping_df = vendas_df.loc[vendas_df['ID Loja'] == 'Norte Shopping', ["ID Loja", "Produto", "Quantidade"]]
display(vendas_norteshopping_df)

Unnamed: 0,ID Loja,Produto,Quantidade
3,Norte Shopping,Relógio,3
4,Norte Shopping,Chinelo Liso,1
8,Norte Shopping,Camisa Gola V Listrado,1
9,Norte Shopping,Camisa Liso,1
100,Norte Shopping,Cueca Xadrez,5
...,...,...,...
93716,Norte Shopping,Polo Xadrez,1
93754,Norte Shopping,Calça Liso,1
93755,Norte Shopping,Casaco Estampa,2
93756,Norte Shopping,Gorro,2


### Pegar 1 ou mais valores específicos

In [10]:
for x in range(0,5):
    display(vendas_df.loc[x, 'Produto'])


'Sapato Estampa'

'Camiseta'

'Sapato Xadrez'

'Relógio'

'Chinelo Liso'

### Voltando com um exemplo anterior

In [58]:
display(df)

Unnamed: 0,Aluno,Faltas,Prova,Seminário
0,Wilfred,3,2,8.5
1,Abbie,4,7,7.5
2,Harry,2,5,9.0
3,Julia,1,10,7.5
4,Carrie,4,6,8.0


Suponha que queiramos selecionar apenas as linhas em que o valor da coluna Seminário seja acima de 8.0, podemos realizar esta tarefa passando a condição diretamente como índice:

In [62]:
df[df["Seminário"] > 8.0]

Unnamed: 0,Aluno,Faltas,Prova,Seminário
0,Wilfred,3,2,8.5
2,Harry,2,5,9.0


In [63]:
df[(df["Seminário"] > 8.0) & (df["Prova"] > 3)]

Unnamed: 0,Aluno,Faltas,Prova,Seminário
2,Harry,2,5,9.0


## <font color=red>7) Adicionar 1 coluna </font>
 - A partir de uma coluna que existe
 - Criar uma coluna com o valor padrão

### #1 A partir de uma coluna que existe

In [11]:
#Criando uma nova coluna [comissao]
vendas_df['Comissão'] = vendas_df['Valor Final'] * 0.05
display(vendas_df)

Unnamed: 0,Código Venda,Data,ID Loja,Produto,Quantidade,Valor Unitário,Valor Final,Comissão
0,1,2019-01-01,Iguatemi Esplanada,Sapato Estampa,1,358,358,17.90
1,1,2019-01-01,Iguatemi Esplanada,Camiseta,2,180,360,18.00
2,1,2019-01-01,Iguatemi Esplanada,Sapato Xadrez,1,368,368,18.40
3,2,2019-01-02,Norte Shopping,Relógio,3,200,600,30.00
4,2,2019-01-02,Norte Shopping,Chinelo Liso,1,71,71,3.55
...,...,...,...,...,...,...,...,...
93905,65012,2019-11-30,Shopping Vila Velha,Mochila Xadrez,2,283,566,28.30
93906,65013,2019-11-30,Ribeirão Shopping,Pulseira Listrado,2,79,158,7.90
93907,65013,2019-11-30,Ribeirão Shopping,Cueca Listrado,3,67,201,10.05
93908,65014,2019-11-30,Shopping Morumbi,Pulseira Linho,5,114,570,28.50


### Criar uma coluna com valor padrão
 - `vendas_df.loc[ linha, coluna ] = 0`
 
 : → todas as colunas

In [None]:
vendas_df.loc[:, "Imposto"] = 0
display(vendas_df)

Unnamed: 0,Código Venda,Data,ID Loja,Produto,Quantidade,Valor Unitário,Valor Final,Imposto
1,65014,2019-12-01,Shopping Morumbi,Casaco Listrado,1,269,269,0
2,65016,2019-12-01,Iguatemi Campinas,Sapato Listrado,2,363,726,0
3,65016,2019-12-01,Iguatemi Campinas,Casaco,1,250,250,0
4,65017,2019-12-01,Shopping SP Market,Gorro Liso,3,92,276,0
5,65018,2019-12-01,Rio Mar Shopping Fortaleza,Cueca Estampa,1,66,66,0
...,...,...,...,...,...,...,...,...
7084,69996,2019-12-26,Center Shopping Uberlândia,Short Listrado,2,102,204,0
7085,69996,2019-12-26,Center Shopping Uberlândia,Mochila,4,270,1080,0
7086,69996,2019-12-26,Center Shopping Uberlândia,Pulseira Estampa,1,87,87,0
7087,69997,2019-12-26,Ribeirão Shopping,Camisa Listrado,1,108,108,0


## <font color=red> 8) Adicionar 1 linha </font>
 - Linhas de um complemento da base de dados

### Linhas de um complemento da base de dados
 - tomar cuidado ao executar, pois ele pode duplicar varias vezes(repetir o mesmo arquivo varias vezes)

In [None]:
vendas_dez_df = pd.read_excel("Vendas - Dez.xlsx")
# display(vendas_dez_df)

vendas_df = vendas_df.append(vendas_dez_df)
display(vendas_df)


Unnamed: 0,Código Venda,Data,ID Loja,Produto,Quantidade,Valor Unitário,Valor Final
0,65014,2019-12-01,Shopping Morumbi,Sunga Listrado,5,114,570
1,65014,2019-12-01,Shopping Morumbi,Casaco Listrado,1,269,269
2,65016,2019-12-01,Iguatemi Campinas,Sapato Listrado,2,363,726
3,65016,2019-12-01,Iguatemi Campinas,Casaco,1,250,250
4,65017,2019-12-01,Shopping SP Market,Gorro Liso,3,92,276
...,...,...,...,...,...,...,...
7084,69996,2019-12-26,Center Shopping Uberlândia,Short Listrado,2,102,204
7085,69996,2019-12-26,Center Shopping Uberlândia,Mochila,4,270,1080
7086,69996,2019-12-26,Center Shopping Uberlândia,Pulseira Estampa,1,87,87
7087,69997,2019-12-26,Ribeirão Shopping,Camisa Listrado,1,108,108


## <font color=red> 9) Excluir linhas e colunas </font>

#### `.drop`
#### axis = 0 → Deleta linha 

#### axis = 1 → Deleta coluna

In [None]:
vendas_df = vendas_df.drop(0, axis=0)
display(vendas_df)

Unnamed: 0,Código Venda,Data,ID Loja,Produto,Quantidade,Valor Unitário,Valor Final
1,65014,2019-12-01,Shopping Morumbi,Casaco Listrado,1,269,269
2,65016,2019-12-01,Iguatemi Campinas,Sapato Listrado,2,363,726
3,65016,2019-12-01,Iguatemi Campinas,Casaco,1,250,250
4,65017,2019-12-01,Shopping SP Market,Gorro Liso,3,92,276
5,65018,2019-12-01,Rio Mar Shopping Fortaleza,Cueca Estampa,1,66,66
...,...,...,...,...,...,...,...
7084,69996,2019-12-26,Center Shopping Uberlândia,Short Listrado,2,102,204
7085,69996,2019-12-26,Center Shopping Uberlândia,Mochila,4,270,1080
7086,69996,2019-12-26,Center Shopping Uberlândia,Pulseira Estampa,1,87,87
7087,69997,2019-12-26,Ribeirão Shopping,Camisa Listrado,1,108,108


## <font color=red> 10) Valores Vazios </font> 
 - Deletar Linhas/colunas vazias
 - Deletar linhas que possuem valores vazios
 - Preencher valores vazios (media e ultimo valor)

### Deletar linhas/colunas vazias (`.dropna`)

In [None]:
vendas_df = vendas_df.dropna(how='all', axis=1)

### Deletar linhas que possuem pelo menos 1 valor vazio

In [None]:
vendas_df = vendas_df.dropna()

## <font color=red>11) Preencher valores vazios (média e último valor) </font> 

###  → Preencher com a média da coluna `.fillna`
 Executar o codigo que cria a coluna comissao antes para funcionar


In [None]:
vendas_df['Comissão'] = vendas_df['Comissão'].fillna(vendas_df['Comissão'].mean())
display(vendas_df)

Unnamed: 0,Código Venda,Data,ID Loja,Produto,Quantidade,Valor Unitário,Valor Final,Imposto,Comissão
1,65014,2019-12-01,Shopping Morumbi,Casaco Listrado,1,269,269,0,13.45
2,65016,2019-12-01,Iguatemi Campinas,Sapato Listrado,2,363,726,0,36.30
3,65016,2019-12-01,Iguatemi Campinas,Casaco,1,250,250,0,12.50
4,65017,2019-12-01,Shopping SP Market,Gorro Liso,3,92,276,0,13.80
5,65018,2019-12-01,Rio Mar Shopping Fortaleza,Cueca Estampa,1,66,66,0,3.30
...,...,...,...,...,...,...,...,...,...
7084,69996,2019-12-26,Center Shopping Uberlândia,Short Listrado,2,102,204,0,10.20
7085,69996,2019-12-26,Center Shopping Uberlândia,Mochila,4,270,1080,0,54.00
7086,69996,2019-12-26,Center Shopping Uberlândia,Pulseira Estampa,1,87,87,0,4.35
7087,69997,2019-12-26,Ribeirão Shopping,Camisa Listrado,1,108,108,0,5.40


### → Preencher com o último valor (`.ffill`)

In [13]:
vendas_df = vendas_df.ffill()
display(vendas_df)

Unnamed: 0,Código Venda,Data,ID Loja,Produto,Quantidade,Valor Unitário,Valor Final,Comissão
0,1,2019-01-01,Iguatemi Esplanada,Sapato Estampa,1,358,358,17.90
1,1,2019-01-01,Iguatemi Esplanada,Camiseta,2,180,360,18.00
2,1,2019-01-01,Iguatemi Esplanada,Sapato Xadrez,1,368,368,18.40
3,2,2019-01-02,Norte Shopping,Relógio,3,200,600,30.00
4,2,2019-01-02,Norte Shopping,Chinelo Liso,1,71,71,3.55
...,...,...,...,...,...,...,...,...
93905,65012,2019-11-30,Shopping Vila Velha,Mochila Xadrez,2,283,566,28.30
93906,65013,2019-11-30,Ribeirão Shopping,Pulseira Listrado,2,79,158,7.90
93907,65013,2019-11-30,Ribeirão Shopping,Cueca Listrado,3,67,201,10.05
93908,65014,2019-11-30,Shopping Morumbi,Pulseira Linho,5,114,570,28.50


## <font color=red> 12) Calcular Indicadores </font> 
 - Groupby
 - Value Counts

### → Groupby: Agrupar colunas 

(exemplo: Coluna Produtos)

In [15]:
faturamento_produto = vendas_df[['Produto', 'Valor Final']].groupby('Produto').sum()
display(faturamento_produto)

Unnamed: 0_level_0,Valor Final
Produto,Unnamed: 1_level_1
Bermuda,253800
Bermuda Estampa,273104
Bermuda Linho,369135
Bermuda Liso,257009
Bermuda Listrado,273025
...,...
Tênis Estampa,425728
Tênis Linho,503622
Tênis Liso,440496
Tênis Listrado,455094


### - Value counts: Quantidade de itens tem na coluna

In [14]:
transacoes_loja = vendas_df['ID Loja'].value_counts()
display(transacoes_loja)

Shopping Vila Velha                 3935
Norte Shopping                      3924
Palladium Shopping Curitiba         3909
Shopping Center Leste Aricanduva    3863
Bourbon Shopping SP                 3830
Rio Mar Shopping Fortaleza          3824
Novo Shopping Ribeirão Preto        3810
Shopping SP Market                  3808
Iguatemi Campinas                   3793
Shopping Ibirapuera                 3778
Ribeirão Shopping                   3771
Shopping Center Interlagos          3767
Rio Mar Recife                      3733
Shopping Iguatemi Fortaleza         3731
Salvador Shopping                   3728
Iguatemi Esplanada                  3722
Center Shopping Uberlândia          3713
Shopping União de Osasco            3711
Passei das Águas Shopping           3711
Shopping Barra                      3702
Shopping Eldorado                   3698
Shopping Morumbi                    3654
Parque Dom Pedro Shopping           3612
Shopping Recife                     3605
Shopping Midway 

## <font color=red> 13) Mesclar 2 dataframes </font>  
 Procurar informações de um dataframe em outro

In [16]:
gerentes_df = pd.read_excel("Gerentes.xlsx")
display(gerentes_df)

vendas_df = vendas_df.merge(gerentes_df)
display(vendas_df)

Unnamed: 0,ID Loja,Gerente
0,Iguatemi Esplanada,Salvador
1,Norte Shopping,Joana
2,Rio Mar Shopping Fortaleza,Maria
3,Shopping Barra,Letícia
4,Shopping Ibirapuera,Helena
5,Iguatemi Campinas,Luiza
6,Shopping Center Leste Aricanduva,Julia
7,Passei das Águas Shopping,Nicole
8,Shopping Recife,André
9,Shopping Midway Mall,João


Unnamed: 0,Código Venda,Data,ID Loja,Produto,Quantidade,Valor Unitário,Valor Final,Comissão,Gerente
0,1,2019-01-01,Iguatemi Esplanada,Sapato Estampa,1,358,358,17.90,Salvador
1,1,2019-01-01,Iguatemi Esplanada,Camiseta,2,180,360,18.00,Salvador
2,1,2019-01-01,Iguatemi Esplanada,Sapato Xadrez,1,368,368,18.40,Salvador
3,21,2019-01-02,Iguatemi Esplanada,Camisa Gola V Listrado,2,116,232,11.60,Salvador
4,34,2019-01-02,Iguatemi Esplanada,Sapato Listrado,1,363,363,18.15,Salvador
...,...,...,...,...,...,...,...,...,...
93905,64922,2019-11-30,Salvador Shopping,Casaco Listrado,1,269,269,13.45,Mateus
93906,64922,2019-11-30,Salvador Shopping,Camiseta Xadrez,4,200,800,40.00,Mateus
93907,64982,2019-11-30,Salvador Shopping,Cueca Linho,5,93,465,23.25,Mateus
93908,64982,2019-11-30,Salvador Shopping,Terno Liso,1,720,720,36.00,Mateus
