# Pandas

**Getting started** -> https://pandas.pydata.org/docs/getting_started/intro_tutorials/01_table_oriented.html

**User guide** -> https://pandas.pydata.org/docs/user_guide/index.html

**API reference** -> https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop.html

**HashTag Programação** https://www.youtube.com/watch?v=ngTMLkXWMIc

## 1. Chama as bibliotecas

In [119]:
import pandas as pd
import numpy as np

#=================================================================================

def separador(caracter = '-', numero = 100):
    print('')
    print(caracter*numero,'\n')

## 2. Cria um DataFrame através de um dicionário

In [120]:
dados = {
    'Alunos': ['Ari', 'José','Pedro'],
    'Nota de Controle II' : [9.7, 9.2, 8.7],
    'Atividade acadêmica' : ['PIBEX', 'PIBIC',None]
}

tabela_dados = pd.DataFrame(dados)

display(tabela_dados)
separador()
print(tabela_dados)

Unnamed: 0,Alunos,Nota de Controle II,Atividade acadêmica
0,Ari,9.7,PIBEX
1,José,9.2,PIBIC
2,Pedro,8.7,



---------------------------------------------------------------------------------------------------- 

  Alunos  Nota de Controle II Atividade acadêmica
0    Ari                  9.7               PIBEX
1   José                  9.2               PIBIC
2  Pedro                  8.7                None


## 3. Salva o DataFrame criado em no formato Excel

In [121]:
# Salvando o DataFrame em Excel 
# tabela.to_excel('arquivo_tabela.xlsx', index = False) # Salva o arquivo sem o índice

tabela_dados.to_excel('arquivo_tabela.xlsx')

## 4. Apresenta os dados vazios

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.isnull.html

In [122]:
dados_vazios_soma = tabela_dados.isnull().sum()
dados_vazios_media = tabela_dados.isnull().mean()

print(dados_vazios_soma)
separador()
print(dados_vazios_media)

Alunos                 0
Nota de Controle II    0
Atividade acadêmica    1
dtype: int64

---------------------------------------------------------------------------------------------------- 

Alunos                 0.000000
Nota de Controle II    0.000000
Atividade acadêmica    0.333333
dtype: float64


## 5. Criando um DataFrame através de um arquivo Excel

In [123]:
# tabela_titanic = pd.read_excel('titanic2.xlsx') # Caso o arquivo esteja no formato Excel

tabela_titanic = pd.read_csv('titanic2.csv')
display(tabela_titanic)

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.00,0,0,24160,211.3375,B5,S,2,,"St Louis, MO"
1,1,1,"Allison, Master. Hudson Trevor",male,0.92,1,2,113781,151.5500,C22 C26,S,11,,"Montreal, PQ / Chesterville, ON"
2,1,0,"Allison, Miss. Helen Loraine",female,2.00,1,2,113781,151.5500,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
3,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30.00,1,2,113781,151.5500,C22 C26,S,,135.0,"Montreal, PQ / Chesterville, ON"
4,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.00,1,2,113781,151.5500,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1304,3,0,"Zabour, Miss. Hileni",female,14.50,1,0,2665,14.4542,,C,,328.0,
1305,3,0,"Zabour, Miss. Thamine",female,,1,0,2665,14.4542,,C,,,
1306,3,0,"Zakarian, Mr. Mapriededer",male,26.50,0,0,2656,7.2250,,C,,304.0,
1307,3,0,"Zakarian, Mr. Ortin",male,27.00,0,0,2670,7.2250,,C,,,


## 6. Criando DataFrames através de Planilhas diferentes dentro do excel

In [124]:
tabela_alunos1 = pd.read_excel('alunos.xlsx') # Por padrão ele abrirá a primeira planilha
tabela_alunos2 = pd.read_excel('alunos.xlsx','Sheet2') # Escreve o nome da planilha que deseja ler

display(tabela_alunos1)
separador()
display(tabela_alunos2)

Unnamed: 0,Alunos,Nota de Controle II,Nota Eletrônica,Atividade acadêmica,TCC
0,Ari,9.7,9.0,PIBEX,sim
1,José,9.2,8.3,PIBIC,sim
2,Pedro,8.7,5.5,,não
3,Marcos,5.4,5.5,PIBIT,não
4,Gleydson,8.7,5.5,,sim
5,Alan,9.0,8.0,,não



---------------------------------------------------------------------------------------------------- 



Unnamed: 0,Alunos,Nota de Eletrônica,Estágio
0,Mateus,8.3,Sim
1,Lucas,6.4,Não
2,João,5.6,Não


## 7. Remoção das linhas

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop.html

In [125]:
# tabela_alunos1 = tabela_alunos1.drop([0,2,5]) # Retiro as linhas: 0, 2 e 5
# display(tabela_alunos1)

## 8. Remoção das colunas

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop.html

In [126]:
tabela_alunos1 = tabela_alunos1.drop(['Alunos','TCC'], axis = 1) # Retiro as colunas 'Alunos' e 'TCC'
display(tabela_alunos1)

Unnamed: 0,Nota de Controle II,Nota Eletrônica,Atividade acadêmica
0,9.7,9.0,PIBEX
1,9.2,8.3,PIBIC
2,8.7,5.5,
3,5.4,5.5,PIBIT
4,8.7,5.5,
5,9.0,8.0,


## 9. Informações 1 (Geral)

### 9.1 .head()

In [127]:
inicio = tabela_alunos1.head(3) # Apresenta as x primeiras linhas, por padrão ela apresenta 5
display(inicio)

Unnamed: 0,Nota de Controle II,Nota Eletrônica,Atividade acadêmica
0,9.7,9.0,PIBEX
1,9.2,8.3,PIBIC
2,8.7,5.5,


### 9.2 .shape

In [128]:
# (Quantidade de linhas, quantidade de colunas)

formato = tabela_alunos1.shape
print(formato)

(6, 3)


### 9.3 .describe()

In [129]:
descricao = tabela_alunos1.describe()
display(descricao)

Unnamed: 0,Nota de Controle II,Nota Eletrônica
count,6.0,6.0
mean,8.45,6.966667
std,1.539805,1.639105
min,5.4,5.5
25%,8.7,5.5
50%,8.85,6.75
75%,9.15,8.225
max,9.7,9.0


### 9.4 .index()

In [130]:
indice = tabela_alunos1.index
display(indice)

RangeIndex(start=0, stop=6, step=1)

### 9.5 .columns()

In [131]:
colunas = tabela_alunos1.columns
display(colunas)

Index(['Nota de Controle II', 'Nota Eletrônica', 'Atividade acadêmica'], dtype='object')

### 9.6 .info()

In [132]:
info = tabela_alunos1.info
display(info)

<bound method DataFrame.info of    Nota de Controle II  Nota Eletrônica Atividade acadêmica
0                  9.7              9.0               PIBEX
1                  9.2              8.3               PIBIC
2                  8.7              5.5                 NaN
3                  5.4              5.5               PIBIT
4                  8.7              5.5                 NaN
5                  9.0              8.0                 NaN>

### 9.7 .count()

In [133]:
count = tabela_alunos1.count
display(count)

<bound method DataFrame.count of    Nota de Controle II  Nota Eletrônica Atividade acadêmica
0                  9.7              9.0               PIBEX
1                  9.2              8.3               PIBIC
2                  8.7              5.5                 NaN
3                  5.4              5.5               PIBIT
4                  8.7              5.5                 NaN
5                  9.0              8.0                 NaN>

### 9.8 .isnull().sum()

In [134]:
nulos_soma = tabela_alunos1.isnull().sum()
display(nulos_soma)

Nota de Controle II    0
Nota Eletrônica        0
Atividade acadêmica    3
dtype: int64

### 9.9 .isnull().mean()

In [135]:
nulos_media = tabela_alunos1.isnull().mean()
display(nulos_media)

Nota de Controle II    0.0
Nota Eletrônica        0.0
Atividade acadêmica    0.5
dtype: float64

## 10. Criação de um novo DataFrame baseado utilizando colunas de outro DataFrame

In [136]:
tabelas_numericas = tabela_alunos1[['Nota de Controle II','Nota Eletrônica']]

display(tabelas_numericas)

Unnamed: 0,Nota de Controle II,Nota Eletrônica
0,9.7,9.0
1,9.2,8.3
2,8.7,5.5
3,5.4,5.5
4,8.7,5.5
5,9.0,8.0


## 11. Informações 2 (Colunas numéricas)

### 11.1 .mean()

In [137]:
# Média
print(tabelas_numericas.mean())

Nota de Controle II    8.450000
Nota Eletrônica        6.966667
dtype: float64


### 11.2 .median()

In [138]:
# Mediana -> O que fica no meio
print(tabelas_numericas.median())

Nota de Controle II    8.85
Nota Eletrônica        6.75
dtype: float64


### 11.3 .mode()

In [139]:
# Moda -> O que aparece mais
print(tabelas_numericas.mode())

   Nota de Controle II  Nota Eletrônica
0                  8.7              5.5


### 11.4 .sum()

In [140]:
# Soma dos valores de um DataFrame
print(tabelas_numericas.sum())

Nota de Controle II    50.7
Nota Eletrônica        41.8
dtype: float64


### 11.5 .min()

In [141]:
# Menor valor de um DataFrame
print(tabelas_numericas.min())

Nota de Controle II    5.4
Nota Eletrônica        5.5
dtype: float64


### 11.6 .max()

In [142]:
# Maior valor
print(tabelas_numericas.max())

Nota de Controle II    9.7
Nota Eletrônica        9.0
dtype: float64


### 11.7 .idxmin()

In [143]:
# Index do menor valor
print(tabelas_numericas.idxmin())

Nota de Controle II    3
Nota Eletrônica        2
dtype: int64


### 11.8 .idxmax()

In [144]:
# Index do maior valor
print(tabelas_numericas.idxmax())

Nota de Controle II    0
Nota Eletrônica        0
dtype: int64


## 12. Renomeando as colunas

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.rename.html

### 1º forma

In [145]:
tabelas_numericas.rename(columns = {'Nota de Controle II' : 'Nota C2',
                                'Nota Eletrônica' : 'Nota Elet.'}, inplace = True)

display(tabelas_numericas)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  tabelas_numericas.rename(columns = {'Nota de Controle II' : 'Nota C2',


Unnamed: 0,Nota C2,Nota Elet.
0,9.7,9.0
1,9.2,8.3
2,8.7,5.5
3,5.4,5.5
4,8.7,5.5
5,9.0,8.0


### 2º forma

In [146]:
tabelas_numericas.columns

Index(['Nota C2', 'Nota Elet.'], dtype='object')

In [147]:
tabelas_numericas.columns = ['Nota de Controle II', 'Nota Eletrônica']

display(tabelas_numericas)

Unnamed: 0,Nota de Controle II,Nota Eletrônica
0,9.7,9.0
1,9.2,8.3
2,8.7,5.5
3,5.4,5.5
4,8.7,5.5
5,9.0,8.0


## 13. Aplicando funções

Utilizando a função no DataFrame -> https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.apply.html

Utilizando o replace no DataFrame -> https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.replace.html

In [148]:
#Aplicando uma função que substitui a por b
tabelas_numericas.apply(lambda x: x.replace(9.0, 10.0))

Unnamed: 0,Nota de Controle II,Nota Eletrônica
0,9.7,10.0
1,9.2,8.3
2,8.7,5.5
3,5.4,5.5
4,8.7,5.5
5,10.0,8.0


## 14. Ordenando em ordem crescente e descrescente

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_values.html

In [149]:
# Ordenando em ordem crescente
ordem_crescente = tabelas_numericas.sort_values(by = ['Nota de Controle II'])

# Ordenando em ordem decrescente
ordem_decrescente = tabelas_numericas.sort_values(by = ['Nota de Controle II','Nota Eletrônica'], ascending=False)

separador()
print(ordem_crescente)
separador()
print(ordem_decrescente)
separador()


---------------------------------------------------------------------------------------------------- 

   Nota de Controle II  Nota Eletrônica
3                  5.4              5.5
2                  8.7              5.5
4                  8.7              5.5
5                  9.0              8.0
1                  9.2              8.3
0                  9.7              9.0

---------------------------------------------------------------------------------------------------- 

   Nota de Controle II  Nota Eletrônica
0                  9.7              9.0
1                  9.2              8.3
5                  9.0              8.0
2                  8.7              5.5
4                  8.7              5.5
3                  5.4              5.5

---------------------------------------------------------------------------------------------------- 



## 15. Operações aritméticas em Séries:

### 15.1 add()

In [150]:
# Somando todos os valores presentes na Series por 2
add = tabelas_numericas.add(2)
display(add)

Unnamed: 0,Nota de Controle II,Nota Eletrônica
0,11.7,11.0
1,11.2,10.3
2,10.7,7.5
3,7.4,7.5
4,10.7,7.5
5,11.0,10.0


### 15.2 sub()

In [151]:
# Subtraindo 2 de todos os valores
sub = tabelas_numericas.sub(2)
display(sub)

Unnamed: 0,Nota de Controle II,Nota Eletrônica
0,7.7,7.0
1,7.2,6.3
2,6.7,3.5
3,3.4,3.5
4,6.7,3.5
5,7.0,6.0


### 15.3 mul()

In [152]:
# Multiplicando todos os valores por 2
mul = tabelas_numericas.mul(2)
display(mul)

Unnamed: 0,Nota de Controle II,Nota Eletrônica
0,19.4,18.0
1,18.4,16.6
2,17.4,11.0
3,10.8,11.0
4,17.4,11.0
5,18.0,16.0


### 15.4 div()

In [153]:
# Dividindo valores por 2
div = tabelas_numericas.div(2)
display(div)

Unnamed: 0,Nota de Controle II,Nota Eletrônica
0,4.85,4.5
1,4.6,4.15
2,4.35,2.75
3,2.7,2.75
4,4.35,2.75
5,4.5,4.0


## 16. Condições no DataFrame

In [154]:
# Apresenta todas as linhas, considerando que os valores da coluna 'Nota C2' sejam iguais ou maior do que 8,8

tabelas_numericas[tabelas_numericas['Nota de Controle II'] >= 8.8]

Unnamed: 0,Nota de Controle II,Nota Eletrônica
0,9.7,9.0
1,9.2,8.3
5,9.0,8.0


## 17. .loc[ ]

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.loc.html

In [155]:
tabela_alunos3 = pd.read_excel('alunos.xlsx')
display(tabela_alunos3)

Unnamed: 0,Alunos,Nota de Controle II,Nota Eletrônica,Atividade acadêmica,TCC
0,Ari,9.7,9.0,PIBEX,sim
1,José,9.2,8.3,PIBIC,sim
2,Pedro,8.7,5.5,,não
3,Marcos,5.4,5.5,PIBIT,não
4,Gleydson,8.7,5.5,,sim
5,Alan,9.0,8.0,,não


### 17.1 Básico

In [156]:
x = tabela_alunos3.loc[[2,3]] # Pega as linhas 2 e 3
y = tabela_alunos3.loc[2:4] # Pega as linhas de 2 a 4

# Pega as linhas: 1, 4 e 5 das colunas 'Nota de Controle II' e 'TCC'
z = tabela_alunos3.loc[[1,4,5],['Nota de Controle II','TCC']]  

display(x)
separador()
display(y)
separador()
display(z)

Unnamed: 0,Alunos,Nota de Controle II,Nota Eletrônica,Atividade acadêmica,TCC
2,Pedro,8.7,5.5,,não
3,Marcos,5.4,5.5,PIBIT,não



---------------------------------------------------------------------------------------------------- 



Unnamed: 0,Alunos,Nota de Controle II,Nota Eletrônica,Atividade acadêmica,TCC
2,Pedro,8.7,5.5,,não
3,Marcos,5.4,5.5,PIBIT,não
4,Gleydson,8.7,5.5,,sim



---------------------------------------------------------------------------------------------------- 



Unnamed: 0,Nota de Controle II,TCC
1,9.2,sim
4,8.7,sim
5,9.0,não


### 17.2 Fazendo a localização com condições

In [157]:
tabela_alunos3.loc[tabela_alunos3['Nota de Controle II'] >= 9]

Unnamed: 0,Alunos,Nota de Controle II,Nota Eletrônica,Atividade acadêmica,TCC
0,Ari,9.7,9.0,PIBEX,sim
1,José,9.2,8.3,PIBIC,sim
5,Alan,9.0,8.0,,não


### 17.3 Setando um index para podermos trabalhar com o nome das linha

In [158]:
tabela_nome = tabela_alunos3.set_index('Alunos')
tabela_nome.head()

Unnamed: 0_level_0,Nota de Controle II,Nota Eletrônica,Atividade acadêmica,TCC
Alunos,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Ari,9.7,9.0,PIBEX,sim
José,9.2,8.3,PIBIC,sim
Pedro,8.7,5.5,,não
Marcos,5.4,5.5,PIBIT,não
Gleydson,8.7,5.5,,sim


In [159]:
tabela_nome.loc['Ari']

Nota de Controle II      9.7
Nota Eletrônica          9.0
Atividade acadêmica    PIBEX
TCC                      sim
Name: Ari, dtype: object

In [160]:
tabela_nome.loc[['Ari','Pedro','Gleydson'],['Nota Eletrônica', 'Atividade acadêmica']]

Unnamed: 0_level_0,Nota Eletrônica,Atividade acadêmica
Alunos,Unnamed: 1_level_1,Unnamed: 2_level_1
Ari,9.0,PIBEX
Pedro,5.5,
Gleydson,5.5,


### 17.4 Utilizando o .loc com condições

In [161]:
# Localiza apenas as linhas (de todas as colunas), onde a nota de eletronica é maior ou igual a 7

aprovados_eletronica = tabela_alunos3.loc[tabela_alunos3['Nota Eletrônica'] >= 7]
aprovados_eletronica

Unnamed: 0,Alunos,Nota de Controle II,Nota Eletrônica,Atividade acadêmica,TCC
0,Ari,9.7,9.0,PIBEX,sim
1,José,9.2,8.3,PIBIC,sim
5,Alan,9.0,8.0,,não


### 17.5 Alterando valores específicos

In [162]:
tabela_alunos3.loc[[1,2,5], 'Nota de Controle II'] = 0.5
tabela_alunos3

Unnamed: 0,Alunos,Nota de Controle II,Nota Eletrônica,Atividade acadêmica,TCC
0,Ari,9.7,9.0,PIBEX,sim
1,José,0.5,8.3,PIBIC,sim
2,Pedro,0.5,5.5,,não
3,Marcos,5.4,5.5,PIBIT,não
4,Gleydson,8.7,5.5,,sim
5,Alan,0.5,8.0,,não


## 18. .iloc[]

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.iloc.html

In [163]:
df_alunos = pd.read_excel('alunos.xlsx')
display(df_alunos)

Unnamed: 0,Alunos,Nota de Controle II,Nota Eletrônica,Atividade acadêmica,TCC
0,Ari,9.7,9.0,PIBEX,sim
1,José,9.2,8.3,PIBIC,sim
2,Pedro,8.7,5.5,,não
3,Marcos,5.4,5.5,PIBIT,não
4,Gleydson,8.7,5.5,,sim
5,Alan,9.0,8.0,,não


### 18.1 Básico

In [164]:
# Mesmo princípio do .loc[], porém utiliza-se o index como forma de referencia
# Linhas de índice: 0, 3 e última (5)
# -1 -> Último index

df_alunos.iloc[[0,3,-1]]

Unnamed: 0,Alunos,Nota de Controle II,Nota Eletrônica,Atividade acadêmica,TCC
0,Ari,9.7,9.0,PIBEX,sim
3,Marcos,5.4,5.5,PIBIT,não
5,Alan,9.0,8.0,,não


In [165]:
# Colunas de índice: 2 e a última (4)

df_alunos.iloc[[0,3,-1], [2,-1]]

Unnamed: 0,Nota Eletrônica,TCC
0,9.0,sim
3,5.5,não
5,8.0,não


In [166]:
# Todas as linhas da primeira e terceira coluna

df_alunos.iloc[:, [0, 2]]

Unnamed: 0,Alunos,Nota Eletrônica
0,Ari,9.0
1,José,8.3
2,Pedro,5.5
3,Marcos,5.5
4,Gleydson,5.5
5,Alan,8.0


## 19. pd.unique()   e   df.nunique()

### 19.1 pd.unique()

https://pandas.pydata.org/docs/reference/api/pandas.unique.html

In [167]:
# Apresenta os dados únicos
# Ex.: x = [8,3,6,8,5,9,6]     pd.unique(x) -> [8,3,6,5,9]

pd.unique(tabela_dados['Nota de Controle II']) 

array([9.7, 9.2, 8.7])

### 19.2 df.nunique()

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.nunique.html

In [168]:
# Apresenta a quantidade de itens únicos
tabela_alunos3.nunique()

Alunos                 6
Nota de Controle II    4
Nota Eletrônica        4
Atividade acadêmica    3
TCC                    2
dtype: int64

## 20. Exemplos bons do HashTag Programação

### 20.1 Método .loc[]

In [169]:
vendas_df = pd.read_excel("Vendas.xlsx")
display(vendas_df)

Unnamed: 0,Código Venda,Data,ID Loja,Produto,Quantidade,Valor Unitário,Valor Final
0,1,2019-01-01,Iguatemi Esplanada,Sapato Estampa,1,358,358
1,1,2019-01-01,Iguatemi Esplanada,Camiseta,2,180,360
2,1,2019-01-01,Iguatemi Esplanada,Sapato Xadrez,1,368,368
3,2,2019-01-02,Norte Shopping,Relógio,3,200,600
4,2,2019-01-02,Norte Shopping,Chinelo Liso,1,71,71
...,...,...,...,...,...,...,...
93905,65012,2019-11-30,Shopping Vila Velha,Mochila Xadrez,2,283,566
93906,65013,2019-11-30,Ribeirão Shopping,Pulseira Listrado,2,79,158
93907,65013,2019-11-30,Ribeirão Shopping,Cueca Listrado,3,67,201
93908,65014,2019-11-30,Shopping Morumbi,Pulseira Linho,5,114,570


In [170]:
# pegar linhas que correspondem a uma condição
vendas_norteshopping_df = vendas_df.loc[vendas_df['ID Loja'] == 'Norte Shopping']

# display(vendas_norteshopping_df)

In [171]:
# pegar várias linhas e colunas usando o loc
vendas_norteshopping_df = vendas_df.loc[vendas_df['ID Loja'] == 'Norte Shopping', ["ID Loja", "Produto", "Quantidade"]]

# display(vendas_norteshopping_df)

In [172]:
# pegar 1 valor específico
print(vendas_df.loc[1, 'Produto'])

Camiseta


### 20.2 Adicionar uma coluna

In [173]:
# a partir de uma coluna que existe
vendas_df['Comissão'] = vendas_df['Valor Final'] * 0.05

display(vendas_df)

Unnamed: 0,Código Venda,Data,ID Loja,Produto,Quantidade,Valor Unitário,Valor Final,Comissão
0,1,2019-01-01,Iguatemi Esplanada,Sapato Estampa,1,358,358,17.90
1,1,2019-01-01,Iguatemi Esplanada,Camiseta,2,180,360,18.00
2,1,2019-01-01,Iguatemi Esplanada,Sapato Xadrez,1,368,368,18.40
3,2,2019-01-02,Norte Shopping,Relógio,3,200,600,30.00
4,2,2019-01-02,Norte Shopping,Chinelo Liso,1,71,71,3.55
...,...,...,...,...,...,...,...,...
93905,65012,2019-11-30,Shopping Vila Velha,Mochila Xadrez,2,283,566,28.30
93906,65013,2019-11-30,Ribeirão Shopping,Pulseira Listrado,2,79,158,7.90
93907,65013,2019-11-30,Ribeirão Shopping,Cueca Listrado,3,67,201,10.05
93908,65014,2019-11-30,Shopping Morumbi,Pulseira Linho,5,114,570,28.50


In [174]:
# criar uma coluna com valor padrão
vendas_df.loc[:, "Imposto"] = 0

display(vendas_df)

Unnamed: 0,Código Venda,Data,ID Loja,Produto,Quantidade,Valor Unitário,Valor Final,Comissão,Imposto
0,1,2019-01-01,Iguatemi Esplanada,Sapato Estampa,1,358,358,17.90,0
1,1,2019-01-01,Iguatemi Esplanada,Camiseta,2,180,360,18.00,0
2,1,2019-01-01,Iguatemi Esplanada,Sapato Xadrez,1,368,368,18.40,0
3,2,2019-01-02,Norte Shopping,Relógio,3,200,600,30.00,0
4,2,2019-01-02,Norte Shopping,Chinelo Liso,1,71,71,3.55,0
...,...,...,...,...,...,...,...,...,...
93905,65012,2019-11-30,Shopping Vila Velha,Mochila Xadrez,2,283,566,28.30,0
93906,65013,2019-11-30,Ribeirão Shopping,Pulseira Listrado,2,79,158,7.90,0
93907,65013,2019-11-30,Ribeirão Shopping,Cueca Listrado,3,67,201,10.05,0
93908,65014,2019-11-30,Shopping Morumbi,Pulseira Linho,5,114,570,28.50,0


### 20.3 Adicionar uma linha

https://pandas.pydata.org/docs/reference/api/pandas.concat.html

In [175]:
vendas_dez_df = pd.read_excel("Vendas - Dez.xlsx")
display(vendas_dez_df)

vendas_df = pd.concat([vendas_df,vendas_dez_df])
display(vendas_df)

Unnamed: 0,Código Venda,Data,ID Loja,Produto,Quantidade,Valor Unitário,Valor Final
0,65014,2019-12-01,Shopping Morumbi,Sunga Listrado,5,114,570
1,65014,2019-12-01,Shopping Morumbi,Casaco Listrado,1,269,269
2,65016,2019-12-01,Iguatemi Campinas,Sapato Listrado,2,363,726
3,65016,2019-12-01,Iguatemi Campinas,Casaco,1,250,250
4,65017,2019-12-01,Shopping SP Market,Gorro Liso,3,92,276
...,...,...,...,...,...,...,...
7084,69996,2019-12-26,Center Shopping Uberlândia,Short Listrado,2,102,204
7085,69996,2019-12-26,Center Shopping Uberlândia,Mochila,4,270,1080
7086,69996,2019-12-26,Center Shopping Uberlândia,Pulseira Estampa,1,87,87
7087,69997,2019-12-26,Ribeirão Shopping,Camisa Listrado,1,108,108


Unnamed: 0,Código Venda,Data,ID Loja,Produto,Quantidade,Valor Unitário,Valor Final,Comissão,Imposto
0,1,2019-01-01,Iguatemi Esplanada,Sapato Estampa,1,358,358,17.90,0.0
1,1,2019-01-01,Iguatemi Esplanada,Camiseta,2,180,360,18.00,0.0
2,1,2019-01-01,Iguatemi Esplanada,Sapato Xadrez,1,368,368,18.40,0.0
3,2,2019-01-02,Norte Shopping,Relógio,3,200,600,30.00,0.0
4,2,2019-01-02,Norte Shopping,Chinelo Liso,1,71,71,3.55,0.0
...,...,...,...,...,...,...,...,...,...
7084,69996,2019-12-26,Center Shopping Uberlândia,Short Listrado,2,102,204,,
7085,69996,2019-12-26,Center Shopping Uberlândia,Mochila,4,270,1080,,
7086,69996,2019-12-26,Center Shopping Uberlândia,Pulseira Estampa,1,87,87,,
7087,69997,2019-12-26,Ribeirão Shopping,Camisa Listrado,1,108,108,,


### 20.4 Valores vazios

.dropna() ->  https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.dropna.html

.ffill() ->  https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.ffill.html

.fillna() ->  https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.fillna.html

In [176]:
# deletar linhas e colunas completamente vazias
#vendas_df = vendas_df.dropna(how='all', axis=1)

In [177]:
# deletar linhas que possuem pelo menos 1 valor vazio
#vendas_df = vendas_df.dropna()

In [178]:
# preencher valores vazios
# preencher com a média da coluna
vendas_df['Comissão'] = vendas_df['Comissão'].fillna(vendas_df['Comissão'].mean())
display(vendas_df)

# preencher com o último valor
vendas_df = vendas_df.ffill()

Unnamed: 0,Código Venda,Data,ID Loja,Produto,Quantidade,Valor Unitário,Valor Final,Comissão,Imposto
0,1,2019-01-01,Iguatemi Esplanada,Sapato Estampa,1,358,358,17.900000,0.0
1,1,2019-01-01,Iguatemi Esplanada,Camiseta,2,180,360,18.000000,0.0
2,1,2019-01-01,Iguatemi Esplanada,Sapato Xadrez,1,368,368,18.400000,0.0
3,2,2019-01-02,Norte Shopping,Relógio,3,200,600,30.000000,0.0
4,2,2019-01-02,Norte Shopping,Chinelo Liso,1,71,71,3.550000,0.0
...,...,...,...,...,...,...,...,...,...
7084,69996,2019-12-26,Center Shopping Uberlândia,Short Listrado,2,102,204,20.743133,
7085,69996,2019-12-26,Center Shopping Uberlândia,Mochila,4,270,1080,20.743133,
7086,69996,2019-12-26,Center Shopping Uberlândia,Pulseira Estampa,1,87,87,20.743133,
7087,69997,2019-12-26,Ribeirão Shopping,Camisa Listrado,1,108,108,20.743133,


### 20.5 Detecção de valores vazios ou nulos

.isna() ->  https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.isna.html
    
.isnull() ->  https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.isnull.html

========================================================================================================

.isnotna() ->  https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.notna.html

.isnotnotnull() ->  https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.notnull.html

In [214]:
df_titanic = pd.read_csv('titanic2.csv')
display(df_titanic)

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.00,0,0,24160,211.3375,B5,S,2,,"St Louis, MO"
1,1,1,"Allison, Master. Hudson Trevor",male,0.92,1,2,113781,151.5500,C22 C26,S,11,,"Montreal, PQ / Chesterville, ON"
2,1,0,"Allison, Miss. Helen Loraine",female,2.00,1,2,113781,151.5500,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
3,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30.00,1,2,113781,151.5500,C22 C26,S,,135.0,"Montreal, PQ / Chesterville, ON"
4,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.00,1,2,113781,151.5500,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1304,3,0,"Zabour, Miss. Hileni",female,14.50,1,0,2665,14.4542,,C,,328.0,
1305,3,0,"Zabour, Miss. Thamine",female,,1,0,2665,14.4542,,C,,,
1306,3,0,"Zakarian, Mr. Mapriededer",male,26.50,0,0,2656,7.2250,,C,,304.0,
1307,3,0,"Zakarian, Mr. Ortin",male,27.00,0,0,2670,7.2250,,C,,,


In [215]:
nulos_soma = df_titanic.isnull().sum() # Soma de todos os valores nulos
nulos_media = df_titanic.isnull().mean() # Média de todos os valores nulos

print(nulos_soma)
separador()
print(nulos_media*100)

pclass          0
survived        0
name            0
sex             0
age           263
sibsp           0
parch           0
ticket          0
fare            1
cabin        1014
embarked        2
boat          823
body         1188
home.dest     564
dtype: int64

---------------------------------------------------------------------------------------------------- 

pclass        0.000000
survived      0.000000
name          0.000000
sex           0.000000
age          20.091673
sibsp         0.000000
parch         0.000000
ticket        0.000000
fare          0.076394
cabin        77.463713
embarked      0.152788
boat         62.872422
body         90.756303
home.dest    43.086325
dtype: float64


In [216]:
df_titanic.drop(['cabin','body','boat','home.dest'], axis = 1, inplace = True)
display(df_titanic)

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,embarked
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.00,0,0,24160,211.3375,S
1,1,1,"Allison, Master. Hudson Trevor",male,0.92,1,2,113781,151.5500,S
2,1,0,"Allison, Miss. Helen Loraine",female,2.00,1,2,113781,151.5500,S
3,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30.00,1,2,113781,151.5500,S
4,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.00,1,2,113781,151.5500,S
...,...,...,...,...,...,...,...,...,...,...
1304,3,0,"Zabour, Miss. Hileni",female,14.50,1,0,2665,14.4542,C
1305,3,0,"Zabour, Miss. Thamine",female,,1,0,2665,14.4542,C
1306,3,0,"Zakarian, Mr. Mapriededer",male,26.50,0,0,2656,7.2250,C
1307,3,0,"Zakarian, Mr. Ortin",male,27.00,0,0,2670,7.2250,C


In [231]:
# São a mesma coisa
isna = df_titanic.isna()
isnull = df_titanic.isnull()

#==================================================

# Inverso dos dois anteriores

# São a mesma coisa
notna = df_titanic.notna()
notnull = df_titanic.notnull()

display(isna)
separador()
display(notna)

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,embarked
0,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...
1301,False,False,False,False,False,False,False,False,False,False
1304,False,False,False,False,False,False,False,False,False,False
1306,False,False,False,False,False,False,False,False,False,False
1307,False,False,False,False,False,False,False,False,False,False



---------------------------------------------------------------------------------------------------- 



Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,embarked
0,True,True,True,True,True,True,True,True,True,True
1,True,True,True,True,True,True,True,True,True,True
2,True,True,True,True,True,True,True,True,True,True
3,True,True,True,True,True,True,True,True,True,True
4,True,True,True,True,True,True,True,True,True,True
...,...,...,...,...,...,...,...,...,...,...
1301,True,True,True,True,True,True,True,True,True,True
1304,True,True,True,True,True,True,True,True,True,True
1306,True,True,True,True,True,True,True,True,True,True
1307,True,True,True,True,True,True,True,True,True,True


In [221]:
# Retira as linhas onde há algum valor que não existe
df_titanic = df_titanic.dropna()
display(df_titanic)

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,embarked
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.00,0,0,24160,211.3375,S
1,1,1,"Allison, Master. Hudson Trevor",male,0.92,1,2,113781,151.5500,S
2,1,0,"Allison, Miss. Helen Loraine",female,2.00,1,2,113781,151.5500,S
3,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30.00,1,2,113781,151.5500,S
4,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.00,1,2,113781,151.5500,S
...,...,...,...,...,...,...,...,...,...,...
1301,3,0,"Youseff, Mr. Gerious",male,45.50,0,0,2628,7.2250,C
1304,3,0,"Zabour, Miss. Hileni",female,14.50,1,0,2665,14.4542,C
1306,3,0,"Zakarian, Mr. Mapriededer",male,26.50,0,0,2656,7.2250,C
1307,3,0,"Zakarian, Mr. Ortin",male,27.00,0,0,2670,7.2250,C


In [222]:
nulos_soma = df_titanic.isnull().sum() # Soma de todos os valores nulos
nulos_media = df_titanic.isnull().mean() # Média de todos os valores nulos

print(nulos_soma)
separador()
print(nulos_media*100)

pclass      0
survived    0
name        0
sex         0
age         0
sibsp       0
parch       0
ticket      0
fare        0
embarked    0
dtype: int64

---------------------------------------------------------------------------------------------------- 

pclass      0.0
survived    0.0
name        0.0
sex         0.0
age         0.0
sibsp       0.0
parch       0.0
ticket      0.0
fare        0.0
embarked    0.0
dtype: float64


### 20.6 Calcular indicadores

In [219]:
# value counts
transacoes_loja = vendas_df['ID Loja'].value_counts()
display(transacoes_loja)

# group by
faturamento_produto = vendas_df[['Produto', 'Valor Final']].groupby('Produto').sum()
display(faturamento_produto)

Shopping Vila Velha                 4234
Palladium Shopping Curitiba         4210
Norte Shopping                      4179
Rio Mar Shopping Fortaleza          4118
Bourbon Shopping SP                 4116
Iguatemi Campinas                   4108
Rio Mar Recife                      4099
Shopping Center Leste Aricanduva    4093
Shopping SP Market                  4080
Shopping Ibirapuera                 4051
Novo Shopping Ribeirão Preto        4049
Ribeirão Shopping                   4048
Salvador Shopping                   4030
Shopping Center Interlagos          4021
Shopping Iguatemi Fortaleza         4021
Center Shopping Uberlândia          4013
Shopping Eldorado                   4002
Passei das Águas Shopping           4000
Shopping União de Osasco            3995
Iguatemi Esplanada                  3980
Shopping Barra                      3962
Shopping Morumbi                    3960
Parque Dom Pedro Shopping           3902
Shopping Recife                     3891
Shopping Midway 

Unnamed: 0_level_0,Valor Final
Produto,Unnamed: 1_level_1
Bermuda,272250
Bermuda Estampa,291694
Bermuda Linho,394680
Bermuda Liso,275692
Bermuda Listrado,293237
...,...
Tênis Estampa,457728
Tênis Linho,538608
Tênis Liso,474544
Tênis Listrado,481032


### 20.7 Mesclar 2 dataframes (Procurar informações de um dataframe em outro)

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.merge.html

In [220]:
gerentes_df = pd.read_excel("Gerentes.xlsx")
display(gerentes_df)

separador()

vendas_df = vendas_df.merge(gerentes_df)
display(vendas_df)

Unnamed: 0,ID Loja,Gerente
0,Iguatemi Esplanada,Salvador
1,Norte Shopping,Joana
2,Rio Mar Shopping Fortaleza,Maria
3,Shopping Barra,Letícia
4,Shopping Ibirapuera,Helena
5,Iguatemi Campinas,Luiza
6,Shopping Center Leste Aricanduva,Julia
7,Passei das Águas Shopping,Nicole
8,Shopping Recife,André
9,Shopping Midway Mall,João



---------------------------------------------------------------------------------------------------- 



Unnamed: 0,Código Venda,Data,ID Loja,Produto,Quantidade,Valor Unitário,Valor Final,Comissão,Imposto,Gerente
0,1,2019-01-01,Iguatemi Esplanada,Sapato Estampa,1,358,358,17.900000,0.0,Salvador
1,1,2019-01-01,Iguatemi Esplanada,Camiseta,2,180,360,18.000000,0.0,Salvador
2,1,2019-01-01,Iguatemi Esplanada,Sapato Xadrez,1,368,368,18.400000,0.0,Salvador
3,21,2019-01-02,Iguatemi Esplanada,Camisa Gola V Listrado,2,116,232,11.600000,0.0,Salvador
4,34,2019-01-02,Iguatemi Esplanada,Sapato Listrado,1,363,363,18.150000,0.0,Salvador
...,...,...,...,...,...,...,...,...,...,...
100994,69846,2019-12-25,Salvador Shopping,Short Estampa,2,96,192,20.743133,0.0,Mateus
100995,69846,2019-12-25,Salvador Shopping,Tênis Estampa,5,256,1280,20.743133,0.0,Mateus
100996,69850,2019-12-25,Salvador Shopping,Calça Estampa,4,177,708,20.743133,0.0,Mateus
100997,69972,2019-12-26,Salvador Shopping,Terno Liso,3,720,2160,20.743133,0.0,Mateus


## 21. Extras

In [272]:
df1 = pd.DataFrame([16,4,8,3,4])

lis = df1[0].tolist()

lista2 = [4,3,17,1,1]

df3 = pd.DataFrame({'A': lis,
                   'B': lista2})
display(df3)

Unnamed: 0,A,B
0,16,4
1,4,3
2,8,17
3,3,1
4,4,1


#### .info()

In [273]:
df3.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   A       5 non-null      int64
 1   B       5 non-null      int64
dtypes: int64(2)
memory usage: 208.0 bytes


#### .sum(axis = 1)

In [274]:
df3.sum(axis = 1)

0    20
1     7
2    25
3     4
4     5
dtype: int64

#### .sum(axis = 1)

In [275]:
df3['total'] = df3.sum(axis = 1)
display(df3)

Unnamed: 0,A,B,total
0,16,4,20
1,4,3,7
2,8,17,25
3,3,1,4
4,4,1,5


#### .value_counts()

In [276]:
df3['A'].value_counts()

4     2
16    1
8     1
3     1
Name: A, dtype: int64