In [1]:
import pandas as pd

In [122]:
df = pd.DataFrame(columns=['ID', 'Nome', 'Idade']).set_index('ID')

In [107]:
df

Unnamed: 0_level_0,Nome,Idade
ID,Unnamed: 1_level_1,Unnamed: 2_level_1


### CRUD

### C = Create

In [123]:
# cria uma nova linha:
linha = {'Nome': 'Fernando', 'Idade': 46}

# cria um DF com a nova linha:
df_linha = pd.DataFrame([linha])

# Insere a linha no DF original
df = pd.concat([df, df_linha], ignore_index=True)

df

Unnamed: 0,Nome,Idade
0,Fernando,46


In [124]:
# Insere vários itens de uma vez:

pessoas = {
    'Nome' : ['Maria', 'João', 'José', 'Marcos', 'Fernando'],
    'Idade': [30, 20, 50, 25, 46]
}

# cria um DF com a nova linha:
df_pessoas = pd.DataFrame(pessoas)

# Insere a linha no DF original
df = pd.concat([df, df_pessoas], ignore_index=True)

df

Unnamed: 0,Nome,Idade
0,Fernando,46
1,Maria,30
2,João,20
3,José,50
4,Marcos,25
5,Fernando,46


### R = Read

In [125]:
df
#df.head(2)
#df.sample(1)

Unnamed: 0,Nome,Idade
0,Fernando,46
1,Maria,30
2,João,20
3,José,50
4,Marcos,25
5,Fernando,46


In [126]:
# Filtrar
df[df.Nome == 'Fernando']

Unnamed: 0,Nome,Idade
0,Fernando,46
5,Fernando,46


In [127]:
#Filtrar e selecionar apenas algumas colunas
df[df.Idade >= 30][['Idade','Nome']]

Unnamed: 0,Idade,Nome
0,46,Fernando
1,30,Maria
3,50,José
5,46,Fernando


In [128]:
#Multiplos Filtros
df[(df.Idade >= 30) & (df.Nome.str.contains('Jo')) ][['Idade','Nome']]

Unnamed: 0,Idade,Nome
3,50,José


In [131]:
# Filtrar Repetidos
df_distinct = df.drop_duplicates()

df_distinct

Unnamed: 0,Nome,Idade
0,Fernando,46
1,Maria,30
2,João,20
3,José,50
4,Marcos,25


### U = Update

In [115]:
# Update usando Indice
df.loc[1, 'Idade'] = 48

In [116]:
# Update usando filtro
df.loc[df.Nome == 'Fernando', 'Idade'] = 47

In [117]:
df

Unnamed: 0,Nome,Idade
0,Fernando,47
1,Maria,48
2,João,20
3,José,50
4,Marcos,25


### D = DELETE

In [118]:
# Drop pelo indice
df = df.drop(1)

df

Unnamed: 0,Nome,Idade
0,Fernando,47
2,João,20
3,José,50
4,Marcos,25


In [102]:
# Drop com pesquisa
df = df[df.Nome != 'Fernando']

df

Unnamed: 0,Nome,Idade
2,Maria,46


### Joins

In [119]:
# Preparação dos dataframes

pessoas = {
    'Id_pessoa': [1,2,3,4,5],
    'Nome' : ['Fernando', 'Maria', 'João', 'José', 'Marcos'],
}

salarios = {
    'Id_pessoa': [2,3,4,6], 
    'Salario' : [3000, 2000, 5000, 10000]
}

df_pessoas = pd.DataFrame(pessoas)
df_salarios = pd.DataFrame(salarios)

print(f'{df_pessoas}\n\n{df_salarios}')


   Id_pessoa      Nome
0          1  Fernando
1          2     Maria
2          3      João
3          4      José
4          5    Marcos

   Id_pessoa  Salario
0          2     3000
1          3     2000
2          4     5000
3          6    10000


In [120]:
# Inner Join:

df_inner = pd.merge(df_pessoas, df_salarios, on='Id_pessoa', how='inner')
df_inner


Unnamed: 0,Id_pessoa,Nome,Salario
0,2,Maria,3000
1,3,João,2000
2,4,José,5000


In [17]:
df_left = pd.merge(df_pessoas, df_salarios, on='Id_pessoa', how='left')
df_left

Unnamed: 0,Id_pessoa,Nome,Salario
0,1,Fernando,
1,2,Maria,3000.0
2,3,João,2000.0
3,4,José,5000.0
4,5,Marcos,


In [18]:
df_right = pd.merge(df_pessoas, df_salarios, on='Id_pessoa', how='right')
df_right

Unnamed: 0,Id_pessoa,Nome,Salario
0,2,Maria,3000
1,3,João,2000
2,4,José,5000
3,6,,10000


In [19]:
df_outer = pd.merge(df_pessoas, df_salarios, on='Id_pessoa', how='outer')
df_outer

Unnamed: 0,Id_pessoa,Nome,Salario
0,1,Fernando,
1,2,Maria,3000.0
2,3,João,2000.0
3,4,José,5000.0
4,5,Marcos,
5,6,,10000.0


In [20]:
df_cross = pd.merge(df_pessoas, df_salarios, how='cross') # Produto Cartesiano
df_cross

Unnamed: 0,Id_pessoa_x,Nome,Id_pessoa_y,Salario
0,1,Fernando,2,3000
1,1,Fernando,3,2000
2,1,Fernando,4,5000
3,1,Fernando,6,10000
4,2,Maria,2,3000
5,2,Maria,3,2000
6,2,Maria,4,5000
7,2,Maria,6,10000
8,3,João,2,3000
9,3,João,3,2000


### Agregações

In [42]:
# Preparação de dataframe:

def adicionar (df, nome, cargo, salario, estado) :
    linha_c = {'Nome' : nome,
             'Cargo': cargo,
             'Salario': salario,
             'Estado': estado
            }
    df_linha = pd.DataFrame([linha_c])
    df = pd.concat([df, df_linha], ignore_index=True)
    return df

df_salarios = pd.DataFrame(columns=['ID', 'Nome', 'Cargo', 'Salario', 'Estado']).set_index('ID')

df_salarios = adicionar(df_salarios, 'Fernando', 'Programador', 7000,'SP')
df_salarios = adicionar(df_salarios, 'Tibúrcio', 'Programador', 7000,'SP')
df_salarios = adicionar(df_salarios, 'Fabiane', 'Programador', 7000,'SP')
df_salarios = adicionar(df_salarios, 'Thais', 'Programador', 7000,'SP')
df_salarios = adicionar(df_salarios, 'Maria', 'Programador', 6000,'MG')
df_salarios = adicionar(df_salarios, 'João', 'Programador', 6500,'RJ')
df_salarios = adicionar(df_salarios, 'Lucia', 'Programador', 6800,'AM')
df_salarios = adicionar(df_salarios, 'Marina', 'Tester', 4500,'TO')
df_salarios = adicionar(df_salarios, 'Bruno', 'Tester', 5100,'DF')
df_salarios = adicionar(df_salarios, 'André', 'Tester', 5600,'GO')
df_salarios = adicionar(df_salarios, 'Fernanda', 'Tester', 5600,'PE')
df_salarios = adicionar(df_salarios, 'Pedro', 'Engenheiro de Dados', 9500,'SP')
df_salarios = adicionar(df_salarios, 'Fabio', 'Engenheiro de Dados',10100,'RJ')
df_salarios = adicionar(df_salarios, 'Murilo', 'Engenheiro de Dados',10300,'TO')
df_salarios = adicionar(df_salarios, 'Ana', 'Engenheiro de Dados',11350,'DF')
df_salarios = adicionar(df_salarios, 'Sebastião', 'Gerente de Projetos', 7200,'RJ')
df_salarios = adicionar(df_salarios, 'Carol', 'Gerente de Projetos', 7300,'SP')
df_salarios = adicionar(df_salarios, 'Kelly', 'Gerente de Projetos', 8000,'GO')
df_salarios


Unnamed: 0,Nome,Cargo,Salario,Estado
0,Fernando,Programador,7000,SP
1,Tibúrcio,Programador,7000,SP
2,Fabiane,Programador,7000,SP
3,Thais,Programador,7000,SP
4,Maria,Programador,6000,MG
5,João,Programador,6500,RJ
6,Lucia,Programador,6800,AM
7,Marina,Tester,4500,TO
8,Bruno,Tester,5100,DF
9,André,Tester,5600,GO


In [43]:
# Contagem de quantas vezes um valor distinto aparece:
df_salarios.Cargo.value_counts()

# ou df_cargos['Cargo'].value_counts()
# ou salario_medio = df_salarios.groupby('Cargo')['Salario'].count().reset_index(name='Total')

Cargo
Programador            7
Tester                 4
Engenheiro de Dados    4
Gerente de Projetos    3
Name: count, dtype: int64

In [49]:
# Média
salario_medio = df_salarios.groupby('Cargo')['Salario'].mean().reset_index(name='Salário Médio')

salario_medio = salario_medio.sort_values(by='Salário Médio', ascending=False)

salario_medio

Unnamed: 0,Cargo,Salário Médio
0,Engenheiro de Dados,10312.5
1,Gerente de Projetos,7500.0
2,Programador,6757.142857
3,Tester,5200.0


In [73]:
# Médiana
mediana = df_salarios.groupby('Cargo')['Salario'].median().reset_index(name='Mediana')

mediana = mediana.sort_values(by='Mediana', ascending=False)

mediana

Unnamed: 0,Cargo,Mediana
0,Engenheiro de Dados,10200.0
1,Gerente de Projetos,7300.0
2,Programador,7000.0
3,Tester,5350.0


In [66]:
# Mínimo por estado
salario_por_estado = df_salarios.groupby('Estado')['Salario'].min().reset_index(name='Minimo')

salario_por_estado = salario_por_estado.sort_values(by='Minimo')

salario_por_estado

Unnamed: 0,Estado,Minimo
7,TO,4500
1,DF,5100
2,GO,5600
4,PE,5600
3,MG,6000
5,RJ,6500
0,AM,6800
6,SP,7000


In [72]:
# Máximo por estado
salario_por_estado = df_salarios.groupby('Estado')['Salario'].max().reset_index(name='Maximo')

salario_por_estado = salario_por_estado.sort_values(by='Maximo', ascending=False)

salario_por_estado

Unnamed: 0,Estado,Maximo
1,DF,11350
7,TO,10300
5,RJ,10100
6,SP,9500
2,GO,8000
0,AM,6800
3,MG,6000
4,PE,5600


In [80]:
# Desvio padrão
desvio = df_salarios['Salario'].std()

desvio

1878.2227206152347

In [81]:
df_salarios.describe()

Unnamed: 0,Nome,Cargo,Salario,Estado
count,18,18,18,18
unique,18,4,14,8
top,Fernando,Programador,7000,SP
freq,1,7,4,6


### ler um dataset a partir de um arquivo csv

In [103]:
# Lendo um arquivo CSV
df_vendas = pd.read_csv(r'datasets\TABELA_VENDAS.csv')

df_vendas

Unnamed: 0,Categoria,SubCategoria,Modelo,Cor,Tamanho,Preço Custo Unit,Data Pedido,Pais,Estado,UF,Cidade,Região,Pedidos Qtd,Total Venda,ID_VENDA
0,Bicicletas,Bicicletas de montanha,Mountain-100,Prata,48,191215,01/07/2017,Brasil,Paraíba,PB,Passagem,Nordeste,2,679998,1
1,Bicicletas,Bicicletas de estrada,Road-150,Vermelho,62,217129,01/07/2017,Brasil,Minas Gerais,MG,Córrego Fundo,Sudeste,1,357827,2
2,Bicicletas,Bicicletas de estrada,Road-150,Vermelho,52,217129,01/07/2017,Brasil,Alagoas,AL,Quebrangulo,Nordeste,2,715654,3
3,Bicicletas,Bicicletas de montanha,Mountain-100,Preto,38,189809,01/07/2017,Brasil,Ceará,CE,Varjota,Nordeste,1,337499,4
4,Bicicletas,Bicicletas de estrada,Road-150,Vermelho,48,217129,01/08/2017,Brasil,Rio Grande do Norte,RN,Jucurutu,Nordeste,1,357827,5
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
11979,Roupas,Camisolas,Long-Sleeve Logo Jersey,Multi,Extra Grande,3849,01/07/2020,Brasil,Maranhão,MA,Matinha,Nordeste,1,4999,11980
11980,Roupas,Camisolas,Short-Sleeve Classic Jersey,Amarela,Grande,4157,01/07/2020,Brasil,Pará,PA,Augusto Corrêa,Norte,1,5399,11981
11981,Roupas,Camisolas,Short-Sleeve Classic Jersey,Amarela,Extra Grande,4157,01/07/2020,Brasil,Mato Grosso do Sul,MS,Deodápolis,Centro-Oeste,1,5399,11982
11982,Roupas,Calção,Women's Mountain Shorts,Preto,Médio,2618,01/07/2020,Brasil,Mato Grosso,MT,Carlinda,Centro-Oeste,1,6999,11983
