### Manipulação de Dados

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

### Leitura de Arquivos

### Arquivos CSV e TXT

pd.read_csv(string, sep=string, skiprows=int, encoding=string específica)

In [2]:
df_materiais = pd.read_csv("data/materiais.csv", sep = ";", skiprows = 0, encoding = "utf-8")

In [3]:
df_materiais['Material'].loc[0]

4000010

In [4]:
df_pedidos = pd.read_csv("data/pedidos.txt", sep="|", skiprows=2, encoding="latin-1")

### Arquivos XLSX

pd.read_excel(string, sheet_name = string ou int, skiprows = int)

In [5]:
df_vendas1 = pd.read_excel("data/vendas_1.xlsx", sheet_name = 'vendas', skiprows = 0)

In [6]:
df_vendas2 = pd.read_excel("data/vendas_2.xlsx", sheet_name = 0, skiprows = 0)

### Renomeando colunas

In [7]:
df_materiais = df_materiais.rename(columns = {'Material':'material', 'Texto breve material': 'texto_breve_material'})

In [8]:
df_pedidos.columns = ['cod_fornecedor', 'material', 'qtd_pedido', 'texto_breve', 'qtd_estoque']

In [9]:
df_vendas1.columns = ['data', 'material', 'qtd_vendas']

In [10]:
df_vendas2.columns = ['data', 'material', 'qtd_vendas']

### Deletando colunas

dataframe.drop(lista, axis = string ou int)

In [39]:
df_materiais.drop(['texto_breve_material'], axis = 'columns', inplace=True)

In [12]:
df_pedidos = df_pedidos[['material', 'qtd_pedido', 'qtd_estoque']].copy()

In [13]:
df_pedidos.head(5)

Unnamed: 0,material,qtd_pedido,qtd_estoque
0,4003232.0,120,12
1,4005091.0,60,6
2,4003225.0,51,5
3,4003251.0,60,6
4,4001716.0,20,2


In [14]:
df_vendas1 = df_vendas1[['material', 'qtd_vendas']].copy()

In [15]:
df_vendas2 = df_vendas2.drop(['data'], axis = 'columns')

### Verificando os tipos de colunas

dataframe.dtypes

In [16]:
df_materiais.dtypes

material                 int64
texto_breve_material    object
dtype: object

In [17]:
df_pedidos.dtypes

material       float64
qtd_pedido       int64
qtd_estoque      int64
dtype: object

In [18]:
df_vendas1.dtypes

material      int64
qtd_vendas    int64
dtype: object

In [19]:
df_vendas2.dtypes

material      int64
qtd_vendas    int64
dtype: object

### Altarando tipos de colunas

Alterando apenas uma coluna no dataframe:

dataframe['coluna'].astype(palavra reservada -> tipo de variável que eu quero que a coluna passe a ter)

In [20]:
df_pedidos['material'] = df_pedidos['material'].astype(int)

In [21]:
df_pedidos.dtypes

material       int64
qtd_pedido     int64
qtd_estoque    int64
dtype: object

In [22]:
df_pedidos[['qtd_pedido', 'qtd_estoque']] = df_pedidos[['qtd_pedido', 'qtd_estoque']].astype(int)

In [23]:
df_pedidos.head(5)

Unnamed: 0,material,qtd_pedido,qtd_estoque
0,4003232,120,12
1,4005091,60,6
2,4003225,51,5
3,4003251,60,6
4,4001716,20,2


### Concatenação de tabelas

pd.concat[lista de dataframes]

In [24]:
df_vendas = pd.concat([df_vendas1, df_vendas2])

In [25]:
df_vendas.head(5)

Unnamed: 0,material,qtd_vendas
0,6000110,1
1,6000129,1
2,6000163,1
3,6000172,1
4,6000892,1


In [26]:
df_vendas1.shape

(8657, 2)

In [27]:
df_vendas2.shape

(8144, 2)

In [28]:
df_vendas.shape

(16801, 2)

In [29]:
df_vendas['material'].loc[0]

0    6000110
0    6001085
Name: material, dtype: int64

### Resetando o index do dataframe

dataframe.reset_index(drop=bool)

In [30]:
df_vendas.reset_index(drop = True, inplace = True)

In [31]:
df_vendas

Unnamed: 0,material,qtd_vendas
0,6000110,1
1,6000129,1
2,6000163,1
3,6000172,1
4,6000892,1
...,...,...
16796,6000768,1
16797,6000839,1
16798,6000843,1
16799,6000969,1


### Agrupando dados

dataframe.groupby(lista).agg(dicionario).reset_index

In [32]:
df_vendas = df_vendas.groupby(['material']).agg({'qtd_vendas':'sum'}).reset_index(drop=False)

In [33]:
df_pedidos = df_pedidos.groupby(['material']).agg({'qtd_pedido':'sum', 'qtd_estoque':'sum'}).reset_index(drop=False)

### Correlação de tabelas

pd.merge(dataframe1, dataframe2, on = lista(colunas que têm em comum), how = string especifica(right, left, inner ou outer)

In [42]:
df_relatorio = pd.merge(df_materiais, df_pedidos, on = ['material'], how = 'left')

In [45]:
df_relatorio = pd.merge(df_relatorio, df_vendas, on = ['material'], how = 'left')

In [48]:
#Substitui os NaN da tabela por 0

df_relatorio = df_relatorio.fillna(0)

In [52]:
#Converter os valores de float para int

df_relatorio[['qtd_pedido', 'qtd_estoque', 'qtd_vendas']] = df_relatorio[['qtd_pedido', 'qtd_estoque', 'qtd_vendas']].astype(int)

### Regra de Negócio

dataframe[coluna1] operador dataframe[coluna2]

In [54]:
#A coluna qtd_loja é criada, e armazana a soma das colunas qtd_pedido e qtd_estoque

df_relatorio['qtd_loja'] = df_relatorio['qtd_pedido'] + df_relatorio['qtd_estoque']

In [57]:
df_relatorio = df_relatorio[['material', 'qtd_loja', 'qtd_vendas']].copy()

In [58]:
df_relatorio.head(2)

Unnamed: 0,material,qtd_loja,qtd_vendas
0,4000010,275,0
1,4000013,0,6


### Operações entre colunas com condicionais

def funcao(parametro):

dataframe.apply(lambda row: funcao(row['coluna'], axis = 'columns' ou 1)

In [69]:
def calcular_porcentagem(loja, vendas):
    if(vendas != 0):
        return round(loja/vendas, 2)
    elif(loja != 0):
        return 1.2
    else:
        return 0

In [70]:
#Apply serve para aplicar funções no dataframe

df_relatorio['porcentagem'] = df_relatorio.apply(lambda row: calcular_porcentagem(row['qtd_loja'], row['qtd_vendas']), axis = 'columns')

In [72]:
df_relatorio.head(2)

Unnamed: 0,material,qtd_loja,qtd_vendas,porcentagem
0,4000010,275,0,1.2
1,4000013,0,6,0.0


In [73]:
def definir_status(porcentagem):
    if(porcentagem >= 1.2):
        return 'alerta'
    else:
        return ''

In [75]:
df_relatorio['status'] = df_relatorio.apply(lambda row: definir_status(row['porcentagem']), axis = 'columns')

In [76]:
df_relatorio.head(3)

Unnamed: 0,material,qtd_loja,qtd_vendas,porcentagem,status
0,4000010,275,0,1.2,alerta
1,4000013,0,6,0.0,
2,4000014,66,1,66.0,alerta


### Ordenando colunas

dataframe.sort_values(lista(coluna ou colunas que eu quero ordenas), ascending = lista de booleanos)

In [80]:
df_relatorio = df_relatorio.sort_values(['qtd_loja'], ascending = [False])

### Filtro

dataframe[(dataframe[coluna_x]>0)]

In [83]:
df_relatorio[(df_relatorio['status'] != 'alerta') & (df_relatorio['qtd_loja'] > 0)]

Unnamed: 0,material,qtd_loja,qtd_vendas,porcentagem,status
670,4000793,15,70,0.21,
672,4000795,13,30,0.43,
7,4000020,9,27,0.33,
2619,4004124,8,21,0.38,
6,4000019,7,151,0.05,
4581,6001415,4,14,0.29,
1318,4001620,3,5,0.6,
2380,4003695,3,6,0.5,
1902,4002553,2,13,0.15,
299,4000360,2,2,1.0,
