### Manipulação de Dados

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

### Leitura de Arquivos

### Arquivos CSV e TXT

pd.read_csv(string, sep=string, skiprows=int, encoding=string específica)

In [2]:
df_materiais = pd.read_csv("data/materiais.csv", sep = ";", skiprows = 0, encoding = "utf-8")

In [3]:
df_materiais['Material'].loc[0]

4000010

In [4]:
df_pedidos = pd.read_csv("data/pedidos.txt", sep="|", skiprows=2, encoding="latin-1")

### Arquivos XLSX

pd.read_excel(string, sheet_name = string ou int, skiprows = int)

In [5]:
df_vendas1 = pd.read_excel("data/vendas_1.xlsx", sheet_name = 'vendas', skiprows = 0)

In [6]:
df_vendas2 = pd.read_excel("data/vendas_2.xlsx", sheet_name = 0, skiprows = 0)

### Renomeando colunas

In [7]:
df_materiais = df_materiais.rename(columns = {'Material':'material', 'Texto breve material': 'texto_breve_material'})

In [8]:
df_pedidos.columns = ['cod_fornecedor', 'material', 'qtd_pedido', 'texto_breve', 'qtd_estoque']

In [9]:
df_vendas1.columns = ['data', 'material', 'qtd_vendas']

In [10]:
df_vendas2.columns = ['data', 'material', 'qtd_vendas']

### Deletando colunas

dataframe.drop(lista, axis = string ou int)

In [11]:
df_materiais.drop(['texto_breve_material'], axis = 'columns')

Unnamed: 0,material
0,4000010
1,4000013
2,4000014
3,4000015
4,4000016
...,...
4577,6001409
4578,6001410
4579,6001411
4580,6001412


In [12]:
df_pedidos = df_pedidos[['material', 'qtd_pedido', 'qtd_estoque']].copy()

In [13]:
df_pedidos.head(5)

Unnamed: 0,material,qtd_pedido,qtd_estoque
0,4003232.0,120,12
1,4005091.0,60,6
2,4003225.0,51,5
3,4003251.0,60,6
4,4001716.0,20,2


In [14]:
df_vendas1 = df_vendas1[['material', 'qtd_vendas']].copy()

In [15]:
df_vendas2 = df_vendas2.drop(['data'], axis = 'columns')

### Verificando os tipos de colunas

dataframe.dtypes

In [16]:
df_materiais.dtypes

material                 int64
texto_breve_material    object
dtype: object

In [17]:
df_pedidos.dtypes

material       float64
qtd_pedido       int64
qtd_estoque      int64
dtype: object

In [18]:
df_vendas1.dtypes

material      int64
qtd_vendas    int64
dtype: object

In [19]:
df_vendas2.dtypes

material      int64
qtd_vendas    int64
dtype: object

### Altarando tipos de colunas

Alterando apenas uma coluna no dataframe:

dataframe['coluna'].astype(palavra reservada -> tipo de variável que eu quero que a coluna passe a ter)

In [20]:
df_pedidos['material'] = df_pedidos['material'].astype(int)

In [21]:
df_pedidos.dtypes

material       int64
qtd_pedido     int64
qtd_estoque    int64
dtype: object

In [22]:
df_pedidos[['qtd_pedido', 'qtd_estoque']] = df_pedidos[['qtd_pedido', 'qtd_estoque']].astype(int)

In [23]:
df_pedidos.head(5)

Unnamed: 0,material,qtd_pedido,qtd_estoque
0,4003232,120,12
1,4005091,60,6
2,4003225,51,5
3,4003251,60,6
4,4001716,20,2


### Concatenação de tabelas

pd.concat[lista de dataframes]

In [24]:
df_vendas = pd.concat([df_vendas1, df_vendas2])

In [25]:
df_vendas.head(5)

Unnamed: 0,material,qtd_vendas
0,6000110,1
1,6000129,1
2,6000163,1
3,6000172,1
4,6000892,1


In [26]:
df_vendas1.shape

(8657, 2)

In [27]:
df_vendas2.shape

(8144, 2)

In [28]:
df_vendas.shape

(16801, 2)

In [29]:
df_vendas['material'].loc[0]

0    6000110
0    6001085
Name: material, dtype: int64

### Resetando o index do dataframe

dataframe.reset_index(drop=bool)

In [30]:
df_vendas.reset_index(drop = True, inplace = True)

In [31]:
df_vendas

Unnamed: 0,material,qtd_vendas
0,6000110,1
1,6000129,1
2,6000163,1
3,6000172,1
4,6000892,1
...,...,...
16796,6000768,1
16797,6000839,1
16798,6000843,1
16799,6000969,1


### Agrupando dados

dataframe.groupby(lista).agg(dicionario).reset_index

In [32]:
df_vendas = df_vendas.groupby(['material']).agg({'qtd_vendas':'sum'}).reset_index(drop=False)

In [33]:
df_pedidos = df_pedidos.groupby(['material']).agg({'qtd_pedido':'sum', 'qtd_estoque':'sum'}).reset_index(drop=False)

### Correlação de tabelas

In [36]:
df_materiais.head(2)

Unnamed: 0,material,texto_breve_material
0,4000010,ALCACHOFRA 300MG
1,4000013,ANTI-SEPTICO ANESTESICO


In [37]:
df_pedidos.head(2)

Unnamed: 0,material,qtd_pedido,qtd_estoque
0,4000010,250,25
1,4000014,60,6
