<a href="https://colab.research.google.com/github/NilmaraSalgado/EducacaoBemolDigital/blob/main/CursoBemolDigital_aula04_05.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Introdução**

Nossas atividades serguirão os quatros tópicos abaixo:
1. Leitura
2. Tratamento
3. Manipulação
4. Exportação de Relatório

Vamos trabalhar com:
* Base de dados de vendas on-line (endereço de entrega)
* Base de vendas
* Base de pedidos (status)
* Planilha de descrição de significados de cada grupo


## Para iniciarmos o trabalho com a manipulação de dados vamos importar a biblioteca Pandas (funções para manipulação e análise de dados).


In [None]:
import pandas as pd

# **1 Leitura de Arquivos**

### 1.1 Arquivos TXT (CSV)

**Sintaxe:**
pd.read_csv(string, sep=string, skiprows=int, encoding=string, dtype=dict

**Parâmetros:**
1. nome do arquivo
2. sep = separador, caractere que separa os dados. Por exemplo, a vírgula.
3. skiprows = quantidade de linhas a serem puladas, pois, normalmente, temos linhas com outras informações no início da página.
4. encoding = codificação do arquivo (UTF-8 ou latin-1). Já identifica qual é o formato.
5. dtype = O python identifica o tipo de variável, então podemos predizer o tipo de cada coluna. Isso contribui para economia de memória.

In [35]:
#guardando na variável df_endereco
df_endereco = pd.read_csv('endereco.txt',sep ='|', skiprows = 3, encoding='latin-1', dtype={1:'str'})

In [36]:
df_pedidos = pd.read_csv('pedidos.txt', sep = '|', skiprows = 3, encoding='latin-1', dtype={1:'str'})

In [37]:
df_vendas = pd.read_csv('vendas.txt', sep='|', skiprows=3, encoding= 'latin-1', dtype={1:'str'})

## 1.2 Arquivos XLS


**Sintaxe:** pd.read_excel(string, skiprows = int, dtype = dict, sheet_name=int ou string)

**Parâmetros:**
1. nome do arquivo
2. skiprows = quantidade de linhas a serem puladas
3. dtype = pré dizer o tipo de cada coluna
4. sheet_name = index ou o nome da aba

In [None]:
df_grupos_merc = pd.read_excel('grupos_merc.xlsx', skiprows=0, dtype={0:'str'}, sheet_name=0)

# **2 Visualização de DataFrames**

## 2.1 Head

**Sintaxe:**
df.head(n)

**Parâmetros:**
n um número inteiro
 * n>0 = retorna as n primeiras linhas do df
 * n<0 = todas as linhas exceto as n últimas


In [None]:
df_grupos_merc.head()

Unnamed: 0,GRUPOS,DESCRIÇÃO
0,133,PET SHOP
1,133001,UTILIDADES CÃES E GATOS
2,133001001,ACESSÓRIOS PARA PET
3,133001002,HIGIENE E BELEZA PARA PET
4,133001003,TRANSPORTE PARA PET


## 2.2 Tail

Sintaxe: df.tail(n)

Parâmetros: n um número inteiro

* n>0 = retorna as n últimas linhas
* n<0 - retorna as últimas linhas exceto as n primeiras

In [None]:
df_grupos_merc.tail()

Unnamed: 0,GRUPOS,DESCRIÇÃO
36,134005002,HIGIENE BUCAL
37,134005003,GERIÁTRICO
38,134005004,HIGIENE INFANTIL
39,134005005,HIGIENE FEMININA
40,134005006,HIGIENE MASCULINA


## 2.3 LOC

**Sintaxe:** df.loc[primeira linha: ultima linha, primeira : ultima coluna]

In [None]:
df_grupos_merc.loc[5:10,'GRUPOS':'DESCRIÇÃO']

Unnamed: 0,GRUPOS,DESCRIÇÃO
5,133002,ALIMENTOS PET
6,133002001,ALIMENTOS P/ CÃES
7,133002002,ALIMENTOS P/ GATOS
8,134,CONVENIÊNCIA
9,134001,ALIMENTOS
10,134001001,ALIMENTOS BÁSICOS


## 2.4 ILOC

**Sintaxe:** df.iloc[primeira linha: ultima linha + 1, indice da primeira coluna : indice da ultima coluna + 1]

In [None]:
df_grupos_merc.iloc[5:11,0:1]

Unnamed: 0,GRUPOS
5,133002
6,133002001
7,133002002
8,134
9,134001
10,134001001


##2.5 Acessar um dado específico

**Sintaxe:** df[nome da coluna][indice da linha

In [None]:
df_grupos_merc['GRUPOS'][0]

'133'

# **3 Tratamento de Dados**

## 3.1 Padronização  dos nomes das colunas

### 3.1.1 Rename (Renomear)negrito

**Sintaxe:** df.rename(columns=dict)

**Parâmetros:**
1. dict: {'nome_atual':'nome_novo', ...texto em itálico}


In [None]:
# visualizar colunas. Observar os espaços em branco.
df_endereco.columns

Index(['Unnamed: 0', '        Ped BOL',
       'Bairro                                  ', 'Rg', 'Unnamed: 4'],
      dtype='object')

In [None]:
df_endereco = df_endereco.rename(columns={'        Ped BOL':'ped_bol', 'Bairro                                  ':'bairro','Rg':'uf'})
df_endereco

### 3.1.2 Columns

**Sintaxe:** df.columns=list

**Parâmetros:**
1. list: lista com todos os nomes novos das colunas

In [38]:
df_pedidos.columns = ['0','ped_bol','data', 'status', '4']

In [39]:
df_pedidos

Unnamed: 0,0,ped_bol,data,status,4
0,---------------------------------------,,,,
1,,900000000550488,25.03.2020,3D,
2,,900000000550588,25.03.2020,3D,
3,,900000000550646,25.03.2020,3D,
4,,900000000550648,25.03.2020,3D,
...,...,...,...,...,...
18650,,900000001316962,03.09.2020,3A,
18651,,900000001316974,03.09.2020,2I,
18652,,900000001316980,03.09.2020,2D,
18653,,900000001317024,03.09.2020,3B,


### 3.1.3 list comprehecion

**Sintaxe:** 

[operação for item x lista] #aplique a expressão operaçao em cada x da lista.

* criar e manipular listas.

In [41]:
#lista exemplo
lista = [1,2,3]

In [42]:
#exemplo de uso
[x*2 for x in lista]

[2, 4, 6]

In [43]:
#strip - remove caractere  e replace - substitui caractere
'Grp.merc.'.lower().replace('.',' ').strip().replace(' ','_').replace('.','_')

'grp_merc'

In [None]:
df_vendas.columns = [x.lower().replace('.',' ').strip().replace(' ','_').replace('.','_') for x in df_vendas.columns]
df_vendas

## 3.2 Eliminando linhas ou colunas

### 3.2.1 drop

**Sintaxe:** df.drop(list, axis=int) 

**Parâmetros:**
1. list: lista de colunas ou linhas que se deseja deletar
2. int: 0 -> deletando linhas , 1 -> deletando colunas


In [47]:
#deletando colunas
df_vendas = df_vendas.drop(['unnamed:_0', 'unnamed:_6'], axis = 1)

In [None]:
#deletando linhas
df_vendas.drop([0,40213], axis = 0)

### 3.2.2 Selecionando colunas

**Sintaxe:** df[list].copy()

**Parâmetros:**

1. list: lista de colunas a manter

In [49]:
#posso alterar a ordem das colunas, pois cria cópia de algum resultado
df_pedidos = df_pedidos[['ped_bol','data','status']].copy()

### 3.2.3 dropna

**Sintaxe:** df.dropna(axis=int,subset=list)

**Parâmetros:**
1. axis= 0, linha; 1, colunas
2. subset = lista de colunas selecionadas

In [50]:
df_vendas = df_vendas.dropna(axis = 0, subset= ['ped_bol'])

In [51]:
df_endereco = df_endereco.dropna(axis = 0, subset = ['ped_bol'])

In [None]:
df_endereco = df_endereco.(axis=1)

In [None]:
df_pedidos = df_pedidos.dropna(axi=0, subset = ['ped_bol'])

In [None]:
df_grupos_merc = df_grupos_merc.dropna(axis = 0, subset = ['ped_bol'])

## 3.3 Tipos de colunas

**Sintaxe:**

df.dtypes

* verificar tipagens das colunas

In [52]:
df_grupos_merc.dtypes

GRUPOS       object
DESCRIÇÃO    object
dtype: object