# **Organização e pré-processamento com _pandas_**

Na última aula, vimos os princípios de organização de dados. Entendemos como devemos estruturar, organizar, exportar, salvar e cuidar de planilhas. Mas e quando recebemos uma planilha já pronta, o que fazer?

Bom, é para isso que serve a aula de hoje! Hoje nós vamos entender como agilizar esse processo de organização de dados através da programação. Mais especificamente, vamos entender como aplicamos os princípios de organização de dados usando o `pandas`, uma biblioteca para manipulação, organização e pré-processamento de dados.

## **💡 Adicionando arquivos no Colab**

Como vimos na nossa primeira prática com o Colab, é possível adicionarmos arquivos no ambiente para utilizá-los. Para adicionar um novo arquivo vamos seguir os passos abaixo:

1. Acessaremos a área de arquivos clicando no símbolo de pasta 📁, no menu lateral esquerdo;

2. Na área de arquivos, vamos clicar no ícone de upload 📤 (o primeiro à esquerda);

3. Na a tela de exploração de arquivos que será aberta, vamos selecionar o arquivo desejado;

4. Finalizado o upload, ele deve aparecer na área de arquivos.

## **Abrindo os arquivos de dados**



### **Importando o pandas**

Para que possamos acessar e mexer nos nossos arquivos de dados, utilizaremos a biblioteca `pandas`.

Então, lembrando da nossa última aula com o Colab, temos que importá-la antes de usar.

In [None]:
#Não precisamos instalar o pandas porque é nativo do colab
import pandas as pd

Dessa vez, temos dois novos componentes na nossa importação: `as pd`.  
Destrinchando o código:


```python
traga a biblioteca pandas com o apelido de pd
------- ----------------- ---------------- --
import       pandas            as          pd
```

Assim, conseguimos reduzir o nome da biblioteca para não ficarmos o tempo todo escrevendo `pandas.função`, podendo trocar por `pd.função`.


### **Lendo o arquivo**

A forma de ler o nosso arquivo com o `pandas` é através da função `read_csv` — pois o formato dele é *csv*. Então, vamos passar o endereço do nosso arquivo para a função e guardar os dados em uma variável para podermos acessar depois.

Para encontrar o endereço do arquivo:
1. Abram a aba de arquivos;
2. Cliquem com o botão direito no arquivo (ou cliquem nos 3 pontinhos que aparecem no canto direito do arquivo);
3. Cliquem em "Copiar caminho";
4. Colem esse caminho dentro do parênteses após `read_csv`. E lembrem de colocar entre aspas!

In [None]:
dados_biblioteca = pd.read_csv('/content/Catálogo de livros da biblioteca.csv')

Caso fôssemos trabalhar com arquivos do Excel — no formato *.xlsx* —, o comando de leitura seria:


```python
dados_biblioteca = pd.read_excel('nome_do_arquivo.xlsx')
```

### **Exibindo os dados**

É sempre importante conferirmos se os dados foram carregados corretamente e também dar uma olhada na sua estrutura — como os dados estão distribuídos e ter uma ideia do que encontraremos ao explorar o conjunto.

Abaixo, temos a função `head()`. Como o próprio nome indica, vamos exibir a "cabeça" dos nossos dados — por padrão, essa função exibe **as primeiras 5 linhas** do conjunto.

In [None]:
dados_biblioteca.head()

Vocês devem ter percebido que a função foi chamada através da nossa variável `dados_biblioteca`. Por quê?  
> O que acontece quando lemos um arquivo de dados com o `pandas` é que **transformamos o nosso arquivo em um DataFrame** (o quadro de dados). E essa estrutura permite que façamos operações com ela, ou seja, temos uma série de funcionalidades que podemos usar nos nossos dados. Assim, vai ser comum vermos operações no formato `dados_biblioteca.operacao`.

## **Princípios de organização de dados com pandas**
Quando implementamos os princípios de organização de dados, estamos fazendo também uma etapa chamada "pré-processamento". Essa etapa trata da verificação dos dados, para garantir consistência e uma boa estrutura antes de fazermos análises.

### **Visualizando as informações sobre os dados**
Começando pelo começo, vamos entender quais variáveis estão presentes no conjunto. Para isso, vamos usar a função `info()`. Como o próprio nome já indica, estamos puxando as informações.

In [None]:
dados_biblioteca.info()

Entendendo a saída do código:
* Na primeira linha, temos a indicação de que essa variável é uma estrutura do tipo Data Frame: `<class 'pandas.core.frame.DataFrame'>`;
* Logo depois, temos o intervalo dos nossos dados — a quantidade de linhas. Podemos ver que a planilha tem 10 entradas — `10 entries` —, e possuem o índice de 0 até 9;
* Na sequência está o número de colunas, que são 6: `(total 6 columns)`;
* Chegamos à tabela com as informações:
  * A `#` apresenta o índice da coluna, ou seja, temos colunas na posição 0, 1, 2, 3, 4 e 5;
  * `Columns` traz as nomenclaturas das colunas — os rótulos das variáveis. Vemos que nessa planilha são: `Título do livro`, ` Autor`, `categoria`, `Data Aquisição`, `Exemplares` e `Prateleira`;
  * `Non-Null Count` traz informações sobre o número de informações não-nulas presentes nos dados — ela conta, em todas as colunas, quantas das células tem ou não informação faltando. Nessa planilha, vemos que há informações faltando nas colunas `Autor` e `Exemplares`;
  * `Dtype` trata do tipo de dado encontrado naquela coluna — no `pandas`, os tipos de dados são apresentados de forma diferente, porém, `object` indica, basicamente, que na coluna foi encontrado um mix de dados.



### **Ajustando o cabeçalho**
Quando puxamos as informações sobre os dados, já conseguimos visualizar um cabeçalho mal estruturado. Temos espaços em branco, letras maíusculas e acentos. Vamos começar lembrando do 2º princípio da organização de dados: **Construa um cabeçalho limpo e descritivo**.

Inicialmente, vamos ver todos os nomes das nossas colunas através da função `columns`

In [None]:
dados_biblioteca.columns

In [None]:
dados_biblioteca.rename(columns={
    'Título do livro': 'titulo_livro',
    ' Autor ': 'autor',
    'categoria  ': 'categoria',
    'Data Aquisição': 'data_aquisicao',
    'Exemplares': 'exemplares',
    'Prateleira': 'prateleira'
    }, inplace=True)

dados_biblioteca.info()

Vamos entender o que aconteceu nesse código:
* A função `rename`, permite renomear tanto os índices das linhas (aquele índice que aparece no começo, de 0 até 9) quanto os das colunas (os rótulos);
* Para alterarmos os rótulos das colunas, chamamos o parâmetro `columns` que diz ao pandas que estamos interessados apenas nas colunas;
* Dentro de `columns`, temos que dizer quais colunas queremos alterar e quais serão os novos rótulos. Para isso, usamos um dicionário no formato `"nome antigo": "nome_novo"`;
* No fim, temos a linha `inplace=True`. Ela diz ao nosso código que estamos querendo alterar os nomes das colunas diretamente no nosso arquivo original.

Finalizada a renomeação, conferimos se deu tudo certo chamando mais uma vez a função `info()`

### **Conferindo e eliminando os espaços em branco**


Quando alteramos o cabeçalho, já encontramos um espaço em branco na coluna `' Autor '`, que estava com espaços antes e depois. E, além do cabeçalho, temos algumas informações que podem conter espaços assim nos nossos dados. Então, precisamos conferí-las, afinal, como é abordado nos princípios, devemos ter **cuidado com espaços em branco**.

In [None]:
for coluna in dados_biblioteca.columns:
    display(dados_biblioteca[coluna].value_counts())

O que fizemos nesse código:
* Criamos um loop que vai acessar cada coluna do nosso conjunto: `for coluna in dados_biblioteca.columns`;
* Pedimos para o `pandas` contar as frequências das observações dentro de cada coluna: `dados_biblitoeca[coluna].value_counts()`.

Após a execução da função, o que vemos é uma contagem de frequências para cada uma das colunas. Isso permite que a gente verifique se há ocorrências de palavras iguais que sofreram contagens distintas (vejam na coluna `categoria`, onde "Computação" aparece mais de uma vez).

Uma outra forma de visualizar essas ocorrências com espaço em branco, é através da função `unique`, que exibe apenas os valores únicos dentro de cada coluna.


In [None]:
for coluna in dados_biblioteca.columns:
    print(coluna, dados_biblioteca[coluna].unique())

Dessa forma, conseguimos visualizar as ocorrências com as aspas, o que facilita a visualização do espaços em branco.

Agora, **precisamos apagar esses espaços em branco**. E, para isso, o Python já tem uma função perfeita, chamada `strip()`. Essa função corta qualquer espaço em branco antes ou depois de uma palavra:  
Por exemplo: `'  olá'` vira `'olá'`

In [None]:
colunas_interesse = ['autor', 'categoria']

for coluna in colunas_interesse:
    dados_biblioteca[coluna] = dados_biblioteca[coluna].str.strip()
    print(coluna, dados_biblioteca[coluna].unique())

Nesse código, começamos definindo quais colunas são do nosso interesse — as colunas que vimos que têm espaços em branco nas suas ocorrências.
Em seguida, percorremos essas colunas aplicando a função `strip`.

O que aconteceu dentro do loop:  
Quando escrevemos `dados_biblioteca[coluna] = dados_biblioteca[coluna].str.strip()`, estamos dizendo que a coluna do nosso conjunto vai receber os seus dados após eles serem transformados pela função `strip`.  
No final, exibimos os dados únicos para saber se a nossa função deu certo.

### **Padronizando as variáveis categóricas**
Tanto executando a função `value_counts()` quanto a `unique()`, vimos que além dos espaços em branco, não havia uma padronização na coluna `categoria`.  
Nela, encontramos uma mesma classe com letras maiúsculas e minúsculas, ou com e sem acento. Então, lembrando que devemos **adotar um padrão para variáveis categóricas**, temos que alterar essa coluna.

In [None]:
dados_biblioteca['categoria'] = dados_biblioteca['categoria'].str.lower()
dados_biblioteca['categoria'].value_counts()

In [None]:
dados_biblioteca['categoria'] = dados_biblioteca['categoria'].replace("ciencias", "ciências")
dados_biblioteca['categoria'].value_counts()

Entendendo os códigos:
* `dados_biblioteca['categoria'].str.lower()` transformou todas as categorias deixando-as apenas com letras minúsculas — por isso o `lower`;
* `dados_biblioteca['categoria'].replace("ciencias", "ciências")`: substituiu as ocorrências de "ciencias" (sem acento) por "ciências" (com acento).

Usamos a função de `value_counts()` apenas para conferir se tudo foi executado do jeito que gostaríamos.

### **Verificando e padronizando dados ausentes**
Algumas das vezes que exibimos os dados, vimos uma palavra estranha: `nan`. No Python, isso significa "not a number" (em português, "não é um número"). Isso acontece devido à ausência de dados, e o `nan` é o padrão que o `pandas` adota para exibí-los.

In [None]:
dados_biblioteca.isnull().sum()

Começamos conferindo quais são as colunas que possuem dados ausentes. Para isso, chamamos a função `isnull`, que indica quais as colunas têm valores ausentes, e, na sequência, chamamos a função `sum`, que soma a quantidade de ocorrências.  
Podemos ver que nas colunas `autor` e `exemplares`, temos valores nulos.

In [None]:
dados_biblioteca['autor'] = dados_biblioteca['autor'].fillna('não catalogado')
dados_biblioteca['autor'].unique()

In [None]:
dados_biblioteca['exemplares'].unique()

In [None]:
dados_biblioteca['exemplares'] = dados_biblioteca['exemplares'].fillna(0)
dados_biblioteca['exemplares'] = dados_biblioteca['exemplares'].replace('não disponível', 0)
dados_biblioteca['exemplares'] = dados_biblioteca['exemplares'].replace('indisponível', 0)

dados_biblioteca['exemplares'].unique()

Agora a gente fez muita coisa. Vamos entender passo a passo:
1. Começamos alterando o valor faltante na coluna `autor` para `não catalogado`. Fizemos isso pois o livro foi escrito por alguém, só que esqueceram de catalogar;
2. Alteramos para '0' os valores faltantes na coluna `exemplares`. Por quê?
3. Vimos que nessa mesma coluna (`exemplares`) haviam valores não padronizados. E, como estávamos tratando de número de livros disponíveis, se eles não estão disponíveis, o número de exemplares é 0.

### **Ajustando o nome do arquivo e salvando**
Nós aplicamos os princípios de organização nos nossos dados através da biblioteca `pandas`, e agora precisamos salvá-los.  
Para isso, precisamos de um novo nome de arquivo, já que o nome anterior "Catálogo de livros da biblioteca" não estava dentro dos padrões, e também decidir em qual formato vamos salvá-lo.

In [None]:
# Primeiro, vamos exibir como ficaram os nossos dados
dados_biblioteca

In [None]:
dados_biblioteca.to_csv('cdp_catalogo-biblioteca_versao-2.csv', index=False)

Adotamos uma nomenclatura seguindo os padrões estabelecidos nos nossos princípios e salvamos o arquivo em um formato não proprietário, o *csv*.  

E onde foi parar o arquivo?
> Quando salvamos um arquivo no Google Colab, ele sempre vai para a aba de arquivos. Então, para acessar a nossa nova planilha, cliquem mais uma vez na pasta 📁, no menu à esquerda.

Agora que vocês encontraram o arquivo, salvem no computador de vocês. Para isso:
1. Cliquem com o botão direito nele (ou nos três pontinhos à direita);
2. Baixem o arquivo clicando em "Fazer download".

Dessa forma, o arquivo que você produziu aqui dentro do Colab, pode ficar salvo no seu computador. E, sempre que você quiser mexer nele de novo, basta abrir o Colab, seguir o passo a passo lá do início para inserir e abrir o arquivo, que é sucesso!

## **No próximo módulo...**
Falamos muito sobre organizar os dados para não sofrermos no momento da análise. Pois é, no próximo módulo chegaremos nessa etapa, na análise dos dados.

Para dar um gostinho do que vamos ver. Segue uma pequena função do próprio `pandas` que já é uma mão na roda.


In [None]:
df_biblioteca = pd.read_csv('/content/cdp_catalogo-biblioteca_versao-2.csv')

df_biblioteca['exemplares'].describe()

---
<p align="left">
    <small>
    <strong>Ciência de Dados para Pesquisa </strong></br>
    <I> Módulo 2 - Organização e pré-processamento </I>
    </small>
</p>