# **Organiza√ß√£o e pr√©-processamento com _pandas_**

Na √∫ltima aula, vimos os princ√≠pios de organiza√ß√£o de dados. Entendemos como devemos estruturar, organizar, exportar, salvar e cuidar de planilhas. Mas e quando recebemos uma planilha j√° pronta, o que fazer?

Bom, √© para isso que serve a aula de hoje! Hoje n√≥s vamos entender como agilizar esse processo de organiza√ß√£o de dados atrav√©s da programa√ß√£o. Mais especificamente, vamos entender como aplicamos os princ√≠pios de organiza√ß√£o de dados usando o `pandas`, uma biblioteca para manipula√ß√£o, organiza√ß√£o e pr√©-processamento de dados.

## **üí° Adicionando arquivos no Colab**

Como vimos na nossa primeira pr√°tica com o Colab, √© poss√≠vel adicionarmos arquivos no ambiente para utiliz√°-los. Para adicionar um novo arquivo vamos seguir os passos abaixo:

1. Acessaremos a √°rea de arquivos clicando no s√≠mbolo de pasta üìÅ, no menu lateral esquerdo;

2. Na √°rea de arquivos, vamos clicar no √≠cone de upload üì§ (o primeiro √† esquerda);

3. Na a tela de explora√ß√£o de arquivos que ser√° aberta, vamos selecionar o arquivo desejado;

4. Finalizado o upload, ele deve aparecer na √°rea de arquivos.

## **Abrindo os arquivos de dados**



### **Importando o pandas**

Para que possamos acessar e mexer nos nossos arquivos de dados, utilizaremos a biblioteca `pandas`.

Ent√£o, lembrando da nossa √∫ltima aula com o Colab, temos que import√°-la antes de usar.

In [None]:
#N√£o precisamos instalar o pandas porque √© nativo do colab
import pandas as pd

Dessa vez, temos dois novos componentes na nossa importa√ß√£o: `as pd`.  
Destrinchando o c√≥digo:


```python
traga a biblioteca pandas com o apelido de pd
------- ----------------- ---------------- --
import       pandas            as          pd
```

Assim, conseguimos reduzir o nome da biblioteca para n√£o ficarmos o tempo todo escrevendo `pandas.fun√ß√£o`, podendo trocar por `pd.fun√ß√£o`.


### **Lendo o arquivo**

A forma de ler o nosso arquivo com o `pandas` √© atrav√©s da fun√ß√£o `read_csv` ‚Äî pois o formato dele √© *csv*. Ent√£o, vamos passar o endere√ßo do nosso arquivo para a fun√ß√£o e guardar os dados em uma vari√°vel para podermos acessar depois.

Para encontrar o endere√ßo do arquivo:
1. Abram a aba de arquivos;
2. Cliquem com o bot√£o direito no arquivo (ou cliquem nos 3 pontinhos que aparecem no canto direito do arquivo);
3. Cliquem em "Copiar caminho";
4. Colem esse caminho dentro do par√™nteses ap√≥s `read_csv`. E lembrem de colocar entre aspas!

In [None]:
dados_biblioteca = pd.read_csv('/content/Cat√°logo de livros da biblioteca.csv')

Caso f√¥ssemos trabalhar com arquivos do Excel ‚Äî no formato *.xlsx* ‚Äî, o comando de leitura seria:


```python
dados_biblioteca = pd.read_excel('nome_do_arquivo.xlsx')
```

### **Exibindo os dados**

√â sempre importante conferirmos se os dados foram carregados corretamente e tamb√©m dar uma olhada na sua estrutura ‚Äî como os dados est√£o distribu√≠dos e ter uma ideia do que encontraremos ao explorar o conjunto.

Abaixo, temos a fun√ß√£o `head()`. Como o pr√≥prio nome indica, vamos exibir a "cabe√ßa" dos nossos dados ‚Äî por padr√£o, essa fun√ß√£o exibe **as primeiras 5 linhas** do conjunto.

In [None]:
dados_biblioteca.head()

Voc√™s devem ter percebido que a fun√ß√£o foi chamada atrav√©s da nossa vari√°vel `dados_biblioteca`. Por qu√™?  
> O que acontece quando lemos um arquivo de dados com o `pandas` √© que **transformamos o nosso arquivo em um DataFrame** (o quadro de dados). E essa estrutura permite que fa√ßamos opera√ß√µes com ela, ou seja, temos uma s√©rie de funcionalidades que podemos usar nos nossos dados. Assim, vai ser comum vermos opera√ß√µes no formato `dados_biblioteca.operacao`.

## **Princ√≠pios de organiza√ß√£o de dados com pandas**
Quando implementamos os princ√≠pios de organiza√ß√£o de dados, estamos fazendo tamb√©m uma etapa chamada "pr√©-processamento". Essa etapa trata da verifica√ß√£o dos dados, para garantir consist√™ncia e uma boa estrutura antes de fazermos an√°lises.

### **Visualizando as informa√ß√µes sobre os dados**
Come√ßando pelo come√ßo, vamos entender quais vari√°veis est√£o presentes no conjunto. Para isso, vamos usar a fun√ß√£o `info()`. Como o pr√≥prio nome j√° indica, estamos puxando as informa√ß√µes.

In [None]:
dados_biblioteca.info()

Entendendo a sa√≠da do c√≥digo:
* Na primeira linha, temos a indica√ß√£o de que essa vari√°vel √© uma estrutura do tipo Data Frame: `<class 'pandas.core.frame.DataFrame'>`;
* Logo depois, temos o intervalo dos nossos dados ‚Äî a quantidade de linhas. Podemos ver que a planilha tem 10 entradas ‚Äî `10 entries` ‚Äî, e possuem o √≠ndice de 0 at√© 9;
* Na sequ√™ncia est√° o n√∫mero de colunas, que s√£o 6: `(total 6 columns)`;
* Chegamos √† tabela com as informa√ß√µes:
  * A `#` apresenta o √≠ndice da coluna, ou seja, temos colunas na posi√ß√£o 0, 1, 2, 3, 4 e 5;
  * `Columns` traz as nomenclaturas das colunas ‚Äî os r√≥tulos das vari√°veis. Vemos que nessa planilha s√£o: `T√≠tulo do livro`, ` Autor`, `categoria`, `Data Aquisi√ß√£o`, `Exemplares` e `Prateleira`;
  * `Non-Null Count` traz informa√ß√µes sobre o n√∫mero de informa√ß√µes n√£o-nulas presentes nos dados ‚Äî ela conta, em todas as colunas, quantas das c√©lulas tem ou n√£o informa√ß√£o faltando. Nessa planilha, vemos que h√° informa√ß√µes faltando nas colunas `Autor` e `Exemplares`;
  * `Dtype` trata do tipo de dado encontrado naquela coluna ‚Äî no `pandas`, os tipos de dados s√£o apresentados de forma diferente, por√©m, `object` indica, basicamente, que na coluna foi encontrado um mix de dados.



### **Ajustando o cabe√ßalho**
Quando puxamos as informa√ß√µes sobre os dados, j√° conseguimos visualizar um cabe√ßalho mal estruturado. Temos espa√ßos em branco, letras ma√≠usculas e acentos. Vamos come√ßar lembrando do 2¬∫ princ√≠pio da organiza√ß√£o de dados: **Construa um cabe√ßalho limpo e descritivo**.

Inicialmente, vamos ver todos os nomes das nossas colunas atrav√©s da fun√ß√£o `columns`

In [None]:
dados_biblioteca.columns

In [None]:
dados_biblioteca.rename(columns={
    'T√≠tulo do livro': 'titulo_livro',
    ' Autor ': 'autor',
    'categoria  ': 'categoria',
    'Data Aquisi√ß√£o': 'data_aquisicao',
    'Exemplares': 'exemplares',
    'Prateleira': 'prateleira'
    }, inplace=True)

dados_biblioteca.info()

Vamos entender o que aconteceu nesse c√≥digo:
* A fun√ß√£o `rename`, permite renomear tanto os √≠ndices das linhas (aquele √≠ndice que aparece no come√ßo, de 0 at√© 9) quanto os das colunas (os r√≥tulos);
* Para alterarmos os r√≥tulos das colunas, chamamos o par√¢metro `columns` que diz ao pandas que estamos interessados apenas nas colunas;
* Dentro de `columns`, temos que dizer quais colunas queremos alterar e quais ser√£o os novos r√≥tulos. Para isso, usamos um dicion√°rio no formato `"nome antigo": "nome_novo"`;
* No fim, temos a linha `inplace=True`. Ela diz ao nosso c√≥digo que estamos querendo alterar os nomes das colunas diretamente no nosso arquivo original.

Finalizada a renomea√ß√£o, conferimos se deu tudo certo chamando mais uma vez a fun√ß√£o `info()`

### **Conferindo e eliminando os espa√ßos em branco**


Quando alteramos o cabe√ßalho, j√° encontramos um espa√ßo em branco na coluna `' Autor '`, que estava com espa√ßos antes e depois. E, al√©m do cabe√ßalho, temos algumas informa√ß√µes que podem conter espa√ßos assim nos nossos dados. Ent√£o, precisamos confer√≠-las, afinal, como √© abordado nos princ√≠pios, devemos ter **cuidado com espa√ßos em branco**.

In [None]:
for coluna in dados_biblioteca.columns:
    display(dados_biblioteca[coluna].value_counts())

O que fizemos nesse c√≥digo:
* Criamos um loop que vai acessar cada coluna do nosso conjunto: `for coluna in dados_biblioteca.columns`;
* Pedimos para o `pandas` contar as frequ√™ncias das observa√ß√µes dentro de cada coluna: `dados_biblitoeca[coluna].value_counts()`.

Ap√≥s a execu√ß√£o da fun√ß√£o, o que vemos √© uma contagem de frequ√™ncias para cada uma das colunas. Isso permite que a gente verifique se h√° ocorr√™ncias de palavras iguais que sofreram contagens distintas (vejam na coluna `categoria`, onde "Computa√ß√£o" aparece mais de uma vez).

Uma outra forma de visualizar essas ocorr√™ncias com espa√ßo em branco, √© atrav√©s da fun√ß√£o `unique`, que exibe apenas os valores √∫nicos dentro de cada coluna.


In [None]:
for coluna in dados_biblioteca.columns:
    print(coluna, dados_biblioteca[coluna].unique())

Dessa forma, conseguimos visualizar as ocorr√™ncias com as aspas, o que facilita a visualiza√ß√£o do espa√ßos em branco.

Agora, **precisamos apagar esses espa√ßos em branco**. E, para isso, o Python j√° tem uma fun√ß√£o perfeita, chamada `strip()`. Essa fun√ß√£o corta qualquer espa√ßo em branco antes ou depois de uma palavra:  
Por exemplo: `'  ol√°'` vira `'ol√°'`

In [None]:
colunas_interesse = ['autor', 'categoria']

for coluna in colunas_interesse:
    dados_biblioteca[coluna] = dados_biblioteca[coluna].str.strip()
    print(coluna, dados_biblioteca[coluna].unique())

Nesse c√≥digo, come√ßamos definindo quais colunas s√£o do nosso interesse ‚Äî as colunas que vimos que t√™m espa√ßos em branco nas suas ocorr√™ncias.
Em seguida, percorremos essas colunas aplicando a fun√ß√£o `strip`.

O que aconteceu dentro do loop:  
Quando escrevemos `dados_biblioteca[coluna] = dados_biblioteca[coluna].str.strip()`, estamos dizendo que a coluna do nosso conjunto vai receber os seus dados ap√≥s eles serem transformados pela fun√ß√£o `strip`.  
No final, exibimos os dados √∫nicos para saber se a nossa fun√ß√£o deu certo.

### **Padronizando as vari√°veis categ√≥ricas**
Tanto executando a fun√ß√£o `value_counts()` quanto a `unique()`, vimos que al√©m dos espa√ßos em branco, n√£o havia uma padroniza√ß√£o na coluna `categoria`.  
Nela, encontramos uma mesma classe com letras mai√∫sculas e min√∫sculas, ou com e sem acento. Ent√£o, lembrando que devemos **adotar um padr√£o para vari√°veis categ√≥ricas**, temos que alterar essa coluna.

In [None]:
dados_biblioteca['categoria'] = dados_biblioteca['categoria'].str.lower()
dados_biblioteca['categoria'].value_counts()

In [None]:
dados_biblioteca['categoria'] = dados_biblioteca['categoria'].replace("ciencias", "ci√™ncias")
dados_biblioteca['categoria'].value_counts()

Entendendo os c√≥digos:
* `dados_biblioteca['categoria'].str.lower()` transformou todas as categorias deixando-as apenas com letras min√∫sculas ‚Äî por isso o `lower`;
* `dados_biblioteca['categoria'].replace("ciencias", "ci√™ncias")`: substituiu as ocorr√™ncias de "ciencias" (sem acento) por "ci√™ncias" (com acento).

Usamos a fun√ß√£o de `value_counts()` apenas para conferir se tudo foi executado do jeito que gostar√≠amos.

### **Verificando e padronizando dados ausentes**
Algumas das vezes que exibimos os dados, vimos uma palavra estranha: `nan`. No Python, isso significa "not a number" (em portugu√™s, "n√£o √© um n√∫mero"). Isso acontece devido √† aus√™ncia de dados, e o `nan` √© o padr√£o que o `pandas` adota para exib√≠-los.

In [None]:
dados_biblioteca.isnull().sum()

Come√ßamos conferindo quais s√£o as colunas que possuem dados ausentes. Para isso, chamamos a fun√ß√£o `isnull`, que indica quais as colunas t√™m valores ausentes, e, na sequ√™ncia, chamamos a fun√ß√£o `sum`, que soma a quantidade de ocorr√™ncias.  
Podemos ver que nas colunas `autor` e `exemplares`, temos valores nulos.

In [None]:
dados_biblioteca['autor'] = dados_biblioteca['autor'].fillna('n√£o catalogado')
dados_biblioteca['autor'].unique()

In [None]:
dados_biblioteca['exemplares'].unique()

In [None]:
dados_biblioteca['exemplares'] = dados_biblioteca['exemplares'].fillna(0)
dados_biblioteca['exemplares'] = dados_biblioteca['exemplares'].replace('n√£o dispon√≠vel', 0)
dados_biblioteca['exemplares'] = dados_biblioteca['exemplares'].replace('indispon√≠vel', 0)

dados_biblioteca['exemplares'].unique()

Agora a gente fez muita coisa. Vamos entender passo a passo:
1. Come√ßamos alterando o valor faltante na coluna `autor` para `n√£o catalogado`. Fizemos isso pois o livro foi escrito por algu√©m, s√≥ que esqueceram de catalogar;
2. Alteramos para '0' os valores faltantes na coluna `exemplares`. Por qu√™?
3. Vimos que nessa mesma coluna (`exemplares`) haviam valores n√£o padronizados. E, como est√°vamos tratando de n√∫mero de livros dispon√≠veis, se eles n√£o est√£o dispon√≠veis, o n√∫mero de exemplares √© 0.

### **Ajustando o nome do arquivo e salvando**
N√≥s aplicamos os princ√≠pios de organiza√ß√£o nos nossos dados atrav√©s da biblioteca `pandas`, e agora precisamos salv√°-los.  
Para isso, precisamos de um novo nome de arquivo, j√° que o nome anterior "Cat√°logo de livros da biblioteca" n√£o estava dentro dos padr√µes, e tamb√©m decidir em qual formato vamos salv√°-lo.

In [None]:
# Primeiro, vamos exibir como ficaram os nossos dados
dados_biblioteca

In [None]:
dados_biblioteca.to_csv('cdp_catalogo-biblioteca_versao-2.csv', index=False)

Adotamos uma nomenclatura seguindo os padr√µes estabelecidos nos nossos princ√≠pios e salvamos o arquivo em um formato n√£o propriet√°rio, o *csv*.  

E onde foi parar o arquivo?
> Quando salvamos um arquivo no Google Colab, ele sempre vai para a aba de arquivos. Ent√£o, para acessar a nossa nova planilha, cliquem mais uma vez na pasta üìÅ, no menu √† esquerda.

Agora que voc√™s encontraram o arquivo, salvem no computador de voc√™s. Para isso:
1. Cliquem com o bot√£o direito nele (ou nos tr√™s pontinhos √† direita);
2. Baixem o arquivo clicando em "Fazer download".

Dessa forma, o arquivo que voc√™ produziu aqui dentro do Colab, pode ficar salvo no seu computador. E, sempre que voc√™ quiser mexer nele de novo, basta abrir o Colab, seguir o passo a passo l√° do in√≠cio para inserir e abrir o arquivo, que √© sucesso!

## **No pr√≥ximo m√≥dulo...**
Falamos muito sobre organizar os dados para n√£o sofrermos no momento da an√°lise. Pois √©, no pr√≥ximo m√≥dulo chegaremos nessa etapa, na an√°lise dos dados.

Para dar um gostinho do que vamos ver. Segue uma pequena fun√ß√£o do pr√≥prio `pandas` que j√° √© uma m√£o na roda.


In [None]:
df_biblioteca = pd.read_csv('/content/cdp_catalogo-biblioteca_versao-2.csv')

df_biblioteca['exemplares'].describe()

---
<p align="left">
    <small>
    <strong>Ci√™ncia de Dados para Pesquisa </strong></br>
    <I> M√≥dulo 2 - Organiza√ß√£o e pr√©-processamento </I>
    </small>
</p>