<a href="https://colab.research.google.com/github/cloealberto/pythondatacleaning_bookstore/blob/main/PythonDataCleaning.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [4]:
import pandas as pd
import numpy as np

In [5]:
df = pd.read_csv('books_dataset.csv')

In [6]:
df.head()

Unnamed: 0,Identifier,Edition Statement,Place of Publication,Date of Publication,Publisher,Title,Author,Contributors,Corporate Author,Corporate Contributors,Former owner,Engraver,Issuance type,Flickr URL,Shelfmarks
0,206,,London,1879 [1878],S. Tinsley & Co.,Walter Forbes. [A novel.] By A. A,A. A.,"FORBES, Walter.",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 12641.b.30.
1,216,,London; Virtue & Yorston,1868,Virtue & Co.,All for Greed. [A novel. The dedication signed...,"A., A. A.","BLAZE DE BURY, Marie Pauline Rose - Baroness",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 12626.cc.2.
2,218,,London,1869,"Bradbury, Evans & Co.",Love the Avenger. By the author of “All for Gr...,"A., A. A.","BLAZE DE BURY, Marie Pauline Rose - Baroness",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 12625.dd.1.
3,472,,London,1851,James Darling,"Welsh Sketches, chiefly ecclesiastical, to the...","A., E. S.","Appleyard, Ernest Silvanus.",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 10369.bbb.15.
4,480,"A new edition, revised, etc.",London,1857,Wertheim & Macintosh,"[The World in which I live, and my place in it...","A., E. S.","BROOME, John Henry.",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 9007.d.28.


Ao analisarmos as cinco primeiras entradas usando o método head(), podemos observar que algumas colunas fornecem informações adicionais que seriam úteis para a biblioteca, mas não são muito descritivas sobre os livros em si: "Edition Statement", "Corporate Author", "Corporate Contributors", "Former Owner", "Engraver", "Issuance Type" e "Shelfmarks".

Podemos remover essas colunas da seguinte forma:

In [7]:
deletar_colunas = [
    "Edition Statement",
    "Corporate Author",
    "Corporate Contributors",
    "Former owner",
    "Engraver",
    "Contributors",
    "Issuance type",
    "Shelfmarks",
]

df.drop(deletar_colunas, inplace = True, axis = 1)

Acima, definimos uma lista contendo os nomes de todas as colunas que queremos remover. Em seguida, chamamos a função drop() em nosso objeto, passando o parâmetro inplace como True e o parâmetro axis como 1. Isso informa ao pandas que queremos que as alterações sejam feitas diretamente em nosso objeto e que ele deve procurar os valores a serem removidos nas colunas.

Quando inspecionarmos o DataFrame novamente, veremos que as colunas indesejadas foram removidas:

In [8]:
df.head()

Unnamed: 0,Identifier,Place of Publication,Date of Publication,Publisher,Title,Author,Flickr URL
0,206,London,1879 [1878],S. Tinsley & Co.,Walter Forbes. [A novel.] By A. A,A. A.,http://www.flickr.com/photos/britishlibrary/ta...
1,216,London; Virtue & Yorston,1868,Virtue & Co.,All for Greed. [A novel. The dedication signed...,"A., A. A.",http://www.flickr.com/photos/britishlibrary/ta...
2,218,London,1869,"Bradbury, Evans & Co.",Love the Avenger. By the author of “All for Gr...,"A., A. A.",http://www.flickr.com/photos/britishlibrary/ta...
3,472,London,1851,James Darling,"Welsh Sketches, chiefly ecclesiastical, to the...","A., E. S.",http://www.flickr.com/photos/britishlibrary/ta...
4,480,London,1857,Wertheim & Macintosh,"[The World in which I live, and my place in it...","A., E. S.",http://www.flickr.com/photos/britishlibrary/ta...


**Alterando o Índice de um DataFrame**<br>
Um índice do pandas amplia a funcionalidade dos arrays do NumPy, permitindo um fatiamento e rotulagem mais versáteis. Em muitos casos, é útil usar um campo de identificação com valores únicos como índice do DataFrame.

Por exemplo, no conjunto de dados utilizado na seção anterior, é esperado que, ao buscar um registro, um bibliotecário possa inserir o identificador único (os valores na coluna "Identifier") de um livro:

In [9]:
df['Identifier'].is_unique

True

Vamos substituir o índice existente por essa coluna usando o método **set_index:**

In [10]:
df = df.set_index('Identifier')
df.head()

Unnamed: 0_level_0,Place of Publication,Date of Publication,Publisher,Title,Author,Flickr URL
Identifier,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
206,London,1879 [1878],S. Tinsley & Co.,Walter Forbes. [A novel.] By A. A,A. A.,http://www.flickr.com/photos/britishlibrary/ta...
216,London; Virtue & Yorston,1868,Virtue & Co.,All for Greed. [A novel. The dedication signed...,"A., A. A.",http://www.flickr.com/photos/britishlibrary/ta...
218,London,1869,"Bradbury, Evans & Co.",Love the Avenger. By the author of “All for Gr...,"A., A. A.",http://www.flickr.com/photos/britishlibrary/ta...
472,London,1851,James Darling,"Welsh Sketches, chiefly ecclesiastical, to the...","A., E. S.",http://www.flickr.com/photos/britishlibrary/ta...
480,London,1857,Wertheim & Macintosh,"[The World in which I live, and my place in it...","A., E. S.",http://www.flickr.com/photos/britishlibrary/ta...


A gente pode acessar cada registro de forma bem simples com o loc[]. Apesar de o nome loc[] não ser tão intuitivo, ele permite fazer o "indexamento por rótulos", ou seja, buscar uma linha ou registro usando o nome dela, sem se preocupar com a posição:

In [11]:
df.loc[206]

Unnamed: 0,206
Place of Publication,London
Date of Publication,1879 [1878]
Publisher,S. Tinsley & Co.
Title,Walter Forbes. [A novel.] By A. A
Author,A. A.
Flickr URL,http://www.flickr.com/photos/britishlibrary/ta...


Em outras palavras, 206 é o primeiro rótulo do índice. Para acessar ele pela posição, a gente pode usar df.iloc[0], que faz o indexamento baseado na posição.

Antes, o nosso índice era um RangeIndex: números inteiros começando do 0, parecido com o range do Python. Quando passamos o nome de uma coluna para o set_index, a gente muda o índice para os valores dessa coluna chamada "Identifier".



Até agora, a gente removeu colunas desnecessárias e mudou o índice do nosso DataFrame para algo mais sensato. Nesta parte, vamos limpar colunas específicas e padronizá-las para entender melhor o conjunto de dados e garantir consistência. Em especial, vamos limpar as colunas de "Data de Publicação" e "Local de Publicação".

Ao analisar, todos os tipos de dados estão como object, que é mais ou menos equivalente a str no Python nativo.

Esse tipo abrange qualquer campo que não se encaixa bem como dado numérico ou categórico. Isso faz sentido, já que estamos lidando com dados que, inicialmente, são um monte de strings desorganizadas.

In [12]:
df.dtypes.value_counts()

Unnamed: 0,count
object,6



Um campo em que faz sentido garantir um valor numérico é a data de publicação, para que a gente possa fazer cálculos mais tarde:

In [13]:
df.loc[1905:, 'Date of Publication'].head()

Unnamed: 0_level_0,Date of Publication
Identifier,Unnamed: 1_level_1
1905,1888
1929,"1839, 38-54"
2836,1897
2854,1865
2956,1860-63


Um livro específico pode ter apenas uma data de publicação.<br> Então, precisamos fazer o seguinte:

Remover as datas extras entre colchetes, onde houver: 1879 [1878]<br>
Converter intervalos de datas para o "ano inicial", onde houver: 1860-63; 1839, 38-54<br>
Remover completamente as datas incertas e substituí-las por NaN do NumPy: [1897?]<br>
Converter a string "nan" para o valor NaN do NumPy<br>
Unindo esses padrões, a gente pode aproveitar uma única expressão regular para extrair o ano de publicação:

In [14]:
regularexpression = r'^(\d{4})'

A expressão regular acima foi feita para encontrar qualquer sequência de quatro dígitos no começo de uma string, o que já resolve o nosso caso.<br> Esse é um raw string (ou seja, a barra invertida não é mais um caractere de escape), o que é uma prática padrão com expressões regulares.
<br>
O \d representa qualquer dígito, e o {4} repete essa regra quatro vezes.<br> O caractere ^ corresponde ao início de uma string, e os parênteses indicam um capturing group, que sinaliza ao pandas que queremos extrair essa parte da regex. <br>Usamos o ^ para evitar casos em que um colchete [ aparece logo no início da string.

Vamos ver o que acontece quando rodamos essa regex no nosso dataset:

In [15]:
extrair_ano = df['Date of Publication'].str.extract(r'^(\d{4})', expand=False)
extrair_ano.head()

Unnamed: 0_level_0,Date of Publication
Identifier,Unnamed: 1_level_1
206,1879
216,1868
218,1869
472,1851
480,1857



Tecnicamente, essa coluna ainda tem o tipo object, mas a gente pode facilmente converter para um valor numérico usando pd.to_numeric:

In [16]:
df['Date of Publication'] = pd.to_numeric(extrair_ano)
df['Date of Publication'].dtype

dtype('float64')


Isso resulta em cerca de um em cada dez valores ficando faltando, o que é um pequeno preço a pagar para que agora a gente consiga fazer cálculos nos valores válidos que sobraram:



In [17]:
percentual_missing_values = df['Date of Publication'].isnull().sum() / len(df)
print(f'O percetual de missing values no dataset é {percentual_missing_values}')

O percetual de missing values no dataset é 0.11717147339205986


**Combinando Métodos str com NumPy para Limpar Colunas**

Acima, você deve ter notado o uso de df['Date of Publication'].str. <br>Esse atributo é uma forma de acessar operações rápidas de strings no pandas, que imitam em grande parte as operações em strings nativas do Python ou expressões regulares compiladas, como .split(), .replace() e .capitalize().
<br>
Para limpar o campo "Place of Publication", podemos combinar os métodos str do pandas com a função np.where do NumPy, que é basicamente uma forma vetorizada da macro IF() do Excel. A sintaxe dela é a seguinte:<br><br>
**np.where(condition, then, else)**








Aqui, condition pode ser um objeto parecido com um array ou uma máscara booleana. then é o valor a ser usado se a condição for avaliada como verdadeira, e else é o valor a ser utilizado caso contrário.

Basicamente, .where() pega cada elemento do objeto usado para a condição, verifica se esse elemento específico é verdadeiro no contexto da condição e retorna um ndarray contendo then ou else, dependendo do que se aplica.

Ela pode ser aninhada em uma declaração composta de if-then, permitindo que a gente calcule valores com base em múltiplas condições:
<br><br>
**np.where(condition1, x1,
        np.where(condition2, x2,
            np.where(condition3, x3, ...)))**

Vamos usar essas duas funções para limpar a coluna "Place of Publication", já que ela contém objetos do tipo string. <br>Aqui estão os conteúdos da coluna:

In [18]:
df['Place of Publication'].head(10)

Unnamed: 0_level_0,Place of Publication
Identifier,Unnamed: 1_level_1
206,London
216,London; Virtue & Yorston
218,London
472,London
480,London
481,London
519,London
667,"pp. 40. G. Bryan & Co: Oxford, 1898"
874,London]
1143,London


Percebemos que, em algumas linhas, o local de publicação está cercado por outras informações desnecessárias. <br>Se fôssemos olhar mais valores, veríamos que isso acontece apenas em algumas linhas em que o local de publicação é "London" ou "Oxford".<br><br>

Vamos dar uma olhada em duas entradas específicas:

In [19]:
df.loc[4157862]

Unnamed: 0,4157862
Place of Publication,Newcastle-upon-Tyne
Date of Publication,1867.0
Publisher,T. Fordyce
Title,"Local Records; or, Historical Register of rema..."
Author,"FORDYCE, T. - Printer, of Newcastle-upon-Tyne"
Flickr URL,http://www.flickr.com/photos/britishlibrary/ta...


In [20]:
df.loc[4159587]

Unnamed: 0,4159587
Place of Publication,Newcastle upon Tyne
Date of Publication,1834.0
Publisher,Mackenzie & Dent
Title,"An historical, topographical and descriptive v..."
Author,"Mackenzie, E. (Eneas)"
Flickr URL,http://www.flickr.com/photos/britishlibrary/ta...


Esses dois livros foram publicados no mesmo lugar, mas um tem hífens no nome do local, enquanto o outro não.

Para limpar essa coluna de uma vez, podemos usar str.contains() para obter uma máscara booleana.

Vamos limpar a coluna da seguinte forma:

In [21]:
lugar_publicacao = df['Place of Publication']
londres = lugar_publicacao.str.contains('London')
londres[:5]

Unnamed: 0_level_0,Place of Publication
Identifier,Unnamed: 1_level_1
206,True
216,True
218,True
472,True
480,True


In [22]:
oxford = lugar_publicacao.str.contains('Oxford')

Agora a gente combina eles com np.where:

In [23]:
df['Place of Publication'] = np.where(londres, 'London',
                                      np.where(oxford, 'Oxford',
                                               lugar_publicacao.str.replace('-', ' ')))
df['Place of Publication'].head()

Unnamed: 0_level_0,Place of Publication
Identifier,Unnamed: 1_level_1
206,London
216,London
218,London
472,London
480,London


Aqui, a função np.where é chamada em uma estrutura aninhada, com condition sendo uma Série de booleanos obtida com str.contains(). <br>O método contains() funciona de maneira semelhante ao operador in embutido, que é usado para encontrar a ocorrência de uma entidade em um iterável (ou substring em uma string).
<br>
O valor de substituição que vamos usar é uma string representando o nosso local de publicação desejado. <br>Também substituímos os hífens por espaços usando str.replace() e reatribuímos à coluna no nosso DataFrame.
<br>
Embora haja mais dados desorganizados nesse conjunto de dados, vamos discutir apenas essas duas colunas por enquanto.
<br>
Vamos dar uma olhada nas cinco primeiras entradas, que agora estão bem mais organizadas do que quando começamos:

In [24]:
df.head()

Unnamed: 0_level_0,Place of Publication,Date of Publication,Publisher,Title,Author,Flickr URL
Identifier,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
206,London,1879.0,S. Tinsley & Co.,Walter Forbes. [A novel.] By A. A,A. A.,http://www.flickr.com/photos/britishlibrary/ta...
216,London,1868.0,Virtue & Co.,All for Greed. [A novel. The dedication signed...,"A., A. A.",http://www.flickr.com/photos/britishlibrary/ta...
218,London,1869.0,"Bradbury, Evans & Co.",Love the Avenger. By the author of “All for Gr...,"A., A. A.",http://www.flickr.com/photos/britishlibrary/ta...
472,London,1851.0,James Darling,"Welsh Sketches, chiefly ecclesiastical, to the...","A., E. S.",http://www.flickr.com/photos/britishlibrary/ta...
480,London,1857.0,Wertheim & Macintosh,"[The World in which I live, and my place in it...","A., E. S.",http://www.flickr.com/photos/britishlibrary/ta...


In [25]:
df.isnull().sum()

Unnamed: 0,0
Place of Publication,0
Date of Publication,971
Publisher,4195
Title,0
Author,1778
Flickr URL,0
