![logos](https://files.realpython.com/media/data-cleaning-numpy-pandas.0897550e8675.jpg)

No código de hoje iremos lidar com a Limpeza / Higienização de dados usando <b>Python</b><p>
    Usaremos as biliotecas "mais famosas" a <b>NUMPY</b> e <b>PANDAS</b>

In [1]:
import pandas as pd
import numpy as np

Muitas vezes, você descobrirá que nem todas as categorias de dados em um conjunto de dados são úteis para você. <p>Por exemplo, você pode ter um conjunto de dados contendo informações do aluno (nome, nota, padrão, nomes dos pais e endereço), mas deseja se concentrar na análise das notas dos alunos.

Nesse caso, o endereço ou as categorias de nomes dos pais não são importantes para você. <p>
Manter essas categorias desnecessárias ocupará espaço desnecessário e potencialmente também atrapalhará o tempo de execução.
    Apesar de toda a capacidade de processamento do PYTHON, precisamos ter <b>FOCO</b> 

In [3]:
# df = pd.read_csv e df.head são importantes para o 1º contato com o dataframe
df = pd.read_csv('https://raw.githubusercontent.com/realpython/python-data-cleaning/master/Datasets/BL-Flickr-Images-Book.csv')
df.head()

Unnamed: 0,Identifier,Edition Statement,Place of Publication,Date of Publication,Publisher,Title,Author,Contributors,Corporate Author,Corporate Contributors,Former owner,Engraver,Issuance type,Flickr URL,Shelfmarks
0,206,,London,1879 [1878],S. Tinsley & Co.,Walter Forbes. [A novel.] By A. A,A. A.,"FORBES, Walter.",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 12641.b.30.
1,216,,London; Virtue & Yorston,1868,Virtue & Co.,All for Greed. [A novel. The dedication signed...,"A., A. A.","BLAZE DE BURY, Marie Pauline Rose - Baroness",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 12626.cc.2.
2,218,,London,1869,"Bradbury, Evans & Co.",Love the Avenger. By the author of “All for Gr...,"A., A. A.","BLAZE DE BURY, Marie Pauline Rose - Baroness",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 12625.dd.1.
3,472,,London,1851,James Darling,"Welsh Sketches, chiefly ecclesiastical, to the...","A., E. S.","Appleyard, Ernest Silvanus.",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 10369.bbb.15.
4,480,"A new edition, revised, etc.",London,1857,Wertheim & Macintosh,"[The World in which I live, and my place in it...","A., E. S.","BROOME, John Henry.",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 9007.d.28.


No 1º contato nota-se que há muitas colunas que não trazem info's importantes (ou com muitos campos nulos 'NaN')<p>
    Para descartar as mesmas é <b>simples<b> e <b>fácil</b> ...

In [4]:
# ao criar o to_drop é possivel agrupar muitas colunas, claro que você poderia uma a uma também ...
to_drop = ['Edition Statement','Corporate Author','Corporate Contributors','Former owner','Engraver','Contributors','Issuance type','Shelfmarks']
df.drop(to_drop, inplace=True, axis=1)
# É possivel fazer da seguinte forma : df.drop(columns=to_drop, inplace=True)

In [5]:
# veja como o dataframe ficou! O original tinha 15 colunas!
df.head()

Unnamed: 0,Identifier,Place of Publication,Date of Publication,Publisher,Title,Author,Flickr URL
0,206,London,1879 [1878],S. Tinsley & Co.,Walter Forbes. [A novel.] By A. A,A. A.,http://www.flickr.com/photos/britishlibrary/ta...
1,216,London; Virtue & Yorston,1868,Virtue & Co.,All for Greed. [A novel. The dedication signed...,"A., A. A.",http://www.flickr.com/photos/britishlibrary/ta...
2,218,London,1869,"Bradbury, Evans & Co.",Love the Avenger. By the author of “All for Gr...,"A., A. A.",http://www.flickr.com/photos/britishlibrary/ta...
3,472,London,1851,James Darling,"Welsh Sketches, chiefly ecclesiastical, to the...","A., E. S.",http://www.flickr.com/photos/britishlibrary/ta...
4,480,London,1857,Wertheim & Macintosh,"[The World in which I live, and my place in it...","A., E. S.",http://www.flickr.com/photos/britishlibrary/ta...


Vamos trabalhar com INDEX agora! Estamos trabalhando com mais 8.000 linhas, mas poderiam ser 4.562.300<p>
    Ao indexar o Dataframe, a busca por dados ficará mais ágil

In [7]:
df['Identifier'].is_unique

True

In [8]:
df = df.set_index('Identifier')
df.head()

Unnamed: 0_level_0,Place of Publication,Date of Publication,Publisher,Title,Author,Flickr URL
Identifier,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
206,London,1879 [1878],S. Tinsley & Co.,Walter Forbes. [A novel.] By A. A,A. A.,http://www.flickr.com/photos/britishlibrary/ta...
216,London; Virtue & Yorston,1868,Virtue & Co.,All for Greed. [A novel. The dedication signed...,"A., A. A.",http://www.flickr.com/photos/britishlibrary/ta...
218,London,1869,"Bradbury, Evans & Co.",Love the Avenger. By the author of “All for Gr...,"A., A. A.",http://www.flickr.com/photos/britishlibrary/ta...
472,London,1851,James Darling,"Welsh Sketches, chiefly ecclesiastical, to the...","A., E. S.",http://www.flickr.com/photos/britishlibrary/ta...
480,London,1857,Wertheim & Macintosh,"[The World in which I live, and my place in it...","A., E. S.",http://www.flickr.com/photos/britishlibrary/ta...


Caso role a necessidade de acessar um registro especifico, usa-se o ".loc"

In [9]:
# Busca pelo registro '480'
df.loc[480] 

Place of Publication                                               London
Date of Publication                                                  1857
Publisher                                            Wertheim & Macintosh
Title                   [The World in which I live, and my place in it...
Author                                                          A., E. S.
Flickr URL              http://www.flickr.com/photos/britishlibrary/ta...
Name: 480, dtype: object

Agora se vc precisar buscar o 5º registro? Simples, utilize o ".iloc"<p>
    Sempre lembrando que a contagem começa no '0' (zero)


In [11]:
df.iloc[4]

Place of Publication                                               London
Date of Publication                                                  1857
Publisher                                            Wertheim & Macintosh
Title                   [The World in which I live, and my place in it...
Author                                                          A., E. S.
Flickr URL              http://www.flickr.com/photos/britishlibrary/ta...
Name: 480, dtype: object

Por enquanto eliminamos colunas desnecessárias, criamos índice e até aprendemos como buscar registros<p>
    Perái, agora vem mais coisas!<p>
        Vamos "uniformizar" (nem sei se esse verbo existe risos) o formato dos dados

In [13]:
# como vemos a estrutura de dados do dataframe
df.dtypes

Place of Publication    object
Date of Publication     object
Publisher               object
Title                   object
Author                  object
Flickr URL              object
dtype: object

In [14]:
df.get_dtype_counts()

object    6
dtype: int64

In [17]:
# Adotaremos que o campos de Data de Publicação é importante para os nossos cálculos
df.loc[1905:, 'Date of Publication'].head(5)

Identifier
1905           1888
1929    1839, 38-54
2836           1897
2854           1865
2956        1860-63
Name: Date of Publication, dtype: object

In [19]:
df.head(20)

Unnamed: 0_level_0,Place of Publication,Date of Publication,Publisher,Title,Author,Flickr URL
Identifier,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
206,London,1879 [1878],S. Tinsley & Co.,Walter Forbes. [A novel.] By A. A,A. A.,http://www.flickr.com/photos/britishlibrary/ta...
216,London; Virtue & Yorston,1868,Virtue & Co.,All for Greed. [A novel. The dedication signed...,"A., A. A.",http://www.flickr.com/photos/britishlibrary/ta...
218,London,1869,"Bradbury, Evans & Co.",Love the Avenger. By the author of “All for Gr...,"A., A. A.",http://www.flickr.com/photos/britishlibrary/ta...
472,London,1851,James Darling,"Welsh Sketches, chiefly ecclesiastical, to the...","A., E. S.",http://www.flickr.com/photos/britishlibrary/ta...
480,London,1857,Wertheim & Macintosh,"[The World in which I live, and my place in it...","A., E. S.",http://www.flickr.com/photos/britishlibrary/ta...
481,London,1875,William Macintosh,"[The World in which I live, and my place in it...","A., E. S.",http://www.flickr.com/photos/britishlibrary/ta...
519,London,1872,The Author,Lagonells. By the author of Darmayne (F. E. A....,"A., F. E.",http://www.flickr.com/photos/britishlibrary/ta...
667,"pp. 40. G. Bryan & Co: Oxford, 1898",,,"The Coming of Spring, and other poems. By J. A...","A., J.|A., J.",http://www.flickr.com/photos/britishlibrary/ta...
874,London],1676,,"A Warning to the inhabitants of England, and L...",Remaʿ.,http://www.flickr.com/photos/britishlibrary/ta...
1143,London,1679,,A Satyr against Vertue. (A poem: supposed to b...,"A., T.",http://www.flickr.com/photos/britishlibrary/ta...


Com o foco ainda no campo de 'Data de Publicação', vamos deixa-la com o mesmo formato! Como? <p>
    Vamos tratar conteúdos como por exemplo: '1879 [1878]', 'NaN' e '1839, 38-54'

In [21]:
extr = df['Date of Publication'].str.extract(r'^(\d{4})', expand=False)
extr.head()

Identifier
206    1879
216    1868
218    1869
472    1851
480    1857
Name: Date of Publication, dtype: object

Alterar o foramto do campo é a próxima missão!

In [26]:
df['Date of Publication'] = pd.to_numeric(extr)
df['Date of Publication'].dtypes

dtype('float64')

MISSÃO DADA É MISSÃO COMPRIDA !<p>
    Dessa forma conseguimos usar tam campo em cálculos

In [27]:
df['Date of Publication'].isnull().sum() / len(df)

0.11717147339205986