# Introdução a Limpeza de Dados 

A limpeza dos dados é um passo muito importante para que possamos deixar tudo pronto para a visualização dos dados.

Só a limpeza de dados consome de 60% a 80% do trabalho de um Cientista de Dados.

Nos deparamos com diversos erros em tabelas, dentre eles temos, nome de colunas erradas, muita informação sem utilidade, formato errado dos dados e outros.

Por isso a limpeza de dados é um papel fundamental e árduo, e que muitos não querem fazer... Mas você, que é um(a) guerreiro(a), está disposto(a) a fazer esse trabalho duro.

Então vamos lá, que eu vou te ajudar a tornar esse trabalho um pouco mais fácil.

Hoje teremos alguns exemplos de como podemos limpar nossos dados para melhor visualização dos mesmos.

## Recapitulação

In [None]:
import pandas as pd
import numpy as np

In [None]:
df = pd.df = pd.read_csv('world_population.csv')
df.head()

Unnamed: 0,Rank,CCA3,Country,Capital,Continent,2022 Population,2020 Population,2015 Population,2010 Population,2000 Population,1990 Population,1980 Population,1970 Population,Area (km²),Density (per km²),Growth Rate,World Population Percentage
0,36,AFG,Afghanistan,Kabul,Asia,41128771,38972230,33753499,28189672,19542982,10694796,12486631,10752971,652230,63.0587,1.0257,0.52
1,138,ALB,Albania,Tirana,Europe,2842321,2866849,2882481,2913399,3182021,3295066,2941651,2324731,28748,98.8702,0.9957,0.04
2,34,DZA,Algeria,Algiers,Africa,44903225,43451666,39543154,35856344,30774621,25518074,18739378,13795915,2381741,18.8531,1.0164,0.56
3,213,ASM,American Samoa,Pago Pago,Oceania,44273,46189,51368,54849,58230,47818,32886,27075,199,222.4774,0.9831,0.0
4,203,AND,Andorra,Andorra la Vella,Europe,79824,77700,71746,71519,66097,53569,35611,19860,468,170.5641,1.01,0.0


Vamos tentar fazer algumas recuperações de dados **sem** utilizar **loc e iloc**

Que tal iniciar com os dados referentes ao Brasil?

In [None]:
Brasil = df[df["Country"] == "Brazil"]
Brasil

Unnamed: 0,Rank,CCA3,Country,Capital,Continent,2022 Population,2020 Population,2015 Population,2010 Population,2000 Population,1990 Population,1980 Population,1970 Population,Area (km²),Density (per km²),Growth Rate,World Population Percentage
27,7,BRA,Brazil,Brasilia,South America,215313498,213196304,205188205,196353492,175873720,150706446,122288383,96369875,8515767,25.2841,1.0046,2.7


Agora vamos tentar relembrar do método **sum**, que tal descobrirmos qual a **população total** de 2022? 

In [None]:
df["2022 Population"].sum()

7973413042

E que tal a média das Áreas dos países? Lembre-se que o método **mean** pode nos auxiliar com isso!

In [None]:
df["Area (km²)"].mean()

581449.3846153846

Agora vamos lembrar de como obter todas as **linhas** que encontram uma **determinada condição**, que tal tentarmos obter todos os países da América do Sul?

In [None]:
AdS = df[df["Continent"] == "South America"]
AdS

Unnamed: 0,Rank,CCA3,Country,Capital,Continent,2022 Population,2020 Population,2015 Population,2010 Population,2000 Population,1990 Population,1980 Population,1970 Population,Area (km²),Density (per km²),Growth Rate,World Population Percentage
8,33,ARG,Argentina,Buenos Aires,South America,45510318,45036032,43257065,41100123,37070774,32637657,28024803,23842803,2780400,16.3683,1.0052,0.57
24,80,BOL,Bolivia,Sucre,South America,12224110,11936162,11090085,10223270,8592656,7096194,5736088,4585693,1098581,11.1272,1.012,0.15
27,7,BRA,Brazil,Brasilia,South America,215313498,213196304,205188205,196353492,175873720,150706446,122288383,96369875,8515767,25.2841,1.0046,2.7
40,65,CHL,Chile,Santiago,South America,19603733,19300315,17870124,17004162,15351799,13342868,11469828,9820481,756102,25.9274,1.0057,0.25
42,28,COL,Colombia,Bogota,South America,51874024,50930662,47119728,44816108,39215135,32601393,26176195,20905254,1141748,45.4339,1.0069,0.65
56,67,ECU,Ecuador,Quito,South America,18001000,17588595,16195902,14989585,12626507,10449837,8135845,6172215,276841,65.0229,1.0114,0.23
64,231,FLK,Falkland Islands,Stanley,South America,3780,3747,3408,3187,3080,2332,2240,2274,12173,0.3105,1.0043,0.0
69,184,GUF,French Guiana,Cayenne,South America,304557,290969,257026,228453,164351,113931,66825,46484,83534,3.6459,1.0239,0.0
86,164,GUY,Guyana,Georgetown,South America,808726,797202,755031,747932,759051,747116,778176,705261,214969,3.7621,1.0052,0.01
161,109,PRY,Paraguay,Asunción,South America,6780744,6618695,6177950,5768613,5123819,4059195,3078912,2408787,406752,16.6705,1.0115,0.09


Agora que conseguimos obter esses países, vamos utilizar esse novo dataset nas nossas próximas recuperações de dados.

Vamos começar procurando os países com as **5 maiores populações** da América do Sul, não esqueça que o método **nlargest** pode nos auxiliar nesse quesito!

In [None]:
AdS.nlargest(5, ["2022 Population"])

Unnamed: 0,Rank,CCA3,Country,Capital,Continent,2022 Population,2020 Population,2015 Population,2010 Population,2000 Population,1990 Population,1980 Population,1970 Population,Area (km²),Density (per km²),Growth Rate,World Population Percentage
27,7,BRA,Brazil,Brasilia,South America,215313498,213196304,205188205,196353492,175873720,150706446,122288383,96369875,8515767,25.2841,1.0046,2.7
42,28,COL,Colombia,Bogota,South America,51874024,50930662,47119728,44816108,39215135,32601393,26176195,20905254,1141748,45.4339,1.0069,0.65
8,33,ARG,Argentina,Buenos Aires,South America,45510318,45036032,43257065,41100123,37070774,32637657,28024803,23842803,2780400,16.3683,1.0052,0.57
162,44,PER,Peru,Lima,South America,34049588,33304756,30711863,29229572,26654439,22109099,17492406,13562371,1285216,26.4933,1.0099,0.43
227,51,VEN,Venezuela,Caracas,South America,28301696,28490453,30529716,28715022,24427729,19750579,15210443,11355475,916445,30.882,1.0036,0.35


### Exercícios

In [None]:
# Obtenha os 5 maiores países do dataset original (o dataset "df")

In [None]:
# Obtenha todos os países da Europa e imprima apenas os 5 primeiros países, não esqueça que o método .head() pode nos ajudar!

In [None]:
# Agora faça a média da população de 2022 da Europa

## Lidando com Strings

Uma das formas de limpar seu dataset é trabalhando com strings, então vamos ver algumas operações com o dataset pessoas.csv.

Antes de tudo precisamos carregar o dataset.

In [1]:
import pandas as pd

df = pd.read_csv('pessoas.csv')
df

Unnamed: 0,nome,em,endereco,cidade
0,Ana souza roCHA,anasouza@gmail.com,Nossa Senhora do Carmo 68,Alegrete
1,Cristina BARROS,crisbarros@gmal.com,,Alegrete
2,Joao Alves,alvesjoao@hotmail.com,,Alegrete
3,mario santos,m.santos@gmail.com,Rua Joao Gilberto 900,Uruguaiana
4,,cferreira@hotmail.com,Rua XV de novembro 89,Uruguaiana
5,MARIA DA SILVA,dasilva@gmail.com,Rua das Oliveiras 400,Uruguaiana


Analisando um pouco o dataset percebemos bastante erros que precisamos arrumar.

Primeiro vamos para a coluna nome. Aqui podemos fazer algumas alterações como você pode ver abaixo.

In [None]:
#Colocamos todos os nomes em caixa baixa ou lower case
df.nome = df.nome.str.lower()
df

In [None]:
#Podemos também dar um capitalize que seria colocar a primeira letra em maiusculo
df.nome = df.nome.str.capitalize()
df

In [None]:
#Ou transformar em titulo onde todas as primeiras letras serão maiusculas
df.nome = df.nome.str.title()
df

Conseguimos com a função replace, trocar strings do nosso dataset.

Por exemplo:

In [None]:
df.em = df.em.str.replace('gmal', 'gmail')
df

Uma função muito útil do str é o contains que retorna true ou false se a string contém o que você colocar dentro dos parenteses.

Vamos verificar se na nossa coluna cidade existe espaços em brancos:

In [None]:
df.cidade.str.contains(' ').value_counts()

Temos 5 cidades com espaço em branco podemos arrumar isso com o replace:

In [None]:
#Remova os espaços em branco no inicio do nome das cidades. 
df.cidade = df.cidade.str.replace('\s+','')

#verifica se ainda existe espaços em branco
df.cidade.str.contains(' ')

Vamos ver um pouco de regex, que seria uma expressão para achar strings com o padrão que você quiser.

Por exemplo essa expressão [AEIOU] vai nos retornar todas as strings que contem essas letras, tome cuidado que os regex são case sensitive.

Vamos ver alguns exemplos:

In [3]:
#Quantas pessoas possuem nome próprio começando com consoante e quantas com vogal?
s = df.nome.str.count('^[^AEIOU]')
s.value_counts()

0    0.0
1    1.0
2    1.0
3    1.0
4    NaN
5    1.0
Name: nome, dtype: float64

In [None]:
#Quais os primeiros nomes das pessoas ?

df.nome.str.extract('([A-Za-z]+)', expand=False)

In [None]:
#Quais os primeiros nomes de usuário de email ?
import re

df.em.str.extract('([A-Za-z0-9._%+-]+@)', expand=False)

Aqui foram alguns exemplos, mas você pode ver mais do regex na <a href='https://docs.python.org/3/howto/regex.html#regex-howto'>documentação do python</a>.

## Dataset sobre livros e suas informações.


Ele nos mostra uma serie de informações sobre alguns livros publicados, como data de publicação, local de publicação, entre outros.

Vamos trabalhar um pouco com ele, pois é um dataset muito bom para termos uma ideia melhor de como fazer a limpeza de um dataset.

In [None]:
df = pd.read_csv('BL-Flickr-Images-Book.csv')
df.head()

Unnamed: 0,Identifier,Edition Statement,Place of Publication,Date of Publication,Publisher,Title,Author,Contributors,Corporate Author,Corporate Contributors,Former owner,Engraver,Issuance type,Flickr URL,Shelfmarks
0,206,,London,1879 [1878],S. Tinsley & Co.,Walter Forbes. [A novel.] By A. A,A. A.,"FORBES, Walter.",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 12641.b.30.
1,216,,London; Virtue & Yorston,1868,Virtue & Co.,All for Greed. [A novel. The dedication signed...,"A., A. A.","BLAZE DE BURY, Marie Pauline Rose - Baroness",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 12626.cc.2.
2,218,,London,1869,"Bradbury, Evans & Co.",Love the Avenger. By the author of “All for Gr...,"A., A. A.","BLAZE DE BURY, Marie Pauline Rose - Baroness",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 12625.dd.1.
3,472,,London,1851,James Darling,"Welsh Sketches, chiefly ecclesiastical, to the...","A., E. S.","Appleyard, Ernest Silvanus.",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 10369.bbb.15.
4,480,"A new edition, revised, etc.",London,1857,Wertheim & Macintosh,"[The World in which I live, and my place in it...","A., E. S.","BROOME, John Henry.",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 9007.d.28.


Como você pode ter visto nossa tabela tem vários dados faltantes e isso na verdade é bem comum de acontecer, então saber lidar com os dados faltantes (ou NaN) é fundamental para um Cientista de Dados.

### Drop de colunas com valores faltantes.

Para iniciarmos vamos fazer uso de uma função muito boa do pandas que é o .dropna, com ela conseguimos lidar bem com os dados faltantes.

O .dropna sozinho tira todas as linhas que tenham alguma coluna com NaN, mas não exatamente o que queremos aqui, adicionando alguns parâmetros conseguimos chegar em uma solução boa para o nosso problema.

Primeiro o how='all', estamos falando que queremos tirar somente aqueles que estejam com todos os dados faltantes.

Segundo axis=1, aqui estamos olhando para as colunas e não para as linhas, estamos avisando a função disso.

E por último o inplace=true, estamos pedindo para a função fazer as modificações na própria tabela, pois por definição ela cria uma nova tabela com as modificações feitas.

In [None]:
df.dropna(how='all',axis=1,inplace=True)
df.head()

Unnamed: 0,Identifier,Edition Statement,Place of Publication,Date of Publication,Publisher,Title,Author,Contributors,Former owner,Issuance type,Flickr URL,Shelfmarks
0,206,,London,1879 [1878],S. Tinsley & Co.,Walter Forbes. [A novel.] By A. A,A. A.,"FORBES, Walter.",,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 12641.b.30.
1,216,,London; Virtue & Yorston,1868,Virtue & Co.,All for Greed. [A novel. The dedication signed...,"A., A. A.","BLAZE DE BURY, Marie Pauline Rose - Baroness",,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 12626.cc.2.
2,218,,London,1869,"Bradbury, Evans & Co.",Love the Avenger. By the author of “All for Gr...,"A., A. A.","BLAZE DE BURY, Marie Pauline Rose - Baroness",,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 12625.dd.1.
3,472,,London,1851,James Darling,"Welsh Sketches, chiefly ecclesiastical, to the...","A., E. S.","Appleyard, Ernest Silvanus.",,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 10369.bbb.15.
4,480,"A new edition, revised, etc.",London,1857,Wertheim & Macintosh,"[The World in which I live, and my place in it...","A., E. S.","BROOME, John Henry.",,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 9007.d.28.


Lidar com dados faltantes é muito importante, e você precisa saber o que fazer com eles, terá vezes que somente tirar eles dos datasets não será a melhor opção.

Dito isso você pode pesquisar mais sobre o dropna e outras funções na <a href='https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.dropna.html'>documentação do pandas</a>.

### Drop de colunas em especifico

Continuando com a limpeza nessa tabela, temos muitas informações ainda e colunas com muitos dados faltando, nesse caso específico as colunas que iremos usar são as que não estão faltando dados.

Então podemos remover essas colunas que não queremos.

Aqui utilizamos a função drop do pandas, podemos passar uma lista completa do que queremos remover da nossa lista.

Aqui de novo temos dois parâmetros já usados, o inplace e o axis.

In [None]:
to_drop = ['Edition Statement',
           'Former owner',
           'Contributors',
           'Issuance type',
           'Shelfmarks']

df.drop(to_drop, inplace=True, axis=1)

In [None]:
df.head()

Unnamed: 0,Identifier,Place of Publication,Date of Publication,Publisher,Title,Author,Flickr URL
0,206,London,1879 [1878],S. Tinsley & Co.,Walter Forbes. [A novel.] By A. A,A. A.,http://www.flickr.com/photos/britishlibrary/ta...
1,216,London; Virtue & Yorston,1868,Virtue & Co.,All for Greed. [A novel. The dedication signed...,"A., A. A.",http://www.flickr.com/photos/britishlibrary/ta...
2,218,London,1869,"Bradbury, Evans & Co.",Love the Avenger. By the author of “All for Gr...,"A., A. A.",http://www.flickr.com/photos/britishlibrary/ta...
3,472,London,1851,James Darling,"Welsh Sketches, chiefly ecclesiastical, to the...","A., E. S.",http://www.flickr.com/photos/britishlibrary/ta...
4,480,London,1857,Wertheim & Macintosh,"[The World in which I live, and my place in it...","A., E. S.",http://www.flickr.com/photos/britishlibrary/ta...


### Troca de coluna índice

Como expliquei o pandas cria uma coluna de identificação por padrão, para facilitar nossa visualização podemos colocar uma nova coluna como identificação, porém essa coluna precisa ser única, ou seja, ela precisa ser diferente para cada linha da nossa tabela.

No codigo abaixo utilizamos de uma função do pandas onde ele nos retorna se uma coluna da nossa tabela é única ou não. Bem simples não?

In [None]:
df['Identifier'].is_unique

True

Como vimos que nossa coluna Identifier é unica podemos colocar ela como nossa coluna de identificação e facilitar nosso trabalho no restante da limpeza.

In [None]:
df = df.set_index('Identifier')
#df.set_index('Identifier', inplace=True)
df.head()

Unnamed: 0_level_0,Place of Publication,Date of Publication,Publisher,Title,Author,Flickr URL
Identifier,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
206,London,1879 [1878],S. Tinsley & Co.,Walter Forbes. [A novel.] By A. A,A. A.,http://www.flickr.com/photos/britishlibrary/ta...
216,London; Virtue & Yorston,1868,Virtue & Co.,All for Greed. [A novel. The dedication signed...,"A., A. A.",http://www.flickr.com/photos/britishlibrary/ta...
218,London,1869,"Bradbury, Evans & Co.",Love the Avenger. By the author of “All for Gr...,"A., A. A.",http://www.flickr.com/photos/britishlibrary/ta...
472,London,1851,James Darling,"Welsh Sketches, chiefly ecclesiastical, to the...","A., E. S.",http://www.flickr.com/photos/britishlibrary/ta...
480,London,1857,Wertheim & Macintosh,"[The World in which I live, and my place in it...","A., E. S.",http://www.flickr.com/photos/britishlibrary/ta...


### Normalização de colunas

Agora pra começar nossa limpeza de verdade vamos analisar algumas colunas e ver se elas estão de acordo com o que a gente quer.

Aqui utilizaremos uma função do pandas para saber qual o tipo dos dados da nossa coluna, nesse caso vamos ver a data de publicação, queremos então que ela seja de alguma forma do tipo inteiro ou float.

Vamos ver qual o tipo da nossa data de publicação:

In [None]:
df['Date of Publication'].dtype

dtype('O')

Tipo 'O', hmmmmm.

Acredito que alguma coisa esteja errada, vamos analisar então o que temos nessa coluna, já que o tipo dela está errado, podemos encontrar coisas que também não queremos.

Vamos utilizar uma função muito boa do pandas que é o .loc, com essa função podemos resgatar nossos dados de diversas formas, nesse caso estamos pegando todos os identifier do 1905 pra frente e resgatando a coluna Date of Publication tambem e só mostrando as 10 primeiras.
Por isso foi bom mudar a nossa coluna identificação.

In [None]:
df.loc[1905:, 'Date of Publication'].head(10)

Identifier
1905           1888
1929    1839, 38-54
2836           1897
2854           1865
2956        1860-63
2957           1873
3017           1866
3131           1899
4598           1814
4884           1820
Name: Date of Publication, dtype: object

Olha só, parece que nossa coluna não tá muito legal.

Vamos arrumar isso com muita facilidade utilizando uma função regex.

"O que é uma regex?" você pode estar se perguntando. Uma regex é uma string de padronização, quando por exemplo queremos que todos os email tenham o '@' alguma coisa ou todas as datas sigam DD/MM/AAAA.

Entendeu?

In [None]:
r = r'^(\d{4})'
extr = df['Date of Publication'].str.extract(r, expand=False)
extr.head()

Identifier
206    1879
216    1868
218    1869
472    1851
480    1857
Name: Date of Publication, dtype: object

O que aconteceu aqui em cima foi que tiramos todos os 4 dígitos que ficam juntos, que é nossa data de publicação.

Agora além de colocar nossa data certinha, podemos arrumar o tipo dela, lembra que ela estava do tipo 'O', então agora vamos colocar para tipo numérico onde podemos trabalhar de forma mais fácil.

:)

In [None]:
df['Date of Publication'] = pd.to_numeric(extr)
df['Date of Publication'].dtype

dtype('float64')

In [None]:
df['Date of Publication'].isnull().sum()

971

Com o tipo numérico podemos fazer como foi mostrado a cima, somar todos os valores que são nulos, o que nos dá 971 numeros nulos na nossa tabela. 😧

Calma lá, vamos ver o que esses 971 influenciam na nossa tabela para saber se teremos que cuidar deles ou não.

In [None]:
df['Date of Publication'].isnull().sum() / len(df)

0.021841438397490046

Então esses 971 representam 11% da nossa tabela.
 
É uma porcentagem significante, mas ainda assim pode não afetar nosso trabalho.

Bora pra proxima coluna, dessa vez vamos dar uma olhada na nossa coluna Place of Publication, que seria uma forte candidata para nossas futuras visualizações como a data de publicação.

In [None]:
df['Place of Publication'].head(10)

Identifier
206                                  London
216                London; Virtue & Yorston
218                                  London
472                                  London
480                                  London
481                                  London
519                                  London
667     pp. 40. G. Bryan & Co: Oxford, 1898
874                                 London]
1143                                 London
Name: Place of Publication, dtype: object

Não parece estar muito bonita nossa coluna, vamos fazer algumas alterações.

Aqui utilizaremos uma abordagem diferente, vamos utilizar o .contains e uma função do numpy np.where que basicamente ele faz alguma coisa se for verdade e outra coisa se for falso.

Vamos ver na prática:

In [None]:
pub = df['Place of Publication']
london = pub.str.contains('London')
london[:5]

Identifier
206    True
216    True
218    True
472    True
480    True
Name: Place of Publication, dtype: bool

Temos agora um lista com todas as posições onde tem London no nome.

Vamos fazer a mesma coisa com Oxford

In [None]:
oxford = pub.str.contains('Oxford')

Agora vamos usar o np.where. A leitura do código é assim, onde na lista nossa condição for verdadeira, vamos colocar London. Quando for falsa, a gente coloca outro np.where pra executarmos uma outra verificação. Então, quando nossa primeira condição for falsa, quero que entre em outro where que vai colocar Oxford para verdadeiros e trocar '-' por ' ' para os itens falsos.

Ficou confuso? Basicamente criamos duas listas onde elas têm a localização de onde tem London e Oxford na nossa lista original, então eu só pedi pra trocar o nome todo por esses dois.

In [None]:
#np.where function is called in a nested structure

df['Place of Publication'] = np.where(london, 'London',
                                      np.where(oxford, 'Oxford',
                                               pub.str.replace('-', ' ')))

df['Place of Publication'].head()

Identifier
206    London
216    London
218    London
472    London
480    London
Name: Place of Publication, dtype: object

In [None]:
df.head()

Unnamed: 0_level_0,Place of Publication,Date of Publication,Publisher,Title,Author,Flickr URL
Identifier,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
206,London,1879.0,S. Tinsley & Co.,Walter Forbes. [A novel.] By A. A,A. A.,http://www.flickr.com/photos/britishlibrary/ta...
216,London,1868.0,Virtue & Co.,All for Greed. [A novel. The dedication signed...,"A., A. A.",http://www.flickr.com/photos/britishlibrary/ta...
218,London,1869.0,"Bradbury, Evans & Co.",Love the Avenger. By the author of “All for Gr...,"A., A. A.",http://www.flickr.com/photos/britishlibrary/ta...
472,London,1851.0,James Darling,"Welsh Sketches, chiefly ecclesiastical, to the...","A., E. S.",http://www.flickr.com/photos/britishlibrary/ta...
480,London,1857.0,Wertheim & Macintosh,"[The World in which I live, and my place in it...","A., E. S.",http://www.flickr.com/photos/britishlibrary/ta...


Por fim nossa tabela ficou um pouco mais organizada ao queremos fazer, o que quer que seja isso.

## Dataset exemplo sobre olimpíadas

O dataset pode ser encontrado por esse link -> <a href="https://drive.google.com/file/d/1eX6usv2GmThnhW1KuBst8vPkMSmNVMdr/view?usp=sharing">dataset olimpiadas</a>

Ele nos traz algumas informações sobre olimpíadas, medalhas e o número de jogos jogados.

Esse dataset é interessante por nos trazer alguns erros que não vimos antes, vamos ver como arrumar eles.

In [None]:
olympics_df = pd.read_csv('olimpics.csv')
olympics_df.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15
0,,? Summer,01 !,02 !,03 !,Total,? Winter,01 !,02 !,03 !,Total,? Games,01 !,02 !,03 !,Combined total
1,Afghanistan (AFG),13,0,0,2,2,0,0,0,0,0,13,0,0,2,2
2,Algeria (ALG),12,5,2,8,15,3,0,0,0,0,15,5,2,8,15
3,Argentina (ARG),23,18,24,28,70,18,0,0,0,0,41,18,24,28,70
4,Armenia (ARM),5,1,2,9,12,6,0,0,0,0,11,1,2,9,12


Essa tabela está bem dificil de entender alguma coisa.

De primeira vemos que ele leu errado na hora de carregar os dados e colocou outra linha de índicies para as colunas.

Vamos começar por aí.

In [None]:
olympics_df = pd.read_csv('olimpics.csv', header=1)
olympics_df.head()

Unnamed: 0.1,Unnamed: 0,? Summer,01 !,02 !,03 !,Total,? Winter,01 !.1,02 !.1,03 !.1,Total.1,? Games,01 !.2,02 !.2,03 !.2,Combined total
0,Afghanistan (AFG),13,0,0,2,2,0,0,0,0,0,13,0,0,2,2
1,Algeria (ALG),12,5,2,8,15,3,0,0,0,0,15,5,2,8,15
2,Argentina (ARG),23,18,24,28,70,18,0,0,0,0,41,18,24,28,70
3,Armenia (ARM),5,1,2,9,12,6,0,0,0,0,11,1,2,9,12
4,Australasia (ANZ) [ANZ],2,3,4,5,12,0,0,0,0,0,2,3,4,5,12


Aqui nós só falamos pra que na hora de carregar os dados não considerar a primeira linha e que os índices das nossas colunas estão na próxima linha.

Mas claro que não da pra parar por aí, dá uma olhada nos nomes das nossas colunas, nessa parte vai um pouco de achismo de qual nome colocar aqui.

Qual nome você daria pra cada coluna?

In [None]:
new_names =  {'Unnamed: 0': 'Country',
              '? Summer': 'Summer Olympics',
              '01 !': 'Gold',
              '02 !': 'Silver',
              '03 !': 'Bronze',
              '? Winter': 'Winter Olympics',
              '01 !.1': 'Gold.1',
              '02 !.1': 'Silver.1',
              '03 !.1': 'Bronze.1',
              '? Games': '# Games',
              '01 !.2': 'Gold.2',
              '02 !.2': 'Silver.2',
              '03 !.2': 'Bronze.2'}

olympics_df.rename(columns=new_names, inplace=True)
olympics_df.head()

Unnamed: 0,Country,Summer Olympics,Gold,Silver,Bronze,Total,Winter Olympics,Gold.1,Silver.1,Bronze.1,Total.1,# Games,Gold.2,Silver.2,Bronze.2,Combined total
0,Afghanistan (AFG),13,0,0,2,2,0,0,0,0,0,13,0,0,2,2
1,Algeria (ALG),12,5,2,8,15,3,0,0,0,0,15,5,2,8,15
2,Argentina (ARG),23,18,24,28,70,18,0,0,0,0,41,18,24,28,70
3,Armenia (ARM),5,1,2,9,12,6,0,0,0,0,11,1,2,9,12
4,Australasia (ANZ) [ANZ],2,3,4,5,12,0,0,0,0,0,2,3,4,5,12


Veja que a gente passou um dicionário pra renomear as nossas colunas! Lembra dos dicionários? São aquela estrutura de dados que temos uma lista de itens em que cada dado tem seu nome. Lembrou? Então vamos entender como aconteceu a renomeação ali em cima.

Para fazer a renomeação das nossas colunas, nós criamos uma variável pra carregar nosso dicionário. Colocamos os nomes antigos como as **chaves** do dicionário e os nomes novos como os **valores** do dict. Quando colocamos nosso dicionário no método rename(), o pandas vai interpretar nosso dicionário e substituir os nomes das colunas pra gente.

Aí tá uma tabela mais legal de se mexer, não acha?

## Exercício do dataset da população

Vamos ao nosso último exemplo.

Pegaremos o dataset que estávamos trabalhando nas últimas semanas.

Lembra de como carregar ele pro notebook?

In [None]:
#Escreva aqui o codigo para carregar o notebook

Unnamed: 0,Rank,CCA3,Country/Territory,Capital,Continent,2022 Population,2020 Population,2015 Population,2010 Population,2000 Population,1990 Population,1980 Population,1970 Population,Area (km²),Density (per km²),Growth Rate,World Population Percentage
0,36,AFG,Afghanistan,Kabul,Asia,41128771,38972230,33753499,28189672,19542982,10694796,12486631,10752971,652230,63.0587,1.0257,0.52
1,138,ALB,Albania,Tirana,Europe,2842321,2866849,2882481,2913399,3182021,3295066,2941651,2324731,28748,98.8702,0.9957,0.04
2,34,DZA,Algeria,Algiers,Africa,44903225,43451666,39543154,35856344,30774621,25518074,18739378,13795915,2381741,18.8531,1.0164,0.56
3,213,ASM,American Samoa,Pago Pago,Oceania,44273,46189,51368,54849,58230,47818,32886,27075,199,222.4774,0.9831,0.0
4,203,AND,Andorra,Andorra la Vella,Europe,79824,77700,71746,71519,66097,53569,35611,19860,468,170.5641,1.01,0.0


Vamos fazer poucas alterações no nosso dataset, pq ele está bem completo e sem muitos erros (uma coisa fora do comum).

Vamos começar reduzindo nossos dados, pois nesse caso queremos apenas dados mais recentes.

Fique com apenas a coluna de 2022 e tire todas as outras.

In [None]:
#Escreva aqui o codigo
#Dica, vimos algo assim no dataset dos livros

In [None]:
#Mostre os 5 primeiros da tabela

Unnamed: 0,Rank,CCA3,Country/Territory,Capital,Continent,2022 Population,Area (km²),Density (per km²),Growth Rate,World Population Percentage
0,36,AFG,Afghanistan,Kabul,Asia,41128771,652230,63.0587,1.0257,0.52
1,138,ALB,Albania,Tirana,Europe,2842321,28748,98.8702,0.9957,0.04
2,34,DZA,Algeria,Algiers,Africa,44903225,2381741,18.8531,1.0164,0.56
3,213,ASM,American Samoa,Pago Pago,Oceania,44273,199,222.4774,0.9831,0.0
4,203,AND,Andorra,Andorra la Vella,Europe,79824,468,170.5641,1.01,0.0


Mostre que a coluna que você escolheu é única.

Qual coluna você acha que seria uma boa coluna de identificação?

In [None]:
#Escreva seu codigo aqui

True

Agora que vimos que nossa coluna é única, podemos transformar ela em nossa coluna de indentificação.

Lembra de como que faz?

In [None]:
#Escreva aqui

Unnamed: 0_level_0,Rank,Country/Territory,Capital,Continent,2022 Population,Area (km²),Density (per km²),Growth Rate,World Population Percentage
CCA3,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
AFG,36,Afghanistan,Kabul,Asia,41128771,652230,63.0587,1.0257,0.52
ALB,138,Albania,Tirana,Europe,2842321,28748,98.8702,0.9957,0.04
DZA,34,Algeria,Algiers,Africa,44903225,2381741,18.8531,1.0164,0.56
ASM,213,American Samoa,Pago Pago,Oceania,44273,199,222.4774,0.9831,0.0
AND,203,Andorra,Andorra la Vella,Europe,79824,468,170.5641,1.01,0.0


Podemos renomear algumas colunas para que nossa visualização fique melhor.

Vamos renomear aquelas em inglês e colocar em português.

In [None]:
#Coloque aqui o codigo
#Dica: fizemos isso no dataset das olimpiadas

In [None]:
#Mostre os 5 primeiros

Unnamed: 0_level_0,Rank,País,Capital,Continente,População em 2022,Area (km²),Densidade (km²),Crescimento Populacional,Porcentagem com Relação ao Mundo
CCA3,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
AFG,36,Afghanistan,Kabul,Asia,41128771,652230,63.0587,1.0257,0.52
ALB,138,Albania,Tirana,Europe,2842321,28748,98.8702,0.9957,0.04
DZA,34,Algeria,Algiers,Africa,44903225,2381741,18.8531,1.0164,0.56
ASM,213,American Samoa,Pago Pago,Oceania,44273,199,222.4774,0.9831,0.0
AND,203,Andorra,Andorra la Vella,Europe,79824,468,170.5641,1.01,0.0


Aqui temos uma coisinha nova então vou deixar para vocês.

Estamos trocando o nome dos valores que aparecem na coluna Continente.

In [None]:
df.replace({'Continente':{'Europe' : 'Europa', 'North America' : 'América do Norte', 'South America' : 'América do Sul'}})

Unnamed: 0_level_0,Rank,País,Capital,Continente,População em 2022,Area (km²),Densidade (km²),Crescimento Populacional,Porcentagem com Relação ao Mundo
CCA3,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
AFG,36,Afghanistan,Kabul,Asia,41128771,652230,63.0587,1.0257,0.52
ALB,138,Albania,Tirana,Europa,2842321,28748,98.8702,0.9957,0.04
DZA,34,Algeria,Algiers,Africa,44903225,2381741,18.8531,1.0164,0.56
ASM,213,American Samoa,Pago Pago,Oceania,44273,199,222.4774,0.9831,0.00
AND,203,Andorra,Andorra la Vella,Europa,79824,468,170.5641,1.0100,0.00
...,...,...,...,...,...,...,...,...,...
WLF,226,Wallis and Futuna,Mata-Utu,Oceania,11572,142,81.4930,0.9953,0.00
ESH,172,Western Sahara,El Aaiún,Africa,575986,266000,2.1654,1.0184,0.01
YEM,46,Yemen,Sanaa,Asia,33696614,527968,63.8232,1.0217,0.42
ZMB,63,Zambia,Lusaka,Africa,20017675,752612,26.5976,1.0280,0.25
