#Introdução a Limpeza de Dados 

A limpeza dos dados é um passo muito importante para que possamos deixar tudo pronto para a visualização dos dados.

Só a limpeza de dados consome de 60% a 80% do trabalho de um Cientista de Dados.

Nos deparamos com diversos erros em tabelas, dentre eles temos, nome de colunas erradas, muita informação sem utilidade, formato errado dos dados e outros.

Por isso a limpeza de dados é um papel fundamental e árduo, e que muitos não querem fazer, porém você que é um(a) guerreiro(a) está disposto(a) a fazer esse trabalho duro.

Então vamos lá, que eu vou te ajudar a tornar esse trabalho um pouco mais fácil.

Hoje teremos alguns exemplos de como podemos limpar nossos dados para melhor visualização dos mesmos.

##Dataset sobre livros suas informações.


Esse dataset foi pego aqui -> <a href="https://drive.google.com/file/d/1eSoNBEFJye1HWVLT3PyypbLGxN45LJkK/view?usp=sharing">dataset livros</a>

Ele nos mostra uma serie de informações sobre alguns livros publicados, como data de publicação, local de publicação, entre outros.

Vamos trabalhar um pouco com ele, pois é um dataset muito bom para termos uma ideia melhor de como fazer a limpeza de um dataset.

In [None]:
import pandas as pd
import numpy as np

In [None]:
df = pd.read_csv('BL-Flickr-Images-Book.csv')
df.head()

Unnamed: 0,Identifier,Edition Statement,Place of Publication,Date of Publication,Publisher,Title,Author,Contributors,Corporate Author,Corporate Contributors,Former owner,Engraver,Issuance type,Flickr URL,Shelfmarks
0,206,,London,1879 [1878],S. Tinsley & Co.,Walter Forbes. [A novel.] By A. A,A. A.,"FORBES, Walter.",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 12641.b.30.
1,216,,London; Virtue & Yorston,1868,Virtue & Co.,All for Greed. [A novel. The dedication signed...,"A., A. A.","BLAZE DE BURY, Marie Pauline Rose - Baroness",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 12626.cc.2.
2,218,,London,1869,"Bradbury, Evans & Co.",Love the Avenger. By the author of “All for Gr...,"A., A. A.","BLAZE DE BURY, Marie Pauline Rose - Baroness",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 12625.dd.1.
3,472,,London,1851,James Darling,"Welsh Sketches, chiefly ecclesiastical, to the...","A., E. S.","Appleyard, Ernest Silvanus.",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 10369.bbb.15.
4,480,"A new edition, revised, etc.",London,1857,Wertheim & Macintosh,"[The World in which I live, and my place in it...","A., E. S.","BROOME, John Henry.",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 9007.d.28.


###Drop de colunas com valores faltantes.

Como você pode ter visto nossa tabela tem vários dados faltantes e isso na verdade é bem comum de acontecer, então saber lidar com os dados faltantes (ou NaN) é fundamental para um Cientista de Dados.

Para iniciarmos vamos fazer uso de uma função muito boa do pandas que é o .dropna, com ela conseguimos lidar bem com os dados faltantes.

O .dropna sozinho tira todas as linhas que tenham alguma coluna com NaN, mas não exatamente o que queremos aqui, adicionando alguns parametros conseguimos chegar em uma solução boa para o nosso problema.

Primeiro o how='all', estamos falando que queremos tirar somente aqueles que estejam com todos os dados faltantes.

Segundo axis=1, aqui estamos olhando para as colunas e não para as linhas, estamos avisando a função disso.

E por ultimo o inplace=true, estamos pedindo para a função fazer as modificações na propria tabela, pois por definição ela cria uma nova tabela com as modificações feitas.

In [None]:
df.dropna(how='all',axis=1,inplace=True)
df.head()

Unnamed: 0,Identifier,Edition Statement,Place of Publication,Date of Publication,Publisher,Title,Author,Contributors,Former owner,Issuance type,Flickr URL,Shelfmarks
0,206,,London,1879 [1878],S. Tinsley & Co.,Walter Forbes. [A novel.] By A. A,A. A.,"FORBES, Walter.",,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 12641.b.30.
1,216,,London; Virtue & Yorston,1868,Virtue & Co.,All for Greed. [A novel. The dedication signed...,"A., A. A.","BLAZE DE BURY, Marie Pauline Rose - Baroness",,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 12626.cc.2.
2,218,,London,1869,"Bradbury, Evans & Co.",Love the Avenger. By the author of “All for Gr...,"A., A. A.","BLAZE DE BURY, Marie Pauline Rose - Baroness",,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 12625.dd.1.
3,472,,London,1851,James Darling,"Welsh Sketches, chiefly ecclesiastical, to the...","A., E. S.","Appleyard, Ernest Silvanus.",,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 10369.bbb.15.
4,480,"A new edition, revised, etc.",London,1857,Wertheim & Macintosh,"[The World in which I live, and my place in it...","A., E. S.","BROOME, John Henry.",,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 9007.d.28.


###Drop de colunas em especifico

Continuando com a limpeza nessa tabela, temos muitas informações ainda e colunas com muitos dados faltando, nesse caso especifico as colunas que iremos usar não são as com dados faltando.

Então podemos remover essas colunas que não queremos.

Aqui utilizamos a função drop do pandas, podemos passar uma lista completa do que queremos remover da nossa lista.

Aqui de novo temos dois paremetros já usados, o inplace e o axis.

In [None]:
to_drop = ['Edition Statement',
           'Former owner',
           'Contributors',
           'Issuance type',
           'Shelfmarks']

df.drop(to_drop, inplace=True, axis=1)

In [None]:
df.head()

Unnamed: 0,Identifier,Place of Publication,Date of Publication,Publisher,Title,Author,Flickr URL
0,206,London,1879 [1878],S. Tinsley & Co.,Walter Forbes. [A novel.] By A. A,A. A.,http://www.flickr.com/photos/britishlibrary/ta...
1,216,London; Virtue & Yorston,1868,Virtue & Co.,All for Greed. [A novel. The dedication signed...,"A., A. A.",http://www.flickr.com/photos/britishlibrary/ta...
2,218,London,1869,"Bradbury, Evans & Co.",Love the Avenger. By the author of “All for Gr...,"A., A. A.",http://www.flickr.com/photos/britishlibrary/ta...
3,472,London,1851,James Darling,"Welsh Sketches, chiefly ecclesiastical, to the...","A., E. S.",http://www.flickr.com/photos/britishlibrary/ta...
4,480,London,1857,Wertheim & Macintosh,"[The World in which I live, and my place in it...","A., E. S.",http://www.flickr.com/photos/britishlibrary/ta...


###Troca de coluna índice

Como expliquei o pandas cria uma coluna de identificação por padrão, para facilitar nossa visualização podemos colocar uma nova coluna como identificação, porém essa coluna precisa ser única, ou seja, ela precisa ser diferente para cada linha da nossa tabela.

No codigo abaixo utilizamos de uma função do pandas onde ele nos retorna se uma coluna da nossa tabela é unica ou não. Bem simples não?

In [None]:
df['Identifier'].is_unique

True

Como vimos que nossa coluna Identifier é unica podemos colocar ela como nossa coluna de identificação e facilitar nosso trabalho no restante da limpeza.

In [None]:
df = df.set_index('Identifier')
#df.set_index('Identifier', inplace=True)
df.head()

Unnamed: 0_level_0,Place of Publication,Date of Publication,Publisher,Title,Author,Flickr URL
Identifier,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
206,London,1879 [1878],S. Tinsley & Co.,Walter Forbes. [A novel.] By A. A,A. A.,http://www.flickr.com/photos/britishlibrary/ta...
216,London; Virtue & Yorston,1868,Virtue & Co.,All for Greed. [A novel. The dedication signed...,"A., A. A.",http://www.flickr.com/photos/britishlibrary/ta...
218,London,1869,"Bradbury, Evans & Co.",Love the Avenger. By the author of “All for Gr...,"A., A. A.",http://www.flickr.com/photos/britishlibrary/ta...
472,London,1851,James Darling,"Welsh Sketches, chiefly ecclesiastical, to the...","A., E. S.",http://www.flickr.com/photos/britishlibrary/ta...
480,London,1857,Wertheim & Macintosh,"[The World in which I live, and my place in it...","A., E. S.",http://www.flickr.com/photos/britishlibrary/ta...


###Normalização de colunas

Agora pra começar nossa limpeza de verdade vamos analisar algumas colunas e ver se elas estão de acordo com o que a gente quer.

Aqui utilizaremos uma função do pandas para saber qual o tipo dos dados da nossa coluna, nesse caso vamos ver a data de publicação, queremos então que ela seja de alguma forma do tipo inteiro ou float.

Vamos ver qual o tipo da nossa data de publicação:

In [None]:
df['Date of Publication'].dtype

dtype('O')

Tipo 'O', hmmmmm.

Acredito que alguma coisa esteja errada, vamos analisar então o que temos nessa coluna, já que o tipo dela está errado, podemos encontrar coisas que também não queremos.

Vamos utilizar uma função muito boa do pandas que é o .loc, com essa função podemos resgatar nossos dados de diversas formas, nesse caso estamos pegando todos os identifier do 1905 pra frente e resgatando a coluna Date of Publication tambem e só mostrando as 10 primeiras.
Por isso foi bom mudar a nossa coluna identificação.

In [None]:
df.loc[1905:, 'Date of Publication'].head(10)

Identifier
1905           1888
1929    1839, 38-54
2836           1897
2854           1865
2956        1860-63
2957           1873
3017           1866
3131           1899
4598           1814
4884           1820
Name: Date of Publication, dtype: object

Olha só, parece que nossa coluna não ta muito legal.

Vamos arrumar isso com muita facilidade utilizando uma função regex.

O que é uma regex você pode estar se perguntando, uma regex é uma string de padronização, quando por exemplo queremos que todos os email tenham o '@' alguma coisa ou todas as datas sigam DD/MM/AAAA.

Entendeu?

In [None]:
r = r'^(\d{4})'
extr = df['Date of Publication'].str.extract(r, expand=False)
extr.head()

Identifier
206    1879
216    1868
218    1869
472    1851
480    1857
Name: Date of Publication, dtype: object

O que aconteceu aqui em cima foi que tiramos todos os 4 digitos que ficam juntos, que é nossa data de publicação.

Agora além de colocar nossa data certinha, podemos arrumar o tipo dela, lembra que ela estava do tipo 'O', então agora vamos colocar para tipo numerico onde podemos trabalhar de forma mais fácil.

:)

In [None]:
df['Date of Publication'] = pd.to_numeric(extr)
df['Date of Publication'].dtype

dtype('float64')

In [None]:
df['Date of Publication'].isnull().sum()

971

Com o tipo numerico podemos fazer como foi mostrado a cima, somar todos os valores que são nulos, o que nos da 971 numeros nulos na nossa tabela. 😧

Calma lá, vamos ver o que esses 971 influencia na nossa tabela para saber se teremos que cuidar deles ou não.

In [None]:
df['Date of Publication'].isnull().sum() / len(df)

0.021841438397490046

Então esses 971 representa 11% da nossa tabela.
 
É uma porcentagem significante, mas ainda assim pode não afetar nosso trabalho.

Bora pra proxima coluna, dessa vez vamos dar uma olhada na nossa coluna Place of Publication, que seria uma forte candidata para nossas futuras visualizações como a data de publicação.

In [None]:
df['Place of Publication'].head(10)

Identifier
206                                  London
216                London; Virtue & Yorston
218                                  London
472                                  London
480                                  London
481                                  London
519                                  London
667     pp. 40. G. Bryan & Co: Oxford, 1898
874                                 London]
1143                                 London
Name: Place of Publication, dtype: object

Não parece estar muito bonita nossa coluna, vamos fazer algumas alterações.

Aqui utilizaremos uma abordagem diferente, vamos utilizar o .contains e uma função do numpy np.where que basicamente ele faz alguma coisa se for verdade e outra coisa se for falso.

Vamos ver na pratica:

In [None]:
pub = df['Place of Publication']
london = pub.str.contains('London')
london[:5]

Identifier
206    True
216    True
218    True
472    True
480    True
Name: Place of Publication, dtype: bool

Temos agora um lista com todas as posições onde tem London no nome.

Vamos fazer a mesma coisa com Oxford

In [None]:
 oxford = pub.str.contains('Oxford')

Agora vamos usar o np.where a leitura do codigo é assim, onde na nossa lista for true você vai colocar London e onde não for a gente colocou outro np.where, ou seja, onde não for London você vai fazer outra função, dentro dela eu quero que onde for true na nossa lista você coloque Oxford e onde não for você vai trocar o '-' por ' '.

Ficou confuso? Basicamente criamos duas listas onde elas tem a localização de onde tem London e Oxford na nossa lista original, então eu só pedi pra trocar o nome todo por esses dois.

In [None]:
#np.where function is called in a nested structure

df['Place of Publication'] = np.where(london, 'London',
                                      np.where(oxford, 'Oxford',
                                               pub.str.replace('-', ' ')))

df['Place of Publication'].head()

Identifier
206    London
216    London
218    London
472    London
480    London
Name: Place of Publication, dtype: object

In [None]:
df.head()

Unnamed: 0_level_0,Place of Publication,Date of Publication,Publisher,Title,Author,Flickr URL
Identifier,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
206,London,1879.0,S. Tinsley & Co.,Walter Forbes. [A novel.] By A. A,A. A.,http://www.flickr.com/photos/britishlibrary/ta...
216,London,1868.0,Virtue & Co.,All for Greed. [A novel. The dedication signed...,"A., A. A.",http://www.flickr.com/photos/britishlibrary/ta...
218,London,1869.0,"Bradbury, Evans & Co.",Love the Avenger. By the author of “All for Gr...,"A., A. A.",http://www.flickr.com/photos/britishlibrary/ta...
472,London,1851.0,James Darling,"Welsh Sketches, chiefly ecclesiastical, to the...","A., E. S.",http://www.flickr.com/photos/britishlibrary/ta...
480,London,1857.0,Wertheim & Macintosh,"[The World in which I live, and my place in it...","A., E. S.",http://www.flickr.com/photos/britishlibrary/ta...


Por fim nossa tabela ficou um pouco mais organizada ao queremos fazer, o que quer que seja isso.

##Dataset exemplo sobre olimpíadas

O dataset pode ser encontrado por esse link -> <a href="https://drive.google.com/file/d/1eX6usv2GmThnhW1KuBst8vPkMSmNVMdr/view?usp=sharing">dataset olimpiadas</a>

Ele nos trás algumas informações sobre olimpiadas, medalhas e o numero de jogos jogados.

Esse dataset é interessante por nos trazer alguns erros que não vimos antes, vamos ver como arrumar eles.

In [None]:
olympics_df = pd.read_csv('olimpics.csv')
olympics_df.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15
0,,? Summer,01 !,02 !,03 !,Total,? Winter,01 !,02 !,03 !,Total,? Games,01 !,02 !,03 !,Combined total
1,Afghanistan (AFG),13,0,0,2,2,0,0,0,0,0,13,0,0,2,2
2,Algeria (ALG),12,5,2,8,15,3,0,0,0,0,15,5,2,8,15
3,Argentina (ARG),23,18,24,28,70,18,0,0,0,0,41,18,24,28,70
4,Armenia (ARM),5,1,2,9,12,6,0,0,0,0,11,1,2,9,12


Essa tabela está bem dificil de entender alguma coisa.

De primeira vemos que ele leu errado na hora de carregar os dados e colocou outra linha de indicies para as colunas.

Vamos começar por ai.

In [None]:
olympics_df = pd.read_csv('olimpics.csv', header=1)
olympics_df.head()

Unnamed: 0.1,Unnamed: 0,? Summer,01 !,02 !,03 !,Total,? Winter,01 !.1,02 !.1,03 !.1,Total.1,? Games,01 !.2,02 !.2,03 !.2,Combined total
0,Afghanistan (AFG),13,0,0,2,2,0,0,0,0,0,13,0,0,2,2
1,Algeria (ALG),12,5,2,8,15,3,0,0,0,0,15,5,2,8,15
2,Argentina (ARG),23,18,24,28,70,18,0,0,0,0,41,18,24,28,70
3,Armenia (ARM),5,1,2,9,12,6,0,0,0,0,11,1,2,9,12
4,Australasia (ANZ) [ANZ],2,3,4,5,12,0,0,0,0,0,2,3,4,5,12


Aqui nós so falamos pra que na hora de carregar os dados não considerar a primeira linha e que os indices das nossas colunas estão na proxima linha.

Mas claro que não da pra parar por ai, da uma olhada nos nomes das nossas colunas, nessa parte vai um pouco de achismo de qual nome colocar aqui.

Qual nome você daria pra cada coluna?

In [None]:
new_names =  {'Unnamed: 0': 'Country',
              '? Summer': 'Summer Olympics',
              '01 !': 'Gold',
              '02 !': 'Silver',
              '03 !': 'Bronze',
              '? Winter': 'Winter Olympics',
              '01 !.1': 'Gold.1',
              '02 !.1': 'Silver.1',
              '03 !.1': 'Bronze.1',
              '? Games': '# Games',
              '01 !.2': 'Gold.2',
              '02 !.2': 'Silver.2',
              '03 !.2': 'Bronze.2'}

olympics_df.rename(columns=new_names, inplace=True)
olympics_df.head()

Unnamed: 0,Country,Summer Olympics,Gold,Silver,Bronze,Total,Winter Olympics,Gold.1,Silver.1,Bronze.1,Total.1,# Games,Gold.2,Silver.2,Bronze.2,Combined total
0,Afghanistan (AFG),13,0,0,2,2,0,0,0,0,0,13,0,0,2,2
1,Algeria (ALG),12,5,2,8,15,3,0,0,0,0,15,5,2,8,15
2,Argentina (ARG),23,18,24,28,70,18,0,0,0,0,41,18,24,28,70
3,Armenia (ARM),5,1,2,9,12,6,0,0,0,0,11,1,2,9,12
4,Australasia (ANZ) [ANZ],2,3,4,5,12,0,0,0,0,0,2,3,4,5,12


Ai ta uma tabela mais legal de se mexer, não acha?

##Exemplos Extras

Aqui vou mostrar alguns exemplos basicos pra lidar com dados faltantes.

In [None]:
from numpy import nan as NA

In [None]:
data = pd.Series([1, NA, 3.5, NA, 7])

In [None]:
data

0    1.0
1    NaN
2    3.5
3    NaN
4    7.0
dtype: float64

In [None]:
data.dropna()

0    1.0
2    3.5
4    7.0
dtype: float64

Jeito equivalente de tirar os dados faltantes

In [None]:
data[data.notnull()]

0    1.0
2    3.5
4    7.0
dtype: float64

In [None]:
data = pd.DataFrame([[1., 6.5, 3.], [1., NA, NA], [NA, NA, NA], [NA, 6.5, 3.]])

In [None]:
data

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


In [None]:
cleaned = data.dropna()

In [None]:
cleaned

Unnamed: 0,0,1,2
0,1.0,6.5,3.0


Como você pode ver esse não é um metodo muito bom já que ele tira todas as linhas que tenham dados faltantes.

Mas temos um jeito melhor de fazer isso, passando um parametro dentro da função, ai ele só vai tirar as linhas onde todas as colunas estão faltando.

In [None]:
data.dropna(how='all')

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
3,,6.5,3.0


In [None]:
data[4] = NA

In [None]:
data

Unnamed: 0,0,1,2,4
0,1.0,6.5,3.0,
1,1.0,,,
2,,,,
3,,6.5,3.0,


Consiguimos o mesmo comportamento para as colunas, onde ele só irá tirar as colunas onde todas as linhas estão com dados faltantes

In [None]:
data.dropna(axis=1, how='all')

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


In [None]:
df = pd.DataFrame(np.random.randn(7, 3))

In [None]:
df.iloc[:4, 1] = NA

In [None]:
df.iloc[:2, 2] = NA

In [None]:
df

Unnamed: 0,0,1,2
0,-0.194323,,
1,-1.279421,,
2,0.621925,,-1.058366
3,-0.509092,,-1.564523
4,-0.472533,0.687139,0.394516
5,0.364445,-1.122884,-0.100088
6,1.179783,-0.233509,-0.435967


In [None]:
df.dropna(thresh=2)

Unnamed: 0,0,1,2
2,0.621925,,-1.058366
3,-0.509092,,-1.564523
4,-0.472533,0.687139,0.394516
5,0.364445,-1.122884,-0.100088
6,1.179783,-0.233509,-0.435967


Aqui temos uma situação onde queremos tirar linhas que que tenham um determinado de dados faltantes, nesse caso escolhemos dois.

##Exercicio do dataset da população

Vamos ao nosso ultimo exemplo.

Pegaremos o dataset que estavamos trabalhando nas ultimas semanas.

Lembra de como carregar ele pro notebook?

In [None]:
#Escreva aqui o codigo para carregar o notebook

Unnamed: 0,Rank,CCA3,Country/Territory,Capital,Continent,2022 Population,2020 Population,2015 Population,2010 Population,2000 Population,1990 Population,1980 Population,1970 Population,Area (km²),Density (per km²),Growth Rate,World Population Percentage
0,36,AFG,Afghanistan,Kabul,Asia,41128771,38972230,33753499,28189672,19542982,10694796,12486631,10752971,652230,63.0587,1.0257,0.52
1,138,ALB,Albania,Tirana,Europe,2842321,2866849,2882481,2913399,3182021,3295066,2941651,2324731,28748,98.8702,0.9957,0.04
2,34,DZA,Algeria,Algiers,Africa,44903225,43451666,39543154,35856344,30774621,25518074,18739378,13795915,2381741,18.8531,1.0164,0.56
3,213,ASM,American Samoa,Pago Pago,Oceania,44273,46189,51368,54849,58230,47818,32886,27075,199,222.4774,0.9831,0.0
4,203,AND,Andorra,Andorra la Vella,Europe,79824,77700,71746,71519,66097,53569,35611,19860,468,170.5641,1.01,0.0


Vamos fazer poucas alterações no nosso dataset, pq ele está bem completo e sem muitos erros (uma coisa fora do comum).

Vamos começar reduzindo nossos dados, pois nesse caso queremos apenas dados mais recentes.

Fique com apenas a coluna de 2022 e tire todas as outras.

In [None]:
#Escreva aqui o codigo
#Dica, vimos algo assim no dataset dos livros

In [None]:
#Mostre os 5 primeiros da tabela

Unnamed: 0,Rank,CCA3,Country/Territory,Capital,Continent,2022 Population,Area (km²),Density (per km²),Growth Rate,World Population Percentage
0,36,AFG,Afghanistan,Kabul,Asia,41128771,652230,63.0587,1.0257,0.52
1,138,ALB,Albania,Tirana,Europe,2842321,28748,98.8702,0.9957,0.04
2,34,DZA,Algeria,Algiers,Africa,44903225,2381741,18.8531,1.0164,0.56
3,213,ASM,American Samoa,Pago Pago,Oceania,44273,199,222.4774,0.9831,0.0
4,203,AND,Andorra,Andorra la Vella,Europe,79824,468,170.5641,1.01,0.0


Mostre que a coluna que você escolheu é unica.

Qual coluna você acha que seria uma boa coluna de identificação?

In [None]:
#Escreva seu codigo aqui

True

Agora que vimos que nossa coluna é única, podemos transformar ela em nossa coluna de indentificação.

Lembra de como que faz?

In [None]:
#Escreva aqui

Unnamed: 0_level_0,Rank,Country/Territory,Capital,Continent,2022 Population,Area (km²),Density (per km²),Growth Rate,World Population Percentage
CCA3,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
AFG,36,Afghanistan,Kabul,Asia,41128771,652230,63.0587,1.0257,0.52
ALB,138,Albania,Tirana,Europe,2842321,28748,98.8702,0.9957,0.04
DZA,34,Algeria,Algiers,Africa,44903225,2381741,18.8531,1.0164,0.56
ASM,213,American Samoa,Pago Pago,Oceania,44273,199,222.4774,0.9831,0.0
AND,203,Andorra,Andorra la Vella,Europe,79824,468,170.5641,1.01,0.0


Podemos renomear algumas colunas para que nossa visualização fique melhor.

Vamos renomear aquelas em inglês e colocar em português.

In [None]:
#Coloque aqui o codigo
#Dica: fizemos isso no dataset das olimpiadas

In [None]:
#Mostre os 5 primeiros

Unnamed: 0_level_0,Rank,País,Capital,Continente,População em 2022,Area (km²),Densidade (km²),Crescimento Populacional,Porcentagem com Relação ao Mundo
CCA3,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
AFG,36,Afghanistan,Kabul,Asia,41128771,652230,63.0587,1.0257,0.52
ALB,138,Albania,Tirana,Europe,2842321,28748,98.8702,0.9957,0.04
DZA,34,Algeria,Algiers,Africa,44903225,2381741,18.8531,1.0164,0.56
ASM,213,American Samoa,Pago Pago,Oceania,44273,199,222.4774,0.9831,0.0
AND,203,Andorra,Andorra la Vella,Europe,79824,468,170.5641,1.01,0.0


Aqui temos uma coisinha nova então vou deixar para vocês.

Estamos trocando o nome dos valores que aparecem na coluna Continente.

In [None]:
df.replace({'Continente':{'Europe' : 'Europa', 'North America' : 'América do Norte', 'South America' : 'América do Sul'}})

Unnamed: 0_level_0,Rank,País,Capital,Continente,População em 2022,Area (km²),Densidade (km²),Crescimento Populacional,Porcentagem com Relação ao Mundo
CCA3,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
AFG,36,Afghanistan,Kabul,Asia,41128771,652230,63.0587,1.0257,0.52
ALB,138,Albania,Tirana,Europa,2842321,28748,98.8702,0.9957,0.04
DZA,34,Algeria,Algiers,Africa,44903225,2381741,18.8531,1.0164,0.56
ASM,213,American Samoa,Pago Pago,Oceania,44273,199,222.4774,0.9831,0.00
AND,203,Andorra,Andorra la Vella,Europa,79824,468,170.5641,1.0100,0.00
...,...,...,...,...,...,...,...,...,...
WLF,226,Wallis and Futuna,Mata-Utu,Oceania,11572,142,81.4930,0.9953,0.00
ESH,172,Western Sahara,El Aaiún,Africa,575986,266000,2.1654,1.0184,0.01
YEM,46,Yemen,Sanaa,Asia,33696614,527968,63.8232,1.0217,0.42
ZMB,63,Zambia,Lusaka,Africa,20017675,752612,26.5976,1.0280,0.25
