# Introdução

O foco desta aula será em carregamento de datasets **.csv** e como fazer uma exploração inicial desses datasets, como vê-los e como obter algumas informações específicas.

Existem diversos sites em que pode-se encontrar **datasets públicos** e de utilidade geral. **Por lei**, o governo brasileiro deve disponibilizar muitas informações à população. Você pode encontrar esses dados neste site: https://dados.gov.br

Além disso, pode-se encontrar informações gerais em sites que pertencem a empresas privadas, o dataset que utilizaremos nessa aula foi encontrado em um desses sites e seu link pode ser encontrado aqui: https://www.kaggle.com/datasets/iamsouravbanerjee/world-population-dataset?select=world_population.csv

# Explicação sobre numpy e pandas

Ao decorrer das aulas, nós utilizaremos **2 bibliotecas** para nos auxiliar a examinar os datasets que desejamos, essas bibliotecas são conhecidas como **numpy e pandas**.

**numpy** -> é um dos pacotes fundamentais para computação científica em Python, ele é uma biblioteca que nos permite utilizar de diversas **funções matemáticas para manipular arrays e matrizes**;

**pandas** -> é um pacote que funciona muito bem com o numpy, suas principais funções estão relacionadas com a **análise e limpeza de dados**. Dentro dessas funções, podemos citar as **Series**, elas são como os vetores que você pode já ter visto em aulas de matemática, elas são sequências de valores em uma única dimensão, utilizando Python podemos manipular essas sequências de números.   

Iniciamos fazendo o **import** das bibliotecas necessárias:

In [1]:
import numpy as np
import pandas as pd

# Carregando csv

Os **csv (comma-separated values)**, são arquivos de textos em que seus valores são separados por vírgulas, eles são comumente encontrados em banco de dados e por consequência, será o tipo de arquivo mais comum a ser analisado.

Agora, vamos utilizar algumas funcionalidades dessas bibliotecas para fazer o carregamento do dataset utilizando **pd.read_csv()**.

Nesse caso utilizaremos um dataset referente a **população mundial** e logo em seguida, faremos um print do que carregamos utilizando o método **.head()**

In [2]:
df = pd.read_csv('world_population.csv')
df.head()

Unnamed: 0,Rank,CCA3,Country,Capital,Continent,2022 Population,2020 Population,2015 Population,2010 Population,2000 Population,1990 Population,1980 Population,1970 Population,Area (km²),Density (per km²),Growth Rate,World Population Percentage
0,36,AFG,Afghanistan,Kabul,Asia,41128771,38972230,33753499,28189672,19542982,10694796,12486631,10752971,652230,63.0587,1.0257,0.52
1,138,ALB,Albania,Tirana,Europe,2842321,2866849,2882481,2913399,3182021,3295066,2941651,2324731,28748,98.8702,0.9957,0.04
2,34,DZA,Algeria,Algiers,Africa,44903225,43451666,39543154,35856344,30774621,25518074,18739378,13795915,2381741,18.8531,1.0164,0.56
3,213,ASM,American Samoa,Pago Pago,Oceania,44273,46189,51368,54849,58230,47818,32886,27075,199,222.4774,0.9831,0.0
4,203,AND,Andorra,Andorra la Vella,Europe,79824,77700,71746,71519,66097,53569,35611,19860,468,170.5641,1.01,0.0


Agora que conseguimos carregar nosso dataset para a estrutura **dataframe (uma estrutura de dados que é organizada em 2 dimensões, sendo elas linha e colunas)** vamos tentar **entendê-lo**, ele é composto por **linhas e colunas**, não muito diferente de tabelas que você pode já ter visto. **Dica:** caso você tenha dificuldade em entender alguma informação do dataset, saiba que muitas vezes há uma explicação do significado de cada coluna disponibilizada pelas mesmas pessoas que o fizeram.

**Exercício** -> O que você conseguiu descobrir a partir dessa análise inicial?

Muito bem!

Com um bom entendimento do dataset que estamos lidando, vamos tentar entender o parâmetro **.head()** um pouco mais.

Ao alterar o valor que vai dentro do parênteses do **.head()** você consegue controlar quantas linhas serão imprimidas, por exemplo, ao colocar **df.head(10)**, as primeiras 10 linhas serão imprimidas. 

Como demonstrado a cima, ao deixar os parênteses **em branco**, as 5 primeiras linhas serão imprimidas.

In [3]:
df.head(10)

Unnamed: 0,Rank,CCA3,Country,Capital,Continent,2022 Population,2020 Population,2015 Population,2010 Population,2000 Population,1990 Population,1980 Population,1970 Population,Area (km²),Density (per km²),Growth Rate,World Population Percentage
0,36,AFG,Afghanistan,Kabul,Asia,41128771,38972230,33753499,28189672,19542982,10694796,12486631,10752971,652230,63.0587,1.0257,0.52
1,138,ALB,Albania,Tirana,Europe,2842321,2866849,2882481,2913399,3182021,3295066,2941651,2324731,28748,98.8702,0.9957,0.04
2,34,DZA,Algeria,Algiers,Africa,44903225,43451666,39543154,35856344,30774621,25518074,18739378,13795915,2381741,18.8531,1.0164,0.56
3,213,ASM,American Samoa,Pago Pago,Oceania,44273,46189,51368,54849,58230,47818,32886,27075,199,222.4774,0.9831,0.0
4,203,AND,Andorra,Andorra la Vella,Europe,79824,77700,71746,71519,66097,53569,35611,19860,468,170.5641,1.01,0.0
5,42,AGO,Angola,Luanda,Africa,35588987,33428485,28127721,23364185,16394062,11828638,8330047,6029700,1246700,28.5466,1.0315,0.45
6,224,AIA,Anguilla,The Valley,North America,15857,15585,14525,13172,11047,8316,6560,6283,91,174.2527,1.0066,0.0
7,201,ATG,Antigua and Barbuda,Saint John’s,North America,93763,92664,89941,85695,75055,63328,64888,64516,442,212.1335,1.0058,0.0
8,33,ARG,Argentina,Buenos Aires,South America,45510318,45036032,43257065,41100123,37070774,32637657,28024803,23842803,2780400,16.3683,1.0052,0.57
9,140,ARM,Armenia,Yerevan,Asia,2780469,2805608,2878595,2946293,3168523,3556539,3135123,2534377,29743,93.4831,0.9962,0.03


Para imprimir **todo o dataframe**, basta escrever seu nome e rodar o código.

In [4]:
df

Unnamed: 0,Rank,CCA3,Country,Capital,Continent,2022 Population,2020 Population,2015 Population,2010 Population,2000 Population,1990 Population,1980 Population,1970 Population,Area (km²),Density (per km²),Growth Rate,World Population Percentage
0,36,AFG,Afghanistan,Kabul,Asia,41128771,38972230,33753499,28189672,19542982,10694796,12486631,10752971,652230,63.0587,1.0257,0.52
1,138,ALB,Albania,Tirana,Europe,2842321,2866849,2882481,2913399,3182021,3295066,2941651,2324731,28748,98.8702,0.9957,0.04
2,34,DZA,Algeria,Algiers,Africa,44903225,43451666,39543154,35856344,30774621,25518074,18739378,13795915,2381741,18.8531,1.0164,0.56
3,213,ASM,American Samoa,Pago Pago,Oceania,44273,46189,51368,54849,58230,47818,32886,27075,199,222.4774,0.9831,0.00
4,203,AND,Andorra,Andorra la Vella,Europe,79824,77700,71746,71519,66097,53569,35611,19860,468,170.5641,1.0100,0.00
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
229,226,WLF,Wallis and Futuna,Mata-Utu,Oceania,11572,11655,12182,13142,14723,13454,11315,9377,142,81.4930,0.9953,0.00
230,172,ESH,Western Sahara,El Aaiún,Africa,575986,556048,491824,413296,270375,178529,116775,76371,266000,2.1654,1.0184,0.01
231,46,YEM,Yemen,Sanaa,Asia,33696614,32284046,28516545,24743946,18628700,13375121,9204938,6843607,527968,63.8232,1.0217,0.42
232,63,ZMB,Zambia,Lusaka,Africa,20017675,18927715,16248230,13792086,9891136,7686401,5720438,4281671,752612,26.5976,1.0280,0.25


# Carregando HTML

É importante lembrar que existem diversos tipos de arquivos que podem ser analisados por meio do Python além dos csv, por exemplo o **.html**, o método para carregar um dataset **.html** não difere muito dos csv's como você pode ver abaixo, deve-se apenas perceber que você deve mostrar explicitamente qual tabela você gostaria de ver, isso é possível utilizando **[x]**, onde "x" é o número da tabela que você gostaria de visualizar:

In [5]:
html = pd.read_html('https://en.wikipedia.org/wiki/Minnesota')
html[2].head()

Unnamed: 0,Location,July (°F),July (°C),January (°F),January (°C)
0,Minneapolis,83/64,28/18,23/7,−4/−13
1,Saint Paul,83/63,28/17,23/6,−5/−14
2,Rochester,82/63,28/17,23/3,−5/−16
3,Duluth,76/55,24/13,19/1,−7/−17
4,St. Cloud,81/58,27/14,18/−1,−7/−18


# Carregando do Excel

Para carregar **datasets feitos em tabelas no excel** você pode utilizar um parâmetro muito semelhante ao do csv, ao invés de utilizar **.read_csv()** você deve utilizar **.read_excel()**, este parâmetro pode ser utilizado para carregar múltiplos tipos de arquivos, nesse caso, mostrarei um exemplo com **.xlsx**

In [6]:
excel = pd.read_excel('Municipios_atendidos_com_SMP_e_tecnologias.xlsx')
excel.head()

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,ALGAR,Unnamed: 6,Unnamed: 7,CLARO,Unnamed: 9,...,Unnamed: 13,TIM,Unnamed: 15,Unnamed: 16,VIVO,Unnamed: 18,Unnamed: 19,SERCOMTEL,Unnamed: 21,Unnamed: 22
0,Período,IBGE,UF,AR,Município,2G,3G,4G,2G,3G,...,4G,2G,3G,4G,2G,3G,4G,2G,3G,4G
1,2022-06-01 00:00:00,1100015,RO,69,Alta Floresta D'Oeste-RO,,,,SIM,SIM,...,NÃO,SIM,NÃO,NÃO,SIM,SIM,SIM,,,
2,2022-06-01 00:00:00,1100023,RO,69,Ariquemes-RO,,,,SIM,SIM,...,NÃO,SIM,SIM,SIM,SIM,SIM,SIM,,,
3,2022-06-01 00:00:00,1100031,RO,69,Cabixi-RO,,,,NÃO,SIM,...,,SIM,NÃO,NÃO,,,,,,
4,2022-06-01 00:00:00,1100049,RO,69,Cacoal-RO,,,,SIM,SIM,...,NÃO,SIM,SIM,SIM,SIM,SIM,SIM,,,


# Explorações Iniciais de um csv

Muito bem! Agora que conseguimos carregar e visualizar nosso dataset, podemos começar a fazer alterações e obter informações úteis. Vamos utilizar o **primeiro dataframe** que carregamos:

In [7]:
df.head()

Unnamed: 0,Rank,CCA3,Country,Capital,Continent,2022 Population,2020 Population,2015 Population,2010 Population,2000 Population,1990 Population,1980 Population,1970 Population,Area (km²),Density (per km²),Growth Rate,World Population Percentage
0,36,AFG,Afghanistan,Kabul,Asia,41128771,38972230,33753499,28189672,19542982,10694796,12486631,10752971,652230,63.0587,1.0257,0.52
1,138,ALB,Albania,Tirana,Europe,2842321,2866849,2882481,2913399,3182021,3295066,2941651,2324731,28748,98.8702,0.9957,0.04
2,34,DZA,Algeria,Algiers,Africa,44903225,43451666,39543154,35856344,30774621,25518074,18739378,13795915,2381741,18.8531,1.0164,0.56
3,213,ASM,American Samoa,Pago Pago,Oceania,44273,46189,51368,54849,58230,47818,32886,27075,199,222.4774,0.9831,0.0
4,203,AND,Andorra,Andorra la Vella,Europe,79824,77700,71746,71519,66097,53569,35611,19860,468,170.5641,1.01,0.0


Para **iniciarmos nossa análise**, podemos utilizar de alguns recursos do Python para obtermos informações do dataset, nesse momento vamos apresentar **loc** e **iloc**

**loc** -> caso você queira utilizar informações adquiridas em **qualquer eixo** (linhas ou colunas)

**iloc** -> caso você queira utilizar as **linhas** para obter as informações, elas serão baseadas no número inteiro informado.

In [8]:
#Pegando informações da primeira linha do dataset

df.iloc[0]

Rank                                    36
CCA3                                   AFG
Country                        Afghanistan
Capital                              Kabul
Continent                             Asia
2022 Population                   41128771
2020 Population                   38972230
2015 Population                   33753499
2010 Population                   28189672
2000 Population                   19542982
1990 Population                   10694796
1980 Population                   12486631
1970 Population                   10752971
Area (km²)                          652230
Density (per km²)                  63.0587
Growth Rate                         1.0257
World Population Percentage           0.52
Name: 0, dtype: object

### Exercício

In [9]:
#Tente pegar as informações de uma linha a sua escolha, lembrando que temos 233 linhas.

df.iloc[20]

Rank                                     177
CCA3                                     BLZ
Country                               Belize
Capital                             Belmopan
Continent                      North America
2022 Population                       405272
2020 Population                       394921
2015 Population                       359871
2010 Population                       322106
2000 Population                       240406
1990 Population                       182589
1980 Population                       145133
1970 Population                       120905
Area (km²)                             22966
Density (per km²)                    17.6466
Growth Rate                           1.0131
World Population Percentage             0.01
Name: 20, dtype: object

In [10]:
#Usando loc, você consegue utilizar o valor do índice para recuperar informações.

df.loc[36]

Rank                                  171
CCA3                                  CPV
Country                        Cape Verde
Capital                             Praia
Continent                          Africa
2022 Population                    593149
2020 Population                    582640
2015 Population                    552166
2010 Population                    521212
2000 Population                    458251
1990 Population                    364563
1980 Population                    317234
1970 Population                    287262
Area (km²)                           4033
Density (per km²)                147.0739
Growth Rate                        1.0089
World Population Percentage          0.01
Name: 36, dtype: object

In [11]:
#Caso você queira recuperar as informações de múltiplas linhas utilizando loc.

df.loc[[45,16]]

Unnamed: 0,Rank,CCA3,Country,Capital,Continent,2022 Population,2020 Population,2015 Population,2010 Population,2000 Population,1990 Population,1980 Population,1970 Population,Area (km²),Density (per km²),Growth Rate,World Population Percentage
45,124,CRI,Costa Rica,San José,North America,5180829,5123105,4895242,4622252,3979193,3158253,2414303,1855697,51100,101.3861,1.0052,0.06
16,8,BGD,Bangladesh,Dhaka,Asia,171186372,167420951,157830000,148391139,129193327,107147651,83929765,67541860,147570,1160.035,1.0108,2.15


Também é possível pegar **intervalos** utilizando o método iloc!

In [12]:
#Veja como você pode carregar intervalos utilizando iloc:
df.iloc[5:10]

Unnamed: 0,Rank,CCA3,Country,Capital,Continent,2022 Population,2020 Population,2015 Population,2010 Population,2000 Population,1990 Population,1980 Population,1970 Population,Area (km²),Density (per km²),Growth Rate,World Population Percentage
5,42,AGO,Angola,Luanda,Africa,35588987,33428485,28127721,23364185,16394062,11828638,8330047,6029700,1246700,28.5466,1.0315,0.45
6,224,AIA,Anguilla,The Valley,North America,15857,15585,14525,13172,11047,8316,6560,6283,91,174.2527,1.0066,0.0
7,201,ATG,Antigua and Barbuda,Saint John’s,North America,93763,92664,89941,85695,75055,63328,64888,64516,442,212.1335,1.0058,0.0
8,33,ARG,Argentina,Buenos Aires,South America,45510318,45036032,43257065,41100123,37070774,32637657,28024803,23842803,2780400,16.3683,1.0052,0.57
9,140,ARM,Armenia,Yerevan,Asia,2780469,2805608,2878595,2946293,3168523,3556539,3135123,2534377,29743,93.4831,0.9962,0.03


Você também pode tentar utilizando o método loc! Veja as diferenças que ele apresentará em comparação com o iloc:

In [13]:
df.loc[5:10]

Unnamed: 0,Rank,CCA3,Country,Capital,Continent,2022 Population,2020 Population,2015 Population,2010 Population,2000 Population,1990 Population,1980 Population,1970 Population,Area (km²),Density (per km²),Growth Rate,World Population Percentage
5,42,AGO,Angola,Luanda,Africa,35588987,33428485,28127721,23364185,16394062,11828638,8330047,6029700,1246700,28.5466,1.0315,0.45
6,224,AIA,Anguilla,The Valley,North America,15857,15585,14525,13172,11047,8316,6560,6283,91,174.2527,1.0066,0.0
7,201,ATG,Antigua and Barbuda,Saint John’s,North America,93763,92664,89941,85695,75055,63328,64888,64516,442,212.1335,1.0058,0.0
8,33,ARG,Argentina,Buenos Aires,South America,45510318,45036032,43257065,41100123,37070774,32637657,28024803,23842803,2780400,16.3683,1.0052,0.57
9,140,ARM,Armenia,Yerevan,Asia,2780469,2805608,2878595,2946293,3168523,3556539,3135123,2534377,29743,93.4831,0.9962,0.03
10,198,ABW,Aruba,Oranjestad,North America,106445,106585,104257,100341,89101,65712,62267,59106,180,591.3611,0.9991,0.0


Caso você deixe o primeiro espaço em branco, o código começará da linha 0

In [14]:
df.iloc[:5]

Unnamed: 0,Rank,CCA3,Country,Capital,Continent,2022 Population,2020 Population,2015 Population,2010 Population,2000 Population,1990 Population,1980 Population,1970 Population,Area (km²),Density (per km²),Growth Rate,World Population Percentage
0,36,AFG,Afghanistan,Kabul,Asia,41128771,38972230,33753499,28189672,19542982,10694796,12486631,10752971,652230,63.0587,1.0257,0.52
1,138,ALB,Albania,Tirana,Europe,2842321,2866849,2882481,2913399,3182021,3295066,2941651,2324731,28748,98.8702,0.9957,0.04
2,34,DZA,Algeria,Algiers,Africa,44903225,43451666,39543154,35856344,30774621,25518074,18739378,13795915,2381741,18.8531,1.0164,0.56
3,213,ASM,American Samoa,Pago Pago,Oceania,44273,46189,51368,54849,58230,47818,32886,27075,199,222.4774,0.9831,0.0
4,203,AND,Andorra,Andorra la Vella,Europe,79824,77700,71746,71519,66097,53569,35611,19860,468,170.5641,1.01,0.0


Caso você deixe o segundo espaço em branco, será considerado a última linha, por exemplo:

In [15]:
df.iloc[5:]

Unnamed: 0,Rank,CCA3,Country,Capital,Continent,2022 Population,2020 Population,2015 Population,2010 Population,2000 Population,1990 Population,1980 Population,1970 Population,Area (km²),Density (per km²),Growth Rate,World Population Percentage
5,42,AGO,Angola,Luanda,Africa,35588987,33428485,28127721,23364185,16394062,11828638,8330047,6029700,1246700,28.5466,1.0315,0.45
6,224,AIA,Anguilla,The Valley,North America,15857,15585,14525,13172,11047,8316,6560,6283,91,174.2527,1.0066,0.00
7,201,ATG,Antigua and Barbuda,Saint John’s,North America,93763,92664,89941,85695,75055,63328,64888,64516,442,212.1335,1.0058,0.00
8,33,ARG,Argentina,Buenos Aires,South America,45510318,45036032,43257065,41100123,37070774,32637657,28024803,23842803,2780400,16.3683,1.0052,0.57
9,140,ARM,Armenia,Yerevan,Asia,2780469,2805608,2878595,2946293,3168523,3556539,3135123,2534377,29743,93.4831,0.9962,0.03
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
229,226,WLF,Wallis and Futuna,Mata-Utu,Oceania,11572,11655,12182,13142,14723,13454,11315,9377,142,81.4930,0.9953,0.00
230,172,ESH,Western Sahara,El Aaiún,Africa,575986,556048,491824,413296,270375,178529,116775,76371,266000,2.1654,1.0184,0.01
231,46,YEM,Yemen,Sanaa,Asia,33696614,32284046,28516545,24743946,18628700,13375121,9204938,6843607,527968,63.8232,1.0217,0.42
232,63,ZMB,Zambia,Lusaka,Africa,20017675,18927715,16248230,13792086,9891136,7686401,5720438,4281671,752612,26.5976,1.0280,0.25


**Exercício**

In [16]:
#Tente carregar um intervalo de linhas, assim como demonstrado acima.

# Análises mais específicas do csv 

Agora que você já está um pouco mais familiarizado com o funcionamento dessa linguagem de programação, vamos tentar fazer análises mais específicas nesse mesmo dataset.

In [17]:
df.head()

Unnamed: 0,Rank,CCA3,Country,Capital,Continent,2022 Population,2020 Population,2015 Population,2010 Population,2000 Population,1990 Population,1980 Population,1970 Population,Area (km²),Density (per km²),Growth Rate,World Population Percentage
0,36,AFG,Afghanistan,Kabul,Asia,41128771,38972230,33753499,28189672,19542982,10694796,12486631,10752971,652230,63.0587,1.0257,0.52
1,138,ALB,Albania,Tirana,Europe,2842321,2866849,2882481,2913399,3182021,3295066,2941651,2324731,28748,98.8702,0.9957,0.04
2,34,DZA,Algeria,Algiers,Africa,44903225,43451666,39543154,35856344,30774621,25518074,18739378,13795915,2381741,18.8531,1.0164,0.56
3,213,ASM,American Samoa,Pago Pago,Oceania,44273,46189,51368,54849,58230,47818,32886,27075,199,222.4774,0.9831,0.0
4,203,AND,Andorra,Andorra la Vella,Europe,79824,77700,71746,71519,66097,53569,35611,19860,468,170.5641,1.01,0.0


Como você pode ter percebido, ao carregar um dataframe um **índice** foi atribuido a ele, porém, muitos dos dataframes que podem ser encontrados já possuem **índices inclusos** que quando carregados juntamente do arquivo, se transformarão em um coluna qualquer.

Nesse caso, podemos ver que as siglas dos países, também conhecido como CCA3, pode ser colocado como o **índice**, afinal, o único pré-requisito é que toda célula de um determinado índice seja **única**.

Vamos checar se a coluna **CCA3** é composta de celulas únicas utilizando **.is_unique()**

Em seguida, caso verdadeiro, vamos transforma-lá no índice utilizando **.set_index()**

In [18]:
df['CCA3'].is_unique

True

In [19]:
df = df.set_index('CCA3')
df.head()

Unnamed: 0_level_0,Rank,Country,Capital,Continent,2022 Population,2020 Population,2015 Population,2010 Population,2000 Population,1990 Population,1980 Population,1970 Population,Area (km²),Density (per km²),Growth Rate,World Population Percentage
CCA3,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
AFG,36,Afghanistan,Kabul,Asia,41128771,38972230,33753499,28189672,19542982,10694796,12486631,10752971,652230,63.0587,1.0257,0.52
ALB,138,Albania,Tirana,Europe,2842321,2866849,2882481,2913399,3182021,3295066,2941651,2324731,28748,98.8702,0.9957,0.04
DZA,34,Algeria,Algiers,Africa,44903225,43451666,39543154,35856344,30774621,25518074,18739378,13795915,2381741,18.8531,1.0164,0.56
ASM,213,American Samoa,Pago Pago,Oceania,44273,46189,51368,54849,58230,47818,32886,27075,199,222.4774,0.9831,0.0
AND,203,Andorra,Andorra la Vella,Europe,79824,77700,71746,71519,66097,53569,35611,19860,468,170.5641,1.01,0.0


Como você pode ver, a alteração foi um sucesso! Agora nós possuímos um índice de fácil entendimento.

Vamos utilizar dessa mudança para adquirir informações sobre o Brasil com mais facilidade.

Lembrando que para adquirir informações específicas pode-se utilizar:

**loc** -> caso você queira utilizar informações adquiridas em **qualquer eixo** (linhas ou colunas)

**iloc** -> caso você queira utilizar as **linhas** para obter as informações, elas serão baseadas no número inteiro informado.

Como já sabemos qual o índice em que o Brasil se encontra, sendo ele a sua sigla "BRA", utilizaremos **loc** para obter tudo que o dataframe tem a oferecer sobre o Brasil. 

In [20]:
df.loc["BRA"]

Rank                                       7
Country                               Brazil
Capital                             Brasilia
Continent                      South America
2022 Population                    215313498
2020 Population                    213196304
2015 Population                    205188205
2010 Population                    196353492
2000 Population                    175873720
1990 Population                    150706446
1980 Population                    122288383
1970 Population                     96369875
Area (km²)                           8515767
Density (per km²)                    25.2841
Growth Rate                           1.0046
World Population Percentage              2.7
Name: BRA, dtype: object

Conseguimos adquirir as informações com sucesso, porém, muitas delas podem ser consideradas **desnecessárias**. Digamos que você esteja fazendo uma análise das populações **desse ano**, a maioria das colunas do dataset poderiam ser retiradas, para resolver esse problema, podemos fazer um drop dessas colunas utilizando **.drop()** e uma variável com os nomes das **colunas**, por exemplo:

In [21]:
to_drop = ['1970 Population',
          '1980 Population',
          '1990 Population',
          '2000 Population',
          '2010 Population',
          '2015 Population',
          '2020 Population']

df.drop(to_drop, inplace=True, axis=1)

In [22]:
df.head()

Unnamed: 0_level_0,Rank,Country,Capital,Continent,2022 Population,Area (km²),Density (per km²),Growth Rate,World Population Percentage
CCA3,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
AFG,36,Afghanistan,Kabul,Asia,41128771,652230,63.0587,1.0257,0.52
ALB,138,Albania,Tirana,Europe,2842321,28748,98.8702,0.9957,0.04
DZA,34,Algeria,Algiers,Africa,44903225,2381741,18.8531,1.0164,0.56
ASM,213,American Samoa,Pago Pago,Oceania,44273,199,222.4774,0.9831,0.0
AND,203,Andorra,Andorra la Vella,Europe,79824,468,170.5641,1.01,0.0


Agora que nosso dataset só está nos apresentando informações úteis para nossa pesquisa, vamos ver como ficaram os dados do Brasil

In [23]:
df.loc["BRA"]

Rank                                       7
Country                               Brazil
Capital                             Brasilia
Continent                      South America
2022 Population                    215313498
Area (km²)                           8515767
Density (per km²)                    25.2841
Growth Rate                           1.0046
World Population Percentage              2.7
Name: BRA, dtype: object

Agora sim nós conseguimos ver as informações que queremos com muito mais clareza, mas ainda existe um problema, digamos que você esteja fazendo essa mesma pesquisa para fazer uma **apresentação** para brasileiros, embora as palavras utilizadas sejam comuns para aqueles que tem contato com a lingua inglesa, muitos **não saberão o que ela significa**, podemos fazer uma alteração nas colunas utilizando **.rename**, como no exemplo a seguir:

In [24]:
df.rename(columns={'Country': 'País', 'Continent' : 'Continente', '2022 Population' : 'População em 2022','Density (per km²)' : 'Densidade (km²)', 'Growth Rate' : 'Crescimento Populacional', 'World Population Percentage' : 'Porcentagem com Relação ao Mundo'}, inplace = True)

In [25]:
df.head()

Unnamed: 0_level_0,Rank,País,Capital,Continente,População em 2022,Area (km²),Densidade (km²),Crescimento Populacional,Porcentagem com Relação ao Mundo
CCA3,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
AFG,36,Afghanistan,Kabul,Asia,41128771,652230,63.0587,1.0257,0.52
ALB,138,Albania,Tirana,Europe,2842321,28748,98.8702,0.9957,0.04
DZA,34,Algeria,Algiers,Africa,44903225,2381741,18.8531,1.0164,0.56
ASM,213,American Samoa,Pago Pago,Oceania,44273,199,222.4774,0.9831,0.0
AND,203,Andorra,Andorra la Vella,Europe,79824,468,170.5641,1.01,0.0


Não se esqueça de que essa funcionalidade **não é exclusiva para traduções**, caso queira simplesmente deixar o nome de uma coluna mais simples, para melhor entendimento, pode-se utilizar do mesmo método

Agora, vamos tentar obter as informações dos **Estados Unidos**, porém, ao invés de imprimir todas as informações do país, como fizemos com o Brazil, vamos tentar pegar **apenas sua capital e população**.

Esse desafio também é possível de ser resolvido utilizando **loc**, como demonstrado a baixo:

In [26]:
df.loc['USA', ['Capital', 'População em 2022']]

Capital              Washington, D.C.
População em 2022           338289857
Name: USA, dtype: object

Mas não se esqueça! Ainda é possível fazer buscas utilizando **outras colunas**, você não está preso ao índice!

In [27]:
df.loc[df["País"] == "Brazil"]

Unnamed: 0_level_0,Rank,País,Capital,Continente,População em 2022,Area (km²),Densidade (km²),Crescimento Populacional,Porcentagem com Relação ao Mundo
CCA3,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
BRA,7,Brazil,Brasilia,South America,215313498,8515767,25.2841,1.0046,2.7


# Fazendo mais buscas no dataset

Até o momento nós fizemos apenas buscas utilizando os **índices que já conhecemos**, além de fazer algumas alterações no dataframe para que tenhamos mais facilidades nessas buscas e na visualização dos resultados.

Embora seja um grande avanço, com o Python é possível fazer muito mais!

Por exemplo, digamos que você **não tenha conhecimento do país** com a maior população do mundo, você pode obter o maior valor de qualquer número inteiro de determinada coluna utilizando **.idxmax()**, ao utiliza-lo em conjunto do **.loc** utilizado anteriormente, conseguiremos todas as informações desse país 

In [28]:
df.loc[df["População em 2022"].idxmax()]

Rank                                         1
País                                     China
Capital                                Beijing
Continente                                Asia
População em 2022                   1425887337
Area (km²)                             9706961
Densidade (km²)                       146.8933
Crescimento Populacional                   1.0
Porcentagem com Relação ao Mundo         17.88
Name: CHN, dtype: object

Caso nosso objetivo seja obter o valor mínimo, devemos utilizar **.idxmin()**

In [29]:
df.loc[df["População em 2022"].idxmin()]

Rank                                         234
País                                Vatican City
Capital                             Vatican City
Continente                                Europe
População em 2022                            510
Area (km²)                                     1
Densidade (km²)                            510.0
Crescimento Populacional                   0.998
Porcentagem com Relação ao Mundo             0.0
Name: VAT, dtype: object

Nós podemos também utilizar de **operações matemáticas** para obter informações úteis, digamos que você queira obter as **5 maiores populações do mundo**, basta pegar o rank de todos os países e pedir para imprimir apenas os **valores menores ou iguais a 5**, por exemplo:

In [30]:
df.loc[df["Rank"] <= 5]

Unnamed: 0_level_0,Rank,País,Capital,Continente,População em 2022,Area (km²),Densidade (km²),Crescimento Populacional,Porcentagem com Relação ao Mundo
CCA3,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
CHN,1,China,Beijing,Asia,1425887337,9706961,146.8933,1.0,17.88
IND,2,India,New Delhi,Asia,1417173173,3287590,431.0675,1.0068,17.77
IDN,4,Indonesia,Jakarta,Asia,275501339,1904569,144.6529,1.0064,3.45
PAK,5,Pakistan,Islamabad,Asia,235824862,881912,267.4018,1.0191,2.96
USA,3,United States,"Washington, D.C.",North America,338289857,9372610,36.0935,1.0038,4.24


Agora vamos tentar obter todos os países que estão com populações **crescentes**!

In [31]:
df.loc[df["Crescimento Populacional"] > 1]

Unnamed: 0_level_0,Rank,País,Capital,Continente,População em 2022,Area (km²),Densidade (km²),Crescimento Populacional,Porcentagem com Relação ao Mundo
CCA3,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
AFG,36,Afghanistan,Kabul,Asia,41128771,652230,63.0587,1.0257,0.52
DZA,34,Algeria,Algiers,Africa,44903225,2381741,18.8531,1.0164,0.56
AND,203,Andorra,Andorra la Vella,Europe,79824,468,170.5641,1.0100,0.00
AGO,42,Angola,Luanda,Africa,35588987,1246700,28.5466,1.0315,0.45
AIA,224,Anguilla,The Valley,North America,15857,91,174.2527,1.0066,0.00
...,...,...,...,...,...,...,...,...,...
VNM,16,Vietnam,Hanoi,Asia,98186856,331212,296.4472,1.0074,1.23
ESH,172,Western Sahara,El Aaiún,Africa,575986,266000,2.1654,1.0184,0.01
YEM,46,Yemen,Sanaa,Asia,33696614,527968,63.8232,1.0217,0.42
ZMB,63,Zambia,Lusaka,Africa,20017675,752612,26.5976,1.0280,0.25


Agora vamos tentar pegar os **5 maiores** países do mundo! Vamos utilizar o método **.nlargest()** para alcançar nosso objetivo.

In [32]:
df.nlargest(5, ["Area (km²)"])

Unnamed: 0_level_0,Rank,País,Capital,Continente,População em 2022,Area (km²),Densidade (km²),Crescimento Populacional,Porcentagem com Relação ao Mundo
CCA3,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
RUS,9,Russia,Moscow,Europe,144713314,17098242,8.4636,0.9973,1.81
CAN,39,Canada,Ottawa,North America,38454327,9984670,3.8513,1.0078,0.48
CHN,1,China,Beijing,Asia,1425887337,9706961,146.8933,1.0,17.88
USA,3,United States,"Washington, D.C.",North America,338289857,9372610,36.0935,1.0038,4.24
BRA,7,Brazil,Brasilia,South America,215313498,8515767,25.2841,1.0046,2.7


**Exercício**

In [33]:
#Tente obter os países com as 5 maiores taxas de crescimento


Agora vamos tentar pegar um país específico utilizando seu **rank**.

Lembrando que no Python caso você queira um valor igual a determinado valor deve-se utilizar **"=="**, por exemplo:

In [34]:
df.loc[df["Rank"] == 120]

Unnamed: 0_level_0,Rank,País,Capital,Continente,População em 2022,Area (km²),Densidade (km²),Crescimento Populacional,Porcentagem com Relação ao Mundo
CCA3,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
NOR,120,Norway,Oslo,Europe,5434319,323802,16.7828,1.0058,0.07


Também é importante lembrar que o **"=="** pode ser utilizado para fazer **comparações**, vamos obter os países da **América do Sul** como exemplo:

In [35]:
df.loc[df["Continente"] == "South America"]

Unnamed: 0_level_0,Rank,País,Capital,Continente,População em 2022,Area (km²),Densidade (km²),Crescimento Populacional,Porcentagem com Relação ao Mundo
CCA3,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
ARG,33,Argentina,Buenos Aires,South America,45510318,2780400,16.3683,1.0052,0.57
BOL,80,Bolivia,Sucre,South America,12224110,1098581,11.1272,1.012,0.15
BRA,7,Brazil,Brasilia,South America,215313498,8515767,25.2841,1.0046,2.7
CHL,65,Chile,Santiago,South America,19603733,756102,25.9274,1.0057,0.25
COL,28,Colombia,Bogota,South America,51874024,1141748,45.4339,1.0069,0.65
ECU,67,Ecuador,Quito,South America,18001000,276841,65.0229,1.0114,0.23
FLK,231,Falkland Islands,Stanley,South America,3780,12173,0.3105,1.0043,0.0
GUF,184,French Guiana,Cayenne,South America,304557,83534,3.6459,1.0239,0.0
GUY,164,Guyana,Georgetown,South America,808726,214969,3.7621,1.0052,0.01
PRY,109,Paraguay,Asunción,South America,6780744,406752,16.6705,1.0115,0.09


Vamos aproveitar que estamos nesse tema para aprender sobre o **value_counts()**, ao utiliza-lo, você pode **contar** quantas vezes determinada **condição** acontece, por exemplo, vamos ver quantos **países de cada continente** estão nesse dataframe:

In [36]:
df["Continente"].value_counts()

Africa           57
Asia             50
Europe           50
North America    40
Oceania          23
South America    14
Name: Continente, dtype: int64

Caso você queira ainda mais específico, pode-se utilizar o método **.count() com uma condição**, por exemplo, digamos que você queira contar **apenas os países da América do Sul**:

In [37]:
AdS = df.loc[df["Continente"] == "South America"]

In [38]:
AdS["País"].count()

14

Perceba que acima nós atribuimos todos os países da América do Sul em uma **variável**, isso **facilitará** nossas pesquisas, podemos simplesmente utilizar "AdS" como se fosse um novo dataset, assim como demonstrado com o .count acima.

Agora que nós separamos todos os países da América do Sul, vamos tentar fazer as **médias de suas populações** e analisar o que o código nos retorna!

In [39]:
AdS["População em 2022"].mean()

31201186.285714287

# Agora um Desafio!

**Escolha** um dos datasers encontrados abaixo e tente fazer seu **carregamento**, após isso, tente encontrar algumas informações que você ache interessante dele, tente utilizar os métodos ensinados a cima! 

vgsales - Dataset sobre vendas de jogos eletrônicos - https://www.kaggle.com/datasets/gregorut/videogamesales?resource=download

Fifa23Players - Dataset dos jogadores no jogo Fifa 23 - https://www.kaggle.com/datasets/sanjeetsinghnaik/fifa-23-players-dataset?resource=download

popular_sites - Dataset sobre sites populares ao redor do mundo - https://www.kaggle.com/datasets/yamaerenay/top50websites?select=sites.csv