# Versão de tratamento para continentes
O programa abaixo foi tratado para análise detalhada de cada continente e posteriormente foi adicionado em um arquivo de texto em formato de JSON

# Resumo dos dados

Ranking de crescimento populacional mundial nos anos de 1970 a 2023

Link da página no Kaggle do dataframe: https://www.kaggle.com/datasets/sazidthe1/world-population-data

*O conjunto primário de dados foi retirado do seguinte site: https://worldpopulationreview.com/

# Tratamento dos dados

Importação das bibliotecas necessárias para fazer o tratamento dos dados

*   Pandas: manipulação do dataframe
*   Numpy: cálculos e operações matemáticas

In [255]:
import pandas as pd
import numpy as np

Leitura em CSV do arquivo retirado do Kaggle

In [345]:
df_continente = pd.read_csv("/content/world_population_data.csv")

In [346]:
df_continente.head(len(df_continente))

Unnamed: 0,rank,cca3,country,continent,2023 population,2022 population,2020 population,2015 population,2010 population,2000 population,1990 population,1980 population,1970 population,area (km²),density (km²),growth rate,world percentage
0,1,IND,India,Asia,1428627663,1417173173,1396387127,1322866505,1240613620,1059633675,870452165,696828385,557501301,3287590.00,481,0.81%,17.85%
1,2,CHN,China,Asia,1425671352,1425887337,1424929781,1393715448,1348191368,1264099069,1153704252,982372466,822534450,9706961.00,151,-0.02%,17.81%
2,3,USA,United States,North America,339996563,338289857,335942003,324607776,311182845,282398554,248083732,223140018,200328340,9372610.00,37,0.50%,4.25%
3,4,IDN,Indonesia,Asia,277534122,275501339,271857970,259091970,244016173,214072421,182159874,148177096,115228394,1904569.00,148,0.74%,3.47%
4,5,PAK,Pakistan,Asia,240485658,235824862,227196741,210969298,194454498,154369924,115414069,80624057,59290872,881912.00,312,1.98%,3.00%
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
229,230,MSR,Montserrat,North America,4386,4390,4500,5059,4938,5138,10805,11452,11402,102.00,43,-0.09%,0.00%
230,231,FLK,Falkland Islands,South America,3791,3780,3747,3408,3187,3080,2332,2240,2274,12173.00,0,0.29%,0.00%
231,232,NIU,Niue,Oceania,1935,1934,1942,1847,1812,2074,2533,3637,5185,261.00,7,0.05%,0.00%
232,233,TKL,Tokelau,Oceania,1893,1871,1827,1454,1367,1666,1669,1647,1714,12.00,189,1.18%,0.00%


In [347]:
list(df_continente.columns)

['rank',
 'cca3',
 'country',
 'continent',
 '2023 population',
 '2022 population',
 '2020 population',
 '2015 population',
 '2010 population',
 '2000 population',
 '1990 population',
 '1980 population',
 '1970 population',
 'area (km²)',
 'density (km²)',
 'growth rate',
 'world percentage']

Verificação da quantidade de variação no conteúdo das colunas (a tabela possui 234 linhas)

In [348]:
for col in df_continente.columns:
  print(f"{col}: {df_continente[col].nunique()}")

rank: 234
cca3: 234
country: 234
continent: 6
2023 population: 234
2022 population: 234
2020 population: 234
2015 population: 234
2010 population: 234
2000 population: 234
1990 population: 234
1980 population: 234
1970 population: 234
area (km²): 232
density (km²): 167
growth rate: 176
world percentage: 73


In [349]:
df_continente.isnull().sum()

rank                0
cca3                0
country             0
continent           0
2023 population     0
2022 population     0
2020 population     0
2015 population     0
2010 population     0
2000 population     0
1990 population     0
1980 population     0
1970 population     0
area (km²)          0
density (km²)       0
growth rate         0
world percentage    0
dtype: int64

População global no ano de 2023

In [350]:
global_pop = df_continente["2023 population"].sum()
print( f'{global_pop:,}')

8,043,615,390


In [351]:
df_continente = df_continente.drop(["rank", "cca3", "2022 population", "2020 population", "2015 population", "2010 population", "2000 population", "1990 population", "1980 population", "1970 population", "density (km²)", "growth rate"], axis=1)

In [352]:
df_continente.columns = ["país", "continente", "2023", "área (km²)", "porcentagem mundial"]
df_continente.columns

Index(['país', 'continente', '2023', 'área (km²)', 'porcentagem mundial'], dtype='object')

Verificação de tipos de dados das colunas da tabela

In [353]:
df_continente.dtypes

país                    object
continente              object
2023                     int64
área (km²)             float64
porcentagem mundial     object
dtype: object

Identificação da quantidade de continentes presentes na tabela (6)

In [354]:
continentes = df_continente["continente"].sort_values(ascending=True).unique()
continentes

array(['Africa', 'Asia', 'Europe', 'North America', 'Oceania',
       'South America'], dtype=object)

Alteração no tipo de dado da coluna "porcentagem mundial" para cálculos

In [355]:
df_continente["porcentagem mundial"] = df_continente["porcentagem mundial"].str.replace('%', '').astype(float)

Criação da coluna "porcentagem populacional global" para reduzir linhas da tabela

In [356]:
df_continente["porcentagem populacional global"] = df_continente.groupby("continente")["porcentagem mundial"].transform("sum")
df_continente["porcentagem populacional global"] = df_continente["porcentagem populacional global"].map("{:.2f}%".format)

In [357]:
df_continente = df_continente.drop(["porcentagem mundial"], axis=1)

In [358]:
df_continente.head()

Unnamed: 0,país,continente,2023,área (km²),porcentagem populacional global
0,India,Asia,1428627663,3287590.0,59.37%
1,China,Asia,1425671352,9706961.0,59.37%
2,United States,North America,339996563,9372610.0,7.54%
3,Indonesia,Asia,277534122,1904569.0,59.37%
4,Pakistan,Asia,240485658,881912.0,59.37%


Agrupamento de área total por continente para reduzir linhas da tabela

In [359]:
df_continente["área"] = df_continente.groupby('continente')['área (km²)'].transform('sum')

Agrupamento de população por continente para reduzir linhas da tabela

In [360]:
df_continente["população (2023)"] = df_continente.groupby('continente')['2023'].transform('sum')

Agrupamento de países por continente para reduzir linhas da tabela

In [361]:
df_agrupado = df_continente.groupby('continente')['país'].agg(list).reset_index()
df_agrupado

Unnamed: 0,continente,país
0,Africa,"[Nigeria, Ethiopia, Egypt, DR Congo, Tanzania,..."
1,Asia,"[India, China, Indonesia, Pakistan, Bangladesh..."
2,Europe,"[Russia, Germany, United Kingdom, France, Ital..."
3,North America,"[United States, Mexico, Canada, Guatemala, Hai..."
4,Oceania,"[Australia, Papua New Guinea, New Zealand, Fij..."
5,South America,"[Brazil, Colombia, Argentina, Peru, Venezuela,..."


Adição do agrupamento na tabela original

In [362]:
df_continente = pd.merge(df_continente, df_agrupado, on='continente', how='left')

Exclusão de linhas para limpeza da tabela

In [363]:
df_continente = df_continente.drop_duplicates(subset=["continente"])

In [364]:
df_continente = df_continente.drop(["país_x", "2023", "área (km²)"], axis=1)

In [365]:
df_continente = df_continente.rename(columns={"país_y": "países", "área": "área (km²)"})

Alteração na ordem das colunas para melhor visualização

In [366]:
df_continente = df_continente.loc[:, ['continente', 'países', 'população (2023)', 'área (km²)', 'porcentagem populacional global']]

Reset nos indexes que estavam com a ordem da primeira aparição dos países

In [368]:
df_continente = df_continente.reset_index(drop=True)

Ordenação alfabética da tabela

In [373]:
df_continente = df_continente.sort_values(by="continente")

In [374]:
df_continente.head(6)

Unnamed: 0,continente,países,população (2023),porcentagem populacional global,área (km²)
2,Africa,"[Nigeria, Ethiopia, Egypt, DR Congo, Tanzania,...",1460476458,18.27%,30317963.0
0,Asia,"[India, China, Indonesia, Pakistan, Bangladesh...",4751819588,59.37%,32138143.9
4,Europe,"[Russia, Germany, United Kingdom, France, Ital...",741869197,9.27%,23010411.26
1,North America,"[United States, Mexico, Canada, Guatemala, Hai...",604155369,7.54%,24244178.0
5,Oceania,"[Australia, Papua New Guinea, New Zealand, Fij...",45575769,0.55%,8515218.0
3,South America,"[Brazil, Colombia, Argentina, Peru, Venezuela,...",439719009,5.49%,17833382.0


Geração de arquivo CSV para exportação da tabela

In [375]:
df_continente.to_csv("world_population_continents.csv")