# Versão de tratamento para países
O programa abaixo foi tratado para análise detalhada de cada país e posteriormente foi adicionado em um arquivo de texto em formato de dicionário

# Resumo dos dados

Ranking de crescimento populacional mundial nos anos de 1970 a 2023

Link da página no Kaggle do dataframe: https://www.kaggle.com/datasets/sazidthe1/world-population-data

*O conjunto primário de dados foi retirado do seguinte site: https://worldpopulationreview.com/

# Tratamento dos dados

Importação das bibliotecas necessárias para fazer o tratamento dos dados

*   Pandas: manipulação do dataframe
*   Numpy: cálculos e operações matemáticas

In [1]:
import pandas as pd
import numpy as np

Leitura em CSV do arquivo retirado do Kaggle

In [43]:
df_arquivo = pd.read_csv("/content/world_population_data.csv")

In [8]:
df_arquivo.head(len(df_arquivo))

Unnamed: 0,rank,cca3,country,continent,2023 population,2022 population,2020 population,2015 population,2010 population,2000 population,1990 population,1980 population,1970 population,area (km²),density (km²),growth rate,world percentage
0,1,IND,India,Asia,1428627663,1417173173,1396387127,1322866505,1240613620,1059633675,870452165,696828385,557501301,3287590.00,481,0.81%,17.85%
1,2,CHN,China,Asia,1425671352,1425887337,1424929781,1393715448,1348191368,1264099069,1153704252,982372466,822534450,9706961.00,151,-0.02%,17.81%
2,3,USA,United States,North America,339996563,338289857,335942003,324607776,311182845,282398554,248083732,223140018,200328340,9372610.00,37,0.50%,4.25%
3,4,IDN,Indonesia,Asia,277534122,275501339,271857970,259091970,244016173,214072421,182159874,148177096,115228394,1904569.00,148,0.74%,3.47%
4,5,PAK,Pakistan,Asia,240485658,235824862,227196741,210969298,194454498,154369924,115414069,80624057,59290872,881912.00,312,1.98%,3.00%
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
229,230,MSR,Montserrat,North America,4386,4390,4500,5059,4938,5138,10805,11452,11402,102.00,43,-0.09%,0.00%
230,231,FLK,Falkland Islands,South America,3791,3780,3747,3408,3187,3080,2332,2240,2274,12173.00,0,0.29%,0.00%
231,232,NIU,Niue,Oceania,1935,1934,1942,1847,1812,2074,2533,3637,5185,261.00,7,0.05%,0.00%
232,233,TKL,Tokelau,Oceania,1893,1871,1827,1454,1367,1666,1669,1647,1714,12.00,189,1.18%,0.00%


In [9]:
list(df_arquivo.columns)

['rank',
 'cca3',
 'country',
 'continent',
 '2023 population',
 '2022 population',
 '2020 population',
 '2015 population',
 '2010 population',
 '2000 population',
 '1990 population',
 '1980 population',
 '1970 population',
 'area (km²)',
 'density (km²)',
 'growth rate',
 'world percentage']

Verificação da quantidade de variação no conteúdo das colunas (a tabela possui 234 linhas)

In [10]:
for col in df_arquivo.columns:
  print(f"{col}: {df_arquivo[col].nunique()}")

rank: 234
cca3: 234
country: 234
continent: 6
2023 population: 234
2022 population: 234
2020 population: 234
2015 population: 234
2010 population: 234
2000 population: 234
1990 population: 234
1980 population: 234
1970 population: 234
area (km²): 232
density (km²): 167
growth rate: 176
world percentage: 73


In [11]:
df_arquivo.isnull().sum()

rank                0
cca3                0
country             0
continent           0
2023 population     0
2022 population     0
2020 population     0
2015 population     0
2010 population     0
2000 population     0
1990 population     0
1980 population     0
1970 population     0
area (km²)          0
density (km²)       0
growth rate         0
world percentage    0
dtype: int64

População global no ano de 2023

In [12]:
global_pop = df_arquivo["2023 population"].sum()
print( f'{global_pop:,}')

8,043,615,390


In [44]:
df_arquivo.columns = ["ranking", "sigla", "país", "continente", "2023", "2022", "2020", "2015", "2010", "2000", "1990", "1980", "1970", "área (km²)", "densidade (km²)", "taxa de crescimento", "porcentagem mundial"]
df_arquivo.columns

Index(['ranking', 'sigla', 'país', 'continente', '2023', '2022', '2020',
       '2015', '2010', '2000', '1990', '1980', '1970', 'área (km²)',
       'densidade (km²)', 'taxa de crescimento', 'porcentagem mundial'],
      dtype='object')

Criação da coluna "população (1970 - 2023)" que engloba as colunas de população por ano

In [45]:
df_arquivo["população (1970 - 2023)"] = df_arquivo.apply(lambda row: [row["2023"], row["2022"], row["2020"], row["2015"], row["2010"], row["2000"], row["1990"], row["1980"], row["1970"]], axis=1)
# O parâmetro "axis" indica se a função será aplicada a linhas ou a colunas: 0 - linhas e 1 - colunas

Exclusão das colunas de população por ano para limpar a tabela

In [46]:
df_arquivo = df_arquivo.drop(["2022", "2020", "2015", "2010", "2000", "1990", "1980", "1970"], axis=1)

Verificação de tipos de dados das colunas da tabela

In [18]:
df_arquivo.dtypes

ranking                      int64
sigla                       object
país                        object
continente                  object
área (km²)                 float64
densidade (km²)              int64
taxa de crescimento         object
porcentagem mundial         object
população (1970 - 2023)     object
dtype: object

Criação da coluna "densidade demográfica (2023)" para analisar a taxa de elevação por país

In [47]:
df_arquivo["densidade demográfica (2023)"] = round(df_arquivo["2023"] / df_arquivo["área (km²)"], 2)

In [53]:
df_arquivo = df_arquivo.drop(["2023"], axis=1)

Inversão da ordem da coluna "população (1970 - 2023) para ordem crescente

In [49]:
df_arquivo["população (1970 - 2023)"] = df_arquivo["população (1970 - 2023)"].apply(lambda x: x[::-1])

In [54]:
df_arquivo.head()

Unnamed: 0,ranking,sigla,país,continente,área (km²),densidade (km²),taxa de crescimento,porcentagem mundial,população (1970 - 2023),densidade demográfica (2023)
0,1,IND,India,Asia,3287590.0,481,0.81%,17.85%,"[557501301, 696828385, 870452165, 1059633675, ...",434.55
1,2,CHN,China,Asia,9706961.0,151,-0.02%,17.81%,"[822534450, 982372466, 1153704252, 1264099069,...",146.87
2,3,USA,United States,North America,9372610.0,37,0.50%,4.25%,"[200328340, 223140018, 248083732, 282398554, 3...",36.28
3,4,IDN,Indonesia,Asia,1904569.0,148,0.74%,3.47%,"[115228394, 148177096, 182159874, 214072421, 2...",145.72
4,5,PAK,Pakistan,Asia,881912.0,312,1.98%,3.00%,"[59290872, 80624057, 115414069, 154369924, 194...",272.69


In [58]:
df_arquivo.columns = ["rank", "cca3", "country", "continent", "area (km2)", "density (km2)", "growth rate", "world percentage", "population (1970 - 2023)", "demographic density (2023)"]

Conversão do tipo de dado da tabela para string por ser o tipo de dado que a biblioteca de geração de arquivos suporta

In [59]:
df_records = df_arquivo.to_dict("records")
string = ', '.join([str(record) for record in df_records])

In [60]:
from pathlib import Path
import json

df_json = json.dumps(df_records, indent=2)

arquivo = Path("world_population.txt")

arquivo.write_text(df_json)

100284