# Versão de tratamento para países e continentes
O programa abaixo foi tratado para análise detalhada de cada continente e seus respectivos países e posteriormente foi visualizado com auxílio de bibliotecas de criação de gráficos

# Resumo dos dados

Ranking de crescimento populacional mundial nos anos de 1970 a 2023

Link da página no Kaggle do dataframe: https://www.kaggle.com/datasets/sazidthe1/world-population-data

*O conjunto primário de dados foi retirado do seguinte site: https://worldpopulationreview.com/

# Tratamento dos dados


Importação das bibliotecas necessárias para fazer o tratamento dos dados

*   Pandas: manipulação do dataframe
*   Numpy: cálculos e operações matemáticas

In [None]:
import pandas as pd
import numpy as np

Leitura em CSV do arquivo retirado do Kaggle

In [None]:
df = pd.read_csv("/content/world_population_data.csv")

In [None]:
df.head(len(df))

Unnamed: 0,rank,cca3,country,continent,2023 population,2022 population,2020 population,2015 population,2010 population,2000 population,1990 population,1980 population,1970 population,area (km²),density (km²),growth rate,world percentage
0,1,IND,India,Asia,1428627663,1417173173,1396387127,1322866505,1240613620,1059633675,870452165,696828385,557501301,3287590.00,481,0.81%,17.85%
1,2,CHN,China,Asia,1425671352,1425887337,1424929781,1393715448,1348191368,1264099069,1153704252,982372466,822534450,9706961.00,151,-0.02%,17.81%
2,3,USA,United States,North America,339996563,338289857,335942003,324607776,311182845,282398554,248083732,223140018,200328340,9372610.00,37,0.50%,4.25%
3,4,IDN,Indonesia,Asia,277534122,275501339,271857970,259091970,244016173,214072421,182159874,148177096,115228394,1904569.00,148,0.74%,3.47%
4,5,PAK,Pakistan,Asia,240485658,235824862,227196741,210969298,194454498,154369924,115414069,80624057,59290872,881912.00,312,1.98%,3.00%
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
229,230,MSR,Montserrat,North America,4386,4390,4500,5059,4938,5138,10805,11452,11402,102.00,43,-0.09%,0.00%
230,231,FLK,Falkland Islands,South America,3791,3780,3747,3408,3187,3080,2332,2240,2274,12173.00,0,0.29%,0.00%
231,232,NIU,Niue,Oceania,1935,1934,1942,1847,1812,2074,2533,3637,5185,261.00,7,0.05%,0.00%
232,233,TKL,Tokelau,Oceania,1893,1871,1827,1454,1367,1666,1669,1647,1714,12.00,189,1.18%,0.00%


In [None]:
list(df.columns)

['rank',
 'cca3',
 'country',
 'continent',
 '2023 population',
 '2022 population',
 '2020 population',
 '2015 population',
 '2010 population',
 '2000 population',
 '1990 population',
 '1980 population',
 '1970 population',
 'area (km²)',
 'density (km²)',
 'growth rate',
 'world percentage']

Verificação da quantidade de variação no conteúdo das colunas (a tabela possui 234 linhas)

In [None]:
for col in df.columns:
  print(f"{col}: {df[col].nunique()}")

rank: 234
cca3: 234
country: 234
continent: 6
2023 population: 234
2022 population: 234
2020 population: 234
2015 population: 234
2010 population: 234
2000 population: 234
1990 population: 234
1980 population: 234
1970 population: 234
area (km²): 232
density (km²): 167
growth rate: 176
world percentage: 73


In [None]:
df.isnull().sum()

rank                0
cca3                0
country             0
continent           0
2023 population     0
2022 population     0
2020 population     0
2015 population     0
2010 population     0
2000 population     0
1990 population     0
1980 population     0
1970 population     0
area (km²)          0
density (km²)       0
growth rate         0
world percentage    0
dtype: int64

População global no ano de 2023

In [None]:
global_pop = df["2023 population"].sum()
print( f'{global_pop:,}')

8,043,615,390


In [None]:
df = df.drop(["rank", "cca3", "2022 population", "2020 population", "2015 population", "2010 population", "2000 population", "1990 population", "1980 population", "1970 population", "growth rate"], axis=1)

In [None]:
df.columns = ["país", "continente", "população (2023)", "área (km²)", "densidade (km²)", "porcentagem mundial"]
print(df.columns)

Index(['país', 'continente', 'população (2023)', 'área (km²)',
       'densidade (km²)', 'porcentagem mundial'],
      dtype='object')


Verificação de tipos das colunas da tabela

In [None]:
df.dtypes

país                    object
continente              object
população (2023)         int64
área (km²)             float64
densidade (km²)          int64
porcentagem mundial     object
dtype: object

Identificação da quantidade de continentes presentes na tabela (6)

In [None]:
continentes = df["continente"].sort_values(ascending=True).unique()
continentes

array(['Africa', 'Asia', 'Europe', 'North America', 'Oceania',
       'South America'], dtype=object)

In [None]:
df.keys()

Index(['país', 'continente', 'população (2023)', 'área (km²)',
       'densidade (km²)', 'porcentagem mundial'],
      dtype='object')

Alteração no tipo de dado da coluna "porcentagem mundial" para cálculos

In [None]:
df["porcentagem mundial"] = df["porcentagem mundial"].str.replace('%', '').astype(float)

Criação da coluna "porcentagem populacional global" para somar a porcentagem por país e reduzir linhas da tabela

*Foi notado que o resultado da soma das porcentagens passa de 100% (100.49%), por conta disso o resultado não pôde ser analisado visualmente

In [None]:
df["porcentagem populacional global"] = df.groupby("continente")["porcentagem mundial"].transform("sum")
df["porcentagem populacional global"] = df["porcentagem populacional global"].map("{:.2f}%".format)

In [None]:
df = df.drop(["porcentagem mundial"], axis=1)

Criação da coluna de média de área por continente

In [None]:
df["média de área (km²)"] = df.groupby('continente')['área (km²)'].transform('mean').round(2)

Criação da coluna de média de densidade por continente que na verdade é uma mediana pois foi notada a presença de um **outlier** que tornou o resultado incorreto

In [None]:
df["média de densidade (km²)"] = df.groupby('continente')['densidade (km²)'].transform('median').round(2)

Criação da coluna de média populacional do ano de 2023 por continente

In [None]:
df_populacao = df.groupby('continente')['população (2023)'].mean().reset_index()
round(df_populacao)

Unnamed: 0,continente,população (2023)
0,Africa,25622394.0
1,Asia,95036392.0
2,Europe,14837384.0
3,North America,15103884.0
4,Oceania,1981555.0
5,South America,31408501.0


In [None]:
df = pd.merge(df, round(df_populacao), on='continente', how='left')

In [None]:
df.head()

Unnamed: 0,país,continente,população (2023)_x,área (km²),densidade (km²),porcentagem populacional global,média de área (km²),média de densidade (km²),população (2023)_y
0,India,Asia,1428627663,3287590.0,481,59.37%,642762.88,1005.46,95036392.0
1,China,Asia,1425671352,9706961.0,151,59.37%,642762.88,1005.46,95036392.0
2,United States,North America,339996563,9372610.0,37,7.54%,606104.45,274.3,15103884.0
3,Indonesia,Asia,277534122,1904569.0,148,59.37%,642762.88,1005.46,95036392.0
4,Pakistan,Asia,240485658,881912.0,312,59.37%,642762.88,1005.46,95036392.0


In [None]:
df = df.drop(["população (2023)_x", "área (km²)", "densidade (km²)"], axis=1)

In [None]:
df = df.rename(columns={"população (2023)_y": "média populacional (2023)"})

In [None]:
df.dtypes

país                                object
continente                          object
porcentagem populacional global     object
média de área (km²)                float64
média de densidade (km²)           float64
média populacional (2023)          float64
dtype: object

Agrupamento de países por continente para reduzir linhas da tabela

In [None]:
df_agrupado = df.groupby('continente')['país'].agg(list).reset_index()
df_agrupado

Unnamed: 0,continente,país
0,Africa,"[Nigeria, Ethiopia, Egypt, DR Congo, Tanzania,..."
1,Asia,"[India, China, Indonesia, Pakistan, Bangladesh..."
2,Europe,"[Russia, Germany, United Kingdom, France, Ital..."
3,North America,"[United States, Mexico, Canada, Guatemala, Hai..."
4,Oceania,"[Australia, Papua New Guinea, New Zealand, Fij..."
5,South America,"[Brazil, Colombia, Argentina, Peru, Venezuela,..."


Adição do agrupamento na tabela original

In [None]:
df = pd.merge(df, df_agrupado, on='continente', how='left')

In [None]:
df = df.drop(["país_x"], axis=1)

In [None]:
df = df.rename(columns={"país_y": "países"})

Exclusão de linhas com o mesmo continente para limpeza da tabela

In [None]:
df = df.drop_duplicates(subset=["continente"])

In [None]:
df = df.loc[:, ['continente', 'países', 'média populacional (2023)', 'porcentagem populacional global', 'média de área (km²)', 'média de densidade (km²)']]

Ordenação alfabética da tabela

In [None]:
df = df.sort_values(by="continente")

Reset nos indexes que estavam com a ordem da primeira aparição dos países

In [None]:
df = df.reset_index(drop=True)

In [None]:
df.head(6)

Unnamed: 0,continente,países,média populacional (2023),porcentagem populacional global,média de área (km²),média de densidade (km²)
0,Africa,"[Nigeria, Ethiopia, Egypt, DR Congo, Tanzania,...",25622394.0,18.27%,531894.09,70.0
1,Asia,"[India, China, Indonesia, Pakistan, Bangladesh...",95036392.0,59.37%,642762.88,131.0
2,Europe,"[Russia, Germany, United Kingdom, France, Ital...",14837384.0,9.27%,460208.23,110.0
3,North America,"[United States, Mexico, Canada, Guatemala, Hai...",15103884.0,7.54%,606104.45,224.5
4,Oceania,"[Australia, Papua New Guinea, New Zealand, Fij...",1981555.0,0.55%,370226.87,81.0
5,South America,"[Brazil, Colombia, Argentina, Peru, Venezuela,...",31408501.0,5.49%,1273813.0,18.5


In [None]:
df.to_csv("world_population_cc.csv")

# Análise dos dados

In [None]:
import plotly.express as px

In [None]:
df_graph = df.copy()

df_graph.columns = ['Continente', 'Países', 'Média Populacional (2023)', 'Porcentagem Populacional Global', 'Média de Área (km²)', 'Média de Densidade (km²)']

In [None]:
fig = px.bar(df_graph.groupby('Continente')['Média Populacional (2023)'].sum().reset_index(name='População'),
             x='Continente',
             y='População',
             color='Continente',
             title='Média Populacional por Continente (2023)',
             height=400,
             width=800)
fig.show()

In [None]:
import matplotlib.pyplot as plt

In [None]:
fig2 = px.line(df_graph.groupby('Continente')['Média de Área (km²)'].sum().reset_index(name='Área'),
               x='Continente',
               y='Área',
               title='Média de Área (km²) por Continente')
fig2.show()

In [None]:
fig3 = px.line(df_graph.groupby('Continente')['Média de Densidade (km²)'].sum().reset_index(name='Densidade'),
               x='Continente',
               y='Densidade',
               title='Média de Densidade (km²) por Continente')
fig3.show()