In [34]:
import pandas as pd
import pycountry_convert as pc

# link: https://www.kaggle.com/datasets/nelgiriyewithana/countries-of-the-world-2023?resource=download

df = pd.read_csv('world-data-2023.csv')


print(df.head())  # Mostra as primeiras linhas do dataset

       Country Density(P/Km2) Abbreviation Agricultural Land( %)  \
0  Afghanistan             60           AF                58.10%   
1      Albania            105           AL                43.10%   
2      Algeria             18           DZ                17.40%   
3      Andorra            164           AD                40.00%   
4       Angola             26           AO                47.50%   

  Land Area(Km2) Armed Forces size  Birth Rate  Calling Code  \
0        652,230           323,000       32.49          93.0   
1         28,748             9,000       11.78         355.0   
2      2,381,741           317,000       24.28         213.0   
3            468               NaN        7.20         376.0   
4      1,246,700           117,000       40.73         244.0   

  Capital/Major City Co2-Emissions  ... Out of pocket health expenditure  \
0              Kabul         8,672  ...                           78.40%   
1             Tirana         4,536  ...               

In [35]:
print(df.columns)


Index(['Country', 'Density(P/Km2)', 'Abbreviation', 'Agricultural Land( %)',
       'Land Area(Km2)', 'Armed Forces size', 'Birth Rate', 'Calling Code',
       'Capital/Major City', 'Co2-Emissions', 'CPI', 'CPI Change (%)',
       'Currency-Code', 'Fertility Rate', 'Forested Area (%)',
       'Gasoline Price', 'GDP', 'Gross primary education enrollment (%)',
       'Gross tertiary education enrollment (%)', 'Infant mortality',
       'Largest city', 'Life expectancy', 'Maternal mortality ratio',
       'Minimum wage', 'Official language', 'Out of pocket health expenditure',
       'Physicians per thousand', 'Population',
       'Population: Labor force participation (%)', 'Tax revenue (%)',
       'Total tax rate', 'Unemployment rate', 'Urban_population', 'Latitude',
       'Longitude'],
      dtype='object')


## Remove unecesseray collums

In [36]:
# Lista de colunas a eliminar com os nomes corrigidos
colunas_para_eliminar = [
    'Density(P/Km2)', 
    'Abbreviation', 
    'Agricultural Land( %)', 
    'Land Area(Km2)', 
    'Armed Forces size', 
    'Birth Rate', 
    'Calling Code', 
    'Capital/Major City', 
    'Currency-Code', 
    'Forested Area (%)', 
    'Largest city', 
    'Official language', 
    'Physicians per thousand', 
    'Population', 
    'Population: Labor force participation (%)', 
    'Latitude', 
    'Longitude'
]

# Elimina as colunas
df = df.drop(columns=colunas_para_eliminar)

# Verifica o DataFrame após a eliminação das colunas
print(df.head())


       Country Co2-Emissions     CPI CPI Change (%)  Fertility Rate  \
0  Afghanistan         8,672   149.9          2.30%            4.47   
1      Albania         4,536  119.05          1.40%            1.62   
2      Algeria       150,006  151.36          2.00%            3.02   
3      Andorra           469     NaN            NaN            1.27   
4       Angola        34,693  261.73         17.10%            5.52   

  Gasoline Price                GDP Gross primary education enrollment (%)  \
0         $0.70    $19,101,353,833                                 104.00%   
1         $1.36    $15,278,077,447                                 107.00%   
2         $0.28   $169,988,236,398                                 109.90%   
3         $1.51     $3,154,057,987                                 106.40%   
4         $0.97    $94,635,415,870                                 113.50%   

  Gross tertiary education enrollment (%)  Infant mortality  Life expectancy  \
0                       

In [37]:
# Função para converter colunas com percentagem em números decimais
def converter_percentagem(valor):
    try:
        return float(valor.strip('%')) / 100
    except:
        return None

# Função para converter colunas com vírgulas em valores numéricos
def converter_virgula(valor):
    try:
        return float(valor.replace(',', ''))
    except:
        return None

# Função para remover o símbolo de dólar e converter para numérico
def converter_dolar(valor):
    try:
        return float(valor.replace('$', '').replace(',', ''))
    except:
        return None

# Aplica as funções de conversão às colunas relevantes
df['CPI Change (%)'] = df['CPI Change (%)'].apply(converter_percentagem)
df['Gross primary education enrollment (%)'] = df['Gross primary education enrollment (%)'].apply(converter_percentagem)
df['Gross tertiary education enrollment (%)'] = df['Gross tertiary education enrollment (%)'].apply(converter_percentagem)
df['Out of pocket health expenditure'] = df['Out of pocket health expenditure'].apply(converter_percentagem)
df['Tax revenue (%)'] = df['Tax revenue (%)'].apply(converter_percentagem)
df['Total tax rate'] = df['Total tax rate'].apply(converter_percentagem)
df['Unemployment rate'] = df['Unemployment rate'].apply(converter_percentagem)

# Aplica a conversão para remover vírgulas em colunas numéricas
df['Co2-Emissions'] = df['Co2-Emissions'].apply(converter_virgula)
df['GDP'] = df['GDP'].apply(converter_dolar)  # Remove o $ e vírgulas
df['Urban_population'] = df['Urban_population'].apply(converter_virgula)

In [38]:
def obter_continente(pais):
    try:
        # Encontra o código alpha-2 do país
        codigo_alpha2 = pc.country_name_to_country_alpha2(pais)
        # Converte o código alpha-2 para o código do continente
        codigo_continente = pc.country_alpha2_to_continent_code(codigo_alpha2)
        # Mapeia o código do continente para o nome do continente
        continentes = {
            'AF': 'África',
            'AS': 'Ásia',
            'EU': 'Europa',
            'NA': 'América do Norte',
            'SA': 'América do Sul',
            'OC': 'Oceania',
            'AN': 'Antártica'
        }
        return continentes[codigo_continente]
    except:
        print(pais)
        return 'Desconhecido'  # Para países que não são reconhecidos ou territórios

# Aplica a função ao DataFrame para criar a nova coluna 'Continente'
df['Continente'] = df['Country'].apply(obter_continente)

# Agrupa o DataFrame por 'Continente' e calcula a média das variáveis numéricas
df_continentes = df.groupby('Continente').mean(numeric_only=True)

# Guarda o novo DataFrame no formato CSV
df_continentes.to_csv('dataset_continentes.csv', index=True)

# Verifica o DataFrame com a nova coluna
print(df.head())


The Bahamas
The Gambia
Vatican City
Republic of Ireland
Palestinian National Authority
S�����������
East Timor
       Country  Co2-Emissions     CPI  CPI Change (%)  Fertility Rate  \
0  Afghanistan         8672.0   149.9           0.023            4.47   
1      Albania         4536.0  119.05           0.014            1.62   
2      Algeria       150006.0  151.36           0.020            3.02   
3      Andorra          469.0     NaN             NaN            1.27   
4       Angola        34693.0  261.73           0.171            5.52   

  Gasoline Price           GDP  Gross primary education enrollment (%)  \
0         $0.70   1.910135e+10                                   1.040   
1         $1.36   1.527808e+10                                   1.070   
2         $0.28   1.699882e+11                                   1.099   
3         $1.51   3.154058e+09                                   1.064   
4         $0.97   9.463542e+10                                   1.135   

   Gr

In [39]:
# Remove a linha onde o continente é 'Desconhecido'
df_continentes = df[df['Continente'] != 'Desconhecido']

# Agrupa o DataFrame pelo continente e calcula a média para cada variável
df_continentes = df_continentes.groupby('Continente').mean(numeric_only=True)

# Guarda o novo DataFrame no formato CSV
df_continentes.to_csv('dataset_continentes.csv', index=True)

# Verifica o DataFrame com as médias por continente
print(df_continentes.head())


                  Co2-Emissions  CPI Change (%)  Fertility Rate           GDP  \
Continente                                                                      
América do Norte  282182.954545        0.027095        2.058182  1.133864e+12   
América do Sul     95827.333333        0.297667        2.200833  3.212948e+11   
Europa            137242.538462        0.021553        1.510500  5.048809e+11   
Oceania            32396.076923        0.021636        3.190000  1.167886e+11   
África             26971.960784        0.094449        4.178824  4.693280e+10   

                  Gross primary education enrollment (%)  \
Continente                                                 
América do Norte                                1.048091   
América do Sul                                  1.055083   
Europa                                          1.015872   
Oceania                                         1.030231   
África                                          1.015647   

           