## Packages e imports

In [1]:
# %pip install pandas
# %pip install requests
# %pip install sqlalchemy
# %pip install psycopg2

import pandas as pd
import requests

---

### PIB
DataFrame para o PIB_Per_Capita

In [2]:
# Fetch the data.
df_pib_per_capita = pd.read_csv("https://ourworldindata.org/grapher/gdp-per-capita-worldbank.csv?v=1&csvType=full&useColumnShortNames=true", storage_options = {'User-Agent': 'Our World In Data data fetch/1.0'})

# Fetch the metadata
metadata = requests.get("https://ourworldindata.org/grapher/gdp-per-capita-worldbank.metadata.json?v=1&csvType=full&useColumnShortNames=true").json()

# --> Tratamento <-- #
# Exemplo de leitura (caso seja um CSV)
# df_pib = pd.read_csv('pib_per_capita.csv')

# Renomeia a coluna para ficar consistente com o seu modelo
df_pib_per_capita.rename(columns={'ny_gdp_pcap_pp_kd': 'PIB_Per_Capita'}, inplace=True)

# Converte as colunas para os tipos corretos
df_pib_per_capita['Year'] = df_pib_per_capita['Year'].astype(int)
df_pib_per_capita['PIB_Per_Capita'] = pd.to_numeric(df_pib_per_capita['PIB_Per_Capita'], errors='coerce')

# Opcional: remover linhas com valores ausentes ou preenchê-los conforme a estratégia adotada
df_pib_per_capita.dropna(subset=['PIB_Per_Capita'], inplace=True)



display(df_pib_per_capita)


Unnamed: 0,Entity,Code,Year,PIB_Per_Capita
0,Afghanistan,AFG,2000,1617.8264
1,Afghanistan,AFG,2001,1454.1108
2,Afghanistan,AFG,2002,1774.3087
3,Afghanistan,AFG,2003,1815.9282
4,Afghanistan,AFG,2004,1776.9182
...,...,...,...,...
7058,Zimbabwe,ZWE,2019,3294.8062
7059,Zimbabwe,ZWE,2020,2987.2698
7060,Zimbabwe,ZWE,2021,3184.7854
7061,Zimbabwe,ZWE,2022,3323.1218


### Acesso Educacao
DataFrame para o Acesso_Educacao

In [3]:
# Fetch the data.
df_acesso_educacao = pd.read_csv("https://ourworldindata.org/grapher/learning-outcomes-vs-gdp-per-capita.csv?v=1&csvType=full&useColumnShortNames=true", storage_options = {'User-Agent': 'Our World In Data data fetch/1.0'})

# Fetch the metadata
metadata = requests.get("https://ourworldindata.org/grapher/learning-outcomes-vs-gdp-per-capita.metadata.json?v=1&csvType=full&useColumnShortNames=true").json()

# --> Tratamento <-- #
# Suponha que o dataframe se chame df_educacao
# df_educacao = pd.read_csv('acesso_educacao.csv')

# Converte o ano para inteiro
df_acesso_educacao['Year'] = df_acesso_educacao['Year'].astype(int)

# Converter a coluna de scores para numérico
df_acesso_educacao['harmonized_test_scores'] = pd.to_numeric(df_acesso_educacao['harmonized_test_scores'], errors='coerce')

# Remover valores ausentes (ou aplicar outra estratégia de preenchimento)
df_acesso_educacao.dropna(subset=['harmonized_test_scores'], inplace=True)

# Normaliza os scores para gerar um percentual
min_score = df_acesso_educacao['harmonized_test_scores'].min()
max_score = df_acesso_educacao['harmonized_test_scores'].max()

df_acesso_educacao['Acesso_Educacao'] = ((df_acesso_educacao['harmonized_test_scores'] - min_score) / (max_score - min_score)) * 100

# Se necessário, selecione apenas as colunas de interesse para o merge posterior
df_acesso_educacao = df_acesso_educacao[['Entity', 'Code', 'Year', 'Acesso_Educacao']]



display(df_acesso_educacao)

Unnamed: 0,Entity,Code,Year,Acesso_Educacao
0,Afghanistan,AFG,2017,18.139005
1,Afghanistan,AFG,2018,18.051639
2,Afghanistan,AFG,2020,18.051639
604,Albania,ALB,2010,33.434287
605,Albania,ALB,2017,44.943048
...,...,...,...,...
58980,Zambia,ZMB,2020,19.276526
59238,Zimbabwe,ZWE,2010,32.337201
59239,Zimbabwe,ZWE,2017,32.989894
59240,Zimbabwe,ZWE,2018,33.040177


### Expectativa de Vida
DataFrame para a Expectativa_Vida

In [4]:
# Fetch the data.
df_expectativa_vida = pd.read_csv("https://ourworldindata.org/grapher/life-expectancy.csv?v=1&csvType=full&useColumnShortNames=true", storage_options = {'User-Agent': 'Our World In Data data fetch/1.0'})

# Fetch the metadata
metadata = requests.get("https://ourworldindata.org/grapher/life-expectancy.metadata.json?v=1&csvType=full&useColumnShortNames=true").json()

# --> Tratamento <-- #
# Suponha que o dataframe se chame df_vida
# df_vida = pd.read_csv('expectativa_vida.csv')

# Renomeia a coluna para ficar consistente com o modelo
df_expectativa_vida.rename(columns={'life_expectancy_0__sex_total__age_0': 'Expectativa_Vida'}, inplace=True)

# Converte o ano para inteiro e a expectativa para numérico
df_expectativa_vida['Year'] = df_expectativa_vida['Year'].astype(int)
df_expectativa_vida['Expectativa_Vida'] = pd.to_numeric(df_expectativa_vida['Expectativa_Vida'], errors='coerce')

# Tratar valores ausentes, se necessário
df_expectativa_vida.dropna(subset=['Expectativa_Vida'], inplace=True)




display(df_expectativa_vida)


Unnamed: 0,Entity,Code,Year,Expectativa_Vida
0,Afghanistan,AFG,1950,28.1563
1,Afghanistan,AFG,1951,28.5836
2,Afghanistan,AFG,1952,29.0138
3,Afghanistan,AFG,1953,29.4521
4,Afghanistan,AFG,1954,29.6975
...,...,...,...,...
21560,Zimbabwe,ZWE,2019,61.0603
21561,Zimbabwe,ZWE,2020,61.5300
21562,Zimbabwe,ZWE,2021,60.1347
21563,Zimbabwe,ZWE,2022,62.3601


### Taxa de mortalidade
DataFrame para Taxa_Mortalidade

In [5]:
# Fetch the data.
df_taxa_mortalidade = pd.read_csv('taxa_mortalidade.csv')

# --> Tratamento <-- #
# Suponha que o dataframe se chame df_mortalidade
# df_mortalidade = pd.read_csv('taxa_mortalidade.csv')

# Converte o ano para inteiro (a coluna pode estar em minúsculas)
df_taxa_mortalidade['year'] = df_taxa_mortalidade['year'].astype(int)

# Converte a coluna 'val' para numérico; renomeia para Taxa_Mortalidade
df_taxa_mortalidade['Taxa_Mortalidade'] = pd.to_numeric(df_taxa_mortalidade['val'], errors='coerce')

# Se for necessário transformar um número absoluto em percentual, por exemplo:
# df_mortalidade['Taxa_Mortalidade'] = (df_mortalidade['Taxa_Mortalidade'] / df_populacao['Populacao_Total']) * 100

# Remova linhas com valores ausentes (se apropriado)
df_taxa_mortalidade.dropna(subset=['Taxa_Mortalidade'], inplace=True)

# Seleciona as colunas que serão usadas para o merge
df_taxa_mortalidade = df_taxa_mortalidade[['location_name', 'year', 'Taxa_Mortalidade']]




display(df_taxa_mortalidade)

Unnamed: 0,location_name,year,Taxa_Mortalidade
0,Iran (Islamic Republic of),1950,1.679013e+07
1,Iran (Islamic Republic of),1951,1.718549e+07
2,Iran (Islamic Republic of),1952,1.760677e+07
3,Iran (Islamic Republic of),1953,1.805103e+07
4,Iran (Islamic Republic of),1954,1.851493e+07
...,...,...,...
14683,Bahrain,2017,1.453405e+06
14684,Bahrain,2018,1.473801e+06
14685,Bahrain,2019,1.494478e+06
14686,Bahrain,2020,1.513957e+06


### Médicos por habitante
DataFrame para Medicos_Por_Habitante

In [6]:
df_medicos_por_habitante = pd.read_csv('medicos_por_habitante.csv')

# --> Tratamento <-- #
# Suponha que o dataframe se chame df_medicos
# df_medicos = pd.read_csv('medicos_por_habitante.csv')

# Converte o ano para inteiro; a coluna de ano pode estar com nome 'Period' ou 'Year'
df_medicos_por_habitante['Period'] = df_medicos_por_habitante['Period'].astype(int)

# Converter a coluna com o valor dos médicos para numérico
df_medicos_por_habitante['Medicos_Por_Habitante'] = pd.to_numeric(df_medicos_por_habitante['Value'], errors='coerce')

# Remover valores ausentes, se necessário
df_medicos_por_habitante.dropna(subset=['Medicos_Por_Habitante'], inplace=True)

# Se necessário, selecione apenas as colunas para o merge
df_medicos_por_habitante = df_medicos_por_habitante[['Location', 'Period', 'Medicos_Por_Habitante']]



display(df_medicos_por_habitante)


Unnamed: 0,Location,Period,Medicos_Por_Habitante
0,Niger,2023,0.38
1,Papua New Guinea,2023,0.61
2,Central African Republic,2023,0.74
3,Chad,2023,0.85
4,Gambia,2023,0.90
...,...,...,...
3411,Republic of Korea,1990,8.12
3412,Oman,1990,8.17
3413,Türkiye,1990,9.04
3414,Ecuador,1990,9.34


### Em Conflito
DataFrame para Em_Conflito

In [7]:
import pandas as pd
import requests

# Fetch the data.
df_em_conflito = pd.read_csv("https://ourworldindata.org/grapher/civilian-and-combatant-deaths-in-armed-conflicts-based-on-where-they-occurred.csv?v=1&csvType=full&useColumnShortNames=true", storage_options = {'User-Agent': 'Our World In Data data fetch/1.0'})

# Fetch the metadata
metadata = requests.get("https://ourworldindata.org/grapher/civilian-and-combatant-deaths-in-armed-conflicts-based-on-where-they-occurred.metadata.json?v=1&csvType=full&useColumnShortNames=true").json()

# ---> Tratamento <--- #
# Supondo que df_conflito seja o dataframe de conflito:
df_em_conflito['total_deaths'] = (df_em_conflito['number_deaths_civilians__conflict_type_all'] +
                               df_em_conflito['number_deaths_unknown__conflict_type_all'] +
                               df_em_conflito['number_deaths_combatants__conflict_type_all'])

def conflict_level(deaths):
    if deaths < 100:
        return 'Baixo'
    elif deaths < 1000:
        return 'Médio'
    else:
        return 'Alto'

df_em_conflito['Em_Conflito'] = df_em_conflito['total_deaths'].apply(conflict_level)

display(df_em_conflito)


Unnamed: 0,Entity,Code,Year,number_deaths_civilians__conflict_type_all,number_deaths_unknown__conflict_type_all,number_deaths_combatants__conflict_type_all,total_deaths,Em_Conflito
0,Abkhazia,OWID_ABK,1989,0,0,0,0,Baixo
1,Abkhazia,OWID_ABK,1990,0,0,0,0,Baixo
2,Abkhazia,OWID_ABK,1991,0,0,0,0,Baixo
3,Abkhazia,OWID_ABK,1992,0,0,0,0,Baixo
4,Abkhazia,OWID_ABK,1993,0,0,0,0,Baixo
...,...,...,...,...,...,...,...,...
7170,Zimbabwe,ZWE,2019,0,0,0,0,Baixo
7171,Zimbabwe,ZWE,2020,0,0,0,0,Baixo
7172,Zimbabwe,ZWE,2021,0,0,0,0,Baixo
7173,Zimbabwe,ZWE,2022,0,0,0,0,Baixo


## Integração dos DataFrames

In [8]:
# Exemplo: começamos com o dataframe do PIB
df_fato = df_pib_per_capita[['Entity', 'Code', 'Year', 'PIB_Per_Capita']]

# Merge com Acesso à Educação
df_fato = df_fato.merge(df_acesso_educacao[['Entity', 'Code', 'Year', 'Acesso_Educacao']], 
                        on=['Entity', 'Code', 'Year'], how='left')

# Merge com Expectativa de Vida
df_fato = df_fato.merge(df_expectativa_vida[['Entity', 'Code', 'Year', 'Expectativa_Vida']], 
                        on=['Entity', 'Code', 'Year'], how='left')

# Merge com Taxa de Mortalidade
df_fato = df_fato.merge(df_taxa_mortalidade.rename(columns={'location_name': 'Entity', 'year': 'Year'}),
                        on=['Entity', 'Year'], how='left')

# Merge com Médicos Por Habitante
# Supondo que as colunas de chave sejam 'Entity' e 'Year' (ajuste se necessário)
df_fato = df_fato.merge(df_medicos_por_habitante.rename(columns={'Location': 'Entity', 'Period': 'Year'}),
                        on=['Entity', 'Year'], how='left')

# Exiba o dataframe consolidado
display(df_fato.head(30))


Unnamed: 0,Entity,Code,Year,PIB_Per_Capita,Acesso_Educacao,Expectativa_Vida,Taxa_Mortalidade,Medicos_Por_Habitante
0,Afghanistan,AFG,2000,1617.8264,,55.0047,15935760.0,
1,Afghanistan,AFG,2001,1454.1108,,55.5113,15958570.0,2.02
2,Afghanistan,AFG,2002,1774.3087,,56.2251,16436100.0,
3,Afghanistan,AFG,2003,1815.9282,,57.1713,17528540.0,
4,Afghanistan,AFG,2004,1776.9182,,57.8098,18482890.0,
5,Afghanistan,AFG,2005,1908.1147,,58.2468,19113010.0,
6,Afghanistan,AFG,2006,1929.7239,,58.5533,19800600.0,1.66
7,Afghanistan,AFG,2007,2155.353,,58.9563,20347010.0,1.82
8,Afghanistan,AFG,2008,2191.5044,,59.7081,20706080.0,1.83
9,Afghanistan,AFG,2009,2565.022,,60.2478,21269920.0,2.2


## PostgreSQL
### Carregamento de dados para o PostgreSQL

In [9]:
from sqlalchemy import create_engine

# Configure sua conexão – substitua com os dados reais de conexão
engine = create_engine('postgresql://postgres:102030@localhost:5432/world_population')

# Após preparar o dataframe consolidado (ex: df_fato) com todas as colunas necessárias
df_fato.to_sql('Fato_Populacao', engine, if_exists='append', index=False)


# DIM_TEMPO
# Cria o dataframe de dimensão de tempo com anos únicos
anos = sorted(df_fato['Year'].unique())
dim_tempo = pd.DataFrame({'Ano': anos})
dim_tempo['Decada'] = dim_tempo['Ano'].apply(lambda x: (x // 10) * 10)

# Exibe o resultado
print(dim_tempo.head())

#DIM_LOCAL
# Extraindo países únicos do dataframe consolidado
dim_local = df_fato[['Entity', 'Code']].drop_duplicates().copy()
dim_local.rename(columns={'Entity': 'Pais'}, inplace=True)

# Exemplo de mapeamento manual (adicione os países que faltarem)
continent_mapping = {
    'AFG': 'Asia',
    'ZWE': 'Africa',
    # adicione outros mapeamentos conforme necessário...
}

# Cria a coluna Continente usando o mapeamento a partir do código do país
dim_local['Continente'] = dim_local['Code'].map(continent_mapping)

# Se preferir, mantenha apenas as colunas necessárias para a dimensão
dim_local = dim_local[['Pais', 'Continente']]

print(dim_local.head())

# DIM_RELIGIAO
dim_religiao = pd.DataFrame({
    'Nome_Religiao': ['Cristianismo', 'Islamismo', 'Budismo'],
    'Classificacao': ['Cristã', 'Islâmica', 'Budista']
})
print(dim_religiao)



# INSERCAO
# Insere os dados em Dim_Tempo
dim_tempo.to_sql('Dim_Tempo', engine, if_exists='append', index=False)

# Insere os dados em Dim_Local
dim_local.to_sql('Dim_Local', engine, if_exists='append', index=False)

# Insere os dados em Dim_Religiao (se aplicável)
dim_religiao.to_sql('Dim_Religiao', engine, if_exists='append', index=False)

# TABELA_FATO
# Carrega a dimensão tempo do PostgreSQL (supondo que os nomes das colunas sejam ID_Tempo, Ano e Decada)
dim_tempo_db = pd.read_sql('SELECT * FROM "Dim_Tempo"', engine)

# Faz o merge para obter a chave estrangeira de tempo com base no ano
df_fato = df_fato.merge(dim_tempo_db[['ID_Tempo', 'Ano']], left_on='Year', right_on='Ano', how='left')
df_fato.rename(columns={'ID_Tempo': 'Chave_Tempo'}, inplace=True)

# Carrega a dimensão local do PostgreSQL
dim_local_db = pd.read_sql('SELECT * FROM "Dim_Local"', engine)

# Faz o merge para obter a chave estrangeira de local com base no país
df_fato = df_fato.merge(dim_local_db[['ID_Local', 'Pais']], left_on='Entity', right_on='Pais', how='left')
df_fato.rename(columns={'ID_Local': 'Chave_Local'}, inplace=True)

# Exemplo: supondo que df_fato possua as colunas originais além dos indicadores
df_fato_final = df_fato[[
    'Chave_Tempo',   # ID obtido a partir de Dim_Tempo
    'Chave_Local',   # ID obtido a partir de Dim_Local
    'Em_Conflito',   # já tratado (ex: 'Baixo', 'Médio', 'Alto')
    'Populacao_Total',
    'Populacao_Urbana',
    'Populacao_Rural',
    'Taxa_Crescimento',
    'Expectativa_Vida',
    'Taxa_Mortalidade',
    'PIB_Per_Capita',
    'Acesso_Educacao',
    'Medicos_Por_Habitante'
]]

# Visualize o dataframe final
print(df_fato_final.head())

df_fato_final.to_sql('Fato_Populacao', engine, if_exists='append', index=False)

    Ano  Decada
0  1990    1990
1  1991    1990
2  1992    1990
3  1993    1990
4  1994    1990
            Pais Continente
0    Afghanistan       Asia
24       Albania        NaN
58       Algeria        NaN
92       Andorra        NaN
126       Angola        NaN
  Nome_Religiao Classificacao
0  Cristianismo        Cristã
1     Islamismo      Islâmica
2       Budismo       Budista


KeyError: "['ID_Tempo'] not in index"