## Packages e imports

In [None]:
import pandas as pd
import requests
import pandas as pd
from requests_html import HTMLSession, AsyncHTMLSession
import re
import asyncio
import nest_asyncio
from sqlalchemy import create_engine

---

### PIB
DataFrame para o PIB_Per_Capita

In [None]:
# Fetch the data.
df_pib_per_capita = pd.read_csv("https://ourworldindata.org/grapher/gdp-per-capita-worldbank.csv?v=1&csvType=full&useColumnShortNames=true", storage_options = {'User-Agent': 'Our World In Data data fetch/1.0'})

# Fetch the metadata
metadata = requests.get("https://ourworldindata.org/grapher/gdp-per-capita-worldbank.metadata.json?v=1&csvType=full&useColumnShortNames=true").json()

# --> Tratamento <-- #
# Exemplo de leitura (caso seja um CSV)
# df_pib = pd.read_csv('pib_per_capita.csv')

# Renomeia a coluna para ficar consistente com o seu modelo
df_pib_per_capita.rename(columns={'ny_gdp_pcap_pp_kd': 'PIB_Per_Capita'}, inplace=True)

# Converte as colunas para os tipos corretos
df_pib_per_capita['Year'] = df_pib_per_capita['Year'].astype(int)
df_pib_per_capita['PIB_Per_Capita'] = pd.to_numeric(df_pib_per_capita['PIB_Per_Capita'], errors='coerce')

# Opcional: remover linhas com valores ausentes ou preenchê-los conforme a estratégia adotada
df_pib_per_capita.dropna(subset=['PIB_Per_Capita'], inplace=True)

display(df_pib_per_capita)


### Acesso Educacao
DataFrame para o Acesso_Educacao

In [None]:
# Fetch the data.
df_acesso_educacao = pd.read_csv("https://ourworldindata.org/grapher/learning-outcomes-vs-gdp-per-capita.csv?v=1&csvType=full&useColumnShortNames=true", storage_options = {'User-Agent': 'Our World In Data data fetch/1.0'})

# Fetch the metadata
metadata = requests.get("https://ourworldindata.org/grapher/learning-outcomes-vs-gdp-per-capita.metadata.json?v=1&csvType=full&useColumnShortNames=true").json()

# --> Tratamento <-- #
# Suponha que o dataframe se chame df_educacao
# df_educacao = pd.read_csv('acesso_educacao.csv')

# Converte o ano para inteiro
df_acesso_educacao['Year'] = df_acesso_educacao['Year'].astype(int)

# Converter a coluna de scores para numérico
df_acesso_educacao['harmonized_test_scores'] = pd.to_numeric(df_acesso_educacao['harmonized_test_scores'], errors='coerce')

# Remover valores ausentes (ou aplicar outra estratégia de preenchimento)
df_acesso_educacao.dropna(subset=['harmonized_test_scores'], inplace=True)

# Normaliza os scores para gerar um percentual
min_score = df_acesso_educacao['harmonized_test_scores'].min()
max_score = df_acesso_educacao['harmonized_test_scores'].max()

df_acesso_educacao['Acesso_Educacao'] = ((df_acesso_educacao['harmonized_test_scores'] - min_score) / (max_score - min_score)) * 100

# Se necessário, selecione apenas as colunas de interesse para o merge posterior
df_acesso_educacao = df_acesso_educacao[['Entity', 'Code', 'Year', 'Acesso_Educacao']]

display(df_acesso_educacao)

### Expectativa de Vida
DataFrame para a Expectativa_Vida

In [None]:
# Fetch the data.
df_expectativa_vida = pd.read_csv("https://ourworldindata.org/grapher/life-expectancy.csv?v=1&csvType=full&useColumnShortNames=true", storage_options = {'User-Agent': 'Our World In Data data fetch/1.0'})

# Fetch the metadata
metadata = requests.get("https://ourworldindata.org/grapher/life-expectancy.metadata.json?v=1&csvType=full&useColumnShortNames=true").json()

# --> Tratamento <-- #
# Suponha que o dataframe se chame df_vida
# df_vida = pd.read_csv('expectativa_vida.csv')

# Renomeia a coluna para ficar consistente com o modelo
df_expectativa_vida.rename(columns={'life_expectancy_0__sex_total__age_0': 'Expectativa_Vida'}, inplace=True)

# Converte o ano para inteiro e a expectativa para numérico
df_expectativa_vida['Year'] = df_expectativa_vida['Year'].astype(int)
df_expectativa_vida['Expectativa_Vida'] = pd.to_numeric(df_expectativa_vida['Expectativa_Vida'], errors='coerce')

# Tratar valores ausentes, se necessário
df_expectativa_vida.dropna(subset=['Expectativa_Vida'], inplace=True)

display(df_expectativa_vida)


### Taxa de mortalidade
DataFrame para Taxa_Mortalidade

In [None]:
# Fetch the data.
df_taxa_mortalidade = pd.read_csv('taxa_mortalidade.csv')

# --> Tratamento <-- #
# Suponha que o dataframe se chame df_mortalidade
# df_mortalidade = pd.read_csv('taxa_mortalidade.csv')

# Converte o ano para inteiro (a coluna pode estar em minúsculas)
df_taxa_mortalidade['year'] = df_taxa_mortalidade['year'].astype(int)

# Converte a coluna 'val' para numérico; renomeia para Taxa_Mortalidade
df_taxa_mortalidade['Taxa_Mortalidade'] = pd.to_numeric(df_taxa_mortalidade['val'], errors='coerce')

# Se for necessário transformar um número absoluto em percentual, por exemplo:
# df_mortalidade['Taxa_Mortalidade'] = (df_mortalidade['Taxa_Mortalidade'] / df_populacao['Populacao_Total']) * 100

# Remova linhas com valores ausentes (se apropriado)
df_taxa_mortalidade.dropna(subset=['Taxa_Mortalidade'], inplace=True)

# Seleciona as colunas que serão usadas para o merge
df_taxa_mortalidade = df_taxa_mortalidade[['location_name', 'year', 'Taxa_Mortalidade']]

display(df_taxa_mortalidade)

### Médicos por habitante
DataFrame para Medicos_Por_Habitante

In [None]:
df_medicos_por_habitante = pd.read_csv('medicos_por_habitante.csv')

# --> Tratamento <-- #
# Suponha que o dataframe se chame df_medicos
# df_medicos = pd.read_csv('medicos_por_habitante.csv')

# Converte o ano para inteiro; a coluna de ano pode estar com nome 'Period' ou 'Year'
df_medicos_por_habitante['Period'] = df_medicos_por_habitante['Period'].astype(int)

# Converter a coluna com o valor dos médicos para numérico
df_medicos_por_habitante['Medicos_Por_Habitante'] = pd.to_numeric(df_medicos_por_habitante['Value'], errors='coerce')

# Remover valores ausentes, se necessário
df_medicos_por_habitante.dropna(subset=['Medicos_Por_Habitante'], inplace=True)

# Se necessário, selecione apenas as colunas para o merge
df_medicos_por_habitante = df_medicos_por_habitante[['Location', 'Period', 'Medicos_Por_Habitante']]

display(df_medicos_por_habitante)


### Em Conflito
DataFrame para Em_Conflito

In [None]:
# Fetch the data.
df_em_conflito = pd.read_csv("https://ourworldindata.org/grapher/civilian-and-combatant-deaths-in-armed-conflicts-based-on-where-they-occurred.csv?v=1&csvType=full&useColumnShortNames=true", storage_options = {'User-Agent': 'Our World In Data data fetch/1.0'})

# Fetch the metadata
metadata = requests.get("https://ourworldindata.org/grapher/civilian-and-combatant-deaths-in-armed-conflicts-based-on-where-they-occurred.metadata.json?v=1&csvType=full&useColumnShortNames=true").json()

# ---> Tratamento <--- #
# Supondo que df_conflito seja o dataframe de conflito:
df_em_conflito['total_deaths'] = (df_em_conflito['number_deaths_civilians__conflict_type_all'] +
                               df_em_conflito['number_deaths_unknown__conflict_type_all'] +
                               df_em_conflito['number_deaths_combatants__conflict_type_all'])

def conflict_level(deaths):
    if deaths < 100:
        return 'Baixo'
    elif deaths < 1000:
        return 'Médio'
    else:
        return 'Alto'

df_em_conflito['Em_Conflito'] = df_em_conflito['total_deaths'].apply(conflict_level)

display(df_em_conflito)


### Web Scraping 
Fonte dos dados: https://www.worldometers.info/world-population/

In [6]:
import nest_asyncio
import asyncio
import re
import logging
from requests_html import AsyncHTMLSession
import pandas as pd
from io import StringIO
from IPython.display import display
import numpy as np
from bs4 import BeautifulSoup  # necessário para o fallback

# Configuração de logging
logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s - %(levelname)s - %(message)s',
    handlers=[logging.StreamHandler(), logging.FileHandler('scraping.log')]
)
logger = logging.getLogger(__name__)

# Permite o uso de asyncio no Jupyter Notebook
nest_asyncio.apply()

async def fetch_population_table(session):
    """
    Obtém a página de Population by Country e extrai a tabela de dados.
    URL: https://www.worldometers.info/world-population/population-by-country/
    """
    url = "https://www.worldometers.info/world-population/population-by-country/"
    try:
        response = await session.get(url)
        # Utiliza response.text envolvido em StringIO para evitar warnings
        tables = pd.read_html(StringIO(response.text))
        pop_table = None
        # Normaliza os nomes das colunas removendo quebras de linha e espaços extras
        for table in tables:
            table.columns = [re.sub(r'\s+', ' ', str(col)).strip() for col in table.columns]
            # Procura por uma coluna que contenha "2024" e "Population"
            if any("2024" in col and "Population" in col for col in table.columns):
                pop_table = table
                break
        if pop_table is None:
            logger.error("Tabela de população não encontrada na página.")
        return pop_table
    except Exception as e:
        logger.error(f"Erro ao obter a tabela de população: {str(e)}")
        return None

async def process_population_data():
    """
    Processa a tabela extraída para gerar um DataFrame com as colunas:
      - Country: nome do país ou dependência
      - Populacao_Total: a partir da coluna "Population (2024)"
      - Taxa_Crescimento: a partir da coluna "Yearly Change" (removendo o % e tratando 'N.A.')
      - Populacao_Urbana: calculada com base na porcentagem contida na coluna "Urban Pop %"
      - Populacao_Rural: Populacao_Total - Populacao_Urbana
    """
    session = AsyncHTMLSession()
    try:
        pop_table = await fetch_population_table(session)
        if pop_table is None:
            return None
        
        logger.info(f"Tabela extraída com {len(pop_table)} linhas e colunas: {list(pop_table.columns)}")
        
        # Renomeia as colunas para padronizar
        pop_table.rename(columns={
            "Country (or dependency)": "Country",
            "Population (2024)": "Populacao_Total",
            "Yearly Change": "Taxa_Crescimento",
            "Urban Pop %": "Urban_Percent"
        }, inplace=True)
        
        # Converte Populacao_Total: remove vírgulas e converte para int
        pop_table["Populacao_Total"] = pop_table["Populacao_Total"].astype(str).str.replace(",", "", regex=False).astype(int)
        
        # Função auxiliar para converter valores numéricos removendo "%" e tratando 'N.A.'
        def process_numeric(val):
            val_str = str(val).strip()
            if val_str.upper() in ["N.A.", "NA", "NAN", ""]:
                return np.nan
            try:
                val_str = val_str.replace("%", "")
                return float(val_str)
            except Exception as ex:
                logger.warning(f"Erro convertendo valor '{val}': {ex}")
                return np.nan
        
        pop_table["Taxa_Crescimento"] = pop_table["Taxa_Crescimento"].apply(process_numeric)
        pop_table["Urban_Percent"] = pop_table["Urban_Percent"].apply(process_numeric)
        
        # Calcula Populacao_Urbana e Populacao_Rural
        pop_table["Populacao_Urbana"] = (pop_table["Populacao_Total"] * pop_table["Urban_Percent"] / 100).round(0).astype("Int64")
        pop_table["Populacao_Rural"] = pop_table["Populacao_Total"] - pop_table["Populacao_Urbana"]
        
        # Seleciona somente as colunas desejadas
        df_population = pop_table[["Country", "Populacao_Total", "Taxa_Crescimento", "Populacao_Urbana", "Populacao_Rural"]]
        return df_population
    except Exception as e:
        logger.error(f"Erro crítico no processamento dos dados populacionais: {str(e)}")
        return None
    finally:
        await session.close()

async def fetch_religion_data(session):
    """
    Obtém os dados religiosos do Worldometers a partir da página:
    https://www.worldometers.info/world-population/#religions.
    Tenta extrair a tabela via pd.read_html; se não encontrar, faz fallback com BeautifulSoup.
    Retorna um DataFrame com as colunas:
      - Nome_Religiao
      - Classificacao (convertida para float; valores "N.A." serão NaN)
    """
    url = "https://www.worldometers.info/world-population/#religions"
    try:
        response = await session.get(url)
        # Tenta extrair as tabelas com pd.read_html usando StringIO
        try:
            tables = pd.read_html(StringIO(response.text))
        except Exception as e:
            logger.error("Erro ao ler tabelas com pd.read_html: " + str(e))
            tables = []
        
        rel_table = None
        # Normaliza os nomes das colunas e procura por uma tabela que contenha "Religion"
        for table in tables:
            table.columns = [re.sub(r'\s+', ' ', str(col)).strip() for col in table.columns]
            if any("Religion" in col for col in table.columns):
                rel_table = table
                logger.info(f"Tabela de religião encontrada via pd.read_html com colunas: {list(table.columns)}")
                break
        
        # Se não encontrou, tenta o fallback com BeautifulSoup
        if rel_table is None:
            logger.warning("Tabela de religiões não encontrada com pd.read_html. Tentando com BeautifulSoup...")
            soup = BeautifulSoup(response.text, 'html.parser')
            table_element = soup.find("table", id="example2")
            if table_element:
                rel_table = pd.read_html(str(table_element))[0]
                rel_table.columns = [re.sub(r'\s+', ' ', str(col)).strip() for col in rel_table.columns]
                logger.info(f"Tabela de religião encontrada via BeautifulSoup com colunas: {list(rel_table.columns)}")
            else:
                logger.error("Tabela de religiões não encontrada usando BeautifulSoup.")
                return pd.DataFrame(columns=["Nome_Religiao", "Classificacao"])
        
        # Assume que as duas primeiras colunas são: Nome_Religiao e Classificacao
        rel_table = rel_table.iloc[:, :2]
        rel_table.columns = ["Nome_Religiao", "Classificacao"]
        
        # Função auxiliar para processar a classificação, tratando 'N.A.' e removendo o símbolo "%"
        def process_class(val):
            val_str = str(val).strip()
            if val_str.upper() in ["N.A.", "NA", "NAN", ""]:
                return np.nan
            try:
                val_str = val_str.replace("%", "")
                return float(val_str)
            except Exception as ex:
                logger.warning(f"Erro convertendo classificação '{val}': {ex}")
                return np.nan
        
        rel_table["Classificacao"] = rel_table["Classificacao"].apply(process_class)
        # Se houver linhas sem Nome_Religiao, descarta-as
        rel_table.dropna(subset=["Nome_Religiao"], inplace=True)
        return rel_table
    except Exception as e:
        logger.error(f"Erro na extração dos dados religiosos: {str(e)}")
        return pd.DataFrame(columns=["Nome_Religiao", "Classificacao"])

async def main():
    """Função principal que coleta e processa os dados populacionais e religiosos."""
    session = AsyncHTMLSession()
    try:
        logger.info("🚀 Iniciando coleta dos dados do Worldometers")
        
        # Coleta dos dados em paralelo
        pop_task = asyncio.create_task(process_population_data())
        rel_task = asyncio.create_task(fetch_religion_data(session))
        population_df, religion_df = await asyncio.gather(pop_task, rel_task)
        
        return {
            'Fato_Populacao': population_df,
            'Dim_Religiao': religion_df
        }
    except Exception as e:
        logger.critical(f"Erro crítico: {str(e)}")
        return {
            'Fato_Populacao': pd.DataFrame(),
            'Dim_Religiao': pd.DataFrame()
        }
    finally:
        await session.close()

# Execução no Jupyter Notebook usando 'await'
dados = await main()

if dados['Fato_Populacao'] is not None and not dados['Fato_Populacao'].empty:
    print("=== DADOS POPULACIONAIS EXTRAÍDOS ===")
    display(dados['Fato_Populacao'].style.format({
        "Populacao_Total": "{:,}",
        "Taxa_Crescimento": "{:.2f}%",
        "Populacao_Urbana": "{:,}",
        "Populacao_Rural": "{:,}"
    }))
else:
    print("Falha na extração dos dados populacionais.")

if dados['Dim_Religiao'] is not None and not dados['Dim_Religiao'].empty:
    print("=== DADOS RELIGIOSOS EXTRAÍDOS ===")
    display(dados['Dim_Religiao'].style.format({
        "Classificacao": "{:.2f}%"
    }))
else:
    print("Falha na extração dos dados religiosos.")


2025-02-01 20:25:27,778 - INFO - 🚀 Iniciando coleta dos dados do Worldometers
2025-02-01 20:25:28,461 - INFO - Tabela extraída com 234 linhas e colunas: ['#', 'Country (or dependency)', 'Population (2024)', 'Yearly Change', 'Net Change', 'Density (P/Km²)', 'Land Area (Km²)', 'Migrants (net)', 'Fert. Rate', 'Med. Age', 'Urban Pop %', 'World Share']
2025-02-01 20:25:28,660 - ERROR - Tabela de religiões não encontrada usando BeautifulSoup.


=== DADOS POPULACIONAIS EXTRAÍDOS ===


Unnamed: 0,Country,Populacao_Total,Taxa_Crescimento,Populacao_Urbana,Populacao_Rural
0,India,1450935791,0.89%,536846243.0,914089548.0
1,China,1419321278,-0.23%,936752043.0,482569235.0
2,United States,345426571,0.57%,283249788.0,62176783.0
3,Indonesia,283487931,0.82%,167257879.0,116230052.0
4,Pakistan,251269164,1.52%,85431516.0,165837648.0
5,Nigeria,232679478,2.10%,125646918.0,107032560.0
6,Brazil,211998573,0.41%,192918701.0,19079872.0
7,Bangladesh,173562364,1.22%,72896193.0,100666171.0
8,Russia,144820423,-0.43%,108615317.0,36205106.0
9,Ethiopia,132059767,2.62%,29053149.0,103006618.0


Falha na extração dos dados religiosos.


## Integração dos DataFrames

In [None]:
# Exemplo: começamos com o dataframe do PIB
df_fato = df_pib_per_capita[['Entity', 'Code', 'Year', 'PIB_Per_Capita']]

# Merge com Acesso à Educação
df_fato = df_fato.merge(df_acesso_educacao[['Entity', 'Code', 'Year', 'Acesso_Educacao']], 
                        on=['Entity', 'Code', 'Year'], how='left')

# Merge com Expectativa de Vida
df_fato = df_fato.merge(df_expectativa_vida[['Entity', 'Code', 'Year', 'Expectativa_Vida']], 
                        on=['Entity', 'Code', 'Year'], how='left')

# Merge com Taxa de Mortalidade
df_fato = df_fato.merge(df_taxa_mortalidade.rename(columns={'location_name': 'Entity', 'year': 'Year'}),
                        on=['Entity', 'Year'], how='left')

# Merge com Médicos Por Habitante
# Supondo que as colunas de chave sejam 'Entity' e 'Year' (ajuste se necessário)
df_fato = df_fato.merge(df_medicos_por_habitante.rename(columns={'Location': 'Entity', 'Period': 'Year'}),
                        on=['Entity', 'Year'], how='left')

# Exiba o dataframe consolidado
display(df_fato.head(30))


## PostgreSQL
### Carregamento de dados para o PostgreSQL

In [None]:

# Configure sua conexão – substitua com os dados reais de conexão
engine = create_engine('postgresql://postgres:102030@localhost:5432/world_population')

# Após preparar o dataframe consolidado (ex: df_fato) com todas as colunas necessárias
df_fato.to_sql('Fato_Populacao', engine, if_exists='append', index=False)

# DIM_TEMPO
# Cria o dataframe de dimensão de tempo com anos únicos
anos = sorted(df_fato['Year'].unique())
dim_tempo = pd.DataFrame({'Ano': anos})
dim_tempo['Decada'] = dim_tempo['Ano'].apply(lambda x: (x // 10) * 10)

# Exibe o resultado
print(dim_tempo.head())

#DIM_LOCAL
# Extraindo países únicos do dataframe consolidado
dim_local = df_fato[['Entity', 'Code']].drop_duplicates().copy()
dim_local.rename(columns={'Entity': 'Pais'}, inplace=True)

# Exemplo de mapeamento manual (adicione os países que faltarem)
continent_mapping = {
    'AFG': 'Asia',
    'ZWE': 'Africa',
    # adicione outros mapeamentos conforme necessário...
}

# Cria a coluna Continente usando o mapeamento a partir do código do país
dim_local['Continente'] = dim_local['Code'].map(continent_mapping)

# Se preferir, mantenha apenas as colunas necessárias para a dimensão
dim_local = dim_local[['Pais', 'Continente']]

print(dim_local.head())

# DIM_RELIGIAO
dim_religiao = pd.DataFrame({
    'Nome_Religiao': ['Cristianismo', 'Islamismo', 'Budismo'],
    'Classificacao': ['Cristã', 'Islâmica', 'Budista']
})
print(dim_religiao)


# INSERCAO
# Insere os dados em Dim_Tempo
dim_tempo.to_sql('Dim_Tempo', engine, if_exists='append', index=False)

# Insere os dados em Dim_Local
dim_local.to_sql('Dim_Local', engine, if_exists='append', index=False)

# Insere os dados em Dim_Religiao (se aplicável)
dim_religiao.to_sql('Dim_Religiao', engine, if_exists='append', index=False)

# TABELA_FATO
# Carrega a dimensão tempo do PostgreSQL (supondo que os nomes das colunas sejam ID_Tempo, Ano e Decada)
dim_tempo_db = pd.read_sql('SELECT * FROM "Dim_Tempo"', engine)

# Faz o merge para obter a chave estrangeira de tempo com base no ano
df_fato = df_fato.merge(dim_tempo_db[['ID_Tempo', 'Ano']], left_on='Year', right_on='Ano', how='left')
df_fato.rename(columns={'ID_Tempo': 'Chave_Tempo'}, inplace=True)

# Carrega a dimensão local do PostgreSQL
dim_local_db = pd.read_sql('SELECT * FROM "Dim_Local"', engine)

# Faz o merge para obter a chave estrangeira de local com base no país
df_fato = df_fato.merge(dim_local_db[['ID_Local', 'Pais']], left_on='Entity', right_on='Pais', how='left')
df_fato.rename(columns={'ID_Local': 'Chave_Local'}, inplace=True)

# Exemplo: supondo que df_fato possua as colunas originais além dos indicadores
df_fato_final = df_fato[[
    'Chave_Tempo',   # ID obtido a partir de Dim_Tempo
    'Chave_Local',   # ID obtido a partir de Dim_Local
    'Em_Conflito',   # já tratado (ex: 'Baixo', 'Médio', 'Alto')
    'Populacao_Total',
    'Populacao_Urbana',
    'Populacao_Rural',
    'Taxa_Crescimento',
    'Expectativa_Vida',
    'Taxa_Mortalidade',
    'PIB_Per_Capita',
    'Acesso_Educacao',
    'Medicos_Por_Habitante'
]]

# Visualize o dataframe final
print(df_fato_final.head())

df_fato_final.to_sql('Fato_Populacao', engine, if_exists='append', index=False)