# <center> MVP - Sprint III - Engenharia de dados

#### Aluno: Marcus Vinicius Ferreira dos Santos

#### Instituição: PUC-RIO

---

## Introdução e objetivos

Entre os principais efeitos depreendidos de fenômenos como a Revolução Industrial, ocorrida em meados do século XVIII, ressalta-se a urbanização, que é definida como a intensificação da população urbana frente à população do meio rural. A urbanização trouxe uma série de benefícios, uma vez que fomentou o desenvolvimento tecnológico, a produção industrial em massa e a globalização, entre outros. Entretanto, a urbanização impulsionou também o aumento da densidade populacional e o aumento populacional, que foram vistos como desenfreados por alguns pesquisadores da área.

Por sua vez, o aumento populacional desenfreado colaborou para o agravamento de problemas sociais, como a fome, o déficit habitacional, a evasão escolar e a violência interpessoal. Neste sentido, torna-se necessário o monitoramento dos principais indicadores de desenvolvimento humano com o intuito de identificar as áreas de melhoria e garantir a qualidade de vida para a população, que está em constante crescimento.

O principal objetivo do presente trabalho é a avaliação do desenvolvimento humano e de saúde dos países no cenário global ao longo do tempo, identificando a sua evolução. Essa avaliação será feita em um cenário mais recente, com dados a partir do ano de 2000. Além disso, serão possivelmente analisados os principais indicadores utilizados pela literatura, como: 

   - **Índice de Desenvolvimento Humano (IDH)**;
   - **Produto Interno Bruto (PIB) per capita**;
   - **Expectativa de vida**;
   - **Coeficiente de Gini**;
   - **Taxa de morte por questões nutricionais**;
   - **Taxa de morte por violência interpessoal**;
   - **Taxa de desemprego**
   
Utilizando os indicadores acima listados, serão investigadas as seguintes perguntas:

**1.** Quais são os países do top 10 ranking de IDH do último ano e seus respectivos IDH? 

**2.** O que os países do top 10 ranking de IDH do último ano apresentam em comum? Qual a diferença frente aos demais países?

**3.** Qual é a frequência absoluta e relativa da classificação do IDH nos continentes?

**4.** Qual é a disparidade de IDH entre os continentes? Qual é o desvio padrão?

**5.** Quais os indicadores das sub-regiões dos continentes?

**6.** Quais países apresentaram maior crescimento absoluto do IDH? E relativo?

**7.** Qual é a disparidade de taxa de morte por problemas nutricionais ou de violência de países com baixo IDH e alto IDH nos últimos anos?

**8.** Sabe-se que o conceito do IDH foi alterado no final de 2010 como o resumo dos índices de renda, expectativa de vida e educação. Quais são os países que apresentaram maior crescimento absoluto e relativo do IDH de 2010 para 2011?

**9**. Qual o ranking do IDH brasileiro no continente americano no início e no último ano? E no ranking mundial? Como é classificado o seu último IDH?

**10.** O Brasil conseguiu reduzir a sua taxa de mortes por nutrição de 2000 a 2022? E por violência?

**11.** Apresente as correlações entre IDH, taxa de morte por questões nutricionais e violência por mil habitantes. O que os valores sugerem?

**12.** Qual é a disparidade da expectativa de vida nos países de alto e baixo IDH?

**13.** Os países de alto IDH tendem a apresentar menor concentração de renda? Qual é o coeficiente de Gini médio e mediano destes países?

**14.** Qual é a matriz de correlação dos índices componentes do IDH?

**15.** Há países que apresentaram aumento da taxa de desemprego e aumento do PIB per capita? E o inverso?

## Detalhamento

Uma vez enumeradas as principais perguntas a serem respondidas no presente trabalho, serão discutidas nas próximas seções a busca, coleta, modelagem e carga dos dados que serão utilizados.

### Busca pelos dados

Os dados foram majoritariamente buscados em dois sites principais: *Kaggle* (https://www.kaggle.com/) e *Data World* (https://data.world/worldbank), sendo o último uma ferramenta disponibilizada pelo *World Bank* (https://www.worldbank.org/en/home). 

Os dados deveriam apresentar uma descrição por ano e país de alguns indicadores utilizados pela literatura e que foram listados na seção de objetivos. Além disso, apenas datasets que apresentavam uma classificação internacional de identificação dos países foram utilizados. A classificação utilizada foi a *ISO 3166-1 alpha-3* (https://en.wikipedia.org/wiki/ISO_3166-1_alpha-3), que associa a cada país uma sequência de três caracteres, que pode ser vista como uma sigla para aquele país. Doravante, a classificação *ISO 3166-1 alpha-3* será denominada *ISO-3*.

O motivo principal para a consideração apenas dos datasets que apresentavam a classificação *ISO-3* foi a facilitação de junção de bases de dados. Uma vez que é rara a apresentação de datasets que contenham todos os indicadores considerados por ano, é necessário realizar a junção de bases de dados para enriquecê-los, que será feita por país e ano. Como cada dataset pode apresentar uma diferente descrição do nome do país, a padronização *ISO-3* tornou-se necessária.

Após uma detalhada análise dos dados elegíveis ao estudo, a análise final será conduzida em cinco datasets, que são brevemente apresentados a seguir.

- **Cause of Deaths around the World (Historical Data):** Contém o número absoluto de mortes por país e ano de diversas causas, como problemas sociais e doenças. São exemplos: violência, deficiência nutricional, terrorismo diabetes melitus, meningite, alzheimer e doenças crônicas. No total, são disponibilizados o número de mortes de 29 causas. Disponível em: https://www.kaggle.com/datasets/iamsouravbanerjee/cause-of-deaths-around-the-world;

- **Country Mapping - ISO, Continent, Region:** Apresenta o continente e a sub-região dos países. São exemplos de sub-região: América Latina, África Subsaariana, Leste europeu, entre outras. Disponível em: https://www.kaggle.com/datasets/andradaolteanu/country-mapping-iso-continent-region

- **Global economic inequality:** Dados de desigualdade econômica por país e ano. Entretanto, possui uma única medida de desigualdade econômica, que é o PIB per capita. Disponível em: https://www.kaggle.com/datasets/mathurinache/global-economic-inequality

- **Population by Country (1960 - 2020):** População total por país e ano. Disponível  em: https://www.kaggle.com/datasets/aliaamiri/historical-worldwide-countries-population

- **Human Development World Index:** Apresenta uma série de variáveis de desenvolvimento humano para cada país e ano. Entre as mais notórias, ressalta o IDH (*Human Development Index* - HDI, em inglês). Disponível em: https://www.kaggle.com/datasets/iamsouravbanerjee/human-development-index-dataset

### Coleta

Em todos os cinco datasets apresentados anteriormente e elegíveis a compor o estudo, a coleta foi realizada por meio da ferramente de *download* do *Kaggle*, em que os arquivos foram temporariamente armazenados localmente para a posterior carga em ambientes de nuvem.

O ambiente de nuvem escolhido foi a *Amazon Web Services (AWS)*. Neste ambiente, foi utilizado o sistema de arquivos distribuídos denominado **S3**. O S3 permite a criação de um *bucket*, que é uma espécie de diretório para o armazenamento de diversos objetos e arquivos, como .csv, .txt, .json, .xlsx, .pdf e muitos outros.

A figura a seguir apresenta o bucket *countries-bucket-mvp* que foi criado. Neste bucket, foi criada uma pasta denominada *databases* que contém sete arquivos .csv. 

<br>

<div> <img src="Img/overview/1. bucket - s3.png" width="800"/> </div>

<br>

Como foram apresentados apenas cinco arquivos na seção de "Busca pelos Dados", será discutido futuramente, na seção de **Autoavaliação**, o motivo pelo qual foi necessária a criação de dois arquivos adicionais (country_population_unpivoted.csv e hdi_history_unpivoted.csv), que foram processados em ambiente externo devido a uma limitação técnica da ferramenta.

Os arquivos base estão referenciados pelos seguintes nomes dos arquivos.

- **Cause of Deaths around the World (Historical Data):** cause_of_deaths.csv
- **Country Mapping - ISO, Continent, Region:** country_continent.csv
- **Global economic inequality:** gdp-per-capita.csv
- **Population by Country (1960 - 2020):** country_population.csv (raw data) e country_population_unpivoted.csv (processed data)
- **Human Development World Index:** hdi_history.csv (raw data) e hdi_history_unpivoted.csv (processed data).

### Modelagem
    
#### Modelo de dados
    
Uma vez armazenados os arquivos no S3, foi criado também o modelo de dados no ambiente *AWS*. Para isso, utilizou-se o serviço de *Redshift Serverless*, que permite o processamento analítico de dados por meio da linguagem *SQL*. 

O modelo de dados escolhido no *Redshift Serverless* é apresentado a seguir. Trata-se de um esquema *flat* por conceito, que é visto como um *DataLake*.

<br>

<div> <img src="Img/overview/8. schema.png" width="800"/> </div>

<br>

#### Catálogo dos dados
    
Nota-se que o modelo de dados apresentado possui variáveis que resumem os dados que foram coletados. Para facilitar a identificação e significado das variáveis, foi criado o catálogo de variáveis.
    
O catálogo dos dados está armazenado no *AWS Glue databases*. Por meio de um *crawler*, extraiu-se o modelo de dados do *Redshift* e o seu esquema foi armazenado na seguinte *database*.
    
As figuras abaixo contêm o *crawler* utilizado, a *database* de armazenamento e as informações da *database*, respectivamente.

<br>

<div> <img src="Img/data catalog/crawler.png" width="800"/> </div>

<br>    
    
<br>

<div> <img src="Img/data catalog/database.png" width="800"/> </div>

<br>
    
<br>

<div> <img src="Img/data catalog/redshift.png" width="800"/> </div>

<br>
    
Por meio destes, foi possível catalogar os dados no ambiente da *AWS Glue*. O catálogo dos dados é apresentado a seguir, com a mesma ordenação de atributos do modelo de dados.
    
No catálogo, é apresentada a descrição do atributo, valores mínimos e máximos para atributos numéricos, possíveis categorias para variáveis *string* e por fim a linhagem dos dados, com o atributo e o bucket de referência.

<br>

<div> <img src="Img/data catalog/redshift-catalog.png" width="800"/> </div>

<br>
    

### Carga

No ambiente da *AWS*, o serviço utilizado para realizar a carga dos dados foi o *Glue*. O *Glue* permite fazer o ETL de bases de dados e conectá-lo a um outro serviço disponibilizado, sobretudo, a outro serviço da *AWS*. 

A imagem a seguir descreve as etapas desde a extração de dados nos *buckets* do S3 até a modelagem dos dados no *Redshift Serverless*. As etapas foram criadas com componentes visuais, que auxiliam na criação do script *Spark/Python* que será utilizado internamente pelo *Glue*.

<br>

<div> <img src="Img/overview/2. overview aws glue.png" width="800"/> </div>

<br>

No fluxo de transformações deste trabalho no *AWS Glue*, os seguintes recursos foram utilizados:

- **Data source - S3 bucket:** Lê um arquivo/objeto que está armazenado no S3;
- **Transform - Change Schema:** Seleciona as variávies de interesse, com possível renomeação de campos e conversão de tipos de variáveis (string para int, string para double, etc);
- **Transform - Join:** Realiza a junção de esquemas segundo colunas chaves. Todas as junções foram *inner join*;
- **Transform - RenameField:** Renomeia um campo do esquema (caso particular do **Transform - Change Schema**)
- **Transform - Filter:** Realiza um filtro no esquema com base em um predicado booleano;
- **Transform - DropDuplicates:** Remove as duplicidades com base em duas possibilidades: colunas específicas ou tuplas iguais;
- **Transform - Dynamic Transform:** Cria uma coluna que é função de atributos existentes;
- **Transform - DropFields:** Seleciona as colunas de um esquema que serão removidas;
- **Data target - Amazon Redshift:** Realiza a carga dos dados trabalhados do *AWS Glue* para o *AWS Redshift Serverless*;

Dado que trata-se de um fluxo longo, os detalhamentos serão feitos em sub-etapas do processo de modo a facilitar a visualização e a explicação.

A seguir, é apresentada uma primeira etapa do fluxo do *AWS Glue*.

<br>

<div> <img src="Img/overview/3. overview aws glue - parte 1.png" width="800"/> </div>

<br>

A primeira etapa refere-se a leitura e junção de bases de dados. Para isso, são utilizados os recursos: **Data source - S3 bucket**, **Transform - Change Schema** e **Transform - Join**.

Ainda, é possível estabelecer a seguinte ordem de operações no *Glue*:

1. **Bucket - Deaths:** O arquivo de mortes (*cause_of_deaths.csv*) é lido;<br>
    1.1 **Variables - Deaths:** As variáveis de interesse são selecionadas e tratadas; <br><br>
    
2. **Bucket - Region:** O arquivo de região e continente (*country_continent.csv*) é lido;<br>
    2.1 **Variables - Region:** As variáveis de interesse são selecionadas e tratadas;<br><br>

3. **Deaths x Region:** Realiza a junção entre os esquemas **1.1 Variables - Deaths** e **2.1 Variables - Region**, utilizando o código *ISO-3*;<br><br>

4. **Bucket - GDP:** O arquivo de PIB (*Gross domestic product - GDP*) per capita (*gdp-per-capita.csv*) é lido;<br>
    4.1 **Variables - GDP:** As variáveis de interesse são selecionadas e tratadas;<br><br>

5. **Deaths x Region x GDP:** Realiza a junção entre os esquemas **3. Deaths x Region** e **4.1 Variables - GDP**, utilizando o código *ISO-3* e o ano. Este esquema temporariamente possui as variáveis de morte, região e PIB per capita.

A seguir, é apresentada a segunda etapa do fluxo *Glue*.

<br>

<div> <img src="Img/overview/4. overview aws glue - parte 2.png" width="800"/> </div>

<br>

Assim como na primeira etapa, a segunda etapa também apresenta a leitura e junção de bases. Com este objetivo, foram utilizados os recursos: **Data source - S3 bucket**, **Transform - RenameField** e **Transform - Join**.

Além disso, é possível estabelecer a seguinte ordem:

6. **Bucket - HDI:** O arquivo de IDH (*hdi_history_unpivoted.csv*) é lido;<br>
    6.1 **Rename - HDI:** O atributo do código ISO-3 é renomeado; <br><br>

7. **Bucket - Population:** O arquivo de população (*population_country_unpivoted.csv*) é lido;<br>
    7.1 **Rename - Population:** O atributo do código ISO-3 é renomeado; <br><br>

8. **HDI x Population:** Realiza a junção entre os esquemas **6.1 Rename - HDI** e **7.1 Rename - Population**, utilizando o código *ISO-3* e o ano. Este esquema temporariamente possui as variáveis de IDH e população.

Por fim, é apresentada a última etapa do fluxo na imagem a seguir.

<br>

<div> <img src="Img/overview/5. overview aws glue - parte 3.png" width="800"/> </div>

<br>

Na últipa etapa do fluxo, foram utilizados os recursos de: **Transform - Join**, **Transform - Filter**, **Transform - DropDuplicates**, **Transform - Dynamic Transform**, **Transform - DropFields** e **Data target - Amazon Redshift**.

Nesta etapa, as etapas sequenciais são apresentadas a seguir;

9. **Final DataLake:** Realiza a junção entre os esquemas **5. Deaths x Region x GDP:** e **8. HDI x Population:**, utilizando o código *ISO-3* e o ano. Este esquema é a combinação final das cinco bases de dados;

10. **Year >= 2000:** Considera apenas dados a partir do ano de 2000;

11. **Drop Duplicates:** Retira as duplicatas da combinação de código *ISO-3* e ano. Sendo assim, a combinação (código, ano) torna-se única;

12. **Nutritional Standard:** Como as mortes por deficiências nutricionais está em número absoluto, essa transformação permite criar a taxa de mortes por deficiências nutricionais a cada 100 mil habitantes;

13. **Violence Standard:** Como as mortes por violência interpessoal está em número absoluto, essa transformação permite criar a taxa de mortes por violência interpessoal a cada 100 mil habitantes;

14. **Remove join columns:** Por default do *Glue*, as colunas utilizadas em junção de bases são preservadas. Como foi utilizado o código *ISO-3* e o ano em quase todas as bases de dados, apenas uma será mantida;

15. **To Redshift:** Realiza a carga da base tratada no ambiente do Redshift.

Também, são apresentadas a seguir as telas de configurações dos recursos utilizados. Como não se trata de uma demonstração exaustiva, apenas uma imagem será exibida para cada operação que foi utilizada.

**Recurso:** Data source - S3 bucket <br>
**Exemplo:** Bucket - Deaths <br>
**Legenda:** Leitura de arquivo armazenado no S3. <br>

<br>

<div> <img src="Img/overview/10. Data Source - S3.png" width="600"/> </div>

<br>

**Recurso:** Transform - Change Schema<br>
**Exemplo:** Variables - Deaths<br>  
**Legenda:** Seleção, renomeação e conversão de tipos de variáveis <br>  

<br>

<div> <img src="Img/overview/11. Change Schema.png" width="600"/> </div>

<br>

**Recurso:** Transform - Join <br>
**Exemplo:** Deaths x Region x GDP <br>
**Legenda:** Junção de bases por atributos chaves <br>

<br>

<div> <img src="Img/overview/12. Join.png" width="600"/> </div>

<br>

**Recurso:** Transform - RenameField <br>
**Exemplo:** Rename - HDI <br>
**Legenda:** Renomear uma única coluna <br>

<br>

<div> <img src="Img/overview/13. RenameField.png" width="600"/> </div>

<br>

**Recurso:** Transform - Filter <br>
**Exemplo:** Year >= 2000 <br>
**Legenda:** Filtrar uma ou mais colunas segundo seus valores <br> 

<br>

<div> <img src="Img/overview/14. Filter.png" width="600"/> </div>

<br>

**Recurso:** Transform - DropDuplicates <br>
**Exemplo:** Drop Duplicates <br>
**Legenda:** Remover duplicadas com base em linhas ou colunas <br>

<br>

<div> <img src="Img/overview/15. Drop duplicates.png" width="600"/> </div>

<br>

**Recurso:** Transform - DynamicTransformation <br>
**Exemplo:** Nutritional Standard <br>
**Legenda:** Criar uma coluna como função das colunas existentes <br>

<br>

<div> <img src="Img/overview/16. Dynamic Transform.png" width="600"/> </div>

<br>

**Recurso:** Transform - DropFields <br>
**Exemplo:** Remove join columns <br>
**Legenda:** Remover atributos <br>

<br>

<div> <img src="Img/overview/17. Remove join col.png" width="600"/> </div>

<br>

**Recurso:** Data Target - Amazon Redshift <br>
**Exemplo:** To Redshift <br>
**Legenda:** Realizar a carga do Glue para o Redshift. <br>

<br>

<div> <img src="Img/overview/18. To redshift.png" width="600"/> </div>

<br>

Após a configuração do ambiente de ETL, o recurso *Run* foi acionado para o *job* acima mencionado. A execução do job foi realizada com sucesso após uma sequências de falhas, conforme evidenciado abaixo.

<br>

<div> <img src="Img/overview/7. jobs running.png" width="800"/> </div>

<br>

Com o acionamento do *job* e o seu sucesso de execução, os dados foram efetivamente carregados do S3 para o Redshift por meio da ferramenta do Glue. As evidências são apresentadas abaixo:

<br>

<div> <img src="Img/overview/9. redshift.png" width="800"/> </div>

<br>

### Análise dos dados

#### Qualidade dos dados

Nesta seção, a qualidade dos dados será verificada por meio de *queries* que serão realizadas no ambiente do *Redshift Serverless*. Além disso, a análise da qualidade dos dados será feita de forma univariada e multivariada, isto é, será verificado se cada atributo apresenta inconsistência e se a combinação de atributos apresenta inconsistência, respectivamente.

Para resumir as validações que serão feitas a seguir, serão discutidos os principais pontos da análise univariada e multivariada. 

- **Análise univariada:** 
    - Atributos quantitativos: Valores mínimos e máximos, discrepantes, nulos e incoerentes;
    - Atributos qualitativos: Verificação de possíveis categorias, valores nulos e incoerentes;

- **Análise multivariada:**
    - Verificação de "relacionamentos" (1 x 1, 1 x n), valores incoerentes;

Além disso, é apresentada na imagem a seguir uma breve descrição geral dos dados que serão utilizados.

<br>

<div> <img src="Img/data quality/general description.png" width="600"/> </div>

<br>

Assim, é possível concluir que foram importadas 3053 (três mil e cinquenta e três) tuplas no *Redshift*. São dados do ano de 2000 até o ano de 2018 de 162 países distintos que estão localizados em todos os 5 continentes.

###### Análise univariada

Para cada atributo do modelo de dados utilizado no *Redshift Serverless*, é apresentada a qualidade dos dados a seguir. A qualidade dos dados de cada atributo será discutida na mesma ordem em que estes se encontram no modelo de dados. Vale mencionar que a ordem dos atributos no modelo de dados foi escolhida arbitrariamente.

- **code:**
    - São 162 códigos distintos, o que revela 162 países distintos;
    - Não há código de país com menos ou mais de 3 caracteres, pois o padrão *ISO-3* assegura uma sequência única de 3 caracteres para cada país. Sendo assim, todos atendem as especificações *ISO-3*;
    - Não há números no código *ISO-3*, o que também está em conformidade;
    - Não há códigos *ISO-3* nulos;
<br>

<div> <img src="Img/data quality/univariate/1. code.png" width="600"/> </div>

<br>

- **year:**
    - São 19 anos de registros, sendo desde 2000 a 2018;
    - Não há registros de um ano que esteja abaixo de 2000, que foi considerado no delineamento do estudo;
    - Não há registros de um ano que seja superior ao corrente, por exemplo, pois o maior ano é de 2018;
    - Não há valores nulos;

<br>

<div> <img src="Img/data quality/univariate/2. year.png" width="600"/> </div>

<br>

- **country_name:**
    - São 162 registros distintos, que é o mesmo número de códigos *ISO-3* distintos;
    - Não há valores nulos;
    - Não há países com nome sendo um caracter vazio;
    - Não há números no nome dos países, o que é coerente com a realidade;

<br>

<div> <img src="Img/data quality/univariate/3. country name.png" width="600"/> </div>

<br>

- **continent:**
    - Há cinco continentes, coerente com o mundo real;
    - Os nomes dos continentes são coerentes ao mundo real;
    - Não há valores nulos;

<br>

<div> <img src="Img/data quality/univariate/4. continent 1.png" width="600"/> </div>

<br>

<br>

<div> <img src="Img/data quality/univariate/5. continent 2.png" width="600"/> </div>

<br>

- **region:**
    - Há 14 regiões distintas, que supera o número de continentes distintos, sendo coerente;
    - Não há valores nulos;
    - Não há números nos nomes das regiões, o que é coerente com o mundo real;
    
<br>

<div> <img src="Img/data quality/univariate/6. region.png" width="600"/> </div>

<br>

- **population:**
    - Não há populações negativas;
    - Não há valores nulos;
    - Não há valores incoerentes. A maior população encontrada é de 1,3 bilhões, mas é da China e coerente com a realidade. Essa conferência é exibida na segunda imagem;

<br>

<div> <img src="Img/data quality/univariate/7. population.png" width="600"/> </div>

<br>

<br>

<div> <img src="Img/data quality/univariate/7.5 population.png" width="600"/> </div>

<br>

- **gdp:** 
    - Não há PIB per capita negativo ou zerado;
    - Não há valores discrepantes que sejam incoerentes;
    - Não há valores nulos;

<br>

<div> <img src="Img/data quality/univariate/8. gdp.png" width="600"/> </div>

<br>

- **hdi:** 
    - Não há IDH negativo;
    - Não há IDH abaixo de zero ou acima de 1;
    - Não há valores nulos;

<br>

<div> <img src="Img/data quality/univariate/9. hdi.png" width="600"/> </div>

<br>

- **nutritional:**
    - Não há valor absoluto de mortes negativo;
    - Não há valores nulos;
    - Não há valor absoluto de mortes que seja maior que a população residente do país no respectivo ano;
    - Chama a atenção o valor de mortes por deficiência nutricional do país Kuwait, pois não foram registradas mortes. Porém, este valor está no domínio do atributo;
    
<br>

<div> <img src="Img/data quality/univariate/10. nutritional 1.png" width="600"/> </div>

<br>

<br>

<div> <img src="Img/data quality/univariate/11. nutritional 2.png" width="600"/> </div>

<br>

- **violence:**
    - Não há valor absoluto de mortes negativo;
    - Não há valores nulos;
    - Não há valor absoluto de mortes que seja maior que a população residente do país no respectivo ano;
    - Chama a atenção o valor de mortes por violência interpessoal do país Islândia, que teve apenas 2 casos. Além disso, esse valor se repete em vários anos. Porém, este valor está no domínio do atributo;
    
<br>

<div> <img src="Img/data quality/univariate/12. violence 1.png" width="600"/> </div>

<br>

<br>

<div> <img src="Img/data quality/univariate/13. violence 2.png" width="600"/> </div>

<br>

- **tx_nutritional:**
    - Não há valores negativos;
    - Não há valores nulos;
    - A maior taxa de morte por deficiência nutricional é próxima de 96. Como este atributo representa a taxa de mortes por cem mil habitantes, é válida e coerente;

<br>

<div> <img src="Img/data quality/univariate/14. tx nutri.png" width="600"/> </div>

<br>

- **tx_violence:**
    - Não há taxas negativas;
    - Não há valores nulos;
    - A maior taxa de morte por violência interpessoal é próxima de 103. Como este atributo representa a taxa de mortes por cem mil habitantes, é válida e coerente;

<br>

<div> <img src="Img/data quality/univariate/15. tx vio.png" width="600"/> </div>

<br>

Resumidamente, a análise univariada da qualidade dos dados revelou que, em todos os atributos, não foram identificadas anomalias, registros incoerentes e valores nulos.

###### Análise multivariada

- **Registros duplicados:**
    - Foram utilizadas as variáveis *code* e *year*;
    - Não foram encontrados duplicidades de registros, como o mesmo país sendo registrado mais de uma vez para um mesmo ano;
    
<br>

<div> <img src="Img/data quality/multivariate/1. duplicated.png" width="600"/> </div>

<br>

- **Códigos ISO-3 duplicados:**
    - Foram utilizadas as variáveis de *country_name*, *continent* e *region*;
    - O objetivo era verificar se, para um mesmo código de país, havia mais de um nome cadastrado, ou situado em mais de um continente ou mais de uma região;
    - Não foram encontradas essas anomalias, pois nenhum código apresentou mais de um registro distinto nas variáveis mencionadas;

<br>

<div> <img src="Img/data quality/multivariate/2. code duplicated.png" width="600"/> </div>

<br>

- **Nomes duplicados:**
    - Foram utilizadas as variáveis de *code*, *continent* e *region*;
    - O objetivo era verificar se, para cada nome de país, havia mais de um código registrado, ou situado em mais de um continente ou mais de uma região;
    - Não foram encontradas essas anomalias, pois nenhum nome de país apresentou mais de um registro distinto nas variáveis mencionadas;
    
<br>

<div> <img src="Img/data quality/multivariate/3. names duplicated.png" width="600"/> </div>

<br>

- **Países que não foram observados em todos os anos:**
    - Foram utilizadas as variáveis de *code* e *year*;
    - O objetivo era verificar se havia algum país que não apresentava a quantidade máxima de registros. Como os dados são de 2000 a 2018, são 19 anos;
    - Foram encontrados 6 países que não foram identificados em todos os anos. Para esses países, foram observados o primeiro e último ano de registro, assim como o total de registros.

<br>

<div> <img src="Img/data quality/multivariate/3. names duplicated.png" width="600"/> </div>

<br>

Resumidamente, a análise multivariada revelou que apenas há a falta de registros de seis países em determinados anos. Conforme apresentado nas seções anteriores, há 162 países distintos registrados nesta análise. Desta forma, 3,7% dos países apresentam dados "incompletos". Como o objetivo do trabalho é apenas avaliar a evolução dos indicadores ao longo do tempo, este não é um problema de fato. 

#### Solução do problema

Nesta seção, os pontos levantados na seção de Introdução e Objetivos serão respondidos utilizando os dados coletados. Para cada pergunta, será informada a *query* utilizada como comprovação de resultado.

Por limitação da disponibilização dos dados, que apresentam dados apenas de 2000 a 2018, as perguntas referentes ao último ano serão respondidas baseadas no último ano registrado na base de dados, a saber o ano de 2018.

Além disso, o único indicador de concentração de riqueza que foi encontrado nas ferramentas de busca foi o PIB per capita. Sendo assim, a análise ficará limitada a este.

Por fim, as questões referentes à classificação de IDH em baixo, médio, alto e muito alto seguirão o consenso da literatura de que:

- **IDH muito alto:** Acima de 0,8, inclusive;
- **IDH Alto:** Acima de 0,7, inclusive;
- **IDH Médio:** Acima de 0,55, inclusive;
- **IDH Baixo:** Abaixo de 0,55;

##### Questões objetivas

**1.** Quais são os países do top 10 ranking de IDH do último ano e seus respectivos IDH?

<br>

<div> <img src="Img/queries/1.png" width="600"/> </div>

<br>

Observa-se que o top 10 IDH de 2018 apresenta majoritariamente países do continente Europeu, sendo 8 de 10 países do continente europeu.

Além de ser países do continente europeu, também são do norte europeu ou oeste europeu. Sendo assim, há indícios de que há diferenças regionais na Europa. Essa intuição será analisada na questão 5.

**2.** O que os países do top 10 ranking de IDH do último ano apresentam em comum? Qual a diferença frente aos demais países?

Para resumir o perfil dos países componentes do top 10 IDH de 2018, serão utilizados o PIB per capita e as taxas de morte a cada 100 mil habitantes por deficiência nutricional e violência interpessoal.

<br>

<div> <img src="Img/queries/2.png" width="600"/> </div>

<br>

Comparando-se os países do top 10 IDH com os demais países, isto é, acima do top 10, é possível salientar a diferença existente entre estes.

Os países componentes do top 10 IDH apresentam melhores performances nos três indicadores que foram utilizados. No caso do PIB per capita, os países do top 10 IDH apresentam PIB per capita 3,5 vezes maior que os demais países. Ainda, os países do top 10 IDH apresentam menos de uma morte por desnutrição a cada 100 mil habitantes, e menos de uma morte por violência interpessoal a cada 100 mil habitantes. Estes números são consideravelmente inferiores aos demais países.

**3.** Qual é a frequência absoluta e relativa da classificação do IDH nos continentes?

<br>

<div> <img src="Img/queries/3 - query.png" width="600"/> </div>

<br>

Como apresentado na query, os valores de frequência relativa (atributo freq_rel) considera o total de países registrados para cada continente.

<br>

<div> <img src="Img/queries/3 - out.png" width="600"/> </div>

<br>

Pelos resultados obtidos, percebe-se a diferença qualitativa nos continentes. Enquanto 89,7% dos países da Europa possuem IDH muito alto, mais de metade dos países da África possuem IDH baixo. Além disso, somente foram encontrados IDH alto e muito alto na Europa. 

A Oceania, por exemplo, possui 100% dos países com IDH alto. Porém, ressalta-se que são apenas dois países registrados.

**4.** Qual é a disparidade de IDH entre os continentes? Qual é o desvio padrão?

A questão anterior apresentava um resumo do IDH em um contexto de classificação agrupada. Esta questão busca quantificar a diferença existente entre os continentes.

<br>

<div> <img src="Img/queries/4.png" width="600"/> </div>

<br>

Primeiramente, observa-se que a África possui um IDH médio próximo de 0,56. Esse valor fica no limite para a classificação de IDH médio do continente como baixo. Isso é coerente com o resultado anterior, em que mais de 50% dos países africanos possuem IDH baixo, o que irá influenciar em sua média.

Por outro lado, a Europa apresenta um IDH médio de 0,88, o que indica um IDH alto do continente. O IDH do continente americano e asiático foram classificados como médio.

Outro detalhe a ser mencionado é que o continente europeu, além de apresentar maior frequência relativa de países com IDH muito alto, apresenta também um menor desvio padrão neste indicador. Isso sugere que a diferença entre os países componentes é também menor do que as demais regiões.

**5.** Quais os indicadores das sub-regiões dos continentes?

O objetivo desta questão é identificar as sub-regiões dos continentens para associar a sua influência no IDH do continente. Por exemplo, identificar uma sub-região no continente que possui menor IDH, e que possa influenciar o IDH geral.

<br>

<div> <img src="Img/queries/5.png" width="600"/> </div>

<br>

No continente africano, os países do norte apresentam melhor IDH do que a região sub-saariana. Porém, como há mais países na região sub-saariana e esta apresenta um menor IDH, o IDH da África é fortemente influenciado por esta região.

Similarmente, a América do norte, com países considerados desenvolvidos como Canadá e Estados Unidos, apresenta melhor IDH do que a América Caribenha e Latina. Porém, há mais países na região Caribenha e Latina, o que influencia o IDH americano.

Por fim, apesar de todas as sub-regiões da Europa também apresentaram IDH médio considerado muito alto, os países localizados no norte europeu apresentam concorrentemente um maior IDH médio e uma menor variação do IDH.

**6.** Quais países apresentaram maior crescimento absoluto do IDH? E relativo?

Com o intuito de estabelecer os países de maior crescimento absoluto do IDH, serão considerados os IDH do primeiro e último ano de cada país. 

No primeiro resultado, serão informados os 10 países com maior crescimento absoluto do IDH. Os resultados estão ordenados pelo crescimento absoluto decrescente.

<br>

<div> <img src="Img/queries/6.png" width="600"/> </div>

<br>

Da consulta realiza, ressalta-se que somente países com IDH baixo e médio compõem o ranking de maior crescimento absoluto desde o primeiro ano de registro. Além disso, a maioria destes são países de baixo IDH em 2000 e do continente africano.

Esse resultado é coerente, pois há um consenso no tema de que países de menor IDH têm maior tendência de evolução do que países de alto IDH.

A seguir, serão informados os 10 países com maior crescimento relativo do IDH. Os resultados estão ordenados pelo crescimento relativo decrescente.

<br>

<div> <img src="Img/queries/6-5.png" width="600"/> </div>

<br>

Nota-se que os países de maior crescimento relativo do IDH também apresentavam um IDH baixo no ano de 2000. Além disso, também são países do continente africano em sua maioria.

Para esses países de baixo IDH em 2000, o crescimento observado foi de mais de 40% em todos estes. Porém, a maioria destes continuaram com baixo IDH no ano de 2018, estando abaixo de 0,55.

**7.** Qual é a disparidade de taxa de morte por problemas nutricionais ou de violência de países com baixo IDH e alto IDH nos últimos anos?

Serão comparados os últimos 5 anos registrados no dataset para verificar a disparidade entre os países de alto e baixo IDH.

<br>

<div> <img src="Img/queries/7.png" width="600"/> </div>

<br>

Em primeiro lugar, nota-se que, em todos os últimos 5 anos registrados, houve uma menor taxa média de mortes por deficiências nutricionais ou violência interpessoal para cada 100 mil habitantes entre os países de IDH muito alto quando comparados a países de baixo IDH. Esse resultado é intuitivo e coerente.

Também, percebe-se que, em cada ano, os países de baixo IDH apresentaram mais de 5 vezes a taxa de mortes de países com alto IDH. 

Por outro lado, salienta-se que, tanto os países de baixo IDH como os países de IDH muito alto, há uma redução na taxa de mortes a cada 100 mil habitantes. Ou seja, apesar da disparidade, ambas as classes estão obtendo melhores indicadores ao longo do tempo.  

**8.** Sabe-se que o conceito do IDH foi alterado no final de 2010 como o resumo dos índices de renda, expectativa de vida e educação. Quais são os países que apresentaram maior crescimento absoluto e relativo do IDH de 2010 para 2011?

Primeiramente, serão apresentados os países de maior crescimento absoluto do IDH.

<br>

<div> <img src="Img/queries/8.png" width="600"/> </div>

<br>

O país com maior crescimento  absoluto no IDH de 2010 para 2011 foi o Haiti, onde obteve um crescimento de 0,08 pontos em seu IDH. Ressalto, porém, que não é possível concluir que o aumento foi exclusivamente devido à mudança do cálculo do IDH, uma vez que não há atributos suficientes para investigar esta hipótese.

A seguir, são apresentados os países de maior crescimento relativo do IDH.

<br>

<div> <img src="Img/queries/8-5.png" width="600"/> </div>

<br>

**9**. Qual o ranking do IDH brasileiro no continente americano no início e no último ano? E no ranking mundial? Como é classificado o seu último IDH?

Primeiramente, será apresentado o ranking brasileiro no continente americano.

<br>

<div> <img src="Img/queries/9.png" width="600"/> </div>

<br>

Percebe-se que o Brasil encontrava-se no ranking 16 no ano de 2000 e no ranking 13 em 2018, que é o último ano de registro. Além disso, o Brasil apresentou um crescimento de quase 0,10 pontos em seu IDH. Esses dois fatores mostram que o Brasil melhorou o seu indicador nos últimos anos e, além disso, apresentou uma melhor evolução do que alguns países do continente.

O último IDH brasileiro foi de 0,764, que é considerado um IDH médio. Além disso, está próximo da faixa de 0,80, patamar em que um país já é considerado de alto IDH.

A seguir, será apresentado o ranking brasileiro na perspectiva mundial.

<br>

<div> <img src="Img/queries/9-5.png" width="600"/> </div>

<br>

No ranking mundial, o Brasil caiu da 71ª posição em 2000 para a 75ª posição.

**10.** O Brasil conseguiu reduzir a sua taxa de mortes por nutrição de 2000 a 2022? E por violência?

Como o último ano de registro é o ano de 2018, a análise será feita de 2010 a 2018.

<br>

<div> <img src="Img/queries/10.png" width="600"/> </div>

<br>

A taxa de mortes por deficiência nutricioanl a cada 100 mil habitantes apresentou uma queda de 3,39, pois passou de 7,22 em 2000 para 3,82 em 2018.

Por sua vez, a taxa de mortes por violência interpessoal a cada 100 mil habitantes apresentou uma queda de 1,1, pois passou de 33,09 em 2000 para 31,99 em 2018.

Sendo assim, observa-se que o Brasil evoluiu em ambos os indicadores durante o período analisado.

**11.** Apresente as correlações entre IDH, taxa de morte por questões nutricionais e violência por mil habitantes. O que os valores sugerem?

As correlações entre os pares de indicaroes são apresentadas a seguir:

<br>

<div> <img src="Img/queries/11.png" width="600"/> </div>

<br>

Primeiramente, as correlações entre o IDH e a taxa de mortes por deficiência nutricional e violência interpessoal a cada 100 mil habitantes são negativas. A correlação negativa sugere que, em média, a medida que as taxas de morte decaem, o IDH aumenta. Esse resultado é intuitivo e coerente.

Também, a correlação linear é mais forte entre o IDH e a taxa de mortes por deficiência nutricional a cada 100 mil habitantes. Esse fator sugere também que a taxa de mortes por deficiência nutricional possui maior influência no IDH do que a taxa de mortes por violência interpessoal.

Por fim, apesar da baixa corelação, a correlação entre a taxa de mortes por deficiência nutricional e violência é positiva. Esse fator sugere que, em média, a medida que a taxa de mortes por nutrição aumenta, a de violência também aumenta. Esse resultado é possivelmente influenciado por demais fatores, como por exemplo a região e países mais pobres.

**12.** Qual é a disparidade da expectativa de vida nos países de alto e baixo IDH?

Não foi possível responder a esta questão, pois não foram obtidas informações suficientes.

**13.** Os países de alto IDH tendem a apresentar menor concentração de renda? Qual é o coeficiente de Gini médio e mediano destes países?

Conforme mencionado, o único indicador de concentração de renda obtido foi o PIB per capita. Sendo assim, a análise será conduzida neste e não será possível mensurar o coeficiente de Gini.

<br>

<div> <img src="Img/queries/13.png" width="600"/> </div>

<br>

Nota-se que há uma "ordenação" no PIB per capita quando analisadas as classes do IDH. O PIB per capita apresenta uma tendência de ser menor em países de IDH baixo e maior em países de IDH muito alto, e os valores são gradativamente aumentados nas faixas do IDH quando comparados os valores mínimos, médios e máximos.

Como o PIB per capita é uma medida de concentração de renda, nota-se que os países de baixo IDH apresentam maior concentração de renda, enquanto os países de maior IDH apresentam menor concentração de renda.

**14.** Qual é a matriz de correlação dos índices componentes do IDH?

Não foi possível responder a esta questão, pois não foram obtidas informações suficientes.

**15.** Há países que apresentaram aumento da taxa de desemprego e aumento do PIB per capita? E o inverso?

Não foi possível responder a esta questão, pois não foram obtidas informações suficientes.

##### Discussão geral

Pelas perguntas e respostas apresentadas, nota-se que os países analisados apresentaram, em sua maioria, evolução nos indicadores de nutrição, saúde e violência. Esta evolução foi mais perceptível em países que eram pobres e que apresentavam indicadores ruins quando comparados aos demais. Porém, alguns países de baixo IDH em 2000 ainda não apresentavam indicadores médios em 2018, o que revela uma evolução tímida.

A desigualdade encontrada é também regional, pois foram exploradas as diferenças nos continentes e em sub-regiões destes. O continente africano, por exemplo, apresenta vários países com baixo IDH, enquanto a Europa apresenta predominantemente países de IDH muito alto. 

No caso particular do Brasil, destaca-se a evolução do país para a melhoria da qualidade de vida. Também foi possível notar que esta evolução esteve aquém do cenário mundial, mas melhor no cenário americano.

No geral, pode-se dizer que as diferenças existentes têm origens em aspectos históricos e culturais, o que dificulta a sua comparação. Além disso, é um problema complexo que envolve diversos setores de um país e que, portanto, necessita de diversos recursos e iniciativas para a sua evolução, o que também a torna complexa.

###  Autoavaliação

#### Dificuldades encontradas

Como os dados foram extraídos em diferentes lugares, foram encontrados:

- Diferentes fontes;
- Diferentes formatos de armazenamento (*pivot* e *unpivot*);
- Códigos ISO-3 que não constavam em todas as bases de dados;
- Anos que não constavam em todas as bases de dados;
- Informações inúteis para o objetivo do estudo;
- Diferentes peculiaridades;

Todas essas limitações impactaram o resultado final. Foram consideradas apenas as informações que estivessem disponíveis em todas as bases, isto é, foram realizadas as junções do tipo *inner join*. Também, houve maior trabalho na etapa de ETL, principalmente ao explorar os recursos disponíveis.

#### Limitações técnicas

Uma clara dificuldade técnica encontrada para a realização deste trabalho foi um *bug* apresentado na ferramenta de ETL do *AWS Glue*. Esse bug foi encontrado na ferramenta de transformação **Tranform - Unpivot columns into rows**.

<br>

<div> <img src="Img/overview/bug/transform.png" width="600"/> </div>

<br>

Essa transformação era necessária em dois arquivos: *country_population.csv* e *hdi_history.csv*. Estes arquivos apresentavam, respectivamente, o ano da população e o ano do IDH em colunas. O esquema final destas bases deveria conter o código iso-3, o ano de referência e a população. Porém, não foi possível devido a um *bug*. 

Para demonstrar o bug, criei um *job* de exemplo que lê o arquivo de IDH e faz o *unpivot*. 

<br>

<div> <img src="Img/overview/bug/visual.png" width="600"/> </div>

<br>

Também, como é apenas uma demonstração, foram selecionados apenas três anos de referência: 2000, 2001 e 2002.

<br>

<div> <img src="Img/overview/bug/variabels.png" width="600"/> </div>

<br>

Após realizar o *unpivot* dos atributos HDI_2000, HDI_2001 e HDI_2002, a pré-visualização dos dados sugere que o *unpivot* foi realizado com sucesso.

<br>

<div> <img src="Img/overview/bug/hdi config.png" width="600"/> </div>

<br>


<br>

<div> <img src="Img/overview/bug/hdi unpivoted.png" width="600"/> </div>

<br>

Porém, essa etapa não era passada para a etapa seguinte, que neste exemplo é a carga para o Redshift. Desse modo, constavam apenas as colunas originais antes do processo de *unpivot*.

<br>

<div> <img src="Img/overview/bug/final schema.png" width="600"/> </div>

<br>

Ressalto que, neste esquema, deveriam constar apenas os atributos de code, hdi_year e hdi. Como isso foi um bug da ferramenta, foi necessária um *unpivot* fora do ambiente *AWS*. 

Essa operação foi feita nos arquivos de *country_population.csv* e *hdi_history.csv*, gerando os seus respectivos *country_population_unpivoted.csv* e *hdi_history_unpivoted.csv*

#### Alcance de objetivos

Como comentado na seção de Dificuldades encontradas, uma das grandes limitações do estudo foram as diferentes fontes de dados, que comprometeu a combinação dos arquivos e gerou dados apenas de 2000 a 2018. Como proposto no início do trabalho, a expectativa era de ter um período mais recente dos dados, como até o ano de 2022. 

Apesar deste fator, considero que os objetivos delineados no início do trabalho foram majoritariamente atingidos, sendo poucos os indicadores que não foram encontrados e poucas as perguntas não respondidas. Além disso, as respostas para a maioria das perguntas foram intuitivas e coerentes, sendo também observadas no mundo real.

#### Trabalhos futuros

Desde já, ressalto que os resultados apresentados são apenas uma visão geral da evolução dos países durante o período analisado. Não há neste trabalho os impeditivos e o motivos da evolução de IDH nos países analisados. 

Neste contexto, como comentado em outras seções, questões sociais, históricas e culturais podem também explicar o resultado dos países. A África e América, por exemplo, possuem consequências do período colonial. Também como exempl, a pirâmide etárias dos países, a sua região e confrontos geopolíticos podem influenciar o número de mortos destes.

Claramente, esta análise se tornaria muito mais complexa e exigiria conhecimentos de diversas áreas. Sendo assim, o trabalho apresentado pode ser visto como introdutório e motivador, de forma a gerar novos trabalhos que examinem os diferentes cenários apresentados por este estudo.