In [None]:
# Inicialize Otter
import otter
grader = otter.Notebook("project1.ipynb")

# Projeto 1: Progresso Mundial

Neste projeto, você explorará dados de [Gapminder.org](http://gapminder.org), um site dedicado a fornecer uma visão baseada em fatos do mundo e como ele mudou. Esse site inclui várias visualizações de dados e apresentações, mas também publica os dados brutos que usaremos neste projeto para recriar e estender algumas de suas visualizações mais famosas.

O site Gapminder coleta dados de muitas fontes e os compila em tabelas que descrevem muitos países ao redor do mundo. Todos os dados que eles agregam são publicados no [Systema Globalis](https://github.com/open-numbers/ddf--gapminder--systema_globalis/blob/master/README.md). Seu objetivo é "compilar todas as estatísticas públicas; Sociais, Econômicas e Ambientais; em um conjunto de dados total comparável". Todos os conjuntos de dados neste projeto são copiados diretamente do Systema Globalis sem quaisquer alterações.

Este projeto é dedicado a [Hans Rosling](https://en.wikipedia.org/wiki/Hans_Rosling) (1948-2017), que defendeu o uso de dados para entender e priorizar os desafios do desenvolvimento global.

### Logística

**Regras.** Não compartilhe seu código com ninguém além do seu parceiro. Você pode discutir questões com outros alunos, mas não compartilhe as respostas. A experiência de resolver os problemas neste projeto irá prepará-lo para os exames (e para a vida). Se alguém lhe pedir a resposta, resista! Em vez disso, você pode demonstrar como resolveria um problema semelhante.

**Suporte.** Você não está sozinho! Venha ao horário de atendimento e converse com seus colegas de classe. Se você quiser perguntar sobre os detalhes da sua solução para um problema, venha me ver. Se você estiver se sentindo sobrecarregado ou não souber como progredir, envie um e-mail pedindo ajuda.

**Testes.** Os testes fornecidos **não são abrangentes** e passar nos testes de uma questão **não** significa que você respondeu corretamente à questão. Os testes geralmente apenas verificam se sua tabela tem os rótulos de coluna corretos. No entanto, mais testes serão aplicados para verificar a correção da sua submissão a fim de atribuir sua nota final, então tenha cuidado e verifique seu trabalho! Você pode querer criar suas próprias verificações ao longo do caminho para ver se suas respostas fazem sentido. Além disso, antes de enviar, certifique-se de que nenhuma de suas células demora muito para ser executada (vários minutos).

**Questões de Resposta Livre:** Certifique-se de colocar as respostas para as questões escritas na célula indicada que fornecemos. **Toda questão de resposta livre deve incluir uma explicação** que responda adequadamente à questão.

**Guia de Pensamento Tabular:** Sinta-se à vontade para consultar o [Guia de Pensamento Tabular](https://drive.google.com/file/d/1NvbBECCBdI0Ku380oPcTUOcpjH3RI230/view) para orientação extra.

**Conselho.** Desenvolva suas respostas de forma incremental. Para realizar uma manipulação de tabela complicada, divida-a em etapas, execute cada etapa em uma linha diferente, dê um novo nome a cada resultado e verifique se cada resultado intermediário é o que você espera. Você pode adicionar quaisquer nomes ou funções adicionais que desejar às células fornecidas. Certifique-se de que está usando nomes de variáveis distintos e significativos em todo o notebook. Nesse sentido, **NÃO** reutilize os nomes de variáveis que usamos ao corrigir suas respostas. Por exemplo, na Questão 1 da seção Pobreza Global, pedimos que você atribua uma resposta a `latest`. Não reatribua o nome da variável `latest` a mais nada em seu notebook, caso contrário, há a chance de nossos testes serem corrigidos com base no que `latest` foi reatribuído.

Você **nunca** precisa usar apenas uma linha neste projeto ou em qualquer outro. Use variáveis intermediárias e várias linhas tanto quanto desejar!

---

Para começar, carregue `datascience`, `numpy`, `plots` e `otter`.

In [None]:
# Execute esta célula para configurar o caderno, mas por favor não a altere.

# Estas linhas importam os módulos NumPy e Datascience.
from datascience import *
import numpy as np

# Estas linhas fazem alguma mágica de plotagem sofisticada.
%matplotlib inline
import matplotlib.pyplot as plots
plots.style.use('fivethirtyeight')

from ipywidgets import interact, interactive, fixed, interact_manual
import ipywidgets as widgets

import d8error

## 1. Crescimento Global da População

A população global de humanos atingiu 1 bilhão por volta de 1800, 3 bilhões por volta de 1960 e 7 bilhões por volta de 2011. O potencial impacto do crescimento populacional exponencial tem preocupado cientistas, economistas e políticos.

A Divisão de População da ONU estima que a população mundial provavelmente continuará a crescer ao longo do século 21, mas a uma taxa mais lenta, talvez atingindo 11 bilhões até 2100. No entanto, a ONU não descarta cenários de crescimento mais extremo.

<a href="http://www.pewresearch.org/fact-tank/2015/06/08/scientists-more-worried-than-public-about-worlds-growing-population/ft_15-06-04_popcount/"> 
 <img src="pew_population_projection.png"/> 
</a>

Nesta parte do projeto, examinaremos alguns dos fatores que influenciam o crescimento populacional e como eles têm mudado ao longo dos anos e ao redor do mundo. Existem duas principais subpartes desta análise.

- Primeiro, examinaremos os dados de um país, Bangladesh. Veremos como fatores como expectativa de vida, taxa de fertilidade e mortalidade infantil mudaram ao longo do tempo em Bangladesh e como estão relacionados à taxa de crescimento populacional.
- Em seguida, examinaremos se as mudanças que observamos para Bangladesh são particulares a esse país ou se refletem padrões gerais observáveis em outros países também. Estudaremos aspectos do crescimento da população mundial e veremos como eles têm mudado.

A primeira tabela que consideraremos contém a população total de cada país ao longo do tempo. Execute a célula abaixo.

In [None]:
population = Table.read_table('population.csv').where("time", are.below(2021))
population.show(3)

**Nota:** O arquivo csv da população também pode ser encontrado [aqui](https://github.com/open-numbers/ddf--gapminder--systema_globalis/blob/master/countries-etc-datapoints/ddf--datapoints--population_total--by--geo--time.csv). Os dados para este projeto foram baixados em fevereiro de 2017.

### Bangladesh

A nação de [Bangladesh](https://en.wikipedia.org/wiki/Bangladesh#People's_Republic_of_Bangladesh) foi estabelecida como uma democracia parlamentar após o fim da Guerra de Libertação de Bangladesh em 1971. A nação recém-devastada pela guerra foi quase imediatamente confrontada com inundações e fome. Nesta seção do projeto, examinaremos aspectos do desenvolvimento de Bangladesh desde aquela época.

Na tabela `population`, a coluna `geo` contém códigos de três letras estabelecidos pela [Organização Internacional para Padronização](https://en.wikipedia.org/wiki/International_Organization_for_Standardization) (ISO) no padrão [Alpha-3](https://en.wikipedia.org/wiki/ISO_3166-1_alpha-3#Current_codes). Começaremos dando uma olhada mais de perto em Bangladesh. Use o link Alpha-3 para encontrar o código de 3 letras para Bangladesh.

**Questão 1.** Crie uma tabela chamada `b_pop` que tenha duas colunas rotuladas como `time` e `population_total`. A primeira coluna deve conter os anos de 1970 a 2020 (incluindo tanto 1970 quanto 2020) e a segunda deve conter a população de Bangladesh em cada um desses anos.

In [None]:
b_pop = ...
b_pop

In [None]:
grader.check("q1_1")

Execute a célula a seguir para criar uma tabela chamada `b_five` que tem a população de Bangladesh a cada cinco anos. À primeira vista, parece que a população de Bangladesh tem crescido muito rapidamente!

In [None]:
b_pop.set_format('population_total', NumberFormatter)

fives = np.arange(1970, 2021, 5) # 1970, 1975, 1980, ...
b_five = b_pop.sort('time').where('time', are.contained_in(fives))
b_five.show()

**Questão 2.** Atribua `initial` a um array que contém a população para cada intervalo de cinco anos de 1970 a 2015 (inclusive). Em seguida, atribua `changed` a um array que contém a população para cada intervalo de cinco anos de 1975 a 2020 (inclusive). O primeiro array deve incluir tanto 1970 quanto 2015, e o segundo array deve incluir tanto 1975 quanto 2020. Você deve usar a tabela `b_five` para criar ambos os arrays, primeiro filtrando a tabela para conter apenas os anos relevantes.

A taxa de crescimento anual para um período de tempo é igual a:

$$\left(\left(\frac{\text{População no final do período}}{\text{População no início do período}}\right)^{\displaystyle\frac{1}{\text{Número de anos}}}\right) -1$$

Fornecemos o código abaixo que usa `initial` e `changed` para adicionar uma coluna a `b_five` chamada `annual_growth`. Não se preocupe com o cálculo das taxas de crescimento; execute o teste abaixo para testar sua solução.

Se você estiver interessado em como chegamos à fórmula para as taxas de crescimento, consulte a seção [taxas de crescimento](https://inferentialthinking.com/chapters/03/2/1/Growth.html) do livro didático.

In [None]:
initial = ...
changed = ...

b_1970_through_2015 = b_five.where('time', are.below_or_equal_to(2015)) 
b_five_growth = b_1970_through_2015.with_column('annual_growth', (changed/initial)**0.2-1)
b_five_growth.set_format('annual_growth', PercentFormatter)

In [None]:
grader.check("q1_2")

Embora a população tenha crescido a cada cinco anos desde 1970, a taxa de crescimento anual diminuiu drasticamente de 1985 a 2015. Vamos olhar algumas outras informações para desenvolver uma possível explicação. Execute a próxima célula para carregar três tabelas adicionais de medidas sobre países ao longo do tempo.

In [None]:
life_expectancy = Table.read_table('life_expectancy.csv').where('time', are.below(2021))
child_mortality = Table.read_table('child_mortality.csv').relabel(2, 'child_mortality_under_5_per_1000_born').where('time', are.below(2021))
fertility = Table.read_table('fertility.csv').where('time', are.below(2021))

A tabela `life_expectancy` contém uma estatística que é frequentemente usada para medir quanto tempo as pessoas vivem, chamada *expectativa de vida ao nascer*. Este número, para um país em um determinado ano, [não mede quanto tempo se espera que os bebês nascidos naquele ano vivam](http://blogs.worldbank.org/opendata/what-does-life-expectancy-birth-really-mean). Em vez disso, mede quanto tempo alguém viveria, em média, se as *condições de mortalidade* naquele ano persistissem ao longo de sua vida. Essas "condições de mortalidade" descrevem qual fração de pessoas em cada idade sobreviveu ao ano. Portanto, é uma maneira de medir a proporção de pessoas que estão se mantendo vivas, agregadas em diferentes grupos etários na população.

Execute as células a seguir para ver `life_expectancy`, `child_mortality` e `fertility`. Consulte essas tabelas, pois elas serão úteis para responder a perguntas adicionais!

In [None]:
life_expectancy.show(3)

In [None]:
child_mortality.show(3)

In [None]:
fertility.show(3)

<!-- BEGIN QUESTION -->

**Questão 3.** Talvez a população esteja crescendo mais lentamente porque as pessoas não estão vivendo tanto tempo. Use a tabela `life_expectancy` para desenhar um gráfico de linha com os anos de 1970 e posteriores no eixo horizontal que mostra como a *expectativa de vida ao nascer* mudou em Bangladesh.


In [None]:
# Preencha o código aqui
...

<!-- END QUESTION -->

<!-- BEGIN QUESTION -->

**Questão 4.** Supondo que tudo o mais permaneça igual, as tendências na expectativa de vida no gráfico acima explicam diretamente por que a taxa de crescimento populacional diminuiu de 1985 a 2015 em Bangladesh? Por que sim ou por que não?

Dica: O que aconteceu em Bangladesh em 1991, e esse evento explica a mudança geral na taxa de crescimento populacional? Esta [página da web](https://en.wikipedia.org/wiki/1991_Bangladesh_cyclone) fornece um contexto relevante.


_Digite sua resposta aqui, substituindo este texto._

<!-- END QUESTION -->

A tabela `fertility` contém uma estatística que é frequentemente usada para medir quantos bebês estão nascendo, a *taxa total de fertilidade*. Este número descreve o [número de filhos que uma mulher teria em sua vida](https://www.measureevaluation.org/prh/rh_indicators/specific/fertility/total-fertility-rate), em média, se as taxas de nascimento atuais por idade da mãe persistissem ao longo de seus anos de procriação, supondo que ela sobrevivesse até os 49 anos.

**Questão 5.** Complete a função `fertility_over_time`. Ela recebe o código Alpha-3 de um país como `country_code` e um ano `start`. Ela retorna uma tabela de duas colunas com os rótulos `Year` e `Children per woman` que pode ser usada para gerar um gráfico de linha da taxa de fertilidade do país a cada ano, começando no ano `start`. O gráfico deve incluir o ano `start` e todos os anos posteriores que aparecem na tabela `fertility`.

Em seguida, determine o código Alpha-3 para Bangladesh. O código para Bangladesh e o ano de 1970 são usados na chamada para sua função `fertility_over_time` para traçar como a taxa de fertilidade de Bangladesh mudou desde 1970. Observe que a função `fertility_over_time` não deve retornar o próprio gráfico. **A expressão que desenha o gráfico de linha é fornecida para você; por favor, não a altere.**

In [None]:
def fertility_over_time(country_code, start):
    """Create a two-column table that describes a country's total fertility rate each year."""
    country_fertility = ...
    country_fertility_after_start = ...
    cleaned_table = ...
    ...

bangladesh_code = ...
fertility_over_time(bangladesh_code, 1970).plot(0, 1) # Você não precisa alterar esta linha.

In [None]:
grader.check("q1_5")

<!-- BEGIN QUESTION -->

**Questão 6.** Supondo que tudo o mais permaneça constante, as tendências na fertilidade no gráfico acima ajudam a explicar diretamente por que a taxa de crescimento populacional diminuiu de 1980 a 2020 em Bangladesh? Por que sim ou por que não?

_Digite sua resposta aqui, substituindo este texto._

<!-- END QUESTION -->

Foi [observado](https://www.ageing.ox.ac.uk/download/143) que taxas de fertilidade mais baixas geralmente estão associadas a taxas de mortalidade infantil mais baixas. A ligação tem sido atribuída ao planejamento familiar: se os pais podem esperar que seus filhos sobrevivam até a idade adulta, então eles escolherão ter menos filhos. Na direção oposta, ter menos filhos pode permitir que as famílias dediquem mais recursos a cada criança, reduzindo a mortalidade infantil. Podemos ver se essa associação é evidente em Bangladesh, traçando a relação entre a taxa total de fertilidade e a [taxa de mortalidade infantil por 1000 crianças](https://en.wikipedia.org/wiki/Child_mortality).

**Questão 7.** Usando as tabelas `fertility` e `child_mortality`, desenhe um diagrama de dispersão que tenha a fertilidade total de Bangladesh no eixo horizontal e sua mortalidade infantil no eixo vertical com um ponto para cada ano, começando em 1970.

**O código que desenha o diagrama de dispersão é fornecido para você; por favor, não o altere.** Em vez disso, crie uma tabela chamada `post_1969_fertility_and_child_mortality` com os rótulos de coluna apropriados e dados para gerar o gráfico corretamente. Use o rótulo `Children per woman` para descrever a fertilidade total e o rótulo `Child deaths per 1000 born` para descrever a mortalidade infantil.

*Dica*: Não descarte a coluna `time` ou você receberá um erro no gráfico de dispersão na próxima célula!

In [None]:
bgd_fertility = ...
bgd_child_mortality = ...
fertility_and_child_mortality = ...
post_1969_fertility_and_child_mortality = ...

# Não altere nada abaixo desta linha!
x_births = post_1969_fertility_and_child_mortality.column("Children per woman")
y_deaths = post_1969_fertility_and_child_mortality.column("Child deaths per 1000 born")
time_colors = post_1969_fertility_and_child_mortality.column("time")

plots.figure(figsize=(6,6))
plots.scatter(x_births, y_deaths, c=time_colors, cmap="Blues_r")
plots.colorbar()                  
plots.xlabel("Children per woman")
plots.ylabel("Child deaths per 1000 born");

In [None]:
grader.check("q1_7")

O gráfico acima usa **cor** para codificar dados sobre a coluna `time` da tabela `post_1969_fertility_and_child_mortality`. As cores, variando de azul escuro a branco, representam a passagem do tempo entre as décadas de 1970 e 2020. Por exemplo, um ponto no gráfico de dispersão representando dados da década de 1970 apareceria como **azul escuro** e um ponto da década de 2010 apareceria como **azul claro**.

<!-- BEGIN QUESTION -->

**Questão 8.** Em uma ou duas frases, descreva a associação (se houver) que é ilustrada por este diagrama de dispersão. O diagrama mostra que a redução da mortalidade infantil *causa* os pais a escolherem ter menos filhos?


_Digite sua resposta aqui, substituindo este texto._

<!-- END QUESTION -->

<img src="yoshi.jpg" alt="desenho" width="500"/>

**UHUUU Yoshi e amigos querem te parabenizar por ter chegado até aqui!**




---

Para verificar novamente o seu trabalho, a célula abaixo executará novamente todos os testes do autograder para a Seção 1.

In [None]:
checkpoint_tests = ["q1_1", "q1_2", "q1_5", "q1_7"]
for test in checkpoint_tests:
    display(grader.check(test))

## Submissão
Se o seu instrutor deseja que você submeta o trabalho na primeira parte como um ponto de verificação do projeto, siga as instruções abaixo.

Certifique-se de ter executado todas as células em seu notebook em ordem antes de executar a célula abaixo, para que todas as imagens/gráficos apareçam na saída. A célula abaixo irá gerar um arquivo zip para você enviar. **Por favor, salve antes de exportar!**

In [None]:
# Salve seu caderno primeiro, depois execute esta célula para exportar sua submissão.
grader.export(pdf=False)

### O Mundo

A mudança observada em Bangladesh desde 1970 também pode ser observada em muitos outros países em desenvolvimento: os serviços de saúde melhoram, a expectativa de vida aumenta e a mortalidade infantil diminui. Ao mesmo tempo, a taxa de fertilidade geralmente despenca, e assim a taxa de crescimento populacional diminui apesar do aumento da longevidade.

Execute a célula abaixo para gerar dois histogramas sobrepostos, um para 1962 e outro para 2010, que mostram as distribuições das taxas totais de fertilidade para esses dois anos entre todos os 201 países na tabela `fertility`.

In [None]:
Table().with_columns(
    '1962', fertility.where('time', 1962).column(2),
    '2010', fertility.where('time', 2010).column(2)
).hist(bins=np.arange(0, 10, 0.5), unit='child per woman')
_ = plots.xlabel('Children per woman')
_ = plots.ylabel('Percent per children per woman')
_ = plots.xticks(np.arange(10))

**Questão 9.** Atribua `fertility_statements` a um array dos números de cada afirmação abaixo que pode ser corretamente inferida a partir desses histogramas.

1. Cerca do mesmo número de países teve uma taxa de fertilidade entre 3,5 e 4,5 em 1962 e 2010.
2. Em 1962, menos de 20% dos países tinham uma taxa de fertilidade abaixo de 3.
3. Pelo menos metade dos países tinha uma taxa de fertilidade entre 5 e 8 em 1962.
4. Em 2010, cerca de 40% dos países tinham uma taxa de fertilidade entre 1,5 e 2.
5. Pelo menos metade dos países tinha uma taxa de fertilidade abaixo de 3 em 2010.
6. Mais países tinham uma taxa de fertilidade acima de 3 em 1962 do que em 2010.

In [None]:
fertility_statements = ...

In [None]:
grader.check("q1_9")

<!-- BEGIN QUESTION -->

**Questão 10.** Desenhe um gráfico de linha da população mundial de 1800 a 2020 (inclusive ambos os pontos finais). A população mundial é a soma de todas as populações dos países. Você deve usar a tabela `population` definida anteriormente no projeto.


In [None]:
# Preencha o código aqui
...

<!-- END QUESTION -->

**Questão 11.** Crie uma função `stats_for_year` que recebe um `ano` e retorna uma tabela de estatísticas. A tabela que retorna deve ter quatro colunas: `geo`, `population_total`, `children_per_woman_total_fertility`, e `child_mortality_under_5_per_1000_born`. Cada linha deve conter um código de país Alpha-3 único e três estatísticas: população, taxa de fertilidade e mortalidade infantil para aquele `ano` das tabelas `population`, `fertility` e `child_mortality`. Inclua apenas linhas para as quais todas as três estatísticas estão disponíveis para o país e ano.

Além disso, restrinja o resultado aos códigos de país que aparecem em `big_50`, um array dos 50 países mais populosos em 2020. Essa restrição acelerará os cálculos mais adiante no projeto.

Depois de escrever `stats_for_year`, tente chamar `stats_for_year` em qualquer ano entre 1960 e 2020. Tente entender a saída de stats_for_year.

*Dica*: Os testes para esta questão são bastante abrangentes, então se você passar nos testes, sua função provavelmente está correta. No entanto, sem chamar sua função você mesmo e olhar para a saída, será muito difícil entender qualquer problema que você tenha, então faça o seu melhor para escrever a função corretamente e verificar se ela funciona antes de confiar nos testes do `grader` para confirmar seu trabalho.

*Dica*: O que todas as três tabelas têm em comum (preste atenção aos nomes das colunas)?


In [None]:
# Primeiro, criamos uma tabela de população que inclui apenas os
# 50 países com as maiores populações de 2020. Focamos apenas
# nesses 50 países para que a plotagem posterior seja mais rápida.
big_50 = population.where('time', are.equal_to(2020)).sort("population_total", descending=True).take(np.arange(50)).column('geo')
population_of_big_50 = population.where('time', are.above(1959)).where('geo', are.contained_in(big_50))

def stats_for_year(year):
    """Return a table of the stats for each country that year."""
    p = population_of_big_50.where('time', are.equal_to(year)).drop('time')
    f = fertility.where('time', are.equal_to(year)).drop('time')
    c = child_mortality.where('time', are.equal_to(year)).drop('time')
    ...

...

In [None]:
grader.check("q1_11")

**Questão 12.** Crie uma tabela chamada `pop_by_decade` com duas colunas chamadas `decade` e `population`, nesta ordem. Ela deve ter uma linha para cada ano que inicia uma década, em ordem crescente começando com 1960 e terminando com 2020. Por exemplo, 1960 é o início da década de 1960. A coluna `population` contém a população total de todos os países incluídos no resultado de `stats_for_year(year)` para o primeiro `year` da década. Você deve ver que esses países contêm a maior parte da população mundial.

*Dica:* Uma abordagem é definir uma função `pop_for_year` que calcula essa população total, então `apply` para a coluna `decade`. A função `stats_for_year` da questão anterior pode ser útil aqui.

Este primeiro teste é apenas uma verificação de sanidade para sua função auxiliar se você optar por usá-la. Você não perderá pontos por não implementar a função `pop_for_year`.

**Nota:** A célula onde você irá gerar a tabela `pop_by_decade` está abaixo da célula onde você pode optar por definir a função auxiliar `pop_for_year`. Você deve definir sua tabela `pop_by_decade` na célula que começa com a tabela `decades` sendo definida.

In [None]:
def pop_for_year(year):
    """Return the total population for the specified year."""
    ...

In [None]:
grader.check("q1_12_0")

Agora que você definiu sua função auxiliar (se optou por fazê-lo), defina a tabela `pop_by_decade`.

In [None]:
decades = Table().with_column('decade', np.arange(1960, 2021, 10))

pop_by_decade = ...
pop_by_decade.set_format(1, NumberFormatter)

In [None]:
grader.check("q1_12")

A tabela `countries` descreve várias características dos países. A coluna `country` contém os mesmos códigos que a coluna `geo` em cada uma das outras tabelas de dados (`population`, `fertility` e `child_mortality`). A coluna `world_6region` classifica cada país em uma região do mundo. Execute a célula abaixo para inspecionar os dados.

In [None]:
countries = Table.read_table('countries.csv').where('country', are.contained_in(population.group('geo').column('geo')))
countries.select('country', 'name', 'world_6region')

**Questão 13.** Crie uma tabela chamada `region_counts`. Ela deve conter duas colunas chamadas `region` e `count`. A coluna `region` deve conter regiões do mundo, e a coluna `count` deve conter o número de países em cada região que aparece no resultado de `stats_for_year(2020)`.

Por exemplo, uma linha teria `south_asia` como seu valor `region` e um número inteiro como seu valor `count`: o número de grandes países do Sul da Ásia para os quais temos números de população, fertilidade e mortalidade infantil de 2020.

*Dica*: Você pode ter que renomear uma coluna para nomeá-la `region`.

In [None]:
stats_for_2020 = ...
region_counts = ...
region_counts

In [None]:
grader.check("q1_13")

O diagrama de dispersão a seguir compara a taxa total de fertilidade e a taxa de mortalidade infantil para cada país em 1960. A área de cada ponto representa a população do país, e a cor representa sua região do mundo. Execute a célula. Você acha que consegue identificar algum dos pontos?

In [None]:
from functools import lru_cache as cache

# Esta anotação de cache garante que, se o mesmo ano
# for passado como argumento duas vezes, o trabalho de calcular
# o resultado só será realizado uma vez.
@cache(None)
def stats_relabeled(year):
    """Relabeled and cached version of stats_for_year."""
    return stats_for_year(year).relabel(2, 'Children per woman').relabel(3, 'Child deaths per 1000 born')

def fertility_vs_child_mortality(year):
    """Draw a color scatter diagram comparing child mortality and fertility."""
    with_region = stats_relabeled(year).join('geo', countries.select('country', 'world_6region'), 'country')
    with_region.scatter(2, 3, sizes=1, group=4, s=500)
    plots.xlim(0,10)
    plots.ylim(-50, 500)
    plots.title(year)
    plots.show()

fertility_vs_child_mortality(1960)

**Questão 14.** Atribua `scatter_statements` a um array com os números de cada afirmação abaixo que podem ser inferidos deste diagrama de dispersão para 1960.
1. Em geral, a região `europe_central_asia` teve a menor taxa de mortalidade infantil.
1. A menor taxa de mortalidade infantil de qualquer país foi de um país da `east_asia_pacific`.
1. A maioria dos países tinha uma taxa de fertilidade acima de 5.
1. Havia uma associação entre mortalidade infantil e taxa de fertilidade.
1. Os dois maiores países por população também tiveram as duas maiores taxas de mortalidade infantil.

In [None]:
scatter_statements = ...

In [None]:
grader.check("q1_14")

O resultado da célula abaixo é interativo. Arraste o controle deslizante para a direita para ver como os países mudaram ao longo do tempo. Você descobrirá que a grande divisão entre os chamados países "Ocidentais" e "em desenvolvimento" que existia nos anos 1960 quase desapareceu. Essa mudança nas taxas de fertilidade é a razão pela qual espera-se que a população global cresça mais lentamente no século 21 do que cresceu nos séculos 19 e 20.

**Nota:** Não se preocupe se um aviso vermelho aparecer ao executar a célula abaixo. Você ainda será capaz de executar a célula!

In [None]:
import ipywidgets as widgets

_ = widgets.interact(fertility_vs_child_mortality, 
                     year=widgets.IntSlider(min=1960, max=2020, value=1960))

Agora é um ótimo momento para fazer uma pausa e assistir aos mesmos dados apresentados por [Hans Rosling em uma palestra TEDx de 2010](https://www.gapminder.org/videos/reducing-child-mortality-a-moral-and-environmental-imperative) com animações mais suaves e comentários inteligentes.

## 2. Global Poverty

In [None]:
# Execute esta célula para configurar o caderno, mas por favor não a altere.

# Estas linhas importam os módulos Numpy e Datascience.
import numpy as np
from datascience import *

# Estas linhas fazem alguma mágica de plotagem sofisticada.
import matplotlib
%matplotlib inline
import matplotlib.pyplot as plots
plots.style.use('fivethirtyeight')

from ipywidgets import interact, interactive, fixed, interact_manual
import ipywidgets as widgets

import d8error

Em 1800, 85% da população mundial de 1 bilhão de pessoas viviam em [extrema pobreza](https://en.wikipedia.org/wiki/Extreme_poverty), definida pelas Nações Unidas como "uma condição caracterizada pela privação severa de necessidades humanas básicas, incluindo alimentação, água potável segura, instalações sanitárias, saúde, abrigo, educação e informação." Na época em que os dados deste projeto foram coletados, uma definição comum de extrema pobreza era uma pessoa vivendo com menos de \$1,25 por dia.

Em 2018, a proporção de pessoas vivendo em extrema pobreza foi estimada em [cerca de 9\%](https://unstats.un.org/sdgs/report/2019/goal-01/). Embora a taxa mundial de extrema pobreza tenha diminuído consistentemente por centenas de anos, o número de pessoas vivendo em extrema pobreza ainda é superior a 600 milhões. As Nações Unidas adotaram uma [meta ambiciosa](http://www.un.org/sustainabledevelopment/poverty/): "Até 2030, erradicar a extrema pobreza para todas as pessoas em todos os lugares." Nesta parte do projeto, examinaremos aspectos da pobreza global que podem afetar se a meta é alcançável.

Primeiro, carregue a população e a taxa de pobreza por país e ano, além das descrições dos países. Enquanto a tabela `population` tem valores para todos os anos recentes para muitos países, a tabela `poverty` inclui apenas certos anos para cada país nos quais uma medição da taxa de pobreza extrema estava disponível.

In [None]:
population = Table.read_table('population.csv')
countries = Table.read_table('countries.csv').where('country', are.contained_in(population.group('geo').column('geo')))
poverty = Table.read_table('poverty.csv')
poverty.show(3)

**Questão 1.** Atribua `latest_poverty` a uma tabela de três colunas com uma linha para cada país que aparece na tabela `poverty`. A primeira coluna deve conter o código de 3 letras do país. A segunda coluna deve conter o ano mais recente para o qual uma taxa de pobreza extrema está disponível para o país. A terceira coluna deve conter a taxa de pobreza naquele ano. **Não altere a última linha, para que os rótulos da sua tabela sejam definidos corretamente.**

*Dica*: pense em como a função ```group``` funciona: ela faz uma busca sequencial da tabela (de cima para baixo) e coleta valores no array na ordem em que aparecem, e então aplica uma função a esse array. A função `first` pode ser útil, mas você não é obrigado a usá-la.

In [None]:
def first(values):
    return values.item(0)

latest_poverty = ...
latest_poverty = latest_poverty.relabeled(0, 'geo').relabeled(1, 'time').relabeled(2, 'poverty_percent') # You should *not* change this line.
latest_poverty

In [None]:
grader.check("q2_1")

**Questão 2.** Usando tanto `latest_poverty` quanto `population`, crie uma tabela de quatro colunas chamada `recent_poverty_total` com uma linha para cada país em `latest_poverty`. As quatro colunas devem ter os seguintes rótulos e conteúdos:
1. `geo` contém o código de país de 3 letras,
1. `poverty_percent` contém a porcentagem de pobreza mais recente,
1. `population_total` contém a população do país em 2010,
1. `poverty_total` contém o número de pessoas na pobreza **arredondado para o inteiro mais próximo**, baseado na população de 2010 e na taxa de pobreza mais recente.

*Dica*: Você não é obrigado a usar `poverty_and_pop`, e sempre pode adicionar quaisquer nomes adicionais.

In [None]:
poverty_and_pop = ...
recent_poverty_total = ...
recent_poverty_total

In [None]:
grader.check("q2_2")

**Questão 3.** Atribua o nome `poverty_percent` à porcentagem conhecida da população mundial de 2010 que vivia em extrema pobreza. Assuma que os números de `poverty_total` na tabela `recent_poverty_total` descrevem **todas** as pessoas em 2010 vivendo em extrema pobreza. Você deve obter um número que está acima da estimativa global de 2018 de 9%, já que muitas taxas de pobreza específicas de países são mais antigas que 2018.

*Dica*: A soma da coluna `population_total` na tabela `recent_poverty_total` não é a população mundial, porque apenas um subconjunto dos países do mundo está incluído na tabela `recent_poverty_total` (apenas alguns países têm taxas de pobreza conhecidas). Use a tabela `population` para calcular a população total mundial de 2010.

*Dica*: Estamos calculando uma porcentagem (valor entre 0 e 100), não uma proporção (valor entre 0 e 1).

In [None]:
poverty_percent = ...
poverty_percent

In [None]:
grader.check("q2_3")

A tabela `countries` inclui não apenas o nome e a região dos países, mas também suas posições no globo.

In [None]:
countries.select('country', 'name', 'world_4region', 'latitude', 'longitude')

**Questão 4.** Usando tanto `countries` quanto `recent_poverty_total`, crie uma tabela de cinco colunas chamada `poverty_map` com uma linha para cada país em `recent_poverty_total`. As cinco colunas devem ter os seguintes rótulos e conteúdos:
1. `latitude` contém a latitude do país,
1. `longitude` contém a longitude do país,
1. `name` contém o nome do país,
1. `region` contém a região do país a partir da coluna `world_4region` de `countries`,
1. `poverty_total` contém o total de pessoas em situação de pobreza no país.

In [None]:
poverty_map = ...
poverty_map

In [None]:
grader.check("q2_4")

Execute a célula abaixo para desenhar um mapa do mundo no qual as áreas dos círculos representam o número de pessoas vivendo em extrema pobreza. Dê um duplo clique no mapa para ampliar.

In [None]:
# Pode levar alguns segundos para gerar este mapa.
colors = {'africa': 'blue', 'europe': 'black', 'asia': 'red', 'americas': 'green'}
scaled = poverty_map.with_columns(
    'labels', poverty_map.column('name'),
    'colors', poverty_map.apply(colors.get, 'region'),
    'areas', 1e-4 * poverty_map.column('poverty_total')
).drop('name', 'region', 'poverty_total')

Circle.map_table(scaled)

Embora as pessoas vivessem em extrema pobreza em todo o mundo em 2010 (com mais de 5 milhões nos Estados Unidos), os maiores números estavam na Ásia e na África.

**Questão 5.** Atribua `largest` a uma tabela de duas colunas com o `name` (não o código de 3 letras) e `poverty_total` dos 10 países com o maior número de pessoas vivendo em extrema pobreza.

*Dica*: Como podemos usar `take` e `np.arange` em conjunto?

In [None]:
largest = ...
largest.set_format('poverty_total', NumberFormatter)

In [None]:
grader.check("q2_5")

<!-- BEGIN QUESTION -->

**Questão 6.** É importante estudar o número absoluto de pessoas vivendo em pobreza, não apenas a porcentagem. O número absoluto é um fator importante na determinação da quantidade de recursos necessários para apoiar pessoas vivendo em pobreza. Nas próximas duas questões, você explorará isso.

Na Questão 7, será solicitado que você escreva uma função chamada `poverty_timeline` que recebe **o nome de um país** como seu argumento (não o código Alpha-3 do país). Ela deve desenhar um gráfico de linha do número de pessoas vivendo em pobreza naquele país com o tempo no eixo horizontal. O gráfico de linha deve ter um ponto para cada linha na tabela `poverty` para aquele país. Para calcular a população vivendo em pobreza a partir de uma porcentagem de pobreza, multiplique pela população do país **naquele ano**.

Para esta questão, escreva um processo generalizado para a Questão 7. O que essa função deve produzir, e quais passos você tomará dentro da função?

_Digite sua resposta aqui, substituindo este texto._

<!-- END QUESTION -->

**Questão 7.** Agora, vamos realmente escrever a função chamada `poverty_timeline`. Lembre-se de que `poverty_timeline` recebe **o nome de um país** como seu argumento (não o código Alpha-3 do país). Ela deve desenhar um gráfico de linha do número de pessoas vivendo em pobreza naquele país com o tempo no eixo horizontal. O gráfico de linha deve ter um ponto para cada linha na tabela `poverty` para aquele país. Para calcular a população vivendo em pobreza a partir de uma porcentagem de pobreza, multiplique pela população do país **naquele ano**.

*Dica:* Esta questão é longa. Sinta-se à vontade para criar células e experimentar. Você pode criar células indo na barra de ferramentas e clicando no botão `+`, ou indo na aba `Inserir`.

_Digite sua resposta aqui, substituindo este texto._

In [None]:
def poverty_timeline(country):
    '''Desenha uma linha do tempo de pessoas vivendo em extrema pobreza em um país.'''
    geo = ...
    # Esta solução vai precisar de várias linhas de código. Use quantas forem necessárias.
    ...
    # Não mude nada abaixo desta linha.
    plots.title(country)
    plots.ylim(bottom=0)
    plots.show() # Esta deve ser a última linha da sua função.

In [None]:
poverty_timeline('India')
poverty_timeline('Nigeria')
poverty_timeline('China')
poverty_timeline('Colombia')
poverty_timeline('United States')

Embora o número de pessoas vivendo em extrema pobreza tenha aumentado em alguns países, incluindo Nigéria e Estados Unidos, as diminuições em outros países, mais notavelmente as diminuições massivas na China e na Índia, moldaram a tendência geral de que a extrema pobreza está diminuindo mundialmente, tanto em porcentagem quanto em número absoluto.

Para saber mais, assista [Hans Rosling em um filme de 2015](https://www.gapminder.org/videos/dont-panic-end-poverty/) sobre o objetivo da ONU de erradicar a extrema pobreza do mundo.

Abaixo, também adicionamos um menu suspenso interativo para você visualizar gráficos de `poverty_timeline` para outros países. Note que cada seleção do menu suspenso pode levar alguns segundos para ser executada.

In [None]:
# Apenas execute esta célula

all_countries = poverty_map.column('name')
_ = widgets.interact(poverty_timeline, country=list(all_countries))

<img src="mochi.jpg" alt="desenho" width="300"/>

**Mochi quer te dizer que você terminou!** Parabéns por descobrir muitos fatos importantes sobre a pobreza global e demonstrar sua maestria na manipulação de tabelas e visualização de dados. Hora de enviar.

**Passos importantes para a submissão:** 
1. Execute os testes e verifique se todos passaram.
2. Escolha **Salvar Caderno** no menu **Arquivo**, então **execute a célula final**. 
3. Clique no link para baixar o arquivo zip.
4. Então, envie o arquivo zip para a tarefa correspondente de acordo com as instruções do seu instrutor. 

**É sua responsabilidade garantir que seu trabalho esteja salvo antes de executar a última célula.**

## Submissão

Certifique-se de ter executado todas as células do seu caderno em ordem antes de executar a célula abaixo, para que todas as imagens/gráficos apareçam na saída. A célula abaixo irá gerar um arquivo zip para você enviar. **Por favor, salve antes de exportar!**

In [None]:
# Salve seu caderno primeiro, depois execute esta célula para exportar sua submissão.
grader.export(pdf=False, run_tests=True)