In [None]:
# Inicialize o Otter
import otter
grader = otter.Notebook("project2.ipynb")

# Projeto 2: Mudança Climática—Temperaturas e Precipitação

Neste projeto, você investigará dados sobre mudança climática, ou as mudanças de longo prazo em temperaturas e padrões climáticos!

### Logística

**Regras.** Não compartilhe seu código com ninguém além do seu parceiro, se você tiver um. Você pode discutir questões com outros estudantes, mas não compartilhe as respostas. A experiência de resolver os problemas deste projeto irá prepará-lo para exames (e para a vida). Se alguém pedir a resposta, resista! Em vez disso, você pode demonstrar como resolveria um problema semelhante.

**Suporte.** Você não está sozinho! Venha ao horário de atendimento e converse com seus colegas de classe. Se você estiver se sentindo sobrecarregado ou não souber como progredir, envie um e-mail pedindo ajuda.

**Testes.** Os testes fornecidos **não são abrangentes** e passar nos testes de uma questão **não** significa que você respondeu à questão corretamente. Os testes geralmente apenas verificam se sua tabela tem os rótulos de coluna corretos. No entanto, mais testes serão aplicados para verificar a correção da sua submissão a fim de atribuir sua nota final, então tenha cuidado e verifique seu trabalho! Você pode querer criar suas próprias verificações ao longo do caminho para ver se suas respostas fazem sentido. Além disso, antes de enviar, certifique-se de que nenhuma das suas células demore muito para ser executada (vários minutos).

**Questões de Resposta Livre:** Certifique-se de colocar as respostas das questões escritas na célula indicada que fornecemos. **Toda questão de resposta livre deve incluir uma explicação** que responda adequadamente à questão. Seu trabalho escrito será carregado automaticamente no Gradescope após o prazo do projeto; não é necessária nenhuma ação da sua parte para isso.

**Conselho.** Desenvolva suas respostas incrementalmente. Para realizar uma tarefa complicada, divida-a em etapas, execute cada etapa em uma linha diferente, dê um novo nome a cada resultado e verifique se cada resultado intermediário é o que você espera. Você pode adicionar quaisquer nomes ou funções adicionais que desejar às células fornecidas. Certifique-se de que está usando nomes de variáveis distintos e significativos em todo o caderno. Nesse sentido, **NÃO** reutilize os nomes de variáveis que usamos quando corrigimos suas respostas.

Você **nunca** precisa usar apenas uma linha neste projeto ou em outros. Use variáveis intermediárias e várias linhas tanto quanto desejar!

Todos os conceitos necessários para este projeto estão no livro didático. Se você estiver preso em um problema específico, ler a seção relevante do livro didático muitas vezes ajudará a esclarecer o conceito.

---

Para começar, carregue `datascience`, `numpy`, `matplotlib` e `d8error`. Certifique-se de também executar a primeira célula deste caderno para carregar `otter`.

In [None]:
# Execute esta célula para configurar o notebook, mas por favor, não a altere.
from datascience import *
import numpy as np

%matplotlib inline
import matplotlib.pyplot as plt
plt.style.use('fivethirtyeight')
np.set_printoptions(legacy='1.13')

import warnings
warnings.simplefilter('ignore')
import d8error

## Parte 1: Temperaturas

Na análise a seguir, investigaremos um dos problemas mais proeminentes do século 21: a mudança climática. Embora os detalhes da ciência climática estejam além do escopo deste curso, podemos começar a aprender sobre a mudança climática apenas analisando registros públicos de temperatura e precipitação ao longo do tempo em diferentes cidades.

Analisaremos uma coleção de medições históricas diárias de temperatura e precipitação de estações meteorológicas em 210 cidades dos EUA. O conjunto de dados foi compilado por Yuchuan Lai e David Dzombak [1]; uma descrição dos dados pelos autores originais e os próprios dados estão disponíveis [aqui](https://kilthub.cmu.edu/articles/dataset/Compiled_daily_temperature_and_precipitation_data_for_the_U_S_cities/7890488).

[1] Lai, Yuchuan; Dzombak, David (2019): Dados históricos diários compilados de temperatura e precipitação para 210 cidades selecionadas dos EUA. Universidade Carnegie Mellon. Conjunto de Dados.

### Parte 1, Seção 1: Cidades

Execute a célula a seguir para carregar informações sobre as `cities` e visualizar as primeiras linhas.

In [None]:
cities = Table.read_table('city_info.csv', index_col=0)
cities.show(3)

A tabela `cities` tem uma linha por estação meteorológica e as seguintes colunas:

1. `"Name"`: O nome da cidade dos EUA
2. `"ID"`: O identificador único para a cidade dos EUA
3. `"Lat"`: A latitude da cidade dos EUA (medida em graus de latitude)
4. `"Lon"`: A longitude da cidade dos EUA (medida em graus de longitude)
5. `"Stn.Name"`: O nome da estação meteorológica na qual os dados foram coletados
6. `"Stn.stDate"`: Uma string representando a data da primeira gravação naquela estação específica
7. `"Stn.edDate"`: Uma string representando a data da última gravação naquela estação específica

Os dados listam as estações meteorológicas nas quais os dados de temperatura e precipitação foram coletados. Note que, embora algumas cidades tenham várias estações meteorológicas, apenas uma está coletando dados para aquela cidade em qualquer momento dado. Assim, somos capazes de focar apenas nas próprias cidades.

<!-- BEGIN QUESTION -->

**Questão 1.1.1:** Na célula abaixo, produza um gráfico de dispersão que plote a latitude e longitude de cada cidade na tabela `cities` de forma que o resultado posicione as cidades do norte no topo e as cidades do oeste à esquerda.

*Nota*: Não tem problema plotar o mesmo ponto várias vezes!

In [None]:
...

<!-- END QUESTION -->

Essas cidades estão todas dentro do território continental dos EUA, e assim a forma geral dos EUA deve ser visível no seu gráfico. A forma aparecerá distorcida em comparação com a maioria dos mapas por dois motivos: o gráfico de dispersão é quadrado mesmo que os EUA sejam mais largos do que altos, e este gráfico de dispersão é uma [projeção equiretangular](https://en.wikipedia.org/wiki/Equirectangular_projection) da Terra esférica. Um mapa geográfico dos mesmos dados usa a comum [projeção Pseudo-Mercator](https://en.wikipedia.org/wiki/Web_Mercator_projection).

In [None]:
# Apenas execute esta célula
Marker.map_table(cities.select('Lat', 'Lon', 'Name').relabeled('Name', 'labels'))

<!-- BEGIN QUESTION -->

**Questão 1.1.2** Parece que essas localizações de cidades foram amostradas uniformemente ao acaso de todas as localizações nos EUA? Por que sim ou por que não?

_Digite sua resposta aqui, substituindo este texto._

<!-- END QUESTION -->

**Questão 1.1.3:** Atribua a `num_unique_cities` o número de cidades únicas que aparecem na tabela `cities`.


In [None]:
num_unique_cites = ...

# Não altere essa linha
print(f"There are {num_unique_cites} unique cities that appear within our dataset.")

In [None]:
grader.check("q1_1_3")

Para investigar mais a fundo, será útil determinar em qual região dos Estados Unidos cada cidade está localizada: Nordeste, Noroeste, Sudeste ou Sudoeste. Para nossos propósitos, usaremos as seguintes fronteiras geográficas:

<img src= "usa_coordinates.png" alt="Mapa de Coordenadas dos EUA" width="600"/>

1. Uma estação está localizada na região `"Northeast"` se sua latitude for igual ou superior a 40 graus e sua longitude for maior ou igual a -100 graus.
2. Uma estação está localizada na região `"Northwest"` se sua latitude for igual ou superior a 40 graus e sua longitude for menor que -100 graus.
3. Uma estação está localizada na região `"Southeast"` se sua latitude for inferior a 40 graus e sua longitude for maior ou igual a -100 graus.
4. Uma estação está localizada na região `"Southwest"` se sua latitude for inferior a 40 graus e sua longitude for menor que -100 graus.

**Questão 1.1.4**: Defina a função `coordinates_to_region` abaixo. Ela deve receber dois argumentos, as coordenadas de latitude (`lat`) e longitude (`lon`) de uma cidade, e produzir uma string representando a região em que ela está localizada.

In [None]:
def coordinates_to_region(...):
    ...

In [None]:
grader.check("q1_1_4")

**Questão 1.1.5**: Adicione uma nova coluna em `cities` rotulada `Region` que contém a região na qual a cidade está localizada. Para receber o crédito completo, você deve usar a função `coordinates_to_region` que definiu, em vez de reimplementar sua lógica.

In [None]:
regions_array = ...
cities = ...
cities.show(5)

In [None]:
grader.check("q1_1_5")

Para confirmar que você definiu sua função `coordinates_to_region` corretamente e adicionou com sucesso a coluna `Region` à tabela `cities`, execute a célula a seguir. Cada região deve ter uma cor diferente no resultado.

In [None]:
# Apenas execute esta célula
cities.scatter("Lon", "Lat", group="Region")

**Questão Desafio 1.1.6 (OPCIONAL, não avaliada)**: Crie uma nova tabela chamada `cities_nearest`. Ela deve conter as mesmas colunas que a tabela `cities` e uma coluna adicional chamada `"Nearest"` que contém o **nome da cidade mais próxima** que está em uma região diferente da cidade descrita pela linha.

Para aproximar a distância entre duas cidades, pegue a raiz quadrada da soma do quadrado da diferença entre suas latitudes e o quadrado da diferença entre suas longitudes. Não use uma declaração `for`; em vez disso, use o método `apply` e aritmética de arrays.

*Dica*: Definimos uma função `distance` para você, que pode ser chamada com números `lat0` e `lon0` e arrays `lat1` e `lon1`.

In [None]:
def distance(lat0, lon0, lat1, lon1):
    "Approximate the distance between point (lat0, lon0) and (lat1, lon1) pairs in the arrays."
    return np.sqrt((lat0 - lat1) * (lat0 - lat1) + (lon0 - lon1) * (lon0 - lon1))

def nearest(name):
    row = ...
    others = ...
    distances = ...
    return others.with_column('dist', distances).sort('dist').row(0).item('Name')

nearest_array = cities.apply(nearest, "Name")

cities_nearest = ...
cities_nearest.show(5)

### Parte 1, Seção 2: Bem-vindo a Phoenix, Arizona

Cada cidade tem um arquivo CSV diferente cheio de medições diárias de temperatura e precipitação. O arquivo para Phoenix, Arizona está incluído neste projeto como `phoenix.csv`. Os arquivos para outras cidades podem ser baixados [aqui](https://kilthub.cmu.edu/articles/dataset/Compiled_daily_temperature_and_precipitation_data_for_the_U_S_cities/7890488) correspondendo-os ao ID da cidade na tabela `cities`.

Como Phoenix está localizada na borda superior do Deserto de Sonora, possui algumas temperaturas impressionantes.

Execute a célula a seguir para carregar a tabela `phoenix`. Ela tem uma linha por dia e as seguintes colunas:

1. `"Date"`: A data (uma string) representando a data da gravação no formato **AAAA-MM-DD**
2. `"tmax"`: A temperatura máxima para o dia (°F)
3. `"tmin"`: A temperatura mínima para o dia (°F)
4. `"prcp"`: A precipitação registrada para o dia (polegadas)

In [None]:
phoenix = Table.read_table("phoenix.csv", index_col=0)
phoenix.show(3)

**Questão 1.2.1:** Atribua a variável `largest_2010_range_date` à data do **maior intervalo de temperatura** em Phoenix, Arizona, para qualquer dia entre 1º de janeiro de 2010 e 31 de dezembro de 2010. Sua resposta deve ser uma string no formato "AAAA-MM-DD". Sinta-se à vontade para usar quantas linhas precisar. Um intervalo de temperatura é calculado como a diferença entre as temperaturas máxima e mínima do dia.

*Dica*: Para limitar os valores em uma coluna apenas àqueles que *contêm* uma determinada string, escolha o predicado `are.` correto da [Folha de Referência Python](http://data8.org/sp22/python-reference.html).

*Nota:* Não reatribua a variável `phoenix`; use a variável `phoenix_with_ranges_2010` em vez disso.

In [None]:
...
phoenix_with_ranges_2010 = ...
largest_2010_range_date = ...
largest_2010_range_date

In [None]:
grader.check("q1_2_1")

Podemos voltar à nossa tabela `phoenix` para verificar as leituras de temperatura para nossa `largest_2010_range_date` e ver se algo especial está acontecendo. Execute a célula abaixo para encontrar a linha da tabela `phoenix` que corresponde à data que encontramos acima.

In [None]:
# Apenas execute esta célula
phoenix.where("Date", largest_2010_range_date)

ZOO WEE MAMA! Olhe para a temperatura máxima daquele dia. Isso é quente.

A função `extract_year_from_date` recebe uma string de data no formato **AAAA-MM-DD** e retorna um inteiro representando o **ano**. A função `extract_month_from_date` recebe uma string de data e retorna uma string descrevendo o mês. Execute esta célula, mas você não precisa entender como este código funciona ou editá-lo.

In [None]:
# Apenas execute esta célula
import calendar

def extract_year_from_date(date):
    """Returns an integer corresponding to the year of the input string's date."""
    return int(date[:4])

def extract_month_from_date(date):
    "Return an abbreviation of the name of the month for a string's date."
    month = date[5:7]
    return f'{month} ({calendar.month_abbr[int(date[5:7])]})'


# Exemplo
print('2022-04-01 has year', extract_year_from_date('2022-04-01'),
      'and month', extract_month_from_date('2022-04-01'))

**Questão 1.2.2:** Adicione duas novas colunas chamadas `Year` e `Month` à tabela `phoenix` que contenham o ano como um **inteiro** e o mês como uma **string** (como `"04 (Apr)"`) para cada dia, respectivamente.

*Nota*: As funções acima podem ser úteis!

In [None]:
years_array = ...
months_array = ...
...
phoenix.show(5)

In [None]:
grader.check("q1_2_2")

<!-- BEGIN QUESTION -->

**Questão 1.2.3:** Usando a tabela `phoenix`, crie um gráfico de linhas sobreposto da **temperatura máxima média** e **temperatura mínima média** para cada ano entre 1900 e 2020 (inclusive).

*Dica:* Para desenhar um gráfico de linhas com mais de uma linha, chame `plot` no rótulo da coluna dos valores do eixo x e todas as outras colunas serão tratadas como valores do eixo y.

In [None]:
...

<!-- END QUESTION -->

<!-- BEGIN QUESTION -->

**Questão 1.2.4:** Embora ainda seja um tema muito debatido (trocadilho intencional), muitos cientistas do clima concordam que os efeitos da mudança climática começaram a surgir no início dos anos 1960 como resultado dos níveis elevados de emissões de gases de efeito estufa. Como o gráfico que você produziu na Questão 1.2.3 apoia a afirmação de que o aquecimento global moderno começou no início dos anos 1960?

_Digite sua resposta aqui, substituindo este texto._

<!-- END QUESTION -->

A média das temperaturas ao longo de um ano inteiro pode obscurecer alguns efeitos da mudança climática. Por exemplo, se os verões ficarem mais quentes, mas os invernos ficarem mais frios, a média anual pode não mudar muito. Vamos investigar como as temperaturas máximas **mensais** médias mudaram ao longo do tempo em Phoenix.

**Questão 1.2.5:** Crie uma tabela `monthly_increases` com uma linha por mês e as seguintes quatro colunas na ordem:
1. `"Month"`: O mês (como `"02 (Feb)"`)
2. `"Past"`: A temperatura máxima média nesse mês de 1900-1960 (inclusive)
3. `"Present"`: A temperatura máxima média nesse mês de 2019-2021 (inclusive)
4. `"Increase"`: A diferença entre as temperaturas máximas médias presentes e passadas nesse mês

Primeiro, faça uma cópia da tabela `phoenix` e adicione uma nova coluna contendo o **período** correspondente para cada linha. Você pode achar a função `period` útil. Em seguida, use essa nova tabela para construir `monthly_increases`. Sinta-se à vontade para usar quantas linhas precisar.

*Dica*: Qual método de tabela podemos usar para obter cada **valor único** como sua própria coluna?

*Nota*: Por favor, **não** reatribua a variável `phoenix`!

In [None]:
def period(year):
    "Output if a year is in the Past, Present, or Other."
    if 1900 <= year <= 1960:
        return "Past"
    elif 2019 <= year <= 2021:
        return "Present"
    else:
        return "Other"
    
...
monthly_increases = ...
monthly_increases.show()

In [None]:
grader.check("q1_2_5")

### Fevereiro em Phoenix

Os valores da coluna `"Past"` são médias de muitas décadas e, portanto, são estimativas confiáveis das temperaturas máximas médias nesses meses antes dos efeitos da mudança climática moderna. No entanto, a coluna `"Present"` é baseada em apenas três anos de observações. Fevereiro, o mês mais curto, tem o menor número total de observações: apenas 85 dias. Execute a célula a seguir para ver isso.

In [None]:
# Apenas execute esta célula
feb_present = phoenix.where('Year', are.between_or_equal_to(2019, 2021)).where('Month', '02 (Feb)')
feb_present.num_rows

Olhe para a sua tabela `monthly_increases`. Comparado aos outros meses, o aumento para o mês de fevereiro é bastante pequeno; a diferença de fevereiro é muito próxima de zero. Execute a célula a seguir para imprimir nossa diferença observada.

In [None]:
# Apenas execute esta célula
print(f"February Difference: {monthly_increases.row(1).item('Increase')}")

Talvez essa pequena diferença seja de alguma forma devido ao acaso! Investigar essa ideia requer um experimento mental.

Podemos observar todas as temperaturas máximas de fevereiro de 2019 a 2021 (o período presente), então temos acesso ao censo; não há amostragem aleatória envolvida. Mas, podemos imaginar que se mais anos passarem com o mesmo clima atual, haveria temperaturas máximas diferentes, mas semelhantes, em futuros dias de fevereiro. A partir dos dados que observamos, podemos tentar estimar a **temperatura máxima média de fevereiro** nesta coleção imaginária de todos os futuros dias de fevereiro que ocorreriam em nosso clima moderno, assumindo que o clima não mude mais e muitos anos passem.

Também podemos imaginar que a temperatura máxima de cada dia é como um **sorteio aleatório de uma distribuição de temperaturas para aquele mês**. Tratar observações reais de eventos naturais como se fossem cada uma *amostrada aleatoriamente* de alguma distribuição desconhecida é uma suposição simplificadora. Essas temperaturas não foram realmente amostradas ao acaso - em vez disso, ocorreram devido às interações complexas do clima da Terra - mas tratá-las como se fossem aleatórias abstrai os detalhes desse processo natural e nos permite realizar inferência estatística. As conclusões são válidas apenas na medida em que as suposições em que se baseiam são válidas, mas, neste caso, pensar nas temperaturas diárias como amostras aleatórias de alguma distribuição climática desconhecida parece pelo menos plausível.

Se assumirmos que as **temperaturas reais foram sorteadas aleatoriamente de alguma grande população de possíveis dias de fevereiro** em nosso clima moderno, então podemos não apenas estimar a média populacional dessa distribuição, mas também quantificar nossa incerteza sobre essa estimativa usando um intervalo de confiança.

**Vamos apenas calcular o limite inferior deste intervalo de confiança.** O limite superior de um intervalo de confiança para uma média populacional com base em uma amostra é sempre maior que a média da amostra. Pretendemos comparar nosso intervalo de confiança com a média histórica (ou seja, o valor `Past` em nossa tabela `monthly_increases`). Em todos os meses, a média da amostra que consideraremos (ou seja, o valor `Present` em nossa tabela `monthly_increases`) é maior que a média histórica. Como resultado, sabemos de antemão que o limite superior do intervalo de confiança também será maior, e não há necessidade de calcular explicitamente o limite superior. (Mas você pode se desejar!)

**Questão 1.2.6.** Complete a implementação da função `ci_lower`, que recebe uma tabela `t` de uma coluna contendo observações da amostra e um percentual de confiança `level`, como 95 ou 99. Ela retorna o limite inferior de um intervalo de confiança para a média populacional construído usando 5.000 reamostragens bootstrap.

Após definir `ci_lower`, fornecemos uma linha de código que chama `ci_lower` nas temperaturas máximas de fevereiro dos dias atuais para obter o limite inferior de um intervalo de confiança de 99% para a temperatura máxima média de fevereiro. O resultado deve ser em torno de 67 graus.

In [None]:
def ci_lower(t, level):
    """Calcula um limite inferior de um intervalo de confiança de level% 
    da média da população para a qual a coluna 0 da Tabela t contém uma amostra.
    """
    stats = make_array()
    for k in np.arange(5000):
        stat = ...
        stats = ...
    ...

# Chame ci_lower nas temperaturas máximas de fevereiro nos dias atuais para encontrar o limite inferior de um intervalo de confiança de 99%.
feb_present_ci = ci_lower(feb_present.select('tmax'), 99)
feb_present_ci

In [None]:
grader.check("q1_2_6")

<!-- BEGIN QUESTION -->

**Questão 1.2.7** O limite inferior do intervalo de confiança de 99% `feb_present_ci` está abaixo da temperatura máxima média observada de fevereiro no passado, que é 68.8485 (da tabela `monthly_increases`). Que conclusão você pode tirar sobre o efeito da mudança climática nas temperaturas máximas de fevereiro em Phoenix a partir dessa informação? Use um valor de p de 1%.

*Nota*: Se você estiver com dificuldades nesta questão, reler os parágrafos sob o título *Fevereiro* (particularmente os primeiros) pode ser útil.

_Digite sua resposta aqui, substituindo este texto._

<!-- END QUESTION -->

### Todos os Meses

**Questão 1.2.8.** Repita o processo de comparar o **limite inferior de um intervalo de confiança de 99%** com a **média passada** para cada mês. Para cada mês, imprima o nome do mês (por exemplo, `02 (Feb)`), a média passada observada e o limite inferior de um intervalo de confiança para a média presente.

Use a chamada fornecida para `print` a fim de formatar o resultado como uma linha por mês.

*Dica*: Seu código deve seguir o mesmo formato do nosso código acima (ou seja, a seção *Fevereiro*).

In [None]:
comparisons = make_array()
months = ...
for month in months:
    past_average = ...
    present_observations = ...
    present_lower_bound = ...
    
    # Não altere o código abaixo desta linha
    below = past_average < present_lower_bound
    if below:
        comparison = '**below**'
    else:
        comparison = '*above*'
    comparisons = np.append(comparisons, comparison)
    
    print('For', month, 'the past avg', round(past_average, 1), 
          'is', comparison, 
          'the lower bound', round(present_lower_bound, 1),
          'of the 99% CI of the present avg. \n')

In [None]:
grader.check("q1_2_8")

<!-- BEGIN QUESTION -->

**Questão 1.2.9.** Resuma suas descobertas. Após comparar a média passada com o limite inferior do intervalo de confiança de 99% para cada mês, que conclusões podemos tirar sobre a temperatura máxima média mensal nos tempos históricos (1900-1960) vs. modernos (2019-2021) nos doze meses? Em outras palavras, qual hipótese nula você deve considerar, e para quais meses você rejeitaria ou não rejeitaria a hipótese nula? Use um valor de p de 1%.

*Dica*: Você percebe algum padrão sazonal?

_Digite sua resposta aqui, substituindo este texto._

<!-- END QUESTION -->

### Parabéns

Parabéns, você chegou até aqui!

---
A célula abaixo irá reexecutar todos os testes do autograder para a Parte 1 para verificar seu trabalho novamente.

In [None]:
checkpoint_tests = ["q1_1_3", "q1_1_4", "q1_1_5",
                    "q1_2_1", "q1_2_2", "q1_2_5", "q1_2_6", "q1_2_8"]

for test in checkpoint_tests:
    display(grader.check(test))

## Submissão
Se o seu instrutor quiser que você envie o trabalho da parte um como um ponto de verificação do projeto, siga as instruções abaixo.

Certifique-se de ter executado todas as células no seu caderno em ordem antes de executar a célula abaixo, para que todas as imagens/gráficos apareçam na saída. A célula abaixo gerará um arquivo zip para você enviar. **Por favor, salve antes de exportar!**

Seu instrutor pode querer que você envie seu trabalho até agora como um ponto de verificação.

**Lembretes**:
- Certifique-se de esperar até que o autograder termine de rodar para garantir que sua submissão foi processada corretamente e que você enviou para a tarefa correta.

In [None]:
# Salve seu notebook primeiro, depois execute esta célula para exportar sua submissão.
grader.export(pdf=False)

# Parte 2: Seca

De acordo com a [Agência de Proteção Ambiental dos Estados Unidos](https://www.epa.gov/climate-indicators/southwest), "Grandes porções do Sudoeste têm experimentado condições de seca desde que os registros semanais do Monitor de Seca começaram em 2000. Por períodos prolongados de 2002 a 2005 e de 2012 a 2020, quase toda a região estava anormalmente seca ou ainda mais seca."

Avaliar o impacto da seca é desafiador apenas com dados em nível de cidade, porque grande parte da água que as pessoas usam é transportada de outros lugares, mas vamos explorar os dados que temos e ver o que podemos aprender.

Primeiro, vamos dar uma olhada nos dados de precipitação na região sudoeste. O arquivo `southwest.csv` contém a precipitação anual total para 13 cidades no sudoeste dos Estados Unidos para cada ano de 1960 a 2021. Este conjunto de dados é agregado a partir dos dados diários e inclui apenas as cidades do Sudoeste do conjunto de dados original que têm registros consistentes de precipitação desde 1960.

In [None]:
southwest = Table.read_table('southwest.csv')
southwest.show(5)

**Questão 2.1.** Crie uma tabela `totals` que tenha uma linha para cada ano em ordem cronológica. Ela deve conter as seguintes colunas:
1. `"Year"`: O ano (um número)
2. `"Precipitation"`: A precipitação total em todas as 13 cidades do sudoeste naquele ano

In [None]:
totals = ...
totals

In [None]:
grader.check("q2_1")

Execute a célula abaixo para plotar a precipitação total nessas cidades ao longo do tempo, para que possamos tentar identificar a seca visualmente. Como lembrete, os anos de seca dados pela EPA foram (2002-2005) e (2012-2020).

In [None]:
# Apenas execute esta célula
totals.plot("Year", "Precipitation")

Este gráfico não é muito revelador. Cada ano tem uma quantidade diferente de precipitação, e há bastante variabilidade entre os anos, como se a precipitação anual fosse um sorteio aleatório de uma distribuição de possíveis resultados.

Será que essas chamadas "condições de seca" de 2002-2005 e 2012-2020 podem ser explicadas pelo acaso? Em outras palavras, será que as quantidades de precipitação anual no Sudoeste durante esses anos de seca são como **sorteios aleatórios da mesma distribuição subjacente** que para outros anos? Talvez nada sobre os padrões de precipitação da Terra tenha realmente mudado, e o sudoeste dos EUA apenas tenha experimentado alguns anos secos próximos uns dos outros.

Para avaliar essa ideia, vamos conduzir um teste A/B no qual **a precipitação total de cada ano** é um resultado, e a condição é **se o ano está ou não no período de seca da EPA**.

Esta função `drought_label` distingue entre anos de seca, conforme descrito na declaração da EPA dos EUA acima (2002-2005 e 2012-2020), e outros anos. Note que o rótulo "outros" é talvez enganoso, já que houve outras secas antes de 2000, como a massiva [seca de 1988](https://en.wikipedia.org/wiki/1988%E2%80%9390_North_American_drought) que afetou grande parte dos EUA. No entanto, se estamos interessados em saber se esses períodos de seca modernos (2002-2005 e 2012-2020) são *normais* ou *anormais*, faz sentido distinguir os anos dessa forma.

In [None]:
def drought_label(n):
    """Retorna o rótulo para um ano de entrada n."""
    if 2002 <= n <= 2005 or 2012 <= n <= 2020:
        return 'drought'
    else:
        return 'other'

<!-- BEGIN QUESTION -->

**Questão 2.2.** Defina hipóteses nula e alternativa para um teste A/B que investiga se os anos de seca são mais secos (têm menos precipitação) do que outros anos.

*Nota:* Por favor, formate sua resposta usando a seguinte estrutura.

- *Hipótese nula:* ...
- *Hipótese alternativa:* ...

_Digite sua resposta aqui, substituindo este texto._

<!-- END QUESTION -->

<!-- BEGIN QUESTION -->

**Questão 2.3.** Primeiro, defina a tabela `drought`. Ela deve conter uma linha por ano e as seguintes duas colunas:
- `"Label"`: Indica se um ano faz parte de um ano de `"drought"` (seca) ou um ano `"other"` (outro)
- `"Precipitation"`: A soma da precipitação total em 13 cidades do sudoeste naquele ano

Em seguida, construa um histograma sobreposto de duas distribuições observadas: a precipitação total em anos de seca e a precipitação total em outros anos.

*Nota*: Use os `bins` fornecidos ao criar seu histograma e não reatribua a tabela `southwest`. Sinta-se à vontade para usar quantas linhas precisar!

*Dica*: O argumento opcional `group` em uma certa função pode ser útil!

In [None]:
bins = np.arange(85, 215+1, 13)
drought = ...
...

<!-- END QUESTION -->

Antes de continuar, inspecione o histograma que você acabou de criar e tente adivinhar a conclusão do teste A/B. Construir intuição sobre o resultado de testes de hipóteses a partir de visualizações é bastante útil para aplicações de ciência de dados.

**Questão 2.4.** Nosso próximo passo é escolher uma estatística de teste com base em nossa hipótese alternativa na Questão 2.2. Quais das seguintes opções são escolhas válidas para a estatística de teste? Atribua `ab_test_stat` a um array de inteiros correspondentes às escolhas válidas. Suponha que médias e totais sejam calculados sobre as somas totais de precipitação para cada ano.

1. A diferença entre a precipitação **total** nos anos de **seca** e a precipitação **total** nos anos **outros**.
2. A diferença entre a precipitação **total** nos anos **outros** e a precipitação **total** nos anos de **seca**.
3. A diferença **absoluta** entre a precipitação **total** nos anos outros e a precipitação **total** nos anos de seca.
4. A diferença entre a precipitação **média** nos anos de **seca** e a precipitação **média** nos anos **outros**.
5. A diferença entre a precipitação **média** nos anos **outros** e a precipitação **média** nos anos de **seca**.
6. A diferença **absoluta** entre a precipitação **média** nos anos outros e a precipitação **média** nos anos de seca.

In [None]:
ab_test_stat = ...

In [None]:
grader.check("q2_4")

<!-- BEGIN QUESTION -->

**Questão 2.5.** Os colegas cientistas do clima Olivia e Will apontam que há mais anos **outros** do que anos de **seca**, e assim medir a diferença entre a precipitação total sempre favorecerá os anos **outros**. Eles concluem que todas as opções acima envolvendo precipitação **total** são escolhas inválidas para a estatística de teste. Você concorda com eles? Por que ou por que não?

_Digite sua resposta aqui, substituindo este texto._

<!-- END QUESTION -->

Antes de continuar, verifique sua tabela `drought`. Ela deve ter duas colunas `Label` e `Precipitation` com 61 linhas, 13 das quais são para anos de `"drought"` (seca).


In [None]:
drought.show(3)

In [None]:
drought.group('Label')

**Questão 2.6.** Para nosso teste A/B, usaremos a diferença entre a precipitação média nos anos de seca e a precipitação média nos outros anos como nossa estatística de teste:

$$\text{precipitação média nos anos de "seca"} - \text{precipitação média nos anos "outros"}$$

Primeiro, complete a função `test_statistic`. Ela deve receber uma tabela `t` com duas colunas e uma linha por ano:
- `Label`: o rótulo para aquele ano (ou `'drought'` ou `'other'`)
- `Precipitation`: a precipitação total nas 13 cidades do sudoeste naquele ano.

Em seguida, use a função que você definiu para atribuir `observed_statistic` à estatística de teste observada.

In [None]:
def test_statistic(t):
    ...

observed_statistic = ...
observed_statistic

In [None]:
grader.check("q2_6")

Agora que definimos nossas hipóteses e a estatística de teste, estamos prontos para conduzir nosso teste de hipótese. Começaremos definindo uma função para simular a estatística de teste sob a hipótese nula e, em seguida, chamaremos essa função 5.000 vezes para construir uma distribuição empírica sob a hipótese nula.

**Questão 2.7.** Escreva uma função para simular a estatística de teste sob a hipótese nula. A função `simulate_precipitation_null` deve simular a hipótese nula uma vez (não 5.000 vezes) e retornar o valor da estatística de teste para essa amostra simulada.

*Dica*: Usar `t.with_column(...)` com um nome de coluna que já existe em uma tabela `t` substituirá essa coluna pelos valores recém-especificados.

In [None]:
def simulate_precipitation_null():
    ...

# Execute sua função algumas vezes para garantir que ela funcione
simulate_precipitation_null()

In [None]:
grader.check("q2_7")

**Questão 2.8.** Preencha os espaços em branco abaixo para completar a simulação para o teste de hipótese. Sua simulação deve calcular 5.000 valores da estatística de teste sob a hipótese nula e armazenar o resultado no array `sampled_stats`.

*Dica:* Você deve usar a função `simulate_precipitation_null` que escreveu na questão anterior!

*Nota:* Executar esta célula pode levar alguns segundos. Se levar mais de um minuto, tente encontrar uma maneira mais rápida de implementar sua função `simulate_precipitation_null`.

In [None]:
sampled_stats = ...

repetitions = ...
for i in np.arange(repetitions):
    ...

# Não altere estas linhas
Table().with_column('Difference Between Means', sampled_stats).hist()
plt.scatter(observed_statistic, 0, c="r", s=50);
plt.ylim(-0.01);

In [None]:
grader.check("q2_8")

**Questão 2.9.** Calcule o valor p para este teste de hipótese e atribua-o à variável `precipitation_p_val`.

In [None]:
precipitation_p_val = ...
precipitation_p_val

In [None]:
grader.check("q2_9")

<!-- BEGIN QUESTION -->

**Questão 2.10.** Declare uma conclusão deste teste usando um valor de p de 5%. O que você aprendeu sobre a declaração da EPA sobre a seca?

_Digite sua resposta aqui, substituindo este texto._

<!-- END QUESTION -->

<!-- BEGIN QUESTION -->

**Questão 2.11.** Sua conclusão da Questão 2.10 se aplica a toda a região sudoeste dos EUA? Por que ou por que não?


_Digite sua resposta aqui, substituindo este texto._

<!-- END QUESTION -->

# Conclusão

A ciência de dados desempenha um papel central na pesquisa sobre mudanças climáticas porque simulações massivas do clima da Terra são necessárias para avaliar as implicações dos dados climáticos registrados por estações meteorológicas, satélites e outros sensores. [Berkeley Earth](http://berkeleyearth.org/data/) é uma fonte comum de dados para esses tipos de projetos.

Neste projeto, encontramos maneiras de aplicar nossas técnicas de inferência estatística que dependem de amostragem aleatória, mesmo em situações onde os dados não foram gerados aleatoriamente, mas sim por algum processo natural complicado que parecia aleatório. Fizemos suposições sobre aleatoriedade e, em seguida, chegamos a conclusões com base nessas suposições. É necessário ter muito cuidado ao escolher suposições que sejam realistas, para que as conclusões resultantes não sejam enganosas. No entanto, fazer suposições sobre dados pode ser produtivo quando isso permite que técnicas de inferência se apliquem a situações novas.

**Parabéns por terminar o Projeto 2! Hora de enviar.**

**Passos importantes para a submissão:** 
1. Execute os testes e verifique se todos passam.
2. Escolha **Salvar Notebook** no menu **Arquivo**, depois **execute a célula final**. 
3. Clique no link para baixar o arquivo zip.
4. Em seguida, envie o arquivo zip para a tarefa correspondente de acordo com as instruções do seu instrutor. 

**É sua responsabilidade garantir que seu trabalho esteja salvo antes de executar a última célula.**

## Submissão

Certifique-se de ter executado todas as células no seu caderno em ordem antes de executar a célula abaixo, para que todas as imagens/gráficos apareçam na saída. A célula abaixo gerará um arquivo zip para você enviar. **Por favor, salve antes de exportar!**

In [None]:
# Salve seu notebook primeiro, depois execute esta célula para exportar sua submissão.
grader.export(pdf=False, run_tests=True)