---
# Introdução

#### Esse notebook faz parte do curso "[Introduction to Data Science in Python da Universidade de Michigan](https://www.coursera.org/learn/python-data-analysis/home/welcome)".


Nessa atividade (Assigment 4 - Statistical Analysis in Python), devemos realizar um teste de hipótese se as cidades universitárias (EUA) têm seus os preços médios de residências menos afetados durante recessões.

As questões estão separadas por funções, e os comentários e discussões sobre a resolução de cada questão se encontram em _markdown_ logo acima de cada questão, de maneira didática.

---

---

_You are currently looking at **version 1.1** of this notebook. To download notebooks and datafiles, as well as get help on Jupyter notebooks in the Coursera platform, visit the [Jupyter Notebook FAQ](https://www.coursera.org/learn/python-data-analysis/resources/0dhYG) course resource._

---

In [1]:
import pandas as pd
import numpy as np
from scipy.stats import ttest_ind

# Assignment 4 - Hypothesis Testing
This assignment requires more individual learning than previous assignments - you are encouraged to check out the [pandas documentation](http://pandas.pydata.org/pandas-docs/stable/) to find functions or methods you might not have used yet, or ask questions on [Stack Overflow](http://stackoverflow.com/) and tag them as pandas and python related. And of course, the discussion forums are open for interaction with your peers and the course staff.

Definitions:
* A _quarter_ is a specific three month period, Q1 is January through March, Q2 is April through June, Q3 is July through September, Q4 is October through December.
* A _recession_ is defined as starting with two consecutive quarters of GDP decline, and ending with two consecutive quarters of GDP growth.
* A _recession bottom_ is the quarter within a recession which had the lowest GDP.
* A _university town_ is a city which has a high percentage of university students compared to the total population of the city.

**Hypothesis**: University towns have their mean housing prices less effected by recessions. Run a t-test to compare the ratio of the mean price of houses in university towns the quarter before the recession starts compared to the recession bottom. (`price_ratio=quarter_before_recession/recession_bottom`)

The following data files are available for this assignment:
* From the [Zillow research data site](http://www.zillow.com/research/data/) there is housing data for the United States. In particular the datafile for [all homes at a city level](http://files.zillowstatic.com/research/public/City/City_Zhvi_AllHomes.csv), ```City_Zhvi_AllHomes.csv```, has median home sale prices at a fine grained level.
* From the Wikipedia page on college towns is a list of [university towns in the United States](https://en.wikipedia.org/wiki/List_of_college_towns#College_towns_in_the_United_States) which has been copy and pasted into the file ```university_towns.txt```.
* From Bureau of Economic Analysis, US Department of Commerce, the [GDP over time](http://www.bea.gov/national/index.htm#gdp) of the United States in current dollars (use the chained value in 2009 dollars), in quarterly intervals, in the file ```gdplev.xls```. For this assignment, only look at GDP data from the first quarter of 2000 onward.

Each function in this assignment below is worth 10%, with the exception of ```run_ttest()```, which is worth 50%.

In [2]:
# Use this dictionary to map state names to two letter acronyms
states = {'OH': 'Ohio', 'KY': 'Kentucky', 'AS': 'American Samoa', 'NV': 'Nevada', 'WY': 'Wyoming', 'NA': 'National', 'AL': 'Alabama', 'MD': 'Maryland', 'AK': 'Alaska', 'UT': 'Utah', 'OR': 'Oregon', 'MT': 'Montana', 'IL': 'Illinois', 'TN': 'Tennessee', 'DC': 'District of Columbia', 'VT': 'Vermont', 'ID': 'Idaho', 'AR': 'Arkansas', 'ME': 'Maine', 'WA': 'Washington', 'HI': 'Hawaii', 'WI': 'Wisconsin', 'MI': 'Michigan', 'IN': 'Indiana', 'NJ': 'New Jersey', 'AZ': 'Arizona', 'GU': 'Guam', 'MS': 'Mississippi', 'PR': 'Puerto Rico', 'NC': 'North Carolina', 'TX': 'Texas', 'SD': 'South Dakota', 'MP': 'Northern Mariana Islands', 'IA': 'Iowa', 'MO': 'Missouri', 'CT': 'Connecticut', 'WV': 'West Virginia', 'SC': 'South Carolina', 'LA': 'Louisiana', 'KS': 'Kansas', 'NY': 'New York', 'NE': 'Nebraska', 'OK': 'Oklahoma', 'FL': 'Florida', 'CA': 'California', 'CO': 'Colorado', 'PA': 'Pennsylvania', 'DE': 'Delaware', 'NM': 'New Mexico', 'RI': 'Rhode Island', 'MN': 'Minnesota', 'VI': 'Virgin Islands', 'NH': 'New Hampshire', 'MA': 'Massachusetts', 'GA': 'Georgia', 'ND': 'North Dakota', 'VA': 'Virginia'}

---

## Certo! Temos algumas definições dadas pelo problema: 
- um *quarter* (trimestre) corresponde a um período de 3 meses:
    - Q1 é de janeiro a março
    - Q2 é de abril a junho
    - Q3 é de julho a setembro
    - Q4 é de outubro a dezembro
    
- uma *recession* (recessão) corresponde a começar com 2 trimestres consecutivos de GDP (PIB) e com trimestre final em ascenção de PIB.

- uma *recession bottom* é o trimestre que obteve o menor PIB da recessão.

- uma *university town* (cidade universitária) é uma cidade que possui maior porcentagem de universitários comparada com a população da cidade.

## O conjunto de dados:

1. No Zillow.com, existem dados de moradia para os Estados Unidos. Em particular, o arquivo de dados de todas as residências no nível da cidade, esse arquivo (`City_Zhvi_AllHomes.csv`) tem preços médios de venda de residências em um nível refinado.  

2. Na página da Wikipedia sobre cidades universitárias, há uma lista de cidades universitárias nos Estados Unidos que foram copiadas e coladas no arquivo `university_towns.txt`. 

3. Do Bureau of Economic Analysis, Departamento de Comércio dos EUA, as horas extras do PIB dos Estados Unidos em dólares correntes, em intervalos trimestrais, no arquivo `gdplev.xls`.

## Hipótese: 

As cidades universitárias têm seus preços médios de moradia menos afetados pelas recessões. Faça um teste t para comparar a proporção do preço médio das casas nas cidades universitárias no trimestre anterior ao início da recessão, em comparação com o nível mais baixo da recessão. (price_ratio = quarter_before_recession / recession_bottom)


# E vamos para nossa primeira questão: Retornar uma lista contendo todas as cidades universitárias

`university_towns` trata-se de um ``.txt`` que tem o formato de Estado [editar]  Nome da cidade  Nome da universidade (Número) - Nome da cidade - Nome da universidade (Número). Portanto, a primeira tarefa é obter um _dataframe_ contendo o nome do estado e as Cidades da Universidade nesse estado.

### Algumas dicas para limpar os dados:

1. Para "State", remova os caracteres de "[" até o fim.

2. Para "RegionName", quando aplicável, remova todos os caracteres de "(" até o final.

3. Dependendo de como você lê os dados, pode ser necessário remover o caractere de nova linha '\ n'.

Pode haver alguns RegionNames na lista que não correspondam bem às cidades reais, mas não se preocupe em fazer algo especial para essas entradas para os fins desta tarefa. A pontuação no final do RegionName não encapsulada entre parênteses não precisa ser removida.

Ok! Vamos lá

Irei primeiramente carregar o arquivo (pode ser que haja uma maneira mais *pandorable* de se fazer isso, mas por se tratar de um .txt vamos de ```.open``` ) para ```file_txt``` percorrer cada linha e armazenar o *state* atual.

Para pegar o state atual, podemos verificar se a string contém um 'edit' como substring. Dentro disso, temos as regioes que podemos ignorar tudo depois da '(' também.

Devemos atentar para duas coisas ao splitar as strings.
   
   - 1.  Atentar pro espaço antes do parênteses. Isso refere-se que se o split for em '(' e não em ' (', um espaço em branco ficará na posição 0 do array da string.
   - 2. Atentar para linhas que não contenham '(', nesse caso, podemos usar o splitline, que separa em \n


Podemos adicionar os valores em 2 listas para transformarmos em dataframe posteriormente.

In [3]:
def get_list_of_university_towns():
    '''Returns a DataFrame of towns and the states they are in from the 
    university_towns.txt list. The format of the DataFrame should be:
    DataFrame( [ ["Michigan", "Ann Arbor"], ["Michigan", "Yipsilanti"] ], 
    columns=["State", "RegionName"]  )
    
    The following cleaning needs to be done:

    1. For "State", removing characters from "[" to the end.
    2. For "RegionName", when applicable, removing every character from " (" to the end.
    3. Depending on how you read the data, you may need to remove newline character '\n'. '''
    file_txt = open("university_towns.txt")
    state = []
    region = []
    for line in file_txt:
        if 'edit' in line:
            current_state = line.split('[')[0]
            continue

        state.append(current_state) 
        region.append(line.split(' (')[0] if '(' in line else line.splitlines()[0])

    df_unitown = pd.DataFrame(list(zip(state, region)), columns=['State', 'RegionName'])
    
    return df_unitown
get_list_of_university_towns()

Unnamed: 0,State,RegionName
0,Alabama,Auburn
1,Alabama,Florence
2,Alabama,Jacksonville
3,Alabama,Livingston
4,Alabama,Montevallo
5,Alabama,Troy
6,Alabama,Tuscaloosa
7,Alabama,Tuskegee
8,Alaska,Fairbanks
9,Arizona,Flagstaff


# Segunda questão: Identificar o ano e trimestre em que ocorreu a recessão.

 - Uma *recession* (recessão) corresponde a começar com 2 trimestres consecutivos de GDP (PIB) e com trimestre final em ascenção de PIB.

 - Precisamos retornar o ano e o trimestre como um valor string.

- Devemos atentar para as dicas para o exercício:
    
   - use o valor encadeado em dólares de 2009 
   - Para esta tarefa, observe apenas os dados do PIB a partir do primeiro trimestre de 2000.

Para começar, precisamos carregar o ```gdplev.xls```.

Podemos utilizar a função `cut` para sabermos o semestre.

OK, temos um problema. Colunas não estão corretamente nomeadas e os dados só começam a contar apartir da linha 9.

Vamos corrigir isso.

Primeiramente vamos skipar as primeiras 8 linhas, e vamos olhar para as colunas (seasonally adjusted annual rates) = E, e  (GDP in bilions of chained 2009 dollars) G.

Certo, mas precisamos olhar apenas para os dados a partir do ano 2000.

Vamos fazer isso splitando o ano tirando o 'q', e selecionando apenas os que sao acima de 2000.

Certo, agora vamos eliminar a coluna criada 'date'.

OK, agora precisamos retornar os anos de recessões, lembrando que uma recession (recessão) corresponde a começar com 2 trimestres consecutivos de GDP (PIB) em declínio (q1 > q2 e q2 > q3) seguidos por trimestres finais em ascenção de PIB (q3 < q4), ou seja, dado um trimestre x, queremos que x-2 seja > que x-1, e que x-1 seja > que x

In [4]:
def get_recession_start():
    '''Returns the year and quarter of the recession start time as a 
    string value in a format such as 2005q3'''
    
    trim_df = pd.read_excel('gdplev.xls', skiprows=9, parse_cols='E,G', header=None)
    trim_df.columns = ['quarter', 'GDP']
    trim_df['date'] = trim_df['quarter'].apply(lambda x: x.split('q')[0]).astype(int)
    
    pib_df = trim_df[trim_df['date'] >= 2000]
    pib_df.drop('date', axis=1, inplace=True)
    pib_df.reset_index(inplace=True)
    
    for i in range(0, pib_df.shape[0]-4):
        if ((pib_df.loc[i, 'GDP'] > pib_df.loc[i+1, 'GDP']) and 
            (pib_df.loc[i+1, 'GDP'] > pib_df.loc[i+2, 'GDP']) and 
            (pib_df.loc[i+2, 'GDP'] < pib_df.loc[i+3, 'GDP'])):
            (pib_df.loc[i+3, 'GDP'] < pib_df.loc[i+4, 'GDP'])
            idx = i

    return pib_df.loc[idx-1, 'quarter']

get_recession_start()

'2008q3'

# Terceira Questão: Encontrar o ano de término da recessão

Bom, se precisávamos encontrar o inicio anteriormente, o final é o inicio + 4 trimestres.

In [5]:
def get_recession_end():
    '''Returns the year and quarter of the recession end time as a 
    string value in a format such as 2005q3'''
       
    trim_df = pd.read_excel('gdplev.xls', skiprows=9, parse_cols='E,G', header=None)
    trim_df.columns = ['quarter', 'GDP']
    trim_df['date'] = trim_df['quarter'].apply(lambda x: x.split('q')[0]).astype(int)
    
    pib_df = trim_df[trim_df['date'] >= 2000]
    pib_df.drop('date', axis=1, inplace=True)
    pib_df.reset_index(inplace=True)
    
    for i in range(0, pib_df.shape[0]-4):
        if ((pib_df.loc[i, 'GDP'] > pib_df.loc[i+1, 'GDP']) and 
            (pib_df.loc[i+1, 'GDP'] > pib_df.loc[i+2, 'GDP']) and 
            (pib_df.loc[i+2, 'GDP'] < pib_df.loc[i+3, 'GDP'])):
            (pib_df.loc[i+3, 'GDP'] < pib_df.loc[i+4, 'GDP'])
            idx = i

    return pib_df.loc[idx+4, 'quarter']

get_recession_end()

'2009q4'

# Quarta questão: Retornar o trimestre de menor PIB durante a recessão

Bom, agora precisamos retornar o ano e trimestre em que houve o _recession bottom_.

Lembrando que uma _recession bottom_ é o trimestre que obteve o menor PIB da recessão.

Podemos repetir o código anterior, e encontrar o min de GDP, dentro dos 4 trimestres;

In [6]:
def get_recession_bottom():
    '''Returns the year and quarter of the recession bottom time as a 
    string value in a format such as 2005q3'''
    
    trim_df = pd.read_excel('gdplev.xls', skiprows=9, parse_cols='E,G', header=None)
    trim_df.columns = ['quarter', 'GDP']
    trim_df['date'] = trim_df['quarter'].apply(lambda x: x.split('q')[0]).astype(int)
    
    pib_df = trim_df[trim_df['date'] >= 2000]
    pib_df.drop('date', axis=1, inplace=True)
    pib_df.reset_index(inplace=True)
    
    for i in range(0, pib_df.shape[0]-4):
        if ((pib_df.loc[i, 'GDP'] > pib_df.loc[i+1, 'GDP']) and 
            (pib_df.loc[i+1, 'GDP'] > pib_df.loc[i+2, 'GDP']) and 
            (pib_df.loc[i+2, 'GDP'] < pib_df.loc[i+3, 'GDP'])):
            (pib_df.loc[i+3, 'GDP'] < pib_df.loc[i+4, 'GDP'])
            idx = i
    
    answer = pib_df.iloc[idx-1:idx+4]
    answer.set_index('index', inplace=True)
    answer = answer.loc[answer['GDP'] == answer['GDP'].min(),'quarter']

    return answer.iloc[0]
get_recession_bottom()

'2009q2'

# Quinta questão: Converter os anos em trimestres e calcular o PIB médio para cada região em cada estado.

Para essa questão iremos utilizar o ultimo dataset disponibilizado. 

Precisamos converter os dados para trimestres e retornar os valores médios em um dataframe. Esse dataframe precisa ter as colunas com os trimestres (2000q1 ate 2016q3) e com multi-indice com os valores de estado e nome da regiao.

- `City_Zhvi_AllHomes.csv` um .csv contendo todas as casas no nível da cidade, e que possui preços médios de venda de casas em um nível refinado.

Vamos começar carregando-o e entendendo seus dados

De antemão podemos notar que a coluna estado possui apenas as siglas deles, mas como nos foi disponibilizado um dicionário para tal, podemos renomar essa coluna. 

Outro fator importante, é que devemos notar que não há uma coluna com os trimestres, mas há cada ano junto com mês. Devemos agrupá-los de 3 em 3.


Ok! Vamos corrigir os estados primeiramente, e já atribuir os índices.

---

Certo, já está! Mas vamos recordar que precisamos dos resultados apartir do ano 2000 certo? Vamos selecionar de 2000-01 até 2016-08.

Podemos utilizar um método para selecionar apenas as colunas que vamos utilizar, ```filter```.

Vamos criar uma lista com as colunas que queremos.

---

---

Certo, agora que temos apenas as colunas que utilizaremos, vamos agrupar os trimestres. Podemos criar um dicionário e renomear as colunas com método ````.rename````

---

---

Certo, já temos o que precisamos, agora só precisamos agrupar por trimestre e contar a média pra cada um.

---

In [11]:
def convert_housing_data_to_quarters():
    '''Converts the housing data to quarters and returns it as mean 
    values in a dataframe. This dataframe should be a dataframe with
    columns for 2000q1 through 2016q3, and should have a multi-index
    in the shape of ["State","RegionName"].
    
    Note: Quarters are defined in the assignment description, they are
    not arbitrary three month periods.
    
    The resulting dataframe should have 67 columns, and 10,730 rows.
    '''
    
    df_homes = pd.read_csv('City_Zhvi_AllHomes.csv')
    df_homes['State'].replace(states, inplace=True)
    df_homes.set_index(['State', 'RegionName'], inplace=True)
    
    cols = []
    for year in range (2000, 2016):
        for month in range(1, 13):
            if month < 10:
                smonth = '0' + str(month)
            else:
                smonth = str(month)
            q_string = str(year) +'-'+ smonth
            cols.append(q_string)

    # como 2016 vai até mes 8, vamos fazer o ultimo ano separado   
    year=2016
    for month in range(1, 9):
        smonth = '0'+str(month)
        q_string = str(year) +'-'+ smonth
        cols.append(q_string)
    
    df_homes = df_homes.filter(cols)
    dict_quarters = {}

    for year in range (2000, 2016):
        for month in range(1, 13):
            if month < 10:
                smonth = '0' + str(month)
            else:
                smonth = str(month)
                
            query_string = (str(year)+"-" + smonth)
            cols.append(query_string)
            if (month <= 3):            
                dict_quarters[query_string] = (str(year)+"q1")
            elif (month >= 4 and month <= 6):
                dict_quarters[query_string] = (str(year)+"q2")
            elif (month >= 7 and month <= 9):
                dict_quarters[query_string] = (str(year)+"q3")
            else:
                dict_quarters[query_string] = (str(year)+"q4")

        
    # como 2016 vai até mes 8, vamos fazer o ultimo ano separado      
    for month in range(1, 9):
        smonth = '0' + str(month)
        query_string = ("2016-" + smonth)
        cols.append(query_string)
        if (month <= 3):
            dict_quarters[query_string] = ("2016q1")
        elif (month >= 4 and month <= 6):
            dict_quarters[query_string] = ("2016q2")
        elif (month >= 7 and month <= 9):
            dict_quarters[query_string] = ("2016q3")
        else:
            dict_quarters[query_string] = ("2016q4")

    df_homes.rename(columns=dict_quarters, inplace=True)
    df_homes = df_homes.groupby(by=df_homes.columns, axis=1).mean().sort_index()
    
    return df_homes
convert_housing_data_to_quarters()

Unnamed: 0_level_0,Unnamed: 1_level_0,2000q1,2000q2,2000q3,2000q4,2001q1,2001q2,2001q3,2001q4,2002q1,2002q2,...,2014q2,2014q3,2014q4,2015q1,2015q2,2015q3,2015q4,2016q1,2016q2,2016q3
State,RegionName,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1
Alabama,Adamsville,69033.333333,69166.666667,69800.000000,71966.666667,73466.666667,74000.000000,73333.333333,73100.000000,73333.333333,73133.333333,...,77066.666667,75966.666667,71900.000000,71666.666667,73033.333333,73933.333333,73866.666667,74166.666667,74933.333333,74700.0
Alabama,Alabaster,122133.333333,123066.666667,123166.666667,123700.000000,123233.333333,125133.333333,127766.666667,127200.000000,127300.000000,128000.000000,...,147133.333333,147633.333333,148700.000000,148900.000000,149566.666667,150366.666667,151733.333333,153466.666667,155100.000000,155850.0
Alabama,Albertville,73966.666667,72600.000000,72833.333333,74200.000000,75900.000000,76000.000000,72066.666667,73566.666667,76533.333333,76366.666667,...,84033.333333,84766.666667,86800.000000,88466.666667,89500.000000,90233.333333,91366.666667,92000.000000,92466.666667,92200.0
Alabama,Arab,83766.666667,81566.666667,81333.333333,82966.666667,84200.000000,84533.333333,81666.666667,83900.000000,87266.666667,87700.000000,...,113366.666667,111700.000000,111600.000000,110166.666667,109433.333333,110900.000000,112233.333333,110033.333333,110100.000000,112000.0
Alabama,Ardmore,,,,,,,,,,,...,140533.333333,139566.666667,140900.000000,143233.333333,143000.000000,144600.000000,143966.666667,142566.666667,143233.333333,141950.0
Alabama,Axis,,,,,,,,,,,...,111066.666667,111833.333333,111800.000000,109533.333333,109666.666667,110033.333333,109600.000000,110266.666667,112200.000000,112750.0
Alabama,Baileyton,,,,,,,,,,,...,87666.666667,90033.333333,94100.000000,94600.000000,95666.666667,96833.333333,97233.333333,96766.666667,98900.000000,102200.0
Alabama,Bay Minette,81700.000000,78533.333333,79133.333333,81300.000000,85700.000000,87266.666667,85900.000000,85000.000000,84066.666667,84566.666667,...,113333.333333,110600.000000,109900.000000,111100.000000,114300.000000,118533.333333,121433.333333,120266.666667,118333.333333,118500.0
Alabama,Bayou La Batre,44066.666667,44500.000000,44266.666667,43666.666667,42500.000000,43333.333333,45433.333333,45400.000000,45400.000000,45566.666667,...,49800.000000,51000.000000,51766.666667,50733.333333,50500.000000,50133.333333,48933.333333,48566.666667,47833.333333,47400.0
Alabama,Bessemer,,,,,,,,,,,...,54600.000000,55333.333333,54733.333333,55200.000000,57200.000000,58633.333333,59433.333333,59766.666667,59866.666667,59800.0


# Questão 6: Tendência dos preços de alojamento.

Precisamos criar um dataframe que mostre o início do declinio ou crescimento dos preços das habitações correlatos com início da recessão e o menor pib da recessão.

Na sequência precisamos realizar o ttest para comparar a **relação** do preço médio das casas nas cidades univertárias antes do início da recessão com o final da recessão. ```price_ratio = quarter_before_recession / recession_bottom```.


Como descobrimos já descobrimos o ano e trimestre de inicio e término da recessão, podemos utilizar as respostas anteriores para criar o dataframe (```housing_df```) necessário para realizarmos o teste de hipótese.

Como o inicio da recessão foi 2008q3, `quarter_before_recession` = 2008q2.

Posteriormente, precisamos separar as cidades em universitárias e não-universitárias.

---

OK, agora que temos os dados, precisamos **separá-los** em cidades universitárias e não universitárias.

(Lembrando que cidade universitária é uma cidade que possui maior porcentagem de universitários comparada com a população da cidade)

Podemos realizar um _merge_ entre o dataframe ``housing_df`` (que possui a média dos preços de vendas de todas as cidades por semestre) com o ``unitowns_df`` (que possui apenas as cidades universitárias com o trimestre que antecede a recessão), o resultado, é um dataframe contendo apenas os dados de moradia de cidades universitárias.

Para termos acesso as cidades não universitárias, podemos simplesmente dropar de `housing_df`, todos os indices que se encontram em `unitowns_pib_df`. Na prática, estamos fazendo `housing_df - unitowns_pib_df`.

---

## Rodando o Teste T de Student

OK, finalmente chegamos ao _core_ do nosso dilema: se os preços médios das casas nas cidades universitárias dos EUA são menos afetados pelos períodos de recessão ou não? Para testar essa hipótese, executamos a função `ttest_ind()` do pacote de estatísticas do SciPy nos dois DataFrames extraídos acima (unitowns_pib_df e non_unitowns_pib_df).

Esta função calcula as médias de duas amostras independentes de pontuação. É um teste bilateral para a **hipótese nula** de que 2 amostras independentes têm valores médios (esperados) idênticos. Este teste pressupõe que as populações tenham variações idênticas por padrão.

Definimos o _p-value_ como 0,01, o que é estatisticamente significativo. _P-value_ é o nível de significância marginal dentro de um teste de hipótese estatística, representando a probabilidade da ocorrência de um determinado evento.

Assim, um valor p obtido menor que 0,01 nos inclinaria a **rejeitar a hipótese nula** e aceitar a hótese nula para um valor maior ou igual a 0,01.

se p > 0,1 = rejeitar
se p <= 0,1 = aceitar

In [10]:
def run_ttest():
    '''First creates new data showing the decline or growth of housing prices
    between the recession start and the recession bottom. Then runs a ttest
    comparing the university town values to the non-university towns values, 
    return whether the alternative hypothesis (that the two groups are the same)
    is true or not as well as the p-value of the confidence. 
    
    Return the tuple (different, p, better) where different=True if the t-test is
    True at a p<0.01 (we reject the null hypothesis), or different=False if 
    otherwise (we cannot reject the null hypothesis). The variable p should
    be equal to the exact p value returned from scipy.stats.ttest_ind(). The
    value for better should be either "university town" or "non-university town"
    depending on which has a lower mean price ratio (which is equivilent to a
    reduced market loss).'''
    
    unitowns_df = get_list_of_university_towns()
    unitowns_df = unitowns_df.set_index(['State', 'RegionName'])
    
    housing_df = convert_housing_data_to_quarters()

    start_recession = '2008q2'
    recession_botton = get_recession_bottom()

    housing_df[start_recession] = housing_df[start_recession]/housing_df[recession_botton]
    housing_df = housing_df['2008q2'].to_frame()
    housing_df = housing_df.dropna()
    
    unitowns_pib_df = housing_df.merge(unitowns_df, how='inner', left_index=True, right_index=True)
    
    non_unitowns_pib_df = housing_df.drop(unitowns_pib_df.index)
    
    _, p_val = ttest_ind(unitowns_pib_df.values, non_unitowns_pib_df.values)

    diff = True

    diff = True if p_val < 0.1 else False

    ans = True if unitowns_pib_df['2008q2'].mean() < non_unitowns_pib_df['2008q2'].mean() else False


    bett = 'university town' if ans else 'non-university town'
    
    return (diff, p_val[0], bett)

run_ttest()

(True, 0.002724063704761164, 'university town')

# Conclusão

Existe de fato uma diferença entre os preços médios de moradia dentre as cidades universitárias e não universitárias, as uni são consideradas melhores. 

O _p-vlaue_ obitido é  +- 0,003, arredondado para três casas decimais e é significativamente menor que 0,01. Portanto, a hipótese alternativa é aceita e está provado que os preços médios de moradia nas cidades universitárias são, de fato, menos afetados durante as recessões.