# Fluxo de turistas internacionais nas regiões Nordeste e Sul durante os meses de inverno e verão no período de 2013 até 2023

## Introdução 

O turismo é um ativo econômico muito importante para diversos lugares no Brasil e para a própria economia nacional. Para Balaguer e Cantavella-Jordá (2002), expandir o turismo internacional pode promover crescimentos econômicos duradouros. A industria de turismo gera trocas econômicas significativas, estimular investimos, criar trabalhos, e desta forma aumentar a renda da população (Brida, 2014). Compreender os fluxos de turistas internacionais durante as épocas do ano em diferentes regiões é de suma importância para o planejamento adiantado do direcionamento desses investimentos tanto públicos quanto privados na área de turismo. As amostras analisadas foram feitas pelo Ministério do Turismo e representa o fluxo de chegadas de turistas internacionais (incluem turistas estrangeiros e brasileiros que residem no exterior), desagregadas por país de residência permanente, por mês e via de acesso (aérea, terrestre, marítima ou fluvial) no Brasil durante os anos de 2013 até 2023. O objetivo do seguinte trabalho é fazer uma análise exploratória da chegada desses turistas nas regiões Sul e Nordeste, utilizando gráficos, métricas estatísticas e referencias bibliográficas, além desenvolver ideias iniciais acerca do aumento do fluxo de turistas internacionais nessas regiões nos meses de inverno e verão, considerando as estações no Brasil, por meio de ferramentas de estatística inferencial como testes de hipótese, utilizando o método bootstrap. Por fim, será possível chegar a conclusões mais precisas acerca de quais características podem ser mais importantes no aumento ou decrescimento no número de turistas em cada região, fornecendo idéias para projetos futuros.

## Importação das bibliotecas 

In [74]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from scipy.stats import shapiro
from scipy import stats
from sklearn.utils import resample

## Carregando as bases de dados do Ministério do Turismo 

Como as bases de dados são disponibilizados separadamente por ano é preciso fazer a junção delas. As váriaveis de código não vão ser utilizadas e tanto o ano de 2023 quanto os anos anteriores a 2016 utilizam uma padronização diferente nos nomes das váriaveis.

In [75]:
#Foi preferido fazer uma função para junção dos bancos, pois caso seja necessário adicionar mais bancos de outros anos isso
#já vai ser feito de forma automática
def concatDB(anos):
    df = pd.read_csv("chegadas_2023.csv", encoding="ANSI", delimiter=";")
    df.drop(columns=['cod pais', 'cod continente', 'cod uf', 'cod via', 'cod mes'], inplace=True)
    
    for ano in anos:
        nome_arq = f"chegadas_{ano}.csv"
        df_concat = pd.read_csv(nome_arq, encoding="ANSI", delimiter=";")
        df_concat.rename(columns={"País": "Pais", "Mês": "Mes", "ano": "Ano"}, inplace=True)
        if ano < 2016:
            df_concat.drop(columns=["Ordem continente", "Ordem país", "Ordem UF", "Ordem via de acesso", "Ordem mês"], inplace=True)
            df_concat.rename(columns={"Via de acesso": "Via"}, inplace=True)
        else:
            df_concat.drop(columns=['cod pais', 'cod continente', 'cod uf', 'cod via', 'cod mes'], inplace=True)
        
        df_concat['Via'] = df_concat['Via'].str.replace("Marítima", "Marítimo")
        df_concat['Via'] = df_concat['Via'].str.replace("Aérea", "Aéreo")
        df_concat['Mes'] = df_concat['Mes'].str.capitalize()
        df_concat['Mes'] = df_concat['Mes'].str.replace("Março", "Marco")
        df = pd.concat([df, df_concat])
    return df

In [76]:
anos = [2022, 2021, 2020, 2019, 2018, 2017, 2016, 2015, 2014, 2013]
df = concatDB(anos)
#O index permanece o mesmo após a junção, por isso é preciso reseta-lo
df = df.reset_index(drop=True)
df

## Análise da base de dados concatenada

In [77]:
df.shape

In [78]:
df.info()

Verificando se existe valores ausentes

In [79]:
df.isnull().sum()

In [80]:
df['Chegadas'] = df['Chegadas'].fillna(0) 

In [81]:
df.isnull().values.any()

In [82]:
df['Via'].unique()

In [83]:
df['Continente'].unique()

In [84]:
df['UF'].unique()

Alguns estados não estão incluídos, na região Nordeste, por exemplo, estão faltando 5 estados. Não foi encontrado nada oficial, mas possivelmente foi por conta do tipo de amostragem.

In [85]:
df['Mes'].unique()

In [86]:
#É preciso mudar o tipo das váriaveis 
df.dtypes

Mudando os tipos de váriaveis

In [87]:
df['Continente'] = df['Continente'].astype('category')
df['Pais'] = df['Pais'].astype('category')
df['Via'] = df['Via'].astype('category')
df['Ano'] = df['Ano'].astype('int')
df['Mes'] = df['Mes'].astype('category')
df['UF'] = df['UF'].astype('string')

In [88]:
df.dtypes

## Filtrando a base dados para as regiões Sul e Nordeste

Relembrando que na região Nordeste os estados de Alagoas, Maranhão, Paraíba, Sergipe e Piauí não estão especificados.

In [89]:
estados_nordeste = ["Bahia", "Ceará", "Pernambuco", "Rio Grande do Norte"]
estados_sul = ["Paraná", "Santa Catarina", "Rio Grande do Sul"]

In [90]:
df_nordeste = df[df['UF'].isin(estados_nordeste)]
df_nordeste = df_nordeste.reset_index(drop=True)
df_nordeste

In [91]:
df_sul = df[df['UF'].isin(estados_sul)]
df_sul = df_sul.reset_index(drop=True)
df_sul

## Análise exploratória dos dados na região Nordeste

Análise das váriaveis considerando o período de 2013 a 2023

Importante destacar que algumas teses propostas por essas análises precisariam de testes de inferência para maior embasamento, já que se trata de uma amostragem. 

In [92]:
df_nordeste['UF'].value_counts()

In [93]:
fluxo_tur = df_nordeste.groupby("UF")['Chegadas'].sum()
fluxo_tur.plot(kind = 'bar', figsize=(12,5))
plt.title("Frequência de pessoas por UF")  

A frequência de turistas parece ter alguma ligação com a população de cada estado. Utilizando o teste de correlação é obtido o seguinte resultado:

In [94]:
pop = pd.Series([14.141, 9.2, 9.5, 3.446], index=['Bahia', 'Ceará', 'Pernambuco', "Rio Grande do Norte"])
df_pop_tur = pd.DataFrame({"População": pop, "Turistas": fluxo_tur})
corr = df_pop_tur.corr()
corr.style.background_gradient()

0.99 indica uma correlação proporcional forte das duas váriaveis, ou seja, a quantidade turistas é diretamente proporcional a população nesses estados. Fazer essa correlação com todos os estados do Brasil presentes na amostra seria interessante em incrementos futuros.

In [95]:
df_nordeste.groupby("Via", observed=True)['Chegadas'].sum().plot(kind = 'bar', figsize=(12,5))
plt.title("Frequência de pessoas por Via")  

Não existe registros de turistas internacionais utilizando a via fluvial ou terreste, isso deve ao fato de que a região Nordeste não faz divisa com nenhum outro país o que impede a utilização dessas vias. 

In [96]:
df_nordeste.groupby("Ano", observed=True)['Chegadas'].sum().plot(kind = 'bar', figsize=(12,5))
plt.title("Frequência de pessoas por Ano")  

A frequência de turistas internacionais entre os anos de 2020 e 2022 diminuiu drasticamente por conta da pandemia e atualmente teve uma recuperação mais lenta quando comparada com a região Sul. De acordo com ROGERSON (2020, p.6), no momento pós pandemia, o turismo doméstico, caracterizado como viagens mais próximas e locais, levando em conta a proximidade geografica e cultural, acabou se tornando mais preferido. Uma das razões para esse comportamento é a ameaça de doenças, essas ameaças despertam atitudes mais "coletivistas" o que se aplica também a área de turismo. Como já observado, a região Nordeste não tem fronteira com outros países da America do Sul, o tornando menos atrativo para esses visitantes domésticos. Essa situação se agrava quando consideramos viagens internacionais em longas distâncias, pois essas viagens correspondem ao perfil da maioria dos turistas europeus. Eles representam uma parte significativa dos turistas internacionais do Nordeste, afetando consideravelmente a quantidade de turistas no período pós pandemia. 

In [97]:
df_nordeste.groupby("Pais", observed=True)['Chegadas'].sum().sort_values(ascending=False).head(15).plot(kind = 'bar', figsize=(12,5))
plt.title("Frequência de pessoas por País") 

In [98]:
df_nordeste.groupby("Continente", observed=True)['Chegadas'].sum().sort_values(ascending=False).head(15).plot(kind = 'bar', figsize=(12,5))
plt.title("Frequência de pessoas por Continente") 

A maior parte dos turistas da América do Sul vem da Argentina. A quantidade de turistas de outros países desse continente é bem baixo, o que reforça menor atratividade de turistas que a região Nordeste tem com os países vizinhos, principalmente quando comparado com a região Sul,.

In [99]:
df_nordeste_2023 = df_nordeste[df_nordeste['Ano'] == 2023]
ordem_meses = [
    "Janeiro", "Fevereiro", "Marco", "Abril", "Maio", "Junho",
    "Julho", "Agosto", "Setembro", "Outubro", "Novembro", "Dezembro"
]
quant_mes = df_nordeste_2023.groupby("Mes", observed=True)['Chegadas'].sum()
#Orderna os index da serie com base no vetor ordem_MESES
quant_mes.index = pd.CategoricalIndex(quant_mes.index, categories=ordem_meses, ordered=True)
quant_mes = quant_mes.sort_index()

quant_mes.plot(kind = 'bar', figsize=(12,5))
plt.title("Frequência de pessoas por Mês em 2023") 

Existe um grande fluxo de turistas no verão e no inverno, porém no verão o fluxo vai diminuindo ao decorrer dos meses e no inverno o processo é inverso. Os europeus que compõem boa parte dos turistas em ambas as estações, como vemos nos gráficos abaixo, tem férias mais longas no inverno do Brasil o que poder ser um dos fatores que explica esse fenômeno. Obviamente, existem outros perfis importantes de turistas, como os Argentinos, que tem comportamentos gerais mais distintos.

In [100]:
meses_verao = ["Dezembro", "Janeiro", "Fevereiro"]
df_nordeste_2023_ver = df_nordeste_2023[df_nordeste_2023['Mes'].isin(meses_verao)]
df_nordeste_2023_ver.groupby("Continente", observed=True)['Chegadas'].sum().sort_values(ascending=False).head(10).plot(kind = "bar", figsize=(12,5))
plt.title("Frequência de pessoas por continente em 2023 nos meses de verão")

In [101]:
meses_inverno = ["Junho", "Julho", "Agosto"]
df_nordeste_2023_inv = df_nordeste_2023[df_nordeste_2023['Mes'].isin(meses_inverno)]
df_nordeste_2023_inv.groupby("Continente", observed=True)['Chegadas'].sum().sort_values(ascending=False).head(10).plot(kind = "bar", figsize=(12,5))
plt.title("Frequência de pessoas por continente em 2023 nos meses de inverno")

In [102]:
porct_mensal = quant_mes.pct_change() * 100
porct_mensal.plot(figsize=(12,5))
plt.title("Crescimento de turistas na região Nordeste em 2023")

In [103]:
porct_mensal.plot(kind="bar", figsize=(12,5))
plt.title("Crescimento de turistas na região Nordeste em 2023")

O crescimento nos meses de inverno nesse ano parece ser muitor maior comparado com os meses de verão sem considerar Janeiro. A partir da média de crescimento dessas estações considerando o período de 2013 até 2023 será possível obter uma análise mais precisa.

O objetivo agora é criar uma matriz em que cada vetor representa um mês. Desta forma, será possível especificar os crescimentos nos meses de verão e inverno

In [104]:
sum_meses = np.zeros((12, 10))
i = 0
dezembro = None
for ano in anos:
    df_nordeste_ano = df_nordeste[df_nordeste['Ano'] == ano]
    quant_mes = df_nordeste_ano.groupby("Mes", observed=True)['Chegadas'].sum()
    quant_mes.index = pd.CategoricalIndex(quant_mes.index, categories=ordem_meses, ordered=True)
    quant_mes = quant_mes.sort_index()
    pct_mes = quant_mes.pct_change()
    j = 0
    for mes in pct_mes:
        #Caso seja janeiro é necessário atribuir o crescimento manualmente
        if (j == 0):
            #Se for o primeiro registro, ou seja, Janeiro de 2013 
            if (dezembro is None):
                j += 1
                continue
            crs_jan = ((quant_mes["Janeiro"] - dezembro) / dezembro)
            sum_meses[j][i] = crs_jan
            j += 1
            continue
        sum_meses[j][i] = mes
        if (j == 11):
            dezembro = quant_mes["Dezembro"]
        j += 1
    i += 1
sum_meses

Para calcular a média de crescimento, a média geometrica será mais adequada, já que considera as variações percentuais, incluindo períodos de crescimento e decrescimento.

In [105]:
#O número 1 é o fator multiplicativo que serve para evitar que os valores sejam negativos, pois a média geométrica só aceita
#números positivos
dezembro = 1 + sum_meses[11]
janeiro = 1 + sum_meses[0]
fevereiro = 1 + sum_meses[1]
produto_tot = dezembro.prod() * janeiro.prod() * fevereiro.prod()
media_geometrica = produto_tot ** (1 / 30)
media_crescimento = (media_geometrica - 1) * 100
media_crescimento

A média de crescimento de turistas internacionais nos meses de verão na região Nordeste é de aproximadamente -5.75%

In [106]:
junho = 1 + sum_meses[5]
julho = 1 + sum_meses[6]
agosto = 1 + sum_meses[7]
produto_tot = junho.prod() * julho.prod() * agosto.prod()
media_geometrica = produto_tot ** (1 / 30)
media_crescimento = (media_geometrica - 1) * 100
media_crescimento

A média de crescimento de turistas internacionais nos meses de inverno na região Nordeste é de aproximadamente 48.64%

De fato a média de crescimento na estação do verão é muito menor em comparação com o inverno.

Abaixo foi utilizado a abordagem de logaritmos que será útil quando os testes de hipotese forem aplicados

In [107]:
#O np.log transforma em logaritimos naturais
log_nord_verao = np.concatenate((np.log(dezembro), np.log(janeiro), np.log(fevereiro)))
media_aritmetica = np.mean(log_nord_verao)
valor_log = np.exp(media_aritmetica)
media_geometrica = valor_log - 1
media_geometrica * 100

Portanto, a média aritmética dos dados transformados em log é correspondente ao log da média geometrica dos dados originais

In [108]:
#Guardando os dados transformados em log para o teste de hipótese
log_nord_inverno = np.concatenate((np.log(junho), np.log(julho), np.log(agosto)))

## Análise exploratória dos dados na região Sul

In [109]:
df_sul['UF'].value_counts()

In [110]:
fluxo_tur = df_sul.groupby("UF")['Chegadas'].sum()
fluxo_tur.plot(kind = 'bar', figsize=(12,5))
plt.title("Frequência de pessoas por UF")  

In [111]:
df_sul.groupby("Via", observed=True)['Chegadas'].sum().plot(kind = 'bar', figsize=(12,5))
plt.title("Frequência de pessoas por Via")

Em comparação com a região Nordeste, a região Sul possui uma variedade maior de vias.

In [112]:
df_sul.groupby("Ano", observed=True)['Chegadas'].sum().plot(kind = 'bar', figsize=(12,5))
plt.title("Frequência de pessoas por Ano")  

Nota-se que houve uma queda considerável no periodo da pandemia de COVID assim como na região Nordeste, porém a recuperação do
número de turistas em 2023 é maior quando comparado com o mesmo ano no Nordeste. O fato da maioria dos turistas internacionais
estarem em países vizinhos, como é possível ver nos gráficos abaixo, pode ter uma grande contribuição nesse fenômeno, já que 
atrela a percepção desses turistas acerca dos estados do Sul com viagens domésticas. 

In [113]:
df_sul.groupby("Pais", observed=True)['Chegadas'].sum().sort_values(ascending=False).head(15).plot(kind = 'bar', figsize=(12,5))
plt.title("Frequência de pessoas por País") 

In [114]:
df_sul.groupby("Continente", observed=True)['Chegadas'].sum().sort_values(ascending=False).head(15).plot(kind = 'bar', figsize=(12,5))
plt.title("Frequência de pessoas por Continente") 

In [115]:
df_sul_2023 = df_sul[df_sul['Ano'] == 2023]
ordem_meses = [
    "Janeiro", "Fevereiro", "Marco", "Abril", "Maio", "Junho",
    "Julho", "Agosto", "Setembro", "Outubro", "Novembro", "Dezembro"
]
quant_mes = df_sul_2023.groupby("Mes", observed=True)['Chegadas'].sum()
#Orderna os index da serie com base no vetor ordem_MESES
quant_mes.index = pd.CategoricalIndex(quant_mes.index, categories=ordem_meses, ordered=True)
quant_mes = quant_mes.sort_index()

quant_mes.plot(kind = 'bar', figsize=(12,5))
plt.title("Frequência de pessoas por Mês em 2023") 

Os meses de verão tem um grande fluxo de turistas, diferente dos meses de inverno. Como a maior parte dos turistas são da América do Sul e normalmente as férias mais longas são no verão, isso possívelmente representa alguma relação. 

In [116]:
df_sul_2023_inv = df_sul_2023[df_sul_2023['Mes'].isin(meses_inverno)]
df_sul_2023_inv.groupby("Continente", observed=True)['Chegadas'].sum().sort_values(ascending=False).head(10).plot(kind = "bar", figsize=(12,5))
plt.title("Frequência de pessoas por continente em 2023 nos meses de inverno")

In [117]:
df_sul_2023_ver = df_sul_2023[df_sul_2023['Mes'].isin(meses_verao)]
df_sul_2023_ver.groupby("Continente", observed=True)['Chegadas'].sum().sort_values(ascending=False).head(10).plot(kind = "bar", figsize=(12,5))
plt.title("Frequência de pessoas por continente em 2023 nos meses de verão")

In [118]:
df_sul_2019 = df_sul[df_sul['Ano'] == 2019]
ordem_meses = [
    "Janeiro", "Fevereiro", "Marco", "Abril", "Maio", "Junho",
    "Julho", "Agosto", "Setembro", "Outubro", "Novembro", "Dezembro"
]
quant_mes = df_sul_2019.groupby("Mes", observed=True)['Chegadas'].sum()
#Orderna os index da serie com base no vetor ordem_MESES
quant_mes.index = pd.CategoricalIndex(quant_mes.index, categories=ordem_meses, ordered=True)
quant_mes = quant_mes.sort_index()

quant_mes.plot(kind = 'bar', figsize=(12,5))
plt.title("Frequência de pessoas por Mês em 2019")

In [119]:
df_sul_2019_inv = df_sul_2019[df_sul_2019['Mes'].isin(meses_inverno)]
df_sul_2019_inv.groupby("Continente", observed=True)['Chegadas'].sum().sort_values(ascending=False).head(10).plot(kind = "bar", figsize=(12,5))
plt.title("Frequência de pessoas por continente em 2019 nos meses de inverno")

In [120]:
df_sul_2019_ver = df_sul_2019[df_sul_2019['Mes'].isin(meses_verao)]
df_sul_2019_ver.groupby("Continente", observed=True)['Chegadas'].sum().sort_values(ascending=False).head(10).plot(kind = "bar", figsize=(12,5))
plt.title("Frequência de pessoas por continente em 2019 nos meses de verão")

Comparando os anos de 2023 e 2019, observamos que os fluxos de turistas nos meses de inverno é maior ao mesmo tempo que o número de europeus também é maior. Esses fatos reforçam tanto a tese da preferência pelo turismo doméstico pós pandemia tanto quanto a relação do fluxo de turismo com os períodos de férias mais longos.

In [121]:
porct_mensal = quant_mes.pct_change() * 100
porct_mensal.plot(figsize=(12,5))
plt.title("Crescimento de turistas na região Sul em 2023")

In [122]:
porct_mensal.plot(kind="bar", figsize=(12,5))
plt.title("Crescimento de turistas na região Sul em 2023")

Diferentemente da região Nordeste o crescimento nos meses de inverno nesse ano parece ser muitor menor comparado com os meses 
de verão sem considerar Janeiro. 

O mesmo processo feito na análise da região Nordeste será feito para calcular as porcentagens de crescimento:

In [123]:
sum_meses = np.zeros((12, 10))
i = 0
dezembro = None
for ano in anos:
    df_sul_ano = df_sul[df_sul['Ano'] == ano]
    quant_mes = df_sul_ano.groupby("Mes", observed=True)['Chegadas'].sum()
    quant_mes.index = pd.CategoricalIndex(quant_mes.index, categories=ordem_meses, ordered=True)
    quant_mes = quant_mes.sort_index()
    pct_mes = quant_mes.pct_change()
    j = 0
    for mes in pct_mes:
        #Caso seja janeiro é necessário atribuir o crescimento manualmente
        if (j == 0):
            #Se for o primeiro registro, ou seja, Janeiro de 2013 
            if (dezembro is None):
                j += 1
                continue
            crs_jan = ((quant_mes["Janeiro"] - dezembro) / dezembro)
            sum_meses[j][i] = crs_jan
            j += 1
            continue
        sum_meses[j][i] = mes
        if (j == 11):
            dezembro = quant_mes["Dezembro"]
        j += 1
    i += 1
sum_meses

In [124]:
dezembro_sul = 1 + sum_meses[11]
janeiro_sul = 1 + sum_meses[0]
fevereiro_sul = 1 + sum_meses[1]
produto_tot = dezembro_sul.prod() * janeiro_sul.prod() * fevereiro_sul.prod()
media_geometrica = produto_tot ** (1 / 30)
media_crescimento = (media_geometrica - 1) * 100
media_crescimento

A média de crescimento de turistas internacionais nos meses de verão na região Nordeste é de aproximadamente 45.26%

In [125]:
junho_sul = 1 + sum_meses[5]
julho_sul = 1 + sum_meses[6]
agosto_sul = 1 + sum_meses[7]
produto_tot = junho_sul.prod() * julho_sul.prod() * agosto_sul.prod()
media_geometrica = produto_tot ** (1 / 30)
media_crescimento = (media_geometrica - 1) * 100
media_crescimento

A média de crescimento de turistas internacionais nos meses de inverno na região Nordeste é de aproximadamente 2.98%

In [126]:
log_sul_inverno = np.concatenate((np.log(junho_sul), np.log(julho_sul), np.log(agosto_sul)))
log_sul_verao = np.concatenate((np.log(dezembro_sul), np.log(janeiro_sul), np.log(fevereiro_sul)))

## Testes de hipótese 

Os testes utilizados serão para a diferença de médias de duas amostras independentes. Ambas as hipóteses utilizaram o método bootstrap.

### Definição bootstrap

Bootstrap é um metodo feito para estimar a distribuição de um estimador ou teste estatístico  através da reamostragem dos dados. Ele tratam os dados partindo do princípio de que eles vinheram da mesma população, com o proposito de avaliar a distribuição de interesse. Sobre condições normais e regulares, o bootstrap calcula uma aproximação para a distribuição de um estimador ou teste estatístico. O número de reamostragens possíveis com uma amostra de tamanho é $n$ é dado por $n^n$, como a reamostragem é feito com substituição, apenas parte dessas amostras serão únicas, o que é dado por $\begin{pmatrix}
2n - 1\\
n
\end{pmatrix}$. Desta forma, como $n^n$ é uma quantidade muito grande mesmo para computadores com poder de computação considerável, o método Monte Carlo é utilizado, esse método calcula um estimador para a distribuição bootstrap a partir de parte dessa reamostragem. Por exemplo, caso o objetivo fosse estimar uma função de distribuição acumulada teriamos:

$$\overline F(t) \implies \hat F_n(t) \implies F_n(t)$$

$\overline F(t)$ é o estimador Monte Carlo, $\hat F_n(t)$ é o estimador bootstrap e $F_n(t)$ a distribuição de interesse. Outro conceito importante é o de convergência uniforme que é o cálculo de quão proximo a função do estimador está da função da distribuição de interesse. Para $\overline F(t) \implies \hat F_n(t)$, $B$ (número de reamostragens) precisar ser grande o suficiente para a convergência uniforme. Já para $\hat F_n(t) \implies F_n(t)$ é necessário converter as distribuições em distribuições limites $L$ que medem o comportamento assintótico (o que acontece com os objetos estatísticos quando aumentamos o tamanho). Assim, quando $\hat F_n(t)$ e $\implies F_n(t)$ tem seu número de elementos grandes o suficiente, teremos $\hat L \implies L$. Esses limites frequentemente vem de distribuições normais, ou seja, se o parâmetro de ambas as distribuições convergirem, então os limites também irão ter a convergência uniforme. Isso é a mesma coisa de dizer que os limites convergem quando o número de elementos é grande o suficiente. Por fim, se $\hat L \implies L$ converge, teremos a mesma situação para $\hat F_n(t) \implies F_n(t)$.

### Teste de hipótese para os meses de verão

O primeiro teste será das médias de crescimento em log das duas regiões nos meses de verão.

**Hipótese:**
$$
H_0: \mu_N = \mu_S \\
H_\alpha: \mu_N > \mu_S\\
$$
Em que $\mu_N$ é a média populacional da região Nordeste e $\mu_S$ é a da região Sul.

**Coleta de dados:**

In [127]:
media_nord = np.mean(log_nord_verao)
media_nord

In [128]:
desvio_nord = np.std(log_nord_verao)
desvio_nord

In [129]:
media_sul = np.mean(log_sul_verao)
media_sul

In [130]:
desvio_sul = np.std(log_sul_verao)
desvio_sul

**Normalidade dos dados:**

O teste que será utilizado é o de Shapiro Wilk. Para $p-value$ < $\alpha$ a hipótese nula é rejeitada e, portanto, a amostra não segue uma distribuição normal.

In [131]:
#Considerando que o nível de significância é de 5%
alpha = 0.05
estatistica, p_valor = shapiro(log_nord_verao)
p_valor

In [132]:
estatistica, p_valor = shapiro(log_sul_verao)
p_valor

In [133]:
plt.hist(log_nord_verao, bins=50, edgecolor='black')

In [134]:
plt.hist(log_sul_verao, bins=50, edgecolor='black')

De acordo com o teste de Shapiro-Wilk e considerando o nível de significância de 0.05, a distribuição de crescimentos em log na região Nordeste não segue uma distribuição normal. Desta forma será utilizado o método bootstrap que não precede de nenhuma distribuição nos dados.

**Critério de decisão:**

Se $\overline x_N$ for significamente maior que $\overline x_S$, $H_0$ será rejeitada. Ou seja, se a probabilidade de observar valores maiores que $\overline x_N - \overline x_S$ é suficientemente baixa (0.05 ou menos), $H_0$ vai ser rejeitada.

**Teste bootstrap:**

In [135]:
diferenca_observada = media_nord - media_sul

def bootstrap(amostra_1, amostra_2, n_repeticoes):
    count = 0
    n_1 = len(amostra_1)
    n_2 = len(amostra_2)
    amostra_concat = np.concatenate((amostra_1, amostra_2))
    diferencas_bootstrap = []

    for _ in range(n_repeticoes):
        amostra_1_bootstrap = np.random.choice(amostra_concat, size=n_1, replace=True)
        amostra_2_bootstrap = np.random.choice(amostra_concat, size=n_2, replace=True)
        diferenca_bootstrap = np.mean(amostra_1_bootstrap) - np.mean(amostra_2_bootstrap)
        diferencas_bootstrap.append(diferenca_bootstrap)
        #Valores mais extremos que a diferença observada
        if (diferenca_bootstrap >= diferenca_observada):
            count += 1

    return np.array(diferencas_bootstrap), count


n_repeticoes = 1000
diferencas_bootstrap, count = bootstrap(log_nord_verao, log_sul_verao, n_repeticoes)

p_valor = count / n_repeticoes

print(f"Diferença observada: {diferenca_observada}")
print(f"P-valor (unilateral): {p_valor}")

if p_valor < alpha:
    print("Rejeite H0.")
else:
    print("Não rejeite H0.")

**Interpretação:**

Já que o $p-valor > \alpha$ é possível concluir que a média de crescimento geometrico no Nordeste não é significamente maior que a da região Sul, pois se a média aritmética dos dados transformados em log é maior em uma amostra, então a média geometrica também é maior.

**Invertendo a ordem da hipótese alternativa, ou seja:**

$$
H_0: \mu_S = \mu_N \\
H_\alpha: \mu_S > \mu_N\\
$$

In [136]:
n_repeticoes = 1000
diferenca_observada = media_sul - media_nord
diferencas_bootstrap, count = bootstrap(log_sul_verao, log_nord_verao, n_repeticoes)

p_valor = count / n_repeticoes

print(f"Diferença observada: {diferenca_observada}")
print(f"P-valor (unilateral): {p_valor}")

if p_valor < alpha:
    print("Rejeite H0.")
else:
    print("Não rejeite H0.")

Desta forma, a média de crescimento geométrico da região Sul nos meses de verão é significamente maior que a da região Nordeste.

### Teste de hipótese para os meses de inverno

O segundo teste será das médias de crescimento em log das duas regiões nos meses de inverno.

**Hipótese:**
$$
H_0: \mu_S = \mu_N \\
H_\alpha: \mu_S > \mu_N\\
$$

**Colete de dados:**

In [137]:
media_nord = np.mean(log_nord_inverno)
media_nord

In [138]:
desvio_nord = np.std(log_nord_inverno)
desvio_nord

In [139]:
media_sul = np.mean(log_sul_inverno)
media_sul

In [140]:
desvio_sul = np.std(log_sul_inverno)
desvio_sul

**Normalidade dos dados:**

In [141]:
estatistica, p_valor = shapiro(log_nord_inverno)
p_valor

In [142]:
estatistica, p_valor = shapiro(log_sul_inverno)
p_valor

In [143]:
plt.hist(log_nord_inverno, bins=50, edgecolor='black')

In [144]:
plt.hist(log_sul_inverno, bins=50, edgecolor='black')

A distribuição de crescimentos em log na região Nordeste não segue uma distribuição normal. Portanto,  o método bootstrap neste caso também será utilizado como teste.

**Critério de decisão:**

O mesmo do teste de hipótese anterior.

**Teste de hipótese:**

In [145]:
n_repeticoes = 1000
diferenca_observada = media_sul - media_nord
diferencas_bootstrap, count = bootstrap(log_sul_inverno, log_nord_inverno, n_repeticoes)

p_valor = count / n_repeticoes

print(f"Diferença observada: {diferenca_observada}")
print(f"P-valor (unilateral): {p_valor}")

if p_valor < alpha:
    print("Rejeite H0.")
else:
    print("Não rejeite H0.")

**Interpretação:** 

Já que o $p-valor > \alpha$ é possível concluir que a média de crescimento geometrico no Sul não é significamente maior que a da região Nordeste.

**Para a Hipótese considerando a mesma época:**
$$
H_0: \mu_N = \mu_S \\
H_\alpha: \mu_N > \mu_S\\
$$

**Tem-se que:**

In [146]:
n_repeticoes = 1000
diferenca_observada = media_nord - media_sul
diferencas_bootstrap, count = bootstrap(log_nord_inverno, log_sul_inverno, n_repeticoes)

p_valor = count / n_repeticoes

print(f"Diferença observada: {diferenca_observada}")
print(f"P-valor (unilateral): {p_valor}")

if p_valor < alpha:
    print("Rejeite H0.")
else:
    print("Não rejeite H0.")

Ou seja, a média de crescimento geométrico da região Nordeste nos meses de inverno é significamente maior que a da região Sul.

## Conclusão

A partir desse  podemos concluir que a relação entre as estações e os crescimentos de turistas nas regiões é considerável. Nos meses de verão, o fluxo de turismo em ambas as regiões é alto, porém o crescimento nesses meses na região Sul é crescente, enquanto na região Nordeste é decrescente. Ademais, a diferença entre as médias de crescimento é significativamente maior para o Sul, como foi possível observar nos testes de hipótese. Nos meses de inverno, o fenômeno inverso acontece, existe um crescimento crescente na região Nordeste e decrescente no Sul, já a diferença das médias é significativamente maior para o Nordeste. Alguns fatores destacados durante a análise exploratória que podem explicar esse fenômeno: localidade de onde a maioria dos turistas vinheram, qual a época do ano em que ocorre as férias mais prolongadas para esses turistas e mudança nos perfis desses visitantes pós pandemia. A partir desses fatores, pesquisas mais aprofundadas, utilizando estatística inferêncial e outras bases de dados disponibilizadas pelo Ministério do Turismo, poderiam ser feitas para válidar ou inválidar essas teses e, desta forma, melhorar a compreensão acerca do fluxo de turistas nessas regiões durante os meses de inverno e verão.

## Referências 

Saputra, P. M. A. (2023). COVID-19 and tourism industry: An investigation of spatial dependence in Europe. Cogent Social Sciences, 9(2).

Brida, J. G., Cortes-Jimenez, I., & Pulina, M. (2014). Has the tourism-led growth hypothesis been validated? A literature review.

Balaguer, J., & Cantavella-Jordá, M. (2002). Tourism as a long-run economic growth factor: The Spanish case. Applied Economics, 877–884.

ROGERSON, Christian M.; ROGERSON, Jayne M. COVID-19 and changing tourism demand: Research review and policy implications for South Africa. **African Journal of Hospitality, Tourism and Leisure**, v. 10, n. 1, p. 1-21, 2021.

Tsun, A. "Probability & statistics with applications to computing." (2020).

https://www.datacamp.com/pt/tutorial/geometric-mean

Horowitz, Joel L. "The bootstrap." Handbook of econometrics. Vol. 5. Elsevier, 2001. 3159-3228.