# Instituto de Ciências Matemática e de Computação (ICMC-USP)
# Disciplina: SME0221 - Introdução a Inferência Estatística     
$ \ $
##  $ \quad\quad\quad $  **Trabalho: Estudo sobre Infecções por Sífilis no Brasil**  
$ \ $
$ \ $
###   Profa. Cibele Russo         
$ \ $

###  Grupo: 
*   Anderson B. da S. Lavinscky - 9045195
*   Caio Assumpção Rezzadori - 11810481
*   Leandro Marcelino - 5716421
*   Nicolas da Rocha Brito - 11809412

# Estudo sobre infecções de sífilis no Brasil
\\
A sífilis é uma doença classificada em estágios. A primária ocorre assim que há a infecção pela bactéria Treponema pallidum, causadora da doença; com feridas indolores no local de infecção (região genital), que desaparecem em cerca de até 10 dias, mesmo sem tratamento (a bactéria torna-se inativa no organismo). A secundária acontece cerca de duas a oito semanas após as primeiras feridas se formarem. Aproximadamente 33% daqueles que não trataram a sífilis primária desenvolvem o segundo estágio; podem apresentar vermelhidão pelo corpo, coceira, aparecimento de íngua nas axilas e pescoço, além de outros sintomas que também geralmente desaparecem sem tratamento e, mais uma vez, a bactéria fica inativa no organismo. E a terciária, que é a mais difícil de ser detectada, pois têm sintomas em grandes vasos (como a aorta), cérebro, olhos, coração, podendo causar dor de cabeça, epilepsia, e é um diagnóstico um pouco mais complicado.

\\
Este nosso estudo foi realizado com base no gênero e regiões do Brasil dentre os anos de 2011 a 2021. Sendo assim, foram efetuados dois tipos de teste nesta análise:

  1. Comparação de taxas médias de infecções entre as regiões, com as seguintes considerações para independência das regiões:
- influência de indivíduos de uma região na infecção de indivíduos de outra região será desconsiderada;
- notificação de um indivíduo que está provisoriamente em uma região, porém vive em outra região não é mensurada e será também ignorada.
			
			
  2. Comparação de médias de casos por gênero em cada região e para o Brasil
- as populações de cada gênero foram consideradas iguais, além de não se considerar variação nas populações ao longo dos anos.
- as infecções entre gêneros estão relacionadas, visto que a forma de transmissão mais comum da sífilis é via relação sexual. Mas as populações de cada gênero podem ser consideradas independentes, porque mesmo que um indivíduo de um gênero possa infectar vários indivíduos de outro gênero, ainda assim, a análise é feita unicamente sobre os números de casos de cada gênero, não importando a forma de infecção e quem infectou quem. Outro ponto é que a distinção biológica entre os gênero tende a ser marcante e é mais um fator que nos leva a assumir independência entre essas populações.
	
__OBS.:__ Não foi considerado o efeito do tempo nas comparações de médias e de distribuições, ou seja, os anos serão como "rótulos das amostras".

As amostras de cada ano dentro de uma região foram consideradas independentes tendo as seguintes ponderações:
- um mesmo indivíduo pode ter infecção notificada em vários anos distintos ou até mesmo mais de uma notificação de infecção no mesmo ano. Mas nestes casos, assume-se que o indivíduo possua prontuário médico e uma reinfecção só será notificada caso conste no prontuário a cura da primeira infecção.
Assim, conclui-se que os casos de reinfecção devem ser contabilizados porque se espera que uma reinfecção seja precedida de uma cura após a primeira infecção. Isto pode implicar em fortes indícios de que a infecção e a reinfecção devem ocorrer em eventos distintos. Sendo assim, o foco principal desta análise é o número total de casos ou as taxas de infecção por ano, não apenas o número de indivíduos que foram infectados ao menos uma vez.

## Tratamento dos dados

As bibliotecas utilizadas nas análises e o tratamento dos dados sobre os casos de infecções por sífilis no Brasil estão nos blocos de código abaixo.

\\
Os dados forma obtidos na página [http://indicadoressifilis.aids.gov.br/](http://indicadoressifilis.aids.gov.br/).

In [None]:
# Importando bibliotecas utilizadas

import pandas as pd
import plotly.express as px
import matplotlib.pyplot as plt
import scipy.stats as st
import seaborn as sns
import numpy as np

from google.colab import drive
drive.mount('/content/gdrive')

Mounted at /content/gdrive


In [None]:
# Importando base de dados e fazendo os devidos ajustes

data = pd.read_excel('/content/gdrive/MyDrive/Trabalho inferência/base de dados(novo).xlsx')
data['Ano'] = data['Ano'].astype(int)
data = data.dropna()

# Criação da coluna de casos totais de sífilis no Brasil e em suas regiões
data['Total'] = data['Homens'] + data['Mulheres']
data
tab = pd.DataFrame(columns = data.columns)

# Tabela auxiliar para calcular a taxa de infecção por 100 mil habitantes no Brasil
for i in ['Homens', 'Mulheres', 'Ano']:
  tab[i] = data.groupby(by = ['Ano']).sum().loc[:, ['Homens', 'Mulheres']].reset_index()[i]

for i in data['Ano'].drop_duplicates():
  tab.loc[:, 'Infecções por 100 mil habitantes'][tab['Ano'] == i] = \
  data[data['Ano']==i]['Total'].sum()/(data[data['Ano']==i]['Total']/data[data['Ano']==i]['Infecções por 100 mil habitantes']).sum()

tab['Total'] = tab['Homens'] + tab['Mulheres']
tab['Região'] = 'Brasil'

# União da tabela auxiliar com a tabela original
data_taxas = pd.concat([data, tab]).reset_index(drop=True)
display(data_taxas)



A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



Unnamed: 0,Homens,Mulheres,Infecções por 100 mil habitantes,Ano,Região,Total
0,296,219,3.2,2011,Norte,515
1,469,387,5.2,2012,Norte,856
2,787,693,8.7,2013,Norte,1480
3,968,772,10.1,2014,Norte,1740
4,1258,928,12.5,2015,Norte,2186
5,2349,1732,23.0,2016,Norte,4081
6,3572,2541,34.1,2017,Norte,6113
7,5781,4188,54.8,2018,Norte,9969
8,6606,4160,58.4,2019,Norte,10766
9,5259,2976,44.1,2020,Norte,8235


In [None]:
# Manipulação da tabela inicial para o formato adequado para fazer plotagens com a biblioteca Plotly
aux = ['Homens']*data_taxas['Homens'].shape[0] + ['Mulheres']*data_taxas['Mulheres'].shape[0] + ['Total']*data_taxas['Total'].shape[0]
data_casos = pd.DataFrame({'Casos': pd.concat([data_taxas['Homens'], data_taxas['Mulheres'], data_taxas['Total']]), 'Gênero': aux, 'Ano': (data_taxas['Ano'].to_list())*3, \
                      'Região': (data_taxas['Região'].to_list())*3})
display(data_casos)

Unnamed: 0,Casos,Gênero,Ano,Região
0,296,Homens,2011,Norte
1,469,Homens,2012,Norte
2,787,Homens,2013,Norte
3,968,Homens,2014,Norte
4,1258,Homens,2015,Norte
...,...,...,...,...
55,91045,Total,2016,Brasil
56,122103,Total,2017,Brasil
57,159131,Total,2018,Brasil
58,155819,Total,2019,Brasil


Após o tratameno e organização dos dados, foram gerados os seguintes dataframes:
- __data_taxas__: será utilizado para as comparações de taxas entre as regiões
- __data_casos__: será utilizado para as comparações entre os casos por gênero dentro de cada região

## Gráficos interativos

Alguns gráficos de boxplots e de dispersão foram gerados para avaliação prévia do comportamento dos dados.

###Boxplots

In [None]:
# Boxplot das taxas de infecção por região
fig = px.box(data_taxas[data_taxas['Região'] != 'Brasil'], y = 'Infecções por 100 mil habitantes', x = 'Região', title = 'Agrupamento das taxas por região ao longo dos anos')
fig.update_traces(quartilemethod = 'inclusive')
fig.show()

A região Sul mostrou maior variabilidade nas taxas de infecção ao longo dos anos, visto que apresentou o boxplot plot com maior amplitude.
Já a região Nordeste apresentou os menores valor máximo, amplitude e mediana, indicando ser a região com menor variabilidade nas taxas e com os melhores indicadores relacionados ao controle da sífilis no país.
Pela distribuição dos boxplots, é esperado que haja uma rejeição no teste de variâncias iguais para as cinco regiões e por isso foi decidido de antemão testar as taxas médias para as regiões tomadas duas a duas.

In [None]:
# Função auxiliar para os títulos dos boxplots dos números de casos por gênero e por região
aux_reg = lambda reg: 'no ' + reg if reg == 'Brasil' else 'na região ' + reg

# Boxplot dos números de casos por gênero e por região
for reg in data_casos['Região'].drop_duplicates():
  fig = px.box(data_casos[(data_casos['Região'] == reg) & (data_casos['Gênero'] != 'Total')], y = 'Casos', x = 'Gênero', title = 'Agrupamento do números de casos por gênero '+ aux_reg(reg) +' ao longo dos anos')
  fig.update_traces(quartilemethod = 'inclusive')
  fig.show()

Para todas as regiões, os casos de infecções em homens apresentaram maior variabilidade e maiores valores máximos. Apenas a região Norte apresentou mediana maior entre as mulheres comparadas com os homens. Porém, devido à dispersão dos dados, mesmo para região Norte, existe a tendência de média maior de casos para os homens. 

\\
Como pressupomos a igualdade nas populações de homens e de mulheres, uma comapração relativa entre os gêneros continuaria indicando mais infecções entre homens. Uma possível explicação para o fato de os homens possuírem mais casos de infecção em relação às mulheres pode ser que a transmissão de sífilis entre indíviduos de mesmo gênero é mais comum para homens do que para mulheres.


###Dispersão + Linhas

In [None]:
# Transformação necessária para exibir todos os anos no eixo x do gráfico
data_taxas['Ano'] = data_taxas['Ano'].astype(str)

fig = px.line(data_taxas.loc[data_taxas['Região'] != 'Brasil'],x = 'Ano', y = 'Infecções por 100 mil habitantes', color = 'Região', title = 'Taxa de infecção por sífilis ao longo dos anos', markers=True) 
fig.show()


O gráfico acima indica que as taxas de infecção por região ao longo dos anos  têm tendência a uma distribuição normal com assimetria à esquerda (ou negativa), mesmo com os anos ordenados, visto que não será levado em conta o efeito do tempo nas regiões e cada ano pode ser visto como um "rótulo" para as amostras de taxas de cada região.


In [None]:
# Transformação necessário para exibir todos os anos no eixo x dos gráficos
data_casos['Ano'] = data_casos['Ano'].astype(str)

for i in data_casos['Região'].drop_duplicates():
  aux = lambda i: 'Região ' + i if (i!='Brasil') else i
  fig = px.line(data_casos[data_casos['Região'] == i], x = 'Ano', y = 'Casos', color = 'Gênero', title = 'Quantidade de casos de sífilis por ano - ' + aux(i), markers=True) 
  # scatter()
  fig.show()

Assim como foi observado nas taxas ao longo dos anos para cada região, os números de casos para cada gênero ao longo dos anos para cada região também mostram tendência à distribuição normal com assimetria à esquerda.
Portanto, espera-se que a normalidade para todas as distribuições consideradas nesta análise não possam ser rejeitadas pelo teste de Shapiro-Wilk.



## Tabelas descritivas

Abaixo seguem algumas tabelas descritivas sobre os números de casos por gênero para cada região.

In [None]:
for i in data_taxas['Região'].drop_duplicates():
  print('Casos - ' + i)
  display(data_taxas[data_taxas['Região'] == i].describe().round(2))
  print('\n')

Casos - Norte


Unnamed: 0,Homens,Mulheres,Total
count,10.0,10.0,10.0
mean,2734.5,1859.6,4594.1
std,2395.94,1517.02,3902.47
min,296.0,219.0,515.0
25%,832.25,712.75,1545.0
50%,1803.5,1330.0,3133.5
75%,4837.25,2867.25,7704.5
max,6606.0,4188.0,10766.0




Casos - Nordeste


Unnamed: 0,Homens,Mulheres,Total
count,10.0,10.0,10.0
mean,6275.5,4893.0,11168.5
std,5639.46,3526.66,9084.05
min,1034.0,1009.0,2043.0
25%,1599.5,1999.5,3599.0
50%,4125.5,4456.5,8582.0
75%,9564.0,7025.25,15571.75
max,15740.0,10874.0,26614.0




Casos - Sudeste


Unnamed: 0,Homens,Mulheres,Total
count,10.0,10.0,10.0
mean,27608.9,16612.2,44221.1
std,13149.67,8284.56,21406.78
min,8225.0,4981.0,13206.0
25%,17493.75,10484.0,27977.75
50%,27950.5,16374.5,44325.0
75%,38125.0,22928.25,61053.25
max,44699.0,28017.0,72421.0




Casos - Sul


Unnamed: 0,Homens,Mulheres,Total
count,10.0,10.0,10.0
mean,10670.1,8408.8,19078.9
std,7239.35,6013.65,13247.76
min,923.0,663.0,1586.0
25%,4187.25,2976.0,7163.25
50%,10999.0,8540.0,19539.0
75%,15971.25,12808.5,28779.75
max,20398.0,16872.0,37270.0




Casos - Centro-Oeste


Unnamed: 0,Homens,Mulheres,Total
count,10.0,10.0,10.0
mean,3732.8,2063.0,5795.8
std,3021.05,1610.23,4625.76
min,509.0,350.0,859.0
25%,1089.25,750.75,1840.0
50%,3000.5,1587.0,4587.5
75%,6113.75,3097.75,9211.5
max,8288.0,4569.0,12857.0




Casos - Brasil


Unnamed: 0,Homens,Mulheres,Total
count,10.0,10.0,10.0
mean,51021.8,33836.6,84858.4
std,30989.55,20795.01,51721.63
min,10987.0,7222.0,18209.0
25%,25202.0,16923.0,42125.0
50%,47879.0,32288.0,80167.0
75%,72303.75,48409.0,120378.25
max,94906.0,64225.0,159131.0






##Testes de hipótese com nível de significância $\alpha = 5\%$

Para os testes de hipótese, foi utilizada a biblioteca SciPy, que possui nível de significância padrão igual a 5%, valor que foi mantido nos cálculos.

### Testes de normalidade (Shapiro-Wilk)

In [None]:
# Listas criadas para a funcao auxiliar
regiao = []
genero = []
reg_gen = []
p_valor_reg = []
p_valor_gen = []

# Função auxilixar para avaliar a rejeição da normalidade
avalia_p_val = lambda p_val: 'Rejeita' if p_val < 0.05 else 'Não rejeita'
avalia_normal_reg = []
avalia_normal_gen = []

for reg in data_taxas['Região'].drop_duplicates():
  regiao.append(reg)
  p_val = st.shapiro(data_taxas[data_taxas['Região'] == reg]['Infecções por 100 mil habitantes'])[1]
  p_valor_reg.append(p_val)
  avalia_normal_reg.append(avalia_p_val(p_val))
  for gen in data_casos[data_casos['Gênero'] != 'Total']['Gênero'].drop_duplicates():
    reg_gen.append(reg)
    genero.append(gen)
    p_val = st.shapiro(data_casos[(data_casos['Gênero'] == gen) & (data_casos['Região'] == reg)]['Casos'])[1]
    p_valor_gen.append(p_val)
    avalia_normal_gen.append(avalia_p_val(p_val))

normalidade_regiao = pd.DataFrame({'Região': regiao, 'p-Valor': p_valor_reg, 'Avaliação da Normalidade': avalia_normal_reg})
normalidade_genero = pd.DataFrame({'Região': reg_gen, 'Gênero': genero, 'p-Valor': p_valor_gen, 'Avaliação da Normalidade': avalia_normal_gen})
print('Avaliação da normalidade da districuição das taxas de cada região')
display(normalidade_regiao)
print('\n\n')
print('Avaliação da normalidade dos números de casos dentre gêneros districuição das taxas de cada região')
display(normalidade_genero)


Avaliação da normalidade da districuição das taxas de cada região


Unnamed: 0,Região,p-Valor,Avaliação da Normalidade
0,Norte,0.118146,Não rejeita
1,Nordeste,0.111035,Não rejeita
2,Sudeste,0.599796,Não rejeita
3,Sul,0.445534,Não rejeita
4,Centro-Oeste,0.163378,Não rejeita
5,Brasil,0.471106,Não rejeita





Avaliação da normalidade dos números de casos dentre gêneros districuição das taxas de cada região


Unnamed: 0,Região,Gênero,p-Valor,Avaliação da Normalidade
0,Norte,Homens,0.090236,Não rejeita
1,Norte,Mulheres,0.114231,Não rejeita
2,Nordeste,Homens,0.053546,Não rejeita
3,Nordeste,Mulheres,0.303176,Não rejeita
4,Sudeste,Homens,0.573358,Não rejeita
5,Sudeste,Mulheres,0.553255,Não rejeita
6,Sul,Homens,0.402133,Não rejeita
7,Sul,Mulheres,0.411045,Não rejeita
8,Centro-Oeste,Homens,0.135921,Não rejeita
9,Centro-Oeste,Mulheres,0.125891,Não rejeita


Conforme esperávamos a partir da avaliação dos gráficos acima, os testes de Shaprio-Wilk não rejeitaram a normalidade para nenhuma distribuição desta análise.
Logo, todas as distribuições utilizadas foram consideradas como normais.

### Testes de homocedasticidade (Levene) e de comparação entre médias

#### Média das taxas de infecção por região

Inicialmente, será feito o teste de Levene para verificar a hipótese de igual para as variâncias das taxas médias de infecções considerando as 5 regiões.

In [None]:
# Teste de homocedasticidade
taxas_por_região = []
for i in data_taxas[data_taxas['Região'] != 'Brasil']['Região'].drop_duplicates():
  taxas_por_região.append(data_taxas[(data_taxas['Região'] == i)]['Infecções por 100 mil habitantes'])
  
st.levene(taxas_por_região[0], taxas_por_região[1], taxas_por_região[2], taxas_por_região[3], taxas_por_região[4])
# 0: Norte, 1: Nordeste, 2: Sudeste, 3: Sul, 4: Centro-Oeste

LeveneResult(statistic=4.2462173090360755, pvalue=0.005322210866567718)

Como era esperado pela análise dos boxplots, foi rejeitada a igualdade das variâncias entre as distribuições de taxas ao longo dos anos para cada região.
Sendo assim, o teste ANOVA não seria indicado para esses dados, mas para fins didáticos o aplicamos em nossa base de dados. Como resultado é esperado que seja rejeitada fortemente a igualdade, entre as regiões, nas médias das taxas de infecções.

In [None]:
# Teste ANOVA
st.f_oneway(taxas_por_região[0], taxas_por_região[1], taxas_por_região[2], taxas_por_região[3], taxas_por_região[4])

F_onewayResult(statistic=4.245662402936611, pvalue=0.005326065973163437)

Como previsto, o p-valor da ANOVA deu muito abaixo de 0.05 e a igualdade entre as taxas médias das regiões foi rejeitada. Lembrando que este teste foi feito apenas para ilustração, visto que a condição de homocedasticidade foi rejeitada, condição necessária para realizar o teste ANOVA.

\\
Adicionalmente, como a homocedasticidade das taxas médias entre as regiões foi rejeitada, foi feito um teste de Kruskal-Wallis para determinar se as distribuições das taxas médias podem ser consideradas iguais.

In [None]:
# Teste Kruskal-Wallis
st.kruskal(taxas_por_região[0], taxas_por_região[1], taxas_por_região[2], taxas_por_região[3], taxas_por_região[4])

KruskalResult(statistic=12.696844986553986, pvalue=0.012856100543235514)

Novamente, o p-valor ficou abaixo de 0.05 e a igualdade de distribuição das taxas médias entre as regiões foi rejeitada.
Portanto, as distribuições das taxas de infecção por região foram tomadas duas a duas para a realização de Testes $t$ para a igualdade das taxas médias.

\\
O Teste $t$ no SciPy permite a consideração de variâncias iguais através do parâmetro __equal_var__. Assim, criou-se a função lâmbda __avalia_equal_var__ para determinar o valor desse parâmetro a partir do p-valor obtido com o teste de Levene para a homecedasticidade entre cada par possível de regiões. 

\\
Ao todo, existem 10 pares distintos entre as 5 regiões, ou seja, foram realizados 10 testes em sequência para a comparação das taxas médias entre as regiões. Assim, para avaliar a hipótese nula, será adotada a correção de Bonferroni para a significância dos testes, que consiste em dividir o valor de $\alpha$ de cada teste pelo número total $n$ de teste. Neste caso, a nova significância passou a ser igual a 0.005 e foi com este valor que avaliamos a rejeição da igualdade das taxas médias, comparando-o com os p-valores obtidos em cada teste.

In [None]:
# Teste t
regioes = data_taxas[(data_taxas['Região'] != 'Brasil')]['Região'].drop_duplicates().reset_index(drop=True)
p_valor_ttest = [] #Lista dos p-valores dos Testes T para igualdade entre as taxas médias das regiões
regs_comparadas = [] #Lista com os nomes da regiões comparadas
avalia_equal_var = [] #Para determinar se o Teste T vai considerar variâncias iguais
p_val_vars = [] #P-valores do teste de Levene para as taxas médias das regiões
for i in range(len(regioes)):
  for j in range(i+1,len(regioes)):
    regs_comparadas.append(regioes[i] +' e '+ regioes[j])
    p_valor = st.levene(data_taxas[data_taxas['Região'] == regioes[i]]['Infecções por 100 mil habitantes'], data_taxas[data_taxas['Região'] == regioes[j]]['Infecções por 100 mil habitantes'])[1].round(4)
    aux_avalia_equal_var = lambda p_valor: True if p_valor >= 0.05 else False
    p_val_vars.append(p_valor)
    avalia_equal_var.append(aux_avalia_equal_var(p_valor))
    p_valor_ttest.append(st.ttest_ind(data_taxas[data_taxas['Região'] == regioes[i]]['Infecções por 100 mil habitantes'],\
                            data_taxas[data_taxas['Região'] == regioes[j]]['Infecções por 100 mil habitantes'], equal_var = aux_avalia_equal_var(p_valor))[1].round(4))
    
n_testes = len(p_valor_ttest) #Número de testo realizados
a_bonferroni = 0.05/n_testes #Correção de Bonferroni
avalia_ttest = [] #Lista para avaliar a rejeição da igualdade entre as taxas médias das regiões
aux_avalia_ttest = lambda i: 'Rejeita' if i < a_bonferroni else 'Não rejeita' # Função para auxiliar nas avalições das rejeições da hipótese nula
for i in range(n_testes):
  avalia_ttest.append(aux_avalia_ttest(p_valor_ttest[i]))

teste_t_regiao = pd.DataFrame({'Comparação': regs_comparadas,'p-Valor das Variâncias': p_val_vars, 'Variâncias Iguais?': avalia_equal_var, 'p-Valor dos Testes t': p_valor_ttest, 'Avaliação do Teste t (com correção de Bonferroni)': avalia_ttest})
display(teste_t_regiao)

Unnamed: 0,Comparação,p-Valor das Variâncias,Variâncias Iguais?,p-Valor dos Testes t,Avaliação do Teste t (com correção de Bonferroni)
0,Norte e Nordeste,0.374,True,0.4992,Não rejeita
1,Norte e Sudeste,0.6389,True,0.0197,Não rejeita
2,Norte e Sul,0.0174,False,0.0253,Não rejeita
3,Norte e Centro-Oeste,0.3389,True,0.3326,Não rejeita
4,Nordeste e Sudeste,0.1352,True,0.0027,Rejeita
5,Nordeste e Sul,0.0028,False,0.0112,Não rejeita
6,Nordeste e Centro-Oeste,0.0724,True,0.118,Não rejeita
7,Sudeste e Sul,0.0284,False,0.4121,Não rejeita
8,Sudeste e Centro-Oeste,0.546,True,0.2278,Não rejeita
9,Sul e Centro-Oeste,0.1047,True,0.1084,Não rejeita


Assim, com a correção de Bonferroni, apenas a igualdade das taxas médias de infecções entre as regiões Nordeste e Sudeste foi rejeitada.

Desconsiderando a correção de Bonferroni, também seriam rejeitadas as igualdades das taxas médias entre as regiões Norte e Sudeste, Norte e Sul, Nordeste e Sudeste (novamente), além de Nordeste e Sul. Esses são resultados esperados porque, conforme visto nos boxplots, as regiões Norte e Nordeste possuem os menores valores máximos de taxa de infecção e as menores variabilidades nas taxas, enquanto as regiões Sul e Sudeste possuem um comportamento oposto.

Algumas possibilidades de explicação para os resultados obtidos até aqui:
- para os bons resultados das regiões Norte e Nordeste:
  - possuem indivíduos mais conscientizados em relação a DSTs;
  - realizam mais campanhas públicas de orientação à população em relação a DSTs;
  - possuem sistema de saúde precário, gerando uma grande subnotificação de casos (este é um ponto que pode afetar o país como um todo).
- para os resultados ruins das regiões Sul e Sudeste:
  - possuem indivíduos menos conscientizados em relação a DSTs;
  - possuem sistema de saúde mais estruturado, permitindo uma notificação de casos mais próxima da realidade.

#### Média de casos por gênero para cada região

Por fim, para as médias de casos por gênero ao longo dos anos para cada região (e para o Brasil), foram feitos os testes de homocedasticidade e, posteriormente, os Testes $t$ para comparação das médias.

In [None]:
# Levene para os gêneros
casos_homens = []
casos_mulheres = []
levene_generos = []
avalia_var_gen = []
count = 0
for i in data['Região'].drop_duplicates():  
  casos_homens.append(data_casos[(data_casos['Gênero'] == 'Homens') & (data_casos['Região'] == i)]['Casos'])
  casos_mulheres.append(data_casos[(data_casos['Gênero'] == 'Mulheres') & (data_casos['Região'] == i)]['Casos'])
  p_val = st.levene(casos_homens[count], casos_mulheres[count])[1].round(4)
  levene_generos.append(p_val)

  avalia_var_gen.append(avalia_p_val(p_val))
  count += 1

homoceda_gens = pd.DataFrame({'Região': data['Região'].drop_duplicates().reset_index(drop=True), 'p-Valor': levene_generos, 'Avaliação da igualdade das variâncias': avalia_var_gen})
display(homoceda_gens)

Unnamed: 0,Região,p-Valor,Avaliação da igualdade das variâncias
0,Norte,0.22,Não rejeita
1,Nordeste,0.2437,Não rejeita
2,Sudeste,0.0789,Não rejeita
3,Sul,0.4399,Não rejeita
4,Centro-Oeste,0.0564,Não rejeita


In [None]:
# Teste T para os gêneros
p_valor_ttest_casos_gen = []
avalia_med_gen = []
for i in range(len(data['Região'].drop_duplicates())):
    p_val = st.ttest_ind(casos_homens[i], casos_mulheres[i], equal_var = True)[1].round(4)  
    p_valor_ttest_casos_gen.append(p_val)
    avalia_med_gen.append(avalia_p_val(p_val))

homoceda_gens = pd.DataFrame({'Região': data['Região'].drop_duplicates().reset_index(drop=True), 'p-Valor dos Testes T': p_valor_ttest_casos_gen, 'Avaliação da igualdade das médias de casos': avalia_med_gen})
display(homoceda_gens)
# display(avalia_med_gen)


Unnamed: 0,Região,p-Valor dos Testes T,Avaliação da igualdade das médias de casos
0,Norte,0.3422,Não rejeita
1,Nordeste,0.5193,Não rejeita
2,Sudeste,0.0381,Rejeita
3,Sul,0.4572,Não rejeita
4,Centro-Oeste,0.1404,Não rejeita


A igualdade das médias de casos por gênero ao longo dos anos foi rejeitada apenas na região Sudeste, o que era esperado, já que a mediana e o valor máximo de casos entre os homens estavam muito acima dos valores exibidos para as mulheres no boxplot apresentado acima. Nas demais regiões, não foi possível rejeitar a igualdade entre as médias de casos por gênero através do Teste $t$.

\\
Neste caso, podemos trazer três fatores como explicação do aumento da incidência da sífilis no Brasil nesses ultimos anos. Um deles é a diminuição do uso do preservativo, que passa a ser uma tendência mundial. Um segundo motivo ocorreu pela falta em alguns anos do antibiótico mais eficaz contra a bactéria da sífilis, isto fez com que muitas pessoas infectadas pela bactéria não tivessem acesso precoce ao tratamento, e aumentassem a cadeia de transmissão. Por fim, houve diminuição de campanhas de prevenção às Infecções sexualmente transmissíveis. Portanto, a melhor forma de minimizar esses casos ainda seria o uso de campanhas governamentais de prevenção às doenças sexualmente transmissíveis, promovendo um maior impacto sobre a consciência da população.