In [1]:
import scipy.stats as stats
import numpy as np

# MODELAGEM DA HIPÓTESE 1 (PERGUNTA 1)

## Dados que serão usados
- Quantidade total de ocorrências por dia da semana desde 2009 até 2022.

In [2]:
# Dados das ocorrências nos fins de semana
# DOMINGO E SÁBADO
fins_de_semana = [65919, 69202]

# Dados das ocorrências nos dias de semana
dias_de_semana = [54845, 56578, 58610, 61020, 63172]

## TESTE U de MANN-WHITNEY

In [3]:
# É utilizado o parâmetro alternative = 'greater', pois queremos validar a hipótese
# de que nos finais de semana há um maior número de ocorrência que nos dias de semana 
# Hipótese nula (H0): Não há diferença estatisticamente significativa entre o número de ocorrências nos dias de semana e nos finais de semana.
# Hipótese alternativa (H1): O número de ocorrências nos fins de semana é estatisticamente maior do que nos dias de semana.

u_statistic, p_value = stats.mannwhitneyu(
    x = fins_de_semana,
    y = dias_de_semana,
    alternative = 'greater',
)


print("Estatística U:", u_statistic)
print("p-value:", p_value)

# Como p < 0.05, portanto rejeita-se a hipótese nula e aceita-se a hipótese alternativa
# indicando que há sim diferenças estatisticamente significativas indicando um maior
# número de ocorrências aos finais de semana do que nos demais dias da semana.

Estatística U: 10.0
p-value: 0.047619047619047616


# MODELAGEM DA HIPÓTESE 2 (PERGUNTA 1)

## DADOS UTILIZADOS
- Quantidade total de ocorrências por mês no período de 2009 até 2022.

In [68]:
meses_inverno = [
    35361,
    37295,
    37167,
    36078,
]

outros_meses = [
    34801,
    32389,
    38840,
    36016,
    37766,
    36486,
    34035,
    33112,
]

## TESTE U de MANN-WHITNEY

In [69]:
# É utilizado o parâmetro alternative = 'less', pois queremos validar a hipótese de que há menos ocorrências nos meses de inverno.
# Hipótese nula (H0): Não há diferença estatisticamente significativa entre o número de ocorrências nos meses de inverno do que nos meses de outras estações.
    # alternative='two-sided',
# Hipótese alternativa (H1): O número de ocorrências nos dias de semana é estatisticamente menor do que nos outros meses.

u_statistic, p_value = stats.mannwhitneyu(
    x = meses_inverno,
    y = outros_meses,
    alternative = 'less',
)

print("Estatistica U:", u_statistic)
print("p-value:", p_value)

# Não é possível rejeitar a hipótese nula, pois p > 0.05, portanto,
# não há evidências de que os meses de inverno possuem
# menor número de ocorrências que os meses de outras estações.

Estatistica U: 21.0
p-value: 0.8161616161616161


## TESTE T INDEPENDENTE

### Verificação dos pressupostos do teste t independente

### NORMALIDADE DOS GRUPOS DE DADOS
- TESTE DE ANDERSON UTILIZADO.
- ESTE TESTE PERMITE VERIFICAR O PRIMEIRO PRESSUPOSTO PARA UTILIZAÇÃO DO TESTE T INDEPENDENTE

In [70]:
# H0: OS VALORES VIERAM DE UMA DISTRIBUIÇÃO NORMAL.
# H1: OS VALORES NÃO VIERAM DE UMA DISTRIBUIÇÃO NORMAL.

#  SE O VALOR DA ESTATÍSTICA FOR MAIOR DO QUE OS VALORES 
#  CRÍTICOS PARA SEUS RESPECTIVOS NÍVEIS DE SIGNIFICÂNCIA
#  A HIPÓTESE NULA DE QUE ELES VIERAM DA DISTRIBUIÇÃO PASSADA
#  PODE SER REJEITADA.

# Teste Anderson para os meses de inverno
statistic = stats.anderson(
    meses_inverno,
    dist = 'norm'
)
print(statistic)

# Teste Anderson para os meses de outras estações
statistic = stats.anderson(
    outros_meses,
    dist = 'norm'
)

print(statistic)
# Com um nível de significância de 5% ambas as distribuições são provenientes de distribuições normalizadas.
# Pois os valores de estatística são menores do que o valor crítico.

AndersonResult(statistic=0.3018166255221102, critical_values=array([1.317, 1.499, 1.799, 2.098, 2.496]), significance_level=array([15. , 10. ,  5. ,  2.5,  1. ]))
AndersonResult(statistic=0.14640548964275268, critical_values=array([0.519, 0.591, 0.709, 0.827, 0.984]), significance_level=array([15. , 10. ,  5. ,  2.5,  1. ]))


### HOMOGENEIDADE DA VARIÂNCIA
- TESTE DE LEVENE UTILIZADO
- ESTE TESTE PERMITE VERIFICAR O SEGUNDO PRESSUPOSTO PARA UTILIZAÇÃO DO TESTE T INDEPENDENTE

In [71]:
# H0: OS GRUPOS APRESENTAM VARIÂNCIA HOMOGÊNEA;
# H1: OS GRUPOS NÃO APRESENTAM VARIÂNCIA HOMOGÊNEA.

# SE O VALOR DE P-VALUE < 0.05 COM ESTE TESTE, REJEITA-SE A
# HIPÓTESE NULA DE QUE OS DADOS SÃO PROVENIENTES DE CONJUNTOS
# COM A VARIÂNCIA HOMOGÊNEA

# Teste de homogeneidade de variâncias


# COMO p-value ENCOTRADO É MAIOR DO QUE 0,05 ACEITA-SE A HIPÓTESE NULA (H0).
# PORTANTO A VARIÂNCIA DE AMBOS OS GRUPOS DE MESES É HOMOGÊNEA.

_, p_value = stats.levene(meses_inverno, outros_meses)
print("p-value:", p_value)

p-value: 0.08357312783980747


### REALIZAÇÃO DO TESTE T INDEPENDENTE

In [72]:
# H0: OS MESES DE INVERNO E DE OUTRAS ESTAÇÕES POSSUEM A MESMA MÉDIA DE NÚMERO DE OCORRÊNCIAS.
# H1: OS MESES DE INVERNO POSSUEM MENOR MÉDIA DE OCORRÊNCIAS.

# Realizar o teste t independente

t_statistic, p_value = stats.ttest_ind(
    meses_inverno,
    outros_meses,
    alternative = 'less'
)

# print(f"meses_inverno: {meses_inverno}")
# print(f"outros_meses: {outros_meses}")

# Imprimir os resultados
print("t-value:", t_statistic)
print("p-value:", p_value)

# COMO p-value > 0.05, ACEITA-SE A HIPÓTESE NULA E, PORTANTO, NÃO POSSUEM DIFERENÇA ESTATÍSTICA SIGNIFICATIVA.

t-value: 0.8744479914748855
p-value: 0.7988063992929931


# MODELAGEM DA HIPÓTESE 3 (PERGUNTA 1)

## DADOS UTILIZADOS
- Quantidade total de ocorrências por hora do dia no período de 2009 até 2022.

In [73]:
periodo_noturno = [
    15163, # 0  
    11147, # 1
    8281, # 2
    6102, # 3
    4752, # 4
    5233, # 5
    18963, # 18
    24752, # 19
    23509, # 20
    21770, # 21
    22425, # 22
    20779, # 23
]

periodo_diurno = [
    5060, # 6
    10855, # 7
    17551, # 8
    21556, # 9
    23834, # 10
    22119, # 11
    16560, # 12
    19395, # 13
    25680, # 14
    28749, # 15
    28209, # 16
    26902, # 17
]

## TESTE U de MANN-WHITNEY

In [79]:
# É utilizado o parâmetro alternative = 'less', pois queremos validar a hipótese de que há menos ocorrências nos meses de inverno.
# Hipótese nula (H0): Não há diferença estatisticamente significativa entre o número de ocorrências no período diurno do que no período noturno.
# Hipótese alternativa (H1): O número de ocorrências no período noturno é estatisticamente maior do que no período diurno.

statistic_value, p_value = stats.mannwhitneyu(
    x = periodo_noturno,
    y = periodo_diurno,
    # alternative='two-sided',
    alternative = 'greater',
)

print("Estatística do teste U:", statistic_value)
print("p-value:", p_value)

# Não é possível rejeitar a hipótese nula, pois p > 0.05, portanto,
# não há evidências de que os meses de inverno possuem
# menor número de ocorrências que os meses de outras estações.

Estatística do teste U: 44.0
p-value: 0.9500612986153679


## TESTE T INDEPENDENTE

### Verificação dos pressupostos do teste t independente

### NORMALIDADE DOS GRUPOS DE DADOS
- TESTE DE ANDERSON-DARLING UTILIZADO.
- ESTE TESTE PERMITE VERIFICAR O PRIMEIRO PRESSUPOSTO PARA UTILIZAÇÃO DO TESTE T INDEPENDENTE

In [80]:
# H0: OS VALORES VIERAM DE UMA DISTRIBUIÇÃO NORMAL.
# H1: OS VALORES NÃO VIERAM DE UMA DISTRIBUIÇÃO NORMAL.

#  SE O VALOR DA ESTATÍSTICA FOR MAIOR DO QUE OS VALORES 
#  CRÍTICOS PARA SEUS RESPECTIVOS NÍVEIS DE SIGNIFICÂNCIA
#  A HIPÓTESE NULA DE QUE ELES VIERAM DA DISTRIBUIÇÃO PASSADA
#  PODE SER REJEITADA.

# Teste Anderson para os meses de inverno
statistic = stats.anderson(
    periodo_noturno,
    dist = 'norm'
)
print(statistic)

# Teste Anderson para os meses de inverno
statistic_result = stats.anderson(
    periodo_diurno,
    dist = 'norm'
)
print(statistic_result)
# Com um nível de significância de 5% ambas as distribuições são provenientes de distribuições normalizadas.
# Pois os valores de estatística são menores do que o respectivo valor crítico.

AndersonResult(statistic=0.575009849793938, critical_values=array([0.497, 0.566, 0.679, 0.792, 0.942]), significance_level=array([15. , 10. ,  5. ,  2.5,  1. ]))
AndersonResult(statistic=0.3368214193176211, critical_values=array([0.497, 0.566, 0.679, 0.792, 0.942]), significance_level=array([15. , 10. ,  5. ,  2.5,  1. ]))


### HOMOGENEIDADE DA VARIÂNCIA
- TESTE DE LEVENE UTILIZADO
- ESTE TESTE PERMITE VERIFICAR O SEGUNDO PRESSUPOSTO PARA UTILIZAÇÃO DO TESTE T INDEPENDENTE

In [81]:
# H0: OS GRUPOS APRESENTAM VARIÂNCIA HOMOGÊNEA;
# H1: OS GRUPOS NÃO APRESENTAM VARIÂNCIA HOMOGÊNEA.

# SE O VALOR DE P-VALUE < 0.05 COM ESTE TESTE, REJEITA-SE A
# HIPÓTESE NULA DE QUE OS DADOS SÃO PROVENIENTES DE CONJUNTOS
# COM A VARIÂNCIA HOMOGÊNEA

# Teste de homogeneidade de variâncias
statistic_value, p_value = stats.levene(
    periodo_noturno,
    periodo_diurno
)
print("p-value:", p_value)

# COMO p-value ENCOTRADO É MAIOR DO QUE 0,05 ACEITA-SE A HIPÓTESE NULA (H0).
# PORTANTO A VARIÂNCIA DE AMBOS OS GRUPOS DE MESES É HOMOGÊNEA.

p-value: 0.4143864655416054


### REALIZAÇÃO DO TESTE T INDEPENDENTE

In [85]:
# H0: O VALOR DE MÉDIA ENTRE OS GRUPOS NÃO POSSUEM DIFERENÇAS ESTATISTIMENTE SIGNIFICATIVAS.
# H1: O VALOR DE MÉDIA DE NÚMERO DE OCORRENCIAS DAS HORAS DO PERÍODO NOTURNO SÃO ESTATISTICAMENTE MAIORES DO QUE O GRUPO DE HORAS DO PERÍODO DIURNO.

# Realizar o teste t independente
t_statistic, p_value = stats.ttest_ind(
    periodo_noturno,
    periodo_diurno,
    alternative = 'greater'
)

print(f"periodo_diurno: {periodo_diurno}")
print(f"periodo_noturno: {periodo_noturno}")

# Imprimir os resultados
print("Média periodo noturno: %.2f" % np.mean(periodo_noturno))
print("Média periodo diurno: %.2f" % np.mean(periodo_diurno))
print("t-value:", t_statistic)
print("p-value:", p_value)

# COMO p-value > 0.05, ACEITA-SE A HIPÓTESE NULA E, PORTANTO, AS MÉDIAS NÃO POSSUEM DIFERENÇA ESTATÍSTICA SIGNIFICATIVA.

periodo_diurno: [5060, 10855, 17551, 21556, 23834, 22119, 16560, 19395, 25680, 28749, 28209, 26902]
periodo_noturno: [15163, 11147, 8281, 6102, 4752, 5233, 18963, 24752, 23509, 21770, 22425, 20779]
Média periodo noturno: 15239.67
Média periodo diurno: 20539.17
t-value: -1.740701281561519
p-value: 0.9521469760586593


# MODELAGEM DA HIPÓTESE 4 (PERGUNTA 1)

## DADOS UTILIZADOS
- Quantidade total de ocorrências ``criminosas`` por hora do dia no período de 2009 até 2022.

- Ocorrências criminosas remetem à natureza da ocorrência conforme um das categorias abaixo:

natureza_ocorrencia_criminosa = [
    'AGRESSÃO FÍSICA/VERBAL',
    'LESÃO CORPORAL',
    'CRIME AMBIENTAL',
    'DANO',
    'ESTUPRO',
    'FURTO',
    'HOMICÍDIO',
    'ROUBO',
    'SEQÜESTRO E CÁRCERE PRIVADO',
    'SUBSTÂNCIA ILÍCITA',
    'AMEAÇA',
    'VIOLAÇÃO DE MEDIDA PROTETIVA LEI MARIA DA PENHA',
    'EXTORSÃO',
    'PORTE ILEGAL',
    'DISPARO DE ARMA',
    'FURTO',
    'INVASÃO',
    'ESTELIONATO',
    'ATENTADO VIOLENTO AO PUDOR',
    'PORTE DE ARTEFATO EXPLOSIVO',
    'ARRASTÃO',
]

In [95]:
periodo_noturno_crimes_especificos = [
    4155, # 0
    3100, # 1
    2678, # 2
    2259, # 3
    2011, # 4
    2818, # 5
    6003, # 18
    8107, # 19
    7862, # 20
    7709, # 21
    7733, # 22
    6740, # 23
]

periodo_diurno_crimes_especificos = [
    2325, # 6
    3045, # 7
    3826, # 8
    4358, # 9
    4920, # 10
    5387, # 11
    4993, # 12
    5363, # 13
    6812, # 14
    7702, # 15
    8188, # 16
    7774, # 17
]

## TESTE U de MANN-WHITNEY

In [94]:
# É utilizado o parâmetro alternative = 'less', p.
# Hipótese nula (H0): Não há diferença estatisticamente significativa entre o número de ocorrências criminosas no período diurno do que no período noturno.
# Hipótese alternativa (H1): O número de ocorrências criminosas no período noturno é estatisticamente maior do que no período diurno.

statistic_value, p_value = stats.mannwhitneyu(
    x = periodo_noturno_crimes_especificos,
    y = periodo_diurno_crimes_especificos,
    # alternative='two-sided',
    alternative = 'greater',
)

print("Estatística do teste U:", statistic_value)
print("p-value:", p_value)

# Não é possível rejeitar a hipótese nula, pois p > 0.05, portanto,
# não há evidências de que os meses de inverno possuem
# menor número de ocorrências que os meses de outras estações.

Estatística do teste U: 65.0
p-value: 0.6674972289489854


## TESTE T INDEPENDENTE

### Verificação dos pressupostos do teste t independente

### NORMALIDADE DOS GRUPOS DE DADOS
- TESTE DE ANDERSON-DARLING UTILIZADO.
- ESTE TESTE PERMITE VERIFICAR O PRIMEIRO PRESSUPOSTO PARA UTILIZAÇÃO DO TESTE T INDEPENDENTE

In [91]:
# H0: OS VALORES VIERAM DE UMA DISTRIBUIÇÃO NORMAL.
# H1: OS VALORES NÃO VIERAM DE UMA DISTRIBUIÇÃO NORMAL.

#  SE O VALOR DA ESTATÍSTICA FOR MAIOR DO QUE OS VALORES 
#  CRÍTICOS PARA SEUS RESPECTIVOS NÍVEIS DE SIGNIFICÂNCIA
#  A HIPÓTESE NULA DE QUE ELES VIERAM DA DISTRIBUIÇÃO PASSADA
#  PODE SER REJEITADA.

# Teste Anderson para os meses de inverno
statistic = stats.anderson(
    periodo_noturno_crimes_especificos,
    dist = 'norm'
)
print(statistic)

# Teste Anderson para os meses de inverno
statistic_result = stats.anderson(
    periodo_diurno_crimes_especificos,
    dist = 'norm'
)
print(statistic_result)
# Com um nível de significância de 5% ambas as distribuições são provenientes de distribuições normalizadas.
# Pois os valores de estatística são menores do que o respectivo valor crítico.

AndersonResult(statistic=0.7498878618496754, critical_values=array([0.497, 0.566, 0.679, 0.792, 0.942]), significance_level=array([15. , 10. ,  5. ,  2.5,  1. ]))
AndersonResult(statistic=0.27343994957915285, critical_values=array([0.497, 0.566, 0.679, 0.792, 0.942]), significance_level=array([15. , 10. ,  5. ,  2.5,  1. ]))


### HOMOGENEIDADE DA VARIÂNCIA
- TESTE DE LEVENE UTILIZADO
- ESTE TESTE PERMITE VERIFICAR O SEGUNDO PRESSUPOSTO PARA UTILIZAÇÃO DO TESTE T INDEPENDENTE

In [93]:
# H0: OS GRUPOS APRESENTAM VARIÂNCIA HOMOGÊNEA;
# H1: OS GRUPOS NÃO APRESENTAM VARIÂNCIA HOMOGÊNEA.

# SE O VALOR DE P-VALUE < 0.05 COM ESTE TESTE, REJEITA-SE A
# HIPÓTESE NULA DE QUE OS DADOS SÃO PROVENIENTES DE CONJUNTOS
# COM A VARIÂNCIA HOMOGÊNEA

# Teste de homogeneidade de variâncias
statistic_value, p_value = stats.levene(
    periodo_noturno_crimes_especificos,
    periodo_diurno_crimes_especificos
)
print("p-value:", p_value)

# COMO p-value ENCOTRADO É MAIOR DO QUE 0,05 ACEITA-SE A HIPÓTESE NULA (H0).
# PORTANTO A VARIÂNCIA DE AMBOS OS GRUPOS DE MESES É HOMOGÊNEA.

p-value: 0.05764231516949057


### REALIZAÇÃO DO TESTE T INDEPENDENTE

In [92]:
# H0: O VALOR DE MÉDIA ENTRE OS GRUPOS NÃO POSSUEM DIFERENÇAS ESTATISTIMENTE SIGNIFICATIVAS.
# H1: O VALOR DE MÉDIA DE NÚMERO DE OCORRENCIAS CRIMINOSAS DAS HORAS DO PERÍODO NOTURNO SÃO ESTATISTICAMENTE MAIORES DO QUE O GRUPO DE HORAS DO PERÍODO DIURNO.

# Realizar o teste t independente
t_statistic, p_value = stats.ttest_ind(
    periodo_noturno_crimes_especificos,
    periodo_diurno_crimes_especificos,
    alternative = 'greater'
)

print(f"periodo_diurno: {periodo_diurno_crimes_especificos}")
print(f"periodo_noturno: {periodo_noturno_crimes_especificos}")

# Imprimir os resultados
print("Média periodo noturno: %.2f" % np.mean(periodo_noturno_crimes_especificos))
print("Média periodo diurno: %.2f" % np.mean(periodo_diurno_crimes_especificos))
print("t-value:", t_statistic)
print("p-value:", p_value)

# COMO p-value > 0.05, ACEITA-SE A HIPÓTESE NULA E, PORTANTO, AS MÉDIAS NÃO POSSUEM DIFERENÇA ESTATÍSTICA SIGNIFICATIVA.

periodo_diurno: [2325, 3045, 3826, 4358, 4920, 5387, 4993, 5363, 6812, 7702, 8188, 7774]
periodo_noturno: [4155, 3100, 2678, 2259, 2011, 2818, 6003, 8107, 7862, 7709, 7733, 6740]
Média periodo noturno: 5097.92
Média periodo diurno: 5391.08
t-value: -0.3253782763536555
p-value: 0.6260154600439993
