# I. Entendimento do negócio

## 1. Qual o objetivo do projeto?



**1.1. Por que este projeto é importante?**

**1.2. Como podemos fazer isso?**

**1.3. O que buscamos?**


## 2. Como será realizado?

**2.1. Gerenciamento e organização do projeto:**
- Gerenciamento: framework [SCRUM](https://www.scrum.org/resources/what-scrum-module);
- Organização: framework [DM-CRISP](https://www.datascience-pm.com/crisp-dm-2/).

**2.2. Onde encontro os dados?**
- Os dados utilizados neste projeto são reais; 
- Extraídos do site da [Secretaria da Segurança Pública do estado do Rio Grande do Sul](https://www.ssp.rs.gov.br/estatisticas);
- Publicados pela Segurança Pública em formato aberto, conforme previsão da Lei nº 15.610, de 29 de abril de 2021, a partir de outubro do mesmo ano;
- O dados tb encontram-se disponibilizados na pasta "data".

**2.3. Quais as características que influenciam o número dos casos de dengue?**
- O dicionário de dados encontra-se [aqui]().

**2.4. Como será medido o desempenho?**

  **2.4.1. Por que?**

  **2.4.2. Como interpretar?**

  **2.4.3. O que é?**


## 3. O que será entregue?

## 4. Dicionários de dados

FEATURE	| DESCRIPTION | TYPE | DETAIL
-- | -- | -- | --
Sequência | -- | Nominal | --
Data Fato | -- | Data | --
Hora Fato | -- | Hora | --
Grupo Fato | -- | Nominal | 'CRIMES', 'CONTRAVENCOES'
Tipo Enquadramento | -- | Nominal | 240 tipos diferentes??
Tipo Fato | -- | Nominal | 'Consumado'
Municipio Fato | -- | Nominal | 497 municípios do estado do RS??
Local Fato | -- | Nominal | 'RESIDENCIA', 'VIA PUBLICA', 'OUTROS', 'ETABELECIMENTO ENSINO',        'ESTABELECIMENTO COMERCIAL', 'ESTABELECIMENTO DIVERSAO', 'HOSPITAIS/CLINICAS', 'INTERIOR COLETIVOS', 'METRO/RODOVIARIA'
Bairro | -- | Nominal | 9495 bairros do estado do RS??
Quantidade Vítimas | -- | Discreta | 0? a 42
Idade Vítima | -- | Nominal | 0? a 121?
Sexo Vítima | -- | Nominal | 'Masculino', 'Feminino', nan
Cor Vítima  | -- | Nominal | 'Branca', 'Parda', 'Sem informação', nan, 'Preta', 'Amarela', 'Indígena

### Tipos de violência contra a mulher:

#### 1. **Violência física**: Entendida como qualquer conduta que **ofenda a integridade ou saúde corporal** da mulher.
   - Espancamento
   - Atirar objetos, sacudir e apertar os braços
   - Estrangulamento ou sufocamento
   - Lesões com objetos cortantes ou perfurantes
   - Ferimentos causados por queimaduras ou armas de fogo
   - Tortura
#### 2. **Violência Psicológica**: É considerada qualquer conduta que: cause dano emocional e diminuição da autoestima; prejudique e perturbe o pleno desenvolvimento da mulher; ou vise degradar ou controlar suas ações, comportamentos, crenças e decisões.
   - Ameaças
   - Constrangimento
   - Humilhação
   - Manipulação
   - Isolamento (proibir de estudar e viajar ou de falar com amigos e parentes)
   - Vigilância constante
   - Perseguição contumaz
   - Insultos
   - Chantagem
   - Exploração
   - Limitação do direito de ir e vir
   - Ridicularização
   - Tirar a liberdade de crença
   - Distorcer e omitir fatos para deixar a mulher em dúvida sobre a sua memória e sanidade (gaslighting)
#### 3. **Violência Sexual**: Trata-se de qualquer conduta que constranja a presenciar, a manter ou a participar de relação sexual não desejada mediante intimidação, ameaça, coação ou uso da força.
   - Estupro
   - Obrigar a mulher a fazer atos sexuais que causam desconforto ou repulsa
   - Impedir o uso de métodos contraceptivos ou forçar a mulher a abortar
   - Forçar matrimônio, gravidez ou prostituição por meio de coação, chantagem, suborno ou manipulação
   - Limitar ou anular o exercício dos direitos sexuais e reprodutivos da mulher
#### 4. **Violência Patrimonial**: Entendida como qualquer conduta que configure retenção, subtração, destruição parcial ou total de seus objetos, instrumentos de trabalho, documentos pessoais, bens, valores e direitos ou recursos econômicos, incluindo os destinados a satisfazer suas necessidades.
   - Controlar o dinheiro
   - Deixar de pagar pensão alimentícia
   - Destruição de documentos pessoais
   - Furto, extorsão ou dano
   - Estelionato
   - Privar de bens, valores ou recursos econômicos
   - Causar danos propositais a objetos da mulher ou dos quais ela goste
#### 5. **Violência Moral**: É considerada qualquer conduta que configure calúnia, difamação ou injúria.
   - Acusar a mulher de traição
   - Emitir juízos morais sobre a conduta
   - Fazer críticas mentirosas
   - Expor a vida íntima
   - Rebaixar a mulher por meio de xingamentos que incidem sobre a sua índole
   - Desvalorizar a vítima pelo seu modo de se vestir

# II. Entendimento dos dados

## 0. IMPORTS

### 0.1. Importing libraries

In [1]:
# Data wrangling
import pandas as pd
import datetime

# Data Visualization
import seaborn as sns
import matplotlib.pyplot as plt

### 0.2. Helper functions

In [4]:
# DATA WRANGLING -----------------------------------------------------------------------------------------------

def rename_columns(df_raw):
    df = df_raw.copy()
    df.columns = (df.columns
                  .str.title()                  # Converte para title case
                  .str.replace(' ', '')         # Remove espaços em branco
                  .map(unidecode)               # Remove acentos
                  .map(inflection.underscore))  # Converte para snake case
    return df

# Função para remover acentos, transformar em minúsculas e remover caracteres especiais
def normalizar_texto(texto):
    texto = unicodedata.normalize('NFKD', texto).encode('ASCII', 'ignore').decode('utf-8')
    return texto.lower()

# DATA DESCRIPTION ---------------------------------------------------------------------------------------------------------------

def data_description(df_raw):

    # 1. Data Dimensions
    print('*' * 20 + ' DATA DIMENSIONS ' + '*' * 20)
    print('Quantidade de linhas: {:,}'.format(df_raw.shape[0]))
    print('Quantidade de colunas: {:,}'.format(df_raw.shape[1]))
    print()

    # 2. Data Types
    print('*' * 20 + ' DATA TYPES ' + '*' * 25)
    print(df_raw.dtypes)
    print()

    # 3. Check NA's
    print('*' * 20 + ' CHECK NAs ' + '*' * 26)
    print(df_raw.isna().sum())
    print()

    # 4. Check duplicated
    print('*' * 20 + ' CHECK DUPLICATED ' + '*' * 19)
    print('Quantidade de registros duplicados: {:,}'.format(df_raw.duplicated().sum()))


### 0.3. Loading data

In [10]:
path = '../data/'

mensal_2021_raw = pd.read_csv(path + '2021_outubro_a_dezembro_publicacao_mensal.csv', usecols=range(13), decimal='.', encoding='iso-8859-1', sep=';')
mensal_2022_raw = pd.read_csv(path + '2022_janeiro_a_dezembro_publicacao_mensal.csv', usecols=range(13), decimal='.', encoding='iso-8859-1', sep=';')
mensal_2023_raw = pd.read_csv(path + '2023_janeiro_a_dezembro_publicacao_mensal.csv', usecols=range(13), decimal='.', encoding='iso-8859-1', sep=';')
mensal_2024_raw = pd.read_csv(path + '2024_janeiro_a_setembro_publicacao_mensal.csv', usecols=range(13), decimal='.', encoding='iso-8859-1', sep=';')

In [22]:
mensal_2021_raw.head(2)

Unnamed: 0,Sequência,Data Fato,Hora Fato,Grupo Fato,Tipo Enquadramento,Tipo Fato,Municipio Fato,Local Fato,Bairro,Quantidade Vítimas,Idade Vítima,Sexo Vítima,Cor Vítima
0,1,01/10/2021,00:01:00,CRIMES,INCENDIO DOLOSO,Consumado,NOVA ALVORADA,RESIDENCIA,Jardim Bela Vista,1,20.0,Masculino,Branca
1,2,01/10/2021,00:01:00,CRIMES,VIOLENCIA PSICOLOGICA CONTRA MULHER ART 147B,Consumado,SANTA CRUZ DO SUL,RESIDENCIA,Santa Vitória,1,66.0,Feminino,Branca


#### Outros arquivos

In [None]:
path2 = '../data/1_semestre_2024_publicacao_semestral/'

flagrante = pd.read_csv(path2 + '1_semestre_ago_2024_prisoes_em_flagrante_pela_pc_por_fato_e_municipio.csv', low_memory=False, decimal='.', encoding='iso-8859-1', sep=';', skiprows=8)
vitimas_mortas  = pd.read_csv(path2 + '1_semestre_ago_2024_vitimas_mortas_de_crimes_dolosos_consumados.csv', low_memory=False, decimal='.', encoding='iso-8859-1', sep=';', skiprows=8)

In [4]:
vitimas_mortas.loc[(vitimas_mortas['Sexo'] != 'Masculino'), :]['Descricao Fato'].unique()

array(['FEMINICIDIO ART 121 PAR 2 VI', 'HOMICIDIO DOLOSO',
       'ROUBO DE VEICULO COM MORTE',
       'HOMICIDIO DECORRENTE DE OPOSICAO A INTERVENCAO POLICIAL',
       'LESAO CORPORAL SEGUIDA DE MORTE',
       'HOMICIDIO DOLOSO NA DIRECAO DE VEICULO AUTOMOTOR',
       'ROUBO A MOTORISTA COM MORTE', 'ROUBO A RESIDENCIA COM MORTE', nan],
      dtype=object)

In [5]:
vitimas_mortas.loc[(vitimas_mortas['Sexo'] != 'Masculino'), :]['Local Fato'].unique()

array(['RESIDENCIA', 'VIA PUBLICA', 'OUTROS', 'ESTABELECIMENTO COMERCIAL',
       'ESTABELECIMENTO DIVERSAO', 'ETABELECIMENTO ENSINO', nan],
      dtype=object)

In [6]:
vitimas_mortas.loc[(vitimas_mortas['Sexo'] != 'Masculino') & (vitimas_mortas['Local Fato'] == 'RESIDENCIA'), :]['Descricao Fato'].unique()

array(['FEMINICIDIO ART 121 PAR 2 VI', 'HOMICIDIO DOLOSO',
       'LESAO CORPORAL SEGUIDA DE MORTE',
       'HOMICIDIO DOLOSO NA DIRECAO DE VEICULO AUTOMOTOR',
       'ROUBO A RESIDENCIA COM MORTE',
       'HOMICIDIO DECORRENTE DE OPOSICAO A INTERVENCAO POLICIAL'],
      dtype=object)

In [7]:
vitimas_mortas.loc[(vitimas_mortas['Sexo'] != 'Masculino'), :].head(10)

Unnamed: 0,Data Fato,Descricao Fato,Municipio Fato,Local Fato,Sexo,Idade,Etnia,Orientacao Sexual,Recurso Letal
19,04/01/2024,FEMINICIDIO ART 121 PAR 2 VI,PORTO ALEGRE,RESIDENCIA,Feminino,31.0,Branca,Nao informado,Nao informado
22,04/01/2024,HOMICIDIO DOLOSO,SAO LEOPOLDO,VIA PUBLICA,Feminino,29.0,Sem informaÆo,Nao informado,Nao informado
23,05/01/2024,HOMICIDIO DOLOSO,CONDOR,RESIDENCIA,Feminino,65.0,Branca,Nao informado,Nao informado
25,05/01/2024,ROUBO DE VEICULO COM MORTE,PORTO ALEGRE,VIA PUBLICA,Feminino,49.0,Branca,Nao informado,Nao informado
32,06/01/2024,HOMICIDIO DOLOSO,PORTO ALEGRE,VIA PUBLICA,Feminino,35.0,Sem informaÆo,Nao informado,Nao informado
33,06/01/2024,FEMINICIDIO ART 121 PAR 2 VI,OSORIO,RESIDENCIA,Feminino,61.0,Branca,Nao informado,Nao informado
43,07/01/2024,HOMICIDIO DOLOSO,ARROIO DO TIGRE,VIA PUBLICA,Feminino,49.0,Branca,Nao informado,Nao informado
47,07/01/2024,HOMICIDIO DOLOSO,PEJUCARA,RESIDENCIA,Feminino,70.0,Branca,Nao informado,Nao informado
55,09/01/2024,FEMINICIDIO ART 121 PAR 2 VI,RIO GRANDE,RESIDENCIA,Feminino,63.0,Branca,Nao informado,Nao informado
56,09/01/2024,HOMICIDIO DOLOSO,PASSO FUNDO,VIA PUBLICA,Feminino,30.0,Branca,Nao informado,Nao informado


#### 0.3.1 Unir tabelas

#### 0.3.2. Separar o arquivo de teste

## 1. DATA DESCRIPTION

Impressão da descrição dos dados antes da limpeza (Data Cleaning)

In [23]:
# Descrição dos dados sem modificação
print('*' *9 + ' Descrição dos dados | ANTES da Limpeza ' + '*' *9)
data_description(mensal_2022_raw)

********* Descrição dos dados | ANTES da Limpeza *********
******************** DATA DIMENSIONS ********************
Quantidade de linhas: 166,150
Quantidade de colunas: 13

******************** DATA TYPES *************************
Sequência               int64
Data Fato              object
Hora Fato              object
Grupo Fato             object
Tipo Enquadramento     object
Tipo Fato              object
Municipio Fato         object
Local Fato             object
Bairro                 object
Quantidade Vítimas      int64
Idade Vítima          float64
Sexo Vítima            object
Cor Vítima             object
dtype: object

******************** CHECK NAs **************************
Sequência                 0
Data Fato                 0
Hora Fato                 0
Grupo Fato                0
Tipo Enquadramento        0
Tipo Fato                 0
Municipio Fato            0
Local Fato                0
Bairro                33505
Quantidade Vítimas        0
Idade Vítima          341

In [26]:
mensal_2022_raw.shape

(599648, 118)

## 2. DATA CLEANING

In [None]:
# Selecionar apenas Porto Alegre e Canoas


Unnamed: 0,count,mean,std,min,25%,50%,75%,max,range,skew,kurtosis
presenca_do_mosquito,12014.0,284349.729982,266875.901542,1023.0,63482.5,198877.5,441652.75,999530.0,998507.0,0.98557,-0.047416
precipitacao,12014.0,84.719611,78.658596,0.009322,27.641255,54.219501,108.675195,299.966579,299.957257,1.227657,0.390643
umidade,12014.0,65.983371,12.898242,40.005175,56.531511,65.381181,74.727422,94.995987,54.990812,0.195917,-0.527853
temperatura,12014.0,25.229748,5.303861,14.003989,21.564519,24.93164,28.577283,37.991244,23.987255,0.242829,-0.255163


## 3. FEATURE ENGINEERING

1. **Violência física**: Entendida como qualquer conduta que **ofenda a integridade ou saúde corporal** da mulher.
   - Espancamento
   - Atirar objetos, sacudir e apertar os braços
   - Estrangulamento ou sufocamento
   - Lesões com objetos cortantes ou perfurantes
   - Ferimentos causados por queimaduras ou armas de fogo
   - Tortura
2. **Violência Psicológica**: É considerada qualquer conduta que: cause dano emocional e diminuição da autoestima; prejudique e perturbe o pleno desenvolvimento da mulher; ou vise degradar ou controlar suas ações, comportamentos, crenças e decisões.
   - Ameaças
   - Constrangimento
   - Humilhação
   - Manipulação
   - Isolamento (proibir de estudar e viajar ou de falar com amigos e parentes)
   - Vigilância constante
   - Perseguição contumaz
   - Insultos
   - Chantagem
   - Exploração
   - Limitação do direito de ir e vir
   - Ridicularização
   - Tirar a liberdade de crença
   - Distorcer e omitir fatos para deixar a mulher em dúvida sobre a sua memória e sanidade (gaslighting)
3. **Violência Sexual**: Trata-se de qualquer conduta que constranja a presenciar, a manter ou a participar de relação sexual não desejada mediante intimidação, ameaça, coação ou uso da força.
   - Estupro
   - Obrigar a mulher a fazer atos sexuais que causam desconforto ou repulsa
   - Impedir o uso de métodos contraceptivos ou forçar a mulher a abortar
   - Forçar matrimônio, gravidez ou prostituição por meio de coação, chantagem, suborno ou manipulação
   - Limitar ou anular o exercício dos direitos sexuais e reprodutivos da mulher
4. **Violência Patrimonial**: Entendida como qualquer conduta que configure retenção, subtração, destruição parcial ou total de seus objetos, instrumentos de trabalho, documentos pessoais, bens, valores e direitos ou recursos econômicos, incluindo os destinados a satisfazer suas necessidades.
   - Controlar o dinheiro
   - Deixar de pagar pensão alimentícia
   - Destruição de documentos pessoais
   - Furto, extorsão ou dano
   - Estelionato
   - Privar de bens, valores ou recursos econômicos
   - Causar danos propositais a objetos da mulher ou dos quais ela goste
5. **Violência Moral**: É considerada qualquer conduta que configure calúnia, difamação ou injúria.
   - Acusar a mulher de traição
   - Emitir juízos morais sobre a conduta
   - Fazer críticas mentirosas
   - Expor a vida íntima
   - Rebaixar a mulher por meio de xingamentos que incidem sobre a sua índole
   - Desvalorizar a vítima pelo seu modo de se vestir

In [24]:
op_2021.loc[op_2021['Sexo Vítima'] != 'Masculino', :]['Tipo Enquadramento'].unique()

array(['VIOLENCIA PSICOLOGICA CONTRA MULHER ART 147B',
       'FURTO SIMPLES EM RESIDENCIA', 'IMPORTUNACAO SEXUAL',
       'OUTRAS FRAUDES', 'FURTO DE VEICULO',
       'FURTO/ARROMBAMENTO DE RESIDENCIA', 'ESTELIONATO',
       'ENTORPECENTES - TRAFICO', 'EXTORSAO', 'FURTO DE TELEFONE CELULAR',
       'INJURIA', 'LESAO CORPORAL', 'DENUNCIACAO CALUNIOSA',
       'FURTO DE FIOS E CABOS', 'CRUELDADE CONTRA ANIMAIS',
       'OUTROS CRIMES', 'DIFAMACAO', 'ROUBO A PEDESTRE',
       'EMBRIAGUEZ - ART. 306',
       'PERTURBACAO DO TRABALHO OU DO SOSSEGO ALHEIOS', 'AMEACA',
       'ROUBO A PEDESTRE COM LESOES', 'OUTROS FURTOS', 'DESACATO',
       'VIAS DE FATO', 'LESAO CORPORAL CULPOSA DIRECAO VEIC AUTOMOTOR',
       'DANO', 'FURTO QUALIFICADO', 'ENTORPECENTES  POSSE',
       'FURTO EM VEICULO - ESTEPE',
       'PERMITIR,CONFIAR,OU ENTREG. DIRECAO A PESSOA S/HABIL.ART 310',
       'FURTO DE DOCUMENTO',
       'FURTO/ARROMBAMENTO ESTABELECIMENTO COMERCIAL', 'RECEPTACAO',
       'FUGA DE LOCAL DE A

In [125]:
# Classificação dos crimes

violencia_fisica = [
    'LESAO CORPORAL', 
    'LESAO CORPORAL LEVE', 'LESAO CORPORAL GRAVE', 
    'LESAO CORPORAL SEGUIDA DE MORTE', 'LESAO CORPORAL GRAVISSIMA', 
    'HOMICIDIO CULPOSO',
    'HOMICIDIO DOLOSO', 'HOMICIDIO DOLOSO NA DIRECAO DE VEICULO AUTOMOTOR', 
    'HOMICIDIO DECORRENTE DE OPOSICAO A INTERVENCAO POLICIAL', 
    'FEMINICIDIO ART 121 PAR 2 VI', 'SEQUESTRO E CARCERE PRIVADO', 
    'ROUBO COM MORTE', 'ROUBO A RESIDENCIA COM MORTE', 
    'VIAS DE FATO', 'DANO QUALIFICADO',
    'ROUBO A PEDESTRE COM LESOES', 'LESAO CORPORAL CULPOSA', 
    'CONSTRANGIMENTO ILEGAL DE CRIANCA E ADOLESCENTE', 
    'PERIGO A VIDA/SAUDE DE OUTREM', 'DISPARO DE ARMA DE FOGO', 
    'ROUBO DE VEICULO COM LESOES', 'ROUBO A MOTORISTA DE TAXI', 
    'SEQUESTRO RELAMPAGO', 'CRIMES DE TORTURA   LEI 9455 DE 1997',
    'OMISSAO DE SOCORRO  ART 304 DO CTB', 
    'OMISSAO DE SOCORRO CONTRA O IDOSO', 'ROUBO A MOTORISTA DE CARGA DE CAMINHAO', 
    'ROUBO A MOTORISTA COM LESOES', 'DESTRUICAO, SUBTRACAO OU OCULTACAO DE CADAVER',
    'ROUBO COM LESOES', 'ROUBO A ESTABELEC. DE ENSINO',
    'LESAO CORPORAL CULPOSA DIRECAO VEIC AUTOMOTOR', 
    'LESAO CORPORAL DECORRENTE DE OPOSICAO A INTERVENCAO POLICIAL', 
    'HOMICIDIO CULPOSO DIRECAO VEIC AUTOMOTOR'
]

violencia_psicologica = [
    'VIOLENCIA PSICOLOGICA CONTRA MULHER ART 147B', 'AMEACA', 
    'PERSEGUICAO', 'INJURIA DISCRIMINATORIA', 
    'INJURIA QUALIFICADA  RACA COR ETNIA RELIGIAO OU ORIGEM',
    'DISCRIMINACAO CONTRA O IDOSO',
    'INDUZIMENTO INSTIGAO AUXILIO AO SUICIDIO OU A AUTOMULTILAO'
]

violencia_sexual = [
    'IMPORTUNACAO SEXUAL', 'ESTUPRO', 'ESTUPRO DE VULNERAVEL', 
    'VIOLACAO SEXUAL MEDIANTE FRAUDE', 
    'FAVORECIMENTO DA PROSTITUICAO OU DE OUTRA FORMA DE EXPLORACAO SEXUAL DE CRIANCA OU ADOLESCENTE OU DE VULNERAVEL', 
    'EXPLORACAO SEXUAL INFANTO-JUVENIL', 'CONDUTAS RELAC. A PEDOFILIA NA INTERNET E OTR MEIOS DE COMUNIC.', 
    'DIVULGACAO DE CENA DE ESTUPRO DE SEXO OU DE PORNOGRAFIA', 
    'SATISFACAO DE LASCIVIA MEDIANTE PRESENCA DE CRIANCA OU ADOLESCENTE', 
    'MEDIACAO PARA SERVIR A LASCIVIA DE OUTREM',
    'ASSEDIO SEXUAL', 'PORNOGRAFIA INFANTO-JUVENIL', 
    'FORNECER PRODUTOS CRIANCA/ADOLESCENTE QUE CAUSAM DEPENDENCIA'
]

violencia_patrimonial = [
    'FURTO SIMPLES EM RESIDENCIA', 'FURTO DE VEICULO', 
    'FURTO/ARROMBAMENTO DE RESIDENCIA', 'ESTELIONATO', 
    'FURTO DE TELEFONE CELULAR', 'FURTO DE FIOS E CABOS', 
    'FURTO QUALIFICADO', 'FURTO EM VEICULO - ESTEPE', 
    'FURTO DE DOCUMENTO', 'FURTO/ARROMBAMENTO ESTABELECIMENTO COMERCIAL', 
    'RECEPTACAO', 'RECEPTACAO DE VEICULO', 'ROUBO A PEDESTRE', 
    'ROUBO A RESIDENCIA', 'ROUBO DE VEICULO', 
    'ROUBO A ESTABELECIMENTO COMERCIAL', 'FURTO ABIGEATO', 
    'FURTO DE COISA COMUM ART 156  SUBTRAIR O CONDOMINO COHERDEIRO OU SOCIO PARA SI OU PARA OUTREM A QUEM LEGITIMAMENTE A DETEM A COISA COMUM', 
    'FURTO DE ARMA', 'FURTO EM VEICULO', 'ROUBO A ESTABELECIMENTO COMERCIAL COM LESOES', 
    'ROUBO A RESIDENCIA COM LESOES', 'RECEPTACAO QUALIFICADA',
    'ROUBO DE TELEFONE CELULAR', 'ROUBO DE DOCUMENTO', 
    'FURTO DE CARGA EM CAMINHAO', 'APROPRIACAO INDEBITA DE BEM DE IDOSO', 
    'FURTO/ARROMBAMENTO', 'OUTROS FURTOS', 'ROUBO A PASSAGEIRO TRANSP. COLETIVO E LOTACAO', 
    'ROUBO A TRANSPORTE COLETIVO', 'RECEPTACAO CULPOSA', 
    'ROUBO A CASA LOTERICA', 'ROUBO A JOALHERIAS E OTICAS', 
    'FURTO DE DEFENSIVO AGRICOLA', 'FRAUDE NO COMERCIO', 
    'ROUBO A ESTABELECIMENTO BANCARIO', 'ROUBO DE ARMA', 
    'ROUBO A MOTORISTA DE CARRO ENTREGAS', 'FRAUDE NO PAGAMENTO POR MEIO DE CHEQUE', 
    'ROUBO A PEDESTRE ESCOLAR', 
    'RECEPTACAO DE ANIMAL', 'FRAUDE A CREDORES', 
    'ROUBO A MOTORISTA DE LOTACAO'
]

violencia_moral = [
    'INJURIA', 'DIFAMACAO', 'CALUNIA', 'DENUNCIACAO CALUNIOSA', 
    'PRECONCEITO RACA COR', 'PRECONCEITO DEFICIENCIA', 
    'PRECONCEITO RELIGIAO', 'HOMOFOBIA TRANSFOBIA', 
    'PRECONCEITO ETNIA PROCEDENCIA NACIONAL',
    'PROMOVER TUMULTO PRATICAR OU INCITAR A VIOLENCIA OU INVADIR LOCAL RESTRITO AOS COMPETIDORES EM EVENTOS ESPORTIVOS  ART 41 B'
]

resto_dos_crimes = [
    'OUTRAS FRAUDES', 'ENTORPECENTES - TRAFICO', 'EXTORSAO', 
    'ENTORPECENTES  POSSE', 'EMBRIAGUEZ - ART. 306', 
    'PERTURBACAO DO TRABALHO OU DO SOSSEGO ALHEIOS', 'DESACATO', 
    'DANO', 'PERMITIR,CONFIAR,OU ENTREG. DIRECAO A PESSOA S/HABIL.ART 310', 
    'FUGA DE LOCAL DE ACIDENTE - ART. 305', 'DESCUMPRIMENTO DE MEDIDA PROTETIVA DE URGENCIA', 
    'DESOBEDIENCIA', 'SUBTRACAO DE INCAPAZ', 'POSSE IRREGULAR DE ARMA DE FOGO DE USO PERMITIDO', 
    'INVASAO DE DISPOSITIVO INFORMATICO', 'CRIMES CONTRA A FLORA', 
    'RESISTENCIA', 'ATO OBSCENO', 'INCENDIO DOLOSO', 
    'DIRIGIR SEM HABILITACAO GERANDO PERIGO DE DANO ART. 309', 
    'MAUS TRATOS', 'CRIMES CONTRA A FAUNA', 'APROPRIACAO INDEBITA', 
    'OUTROS CRIMES CONTRA O IDOSO', 'ESBULHO POSSESSORIO', 
    'MAUS TRATOS CONTRA O IDOSO', 'EXERCICIO ARBITRARIO PROPRIAS RAZOES', 
    'OUTROS CRIMES CONTRA MEIO AMBIENTE', 'FALSA IDENTIDADE', 
    'EXERCICIO ARBITRARIO OU ABUSO DE PODER', 'OMISSAO DE CAUTELA NA GUARDA OU CONDUCAO DE ANIMAIS', 
    'ADULTERACAO DE SINAL IDENTIFICADOR DE VEICULO AUTOMOTOR', 
    'CRIME DE POLUICAO E OUTROS CRIMES AMBIENTAIS', 'ORGANIZACAO CRIMINOSA ART 2 DA LEI 12850 DE 2013', 
    'OUTROS CRIMES CONTRA A CRIANCA/ADOLESCENTE', 'INCITACAO AO CRIME', 
    'FALSIDADE IDEOLOGICA', 'VIOLACAO DE CORRESPONDENCIA', 
    'VIOLACAO DE DOMICILIO', 'PORTE ILEGAL DE ARMA DE FOGO DE USO PERMITIDO', 
    'APROPRIACAO COISA HAVIDA POR ERRO CASO FORTUITO OU FORCA DA NATUREZA', 
    'DIRECAO PERIGOSA (RACHA) ART 308', 'USO DE DOCUMENTO FALSO', 
    'FAVORECIMENTO REAL', 'OUTROS CRIMES CONTRA A ADMINISTRACAO PUBLICA', 
    'COACAO NO CURSO DO PROCESSO', 'FALSO TESTEMUNHO OU FALSA PERICIA', 
    'APROPRIACAO DE COISA ACHADA', 'CONSTRANGIMENTO ILEGAL', 
    'OUTROS CRIMES CONTRA A FE PUBLICA', 'FALSIFICACAO DE PAPEIS/DOCUMENTOS PUBLICOS', 
    'ROUBO A MOTORISTA PARTICULAR', 'VIOLAR A SUSPENSAO OU PROIBICAO DE DIRIGIR VEICULO ART.307', 
    'CONDUTO INCONVENIENTE', 'RIXA', 'OUTROS CRIMES CONTRA O SENTIMENTO RELIGIOSO', 
    'OUTROS CRIMES CONTRA A ORGANIZACAO DO TRABALHO', 'OUTROS CRIMES CONTRA A FAMILIA', 
    'ATENTADO CONTRA SEGURANCA SERV UTILIDADE PUBLICA', 'CORRUPCAO PASSIVA', 
    'CHARLATANISMO', 'PECULATO', 'AFIRMACAO ENGANOSA SOBRE PRODUTO', 
    'OMISSAO SOCORRO ART 135 CP', 'VIOLACAO DE DIREITO AUTORAL (PLAGIO)', 
    'REDUCAO A CONDICAO ANALOGA A DE ESCRAVO', 'PICHAR OU POR OUTRO MEIO CONSPURCAR EDIFICACAO OU MONUMENTO URBANO', 
    'INCENDIO CULPOSO', 'FACILITACAO DE CONTRABANDO OU DESCAMINHO',
    'CRUELDADE CONTRA ANIMAIS', 'OUTROS CRIMES', 'FURTO/ARROMBAMENTO A ESTABELECIMENTO DE ENSINO', 
    'ABANDONO DE INCAPAZ', 'OUTROS CRIMES CONTRA RELACAO DE CONSUMO EOU ECONOMIA POPULAR', 
    'ABUSO DE INCAPAZ', 'POSSE OU PORTE ILEGAL DE ARMA DE FOGO DE USO RESTRITO', 
    'TRAFEGAR COM VELOCIDADE INCOMPATIVEL COM A SEGURANCA ART.311', 'JOGOS DE AZAR', 
    'PORTE ARMA BRANCA', 'OUTROS ROUBOS', 
    'ABANDONO MATERIAL', 'VIOLACAO DE SEPULTURA', 
    'CRIME CONTRA O SENTIMENTO RELIGIOSO E RESPEITO AOS MORTOS', 
    'SERVIR BEBIDA ALCOOLICA A VULNERAVEIS', 'ENTORPECENTE  ASSOCIACAO', 
    'EXERCICIO ILEGAL DA PROFISSAO', 'ASSOCIACAO CRIMINOSA ART 288 DO CP', 
    'COMUNICACAO FALSA DE CRIME OU CONTRAVENCAO', 'ALTERACAO LIMITES DIVISORIOS', 
    'INFRACAO DE MEDIDA SANITARIA PREVENTIVA', 'POSSE OU PORTE ILEGAL DE ARMA DE FOGO DE USO PROIBIDO', 
    'FURTO/ARROMBAMENTO ESTABELECIMENTO BANCARIO', 'ABANDONO DE IDOSO', 
    'FALSIFICACAO DE DOCUMENTOS PARTICULARES', 'CRIMES DE ABUSO DE AUTORIDADE', 
    'OUTROS CRIMES CONTRA O PATRIMONIO', 'ABORTO', 'PREVARICACAO', 
    'CRIME CONTRA A ORDEM TRIBUTARIA - LEI 8137/90', 'EXTORSAO MEDIANTE SEQUESTRO', 
    'CRIMES DE LAVAGEM OU OCULTACAO DE BENS DIREITOS E VALORES LEI 9613 DE 3 DE MARCO DE 1998', 
    'CRIME ELEITORAL', 'CONDICIONAMENTO DE ATENDIMENTO MEDICO HOSPITALAR EMERGENCIAL', 
    'CURANDERISMO', 'CORRUPCAO DE MENORES', 'COMERCIO ILEGAL DE ARMA DE FOGO', 
    'CONCUSSAO', 'CRIME CONTRA A ADMINISTRACAO AMBIENTAL', 
    'DISPOR COISA ALHEIA COMO PROPRIA', 'EXTRAVIO SONEGACAO OU INUTILIZACAO DE LIVRO OU DOCUMENTO', 
    'CRIME CONTRA O ORDENAMENTO URBANO E PATRIMONIO CULTURAL', 
    'RECUSA DE DADOS SOBRE A PROPRIA IDENTIFICACAO OU QUALIFICACAO', 'VILIPENDIO A CADAVER', 
    'ARREMESSO DE PROJETIL  ART 264 CP', 'OMISSAO CAUTELA ARMA FOGO', 
    'FAVORECIMENTO PESSOAL', 'VIOLACAO DE SIGILO FUNCIONAL', 
    'CRIMES CONTRA O SISTEMA FINANCEIRO - LEI 7492/86', 
    'OUTROS CRIMES CONTRA A LIBERDADE INDIVIDUAL', 'CASA DE PROSTITUICAO', 
    'TRAFICO INTERNACIONAL DE ARMA DE FOGO', 'CONCORRENCIA DESLEAL', 
    'FORNECER ARMA, MUNICAO, EXPLOSIVO A CRIANCA/ADOLESCENTE', 
    'FABRICO COMERCIO OU DENTENCAO DE ARMA BRANCA OU MUNICAO', 
    'ATIVIDADE(S) COM RISCOS A SEGURANCA', 'MOTIM DE PRESOS', 
    'NEGAR INFORMACOES AO CONSUMIDOR', 'ATIVIDADE CLANDESTINA DE TELECOMUNICACOES',
    'OUTROS CRIMES QUE GERAM TERMOS CIRCUNSTANCIADOS', 'OUTROS CRIMES CONTRA A INCULUMIDADE PUBLICA', 
    'CORRUPCAO ATIVA', 'ABANDONO INTELECTUAL'
]

selecionados = violencia_fisica + violencia_psicologica + violencia_sexual + violencia_patrimonial + violencia_moral + resto_dos_crimes
print(len(selecionados))

crimes = []
crimes = op_2021.loc[(op_2021['Sexo Vítima'] != 'Masculino') & (op_2021['Tipo Enquadramento'].isin(selecionados)), :]['Tipo Enquadramento'].unique()
print(len(crimes))

Unnamed: 0,casos_de_dengue,date,presenca_do_mosquito,precipitacao,umidade,temperatura,status,mes,semana_do_ano,proliferacao,outlier
0,270499,1987-01-01,874324,168.814638,88.117339,37.113825,parcialmente conscientizada,1,1,high,none
1,279224,1987-01-02,869290,148.661492,61.232582,29.596003,parcialmente conscientizada,1,1,high,none
2,221681,1987-01-03,880145,267.744475,79.160989,26.844099,none,1,1,high,none
3,76197,1987-01-04,295600,162.011169,79.160989,29.870342,parcialmente conscientizada,1,1,high,none
4,94530,1987-01-05,681702,278.151803,77.434816,29.418697,parcialmente conscientizada,1,2,high,none


## 4. EXPLORATORY DATA ANALYSIS (EDA)

Para uma compreensão mais profunda dos dados de casos de dengue, é essencial realizar uma análise detalhada dos outliers presentes. Esta análise nos permitirá:
1. Entender a Causa dos Outliers: Por que eles acontecem?
2. Avaliar o Impacto dos Outliers na Previsão dos Casos de Dengue: Como eles afetam a previsão dos casos de dengue?
3. Determinar o Tratamento Adequado dos Outliers: O que fazer com eles?


### 4.1. Análise Univariada

### 4.2. Análise Bivariada

### 4.3. Análise Multivariada

- Correlação entre Variáveis Numéricas;
- Correlação entre Variáveis Categóricas.

### 4.4. Análise de séries temporais

### 4.5. Análise de outliers

### 4.6. Teste de hipóteses

# III. Preparação dos dados

## 5. DATA PREPARATION

**Por que é importante?**

O aprendizado dos algoritmos de ML é facilitado com dados numéricos e na mesma escala.

**O que fazer?**
- Normalização: Diminuir o grau de importância das variáveis com maior range;
- Encoding: Transformar as variáveis categóricas em numéricas;
- Rescaling: Reescala para o intervalo entre 0 e 1;
- Transformation: [Transformação cíclica do time series](https://joaquinamatrodrigo.github.io/skforecast/0.8.1/faq/cyclical-features-time-series.html) (ex.: natureza cíclica dos meses, anos, semanas etc).

### 5.1. Separar arquivos de treino e validação

### 5.3. Normalização do fenômeno

### 5.3. Demais transformações

# IV. Modelagem

Pipeline:
- Data cleaning
- Feature Engineering
- Transformations (Encoder dos categóricos, escala dos numéricos)

## 6. MACHINE LEARNING MODELING

# V. Validação

## 7. HYPERPARAMETER FINE TUNING

### 7.1. GridSearchCV

### 7.2. Validação

## 8. OPTIMIZATION

### 8.1. Feature Importance

- Data: Importância das features;
- Index: Nomes das features.

## 9. ERROR TRANSLATION AND INTERPRETATION

### 9.1. Business Performance

### 9.2. Total Performance

# VI. Implantação

## 10. DEPLOY MODEL PRODUCTION

### 10.1. Salvar modelo

In [48]:
# Salvar o modelo 
with open('../models/model.pkl', 'wb') as file_model:
    pickle.dump(model_pipeline, file_model)

### 10.2. Salvar arquivo de submissão

### 10.3. Prever resultados do teste