In [1]:
# Bibliotecas Importadas

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
# Importação do Dataset

dados = pd.read_csv('suicidios_2010_a_2019.csv', sep=";")
dados.columns = dados.columns.str.lower()
dados.head()

  has_raised = await self.run_ast_nodes(code_ast.body, cell_name,


Unnamed: 0,unnamed: 0,estado,ano,mes,dtobito,dtnasc,sexo,racacor,assistmed,escmae,estciv,esc,ocup,codmunres,causabas,causabas_o,lococor,cirurgia
0,1,AC,2010,1,31/01/2010,09/11/1999,Masculino,Parda,,,Solteiro/a,1 a 3 anos,ESTUDANTE,Tarauacá,X780,X780,Via pública,Não
1,2,AC,2010,2,07/02/2010,23/09/1985,Masculino,Parda,,,Solteiro/a,1 a 3 anos,ESTUDANTE,Tarauacá,X780,X780,Hospital,Não
2,3,AC,2010,2,19/02/2010,06/08/1995,Masculino,Parda,,,Solteiro/a,1 a 3 anos,ESTUDANTE,Tarauacá,X780,X780,Hospital,Não
3,4,AC,2010,4,20/04/2010,25/12/1983,Feminino,Parda,,,Casado/a,1 a 3 anos,DONA DE CASA,Tarauacá,X780,X780,Domicílio,Não
4,5,AC,2010,7,24/07/2010,13/05/1982,Masculino,Parda,,,Casado/a,,DONA DE CASA,Tarauacá,X720,X720,Domicílio,Não


### Dicionário das variáveis

*    **estado** = Estado onde ocorreu o óbito
*   **ano** = Ano de quando ocorreu o óbito
*  **mes** = Mês em que ocorreu o óbito
*  **dtobito** = Data do óbito
*   **dtnasc** = Data de nascimento da vítima
*   **sexo** = Sexo 
*   **racacor** = Raça/cor
*   **assistmed** = Assistência médica
*   **escmae** = Escolaridade (em anos) da mãe da vítima
*   **estciv** = Estado Civil
*   **esc** = Escolaridade (em anos)
*   **ocup** = Ocupação 
*   **codmunres** = Cidade
*   **causabas** = Causa básica da morte (de acordo com CID)
*   **causabas_o** = Causa básica da morte (de acordo com CID)
*   **lococor** = Local de ocorrência da morte
*   **cirurgia** = Foi realizada cirurgia? (Sim ou não)

## 2. Manipulação e Limpeza de Dados com Pandas

In [3]:
# Primeiramente vamos obter informações do Dataframe escolhido

dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 112491 entries, 0 to 112490
Data columns (total 18 columns):
 #   Column      Non-Null Count   Dtype 
---  ------      --------------   ----- 
 0   unnamed: 0  112491 non-null  int64 
 1   estado      112491 non-null  object
 2   ano         112491 non-null  int64 
 3   mes         112491 non-null  int64 
 4   dtobito     112491 non-null  object
 5   dtnasc      101633 non-null  object
 6   sexo        112469 non-null  object
 7   racacor     109320 non-null  object
 8   assistmed   70687 non-null   object
 9   escmae      15 non-null      object
 10  estciv      103791 non-null  object
 11  esc         84327 non-null   object
 12  ocup        60274 non-null   object
 13  codmunres   112491 non-null  object
 14  causabas    112491 non-null  object
 15  causabas_o  112204 non-null  object
 16  lococor     112031 non-null  object
 17  cirurgia    8549 non-null    object
dtypes: int64(3), object(15)
memory usage: 15.4+ MB


In [4]:
# Com a função shape, observamos respectivamente a quantidade de linhas e colunas do Dataframe

dados.shape

(112491, 18)

In [5]:
# Observamos os nomes das colunas do Dataframe

dados.columns

Index(['unnamed: 0', 'estado', 'ano', 'mes', 'dtobito', 'dtnasc', 'sexo',
       'racacor', 'assistmed', 'escmae', 'estciv', 'esc', 'ocup', 'codmunres',
       'causabas', 'causabas_o', 'lococor', 'cirurgia'],
      dtype='object')

In [6]:
# Lista se alguma das colunas possuem dados ausentes

print(dados.isnull().any())

unnamed: 0    False
estado        False
ano           False
mes           False
dtobito       False
dtnasc         True
sexo           True
racacor        True
assistmed      True
escmae         True
estciv         True
esc            True
ocup           True
codmunres     False
causabas      False
causabas_o     True
lococor        True
cirurgia       True
dtype: bool


In [7]:
# Contando a quantidade de valores faltantes por coluna:

dados.isnull().sum()

unnamed: 0         0
estado             0
ano                0
mes                0
dtobito            0
dtnasc         10858
sexo              22
racacor         3171
assistmed      41804
escmae        112476
estciv          8700
esc            28164
ocup           52217
codmunres          0
causabas           0
causabas_o       287
lococor          460
cirurgia      103942
dtype: int64

Observando as colunas, algumas delas são desnecessárias para nosso propósito. Colunas como as de assistência médica, escolaridade da mãe, esolaridade da vítima e cirurgia, não possuem informações relevantes para nossa análise, além disso as colunas escolaridade da mãe e cirurgia possuem muitos dados auesentes. Outra coluna desnecessária é a coluna duplicata de causa de óbitos, nesse caso, vamos elimar uma, e ficar com a coluna que possui os dados completos.

In [8]:
dados.columns

Index(['unnamed: 0', 'estado', 'ano', 'mes', 'dtobito', 'dtnasc', 'sexo',
       'racacor', 'assistmed', 'escmae', 'estciv', 'esc', 'ocup', 'codmunres',
       'causabas', 'causabas_o', 'lococor', 'cirurgia'],
      dtype='object')

In [9]:
columns = [ 'assistmed', 'escmae', 'esc', 'causabas_o', 'cirurgia']
dados.drop(columns, inplace=True, axis=1)

In [10]:
# Agora, com o novo Dataframe a quantidade de valores faltantes por coluna são:

dados.isnull().sum()

unnamed: 0        0
estado            0
ano               0
mes               0
dtobito           0
dtnasc        10858
sexo             22
racacor        3171
estciv         8700
ocup          52217
codmunres         0
causabas          0
lococor         460
dtype: int64

### Tratando Dados Ausentes

Observamos que algumas colunas, possuem dados ausentes e que precisam ser tratados. Optamos por não excluir os dados, dessa forma, iremos preenche-los.

*   Coluna de Data de Nascimento:

A coluna de data de nascimento, possui 10858 dados ausentes, porém, essa coluna pode nos fornecer informações utéis a respeito da idade de pessoas vítimas de suicídio. 

In [11]:
dados.update(dados['dtnasc'].fillna('Não cadastrada'))

*   Coluna de Sexo:

A coluna de  sexo possui apenas 22 dados ausentes, então, como se trata de uma valor categórico, podemos preencher com valores mais frequentes.

In [12]:
# Identifica o valor mais frequente da coluna

print(dados.sexo.value_counts())
sexo_freq = dados.sexo.value_counts()[0]

print(dados.racacor.value_counts())
racacor_freq= dados.racacor.value_counts()[0]

# Preenche os valores ausentes com o valor de maior frequencia

dados.sexo.fillna(sexo_freq, inplace = True)

# Verifica se há algum valor ausente na coluna sexo

print('Valor ausente: ', dados.sexo.isnull().sum())

Masculino    88394
Feminino     24075
Name: sexo, dtype: int64
Branca      56075
Parda       45695
Preta        5929
Indígena     1187
Amarela       434
Name: racacor, dtype: int64
Valor ausente:  0


*   Coluna de Raça/Cor:

A coluna de raça/cor possui 3171 dados ausentes, por se tratar também de um valor categórico, preencheremos com os valores mais frequentes.

In [13]:
# Identifica o valor mais frequente da coluna

print(dados.racacor.value_counts())
racacor_freq= dados.racacor.value_counts()[0]

# Preenche os valores ausentes com o valor de maior frequencia

dados.racacor.fillna(racacor_freq, inplace = True)

# Verifica se há algum valor ausente na coluna Raça/cor

print('Quantidade de valores ausentes: ', dados.racacor.isnull().sum())

Branca      56075
Parda       45695
Preta        5929
Indígena     1187
Amarela       434
Name: racacor, dtype: int64
Quantidade de valores ausentes:  0


*   Coluna Estado Civil:

A coluna de estado civil, possui 8700 dados ausentes.

In [14]:
# Identifica o valor mais frequente da coluna
print(dados.estciv.value_counts())
estciv_freq= dados.estciv.value_counts()[0]

# Preenche os valores ausentes com o valor de maior frequencia
dados.estciv.fillna(estciv_freq, inplace = True)

# Verifica se há valor ausente na coluna Estado civil
dados.estciv.isnull().sum()

Solteiro/a                  56523
Casado/a                    30001
Separado/a judicialmente     7771
União consensual             5280
Viúvo/a                      4216
Name: estciv, dtype: int64


0

*   Coluna de Ocupação:

A coluna de data de nascimento, possui 10858 dados ausentes, porém, essa coluna pode nos fornecer informações utéis a respeito da idade de pessoas vítimas de suicídio. 

In [15]:
dados.update(dados['ocup'].fillna('Não cadastrada'))

*   Coluna de Local de óbito:

A coluna de raça/cor possui 3171 dados ausentes, por se tratar também de um valor categórico, preencheremos com os valores mais frequentes.

In [16]:
# Identifica o valor mais frequente

print(dados.lococor.value_counts())
lococor_freq= dados.lococor.value_counts()[0]

#Preenche os valores ausentes com o valor de maior frequencia

dados.lococor.fillna(lococor_freq, inplace = True)

#Verifica se há valor ausente

dados.lococor.isnull().sum()

Domicílio                         68221
Hospital                          17579
Outros                            17502
Via pública                        6996
Outro estabelecimento de saúde     1733
Name: lococor, dtype: int64


0

Com os dados tratados, podemos ver, só para ter certeza:

In [17]:
#Contando a quantidade de valores faltantes por coluna:

dados.isnull().sum()

unnamed: 0    0
estado        0
ano           0
mes           0
dtobito       0
dtnasc        0
sexo          0
racacor       0
estciv        0
ocup          0
codmunres     0
causabas      0
lococor       0
dtype: int64

Além do tratamento de dados, temos apenas a coluna de data de nascimento e não a idade diretamente, por isso, vamos criar uma coluna para criar a idade.

In [18]:
dados.columns

Index(['unnamed: 0', 'estado', 'ano', 'mes', 'dtobito', 'dtnasc', 'sexo',
       'racacor', 'estciv', 'ocup', 'codmunres', 'causabas', 'lococor'],
      dtype='object')

In [19]:
columns = ['estado','dtobito','dtnasc','racacor','estciv','ocup','codmunres','causabas','lococor','sexo']
dados.drop(columns, inplace=True, axis=1)

In [20]:
# Importando as bibliotecas a serem utilizadas

from sklearn.svm import SVC
from sklearn.preprocessing import MinMaxScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Quebrando os dados em conjunto de treino e conjunto de teste

In [21]:
# separando os dados para teste/treinamento.

columns = ['ano', 'mes','unnamed: 0']
X = dados.drop('ano', axis=1)
y = dados.ano

# Treinando um estimador scikit-learn de aprendizagem supervisionada (Classificador)

Nessa etapa optamos por utilizar o comando MinMaxScaler.fit_transfor() para poder aumentar a qualidade do Classificador através do tratamento dos inputs e com a normalização, podemos também aumentar significativamente a qualidade da acurácia.

In [22]:
#Fazendo a normalização dos Dados

normalizador = MinMaxScaler()
X_norm = normalizador.fit_transform(X)
X_norm

array([[0.00000000e+00, 0.00000000e+00],
       [8.88967908e-06, 9.09090909e-02],
       [1.77793582e-05, 9.09090909e-02],
       ...,
       [9.99982221e-01, 6.36363636e-01],
       [9.99991110e-01, 8.18181818e-01],
       [1.00000000e+00, 7.27272727e-01]])

Agora para verificar a melhoria na qualidade do Classificador, separamos as variáveis em conjunto de treinamento de teste.

In [23]:
#Divisão do conjunto de treinamento e conjunto de teste

X_train, X_test, y_train, y_test = train_test_split(X_norm, y, train_size=2/3, random_state=1)

Já no nosso Classificador e com as variáveis do conjunto de treinamento, utilizamos a função .fit().Logo após essa etapa de treianamento, podemos testa os nosso conjuto de teste para verificar a precisão. 

In [24]:
# Criando Classificador

svc = SVC()
svc.fit(X_train, y_train)

accuracy_score(y_test, svc.predict(X_test))

0.9817852094834253