# TRATAMENTO DOS DADOS - PREVISÃO 

## tratamento dos dados com: 
- Analise Exploratoria e Graficos
- Tratamento de dados missing
- Tratamento de outliers
- OneHotEncoding
- localização de lat e log
- calculo de distancia (em km)
- Engenharia de Atributos
- Tratamento de dados
- Normalização de dados
- Preparação do dados para machine learning
- Criação, teste e validação do modelo

In [None]:
#instalação de biblioteca (opcional)
# A primeira coisa que temos que fazer é importar os pacotes que iremos utilizar.
import pip
pip.main(["install","pandas","seaborn","numpy","matplotlib","sklearn","warnings"])

In [1]:
#importação das bibliotecas
import pandas as pd #Possui inúmeras funções e comandos para importar arquivos, analisar dados, etc
import matplotlib.pyplot as plt  #Possui uma série de funções e comandos para exibição de gráficos
import seaborn as sns   #Possui uma série de funções e comandos para exibição de gráficos 
import numpy as np #Possui uma série de funções e comandos para trabalharmos com números de forma em geral
import warnings #Possui detalhes sobre os avisos e alertas que aparecem
warnings.filterwarnings("ignore") 

from glob import glob #Utilizado para localizar pastas no windows
from sklearn.model_selection import train_test_split # Utilizado para separar dados de treino e teste
from sklearn.preprocessing import StandardScaler # Utilizado para fazer a normalização dos dados
from sklearn.preprocessing import MinMaxScaler # Utilizado para fazer a normalização dos dados
from sklearn.preprocessing import LabelEncoder # Utilizado para fazer o OneHotEncoding
from sklearn.linear_model import LinearRegression # Algoritmo de Regressão Linear
from sklearn.metrics import r2_score # Utilizado para medir a acuracia do modelo preditivo

#Comando para exibir todas colunas do arquivo
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

## Importação dos dados, Analise Exploratória e Tratamento

In [2]:
#Criando um unico DataFrame unificando todos os arquivos CSV.
arquivos = sorted(glob(r'../dados/base/*.csv'))
df_dados = pd.concat((pd.read_csv(cont, 
    dtype={'CNES_EXECUTANTE':'str','IBGE_USUARIO':'str','CEP_USUARIO':'str', 'CEP_UNID_EXECUTANTE':'str'}) 
    for cont in arquivos),ignore_index=True)

In [3]:
#Comando utilizado para verificar a quantidade de linhas e colunas do arquivo
#Colunas também são chamadas de variáveis.
df_dados.shape

(7884545, 16)

In [4]:
#Comando utilizado para verificar as linhas iniciais do DataFrame
df_dados.head()

Unnamed: 0,CNS_USUARIO,IDADE_USUARIO,MUNICIPIO_USUARIO,IBGE_USUARIO,SEXO_USUARIO,RACA_COR_USUARIO,CEP_USUARIO,DESLOCAMENTO,CNES_EXECUTANTE,CEP_UNID_EXECUTANTE,ESPECIALIDADE,GRAVIDADE,DATA_ATEND,TEMPO_ESPERA,CONF_ATEND,quant
0,111113X78X7,43,PINDAMONHANGABA,353800,MASCULINO,BRANCA,12441170,ATENDIDO NO MESMO MUNICIPIO DE RESIDENCIA DO U...,2755033,12410040,MÉDICO ENDOCRINOLOGISTA E METABOLOGISTA,PRIORIDADE 3 - ATENDIMENTO ELETIVO,2020-04-03,129,FALTA,1
1,111124X24X7,37,DIADEMA,351380,FEMININO,AMARELA,9930650,ATENDIDO NO MESMO MUNICIPIO DE RESIDENCIA DO U...,5851084,9911160,MÉDICO GINECOLOGISTA E OBSTETRA,PRIORIDADE 3 - ATENDIMENTO ELETIVO,2020-04-01,14,CONFIRMADO,1
2,111129X81X7,58,FLORIANOPOLIS,420540,FEMININO,BRANCA,88047200,ATENDIDO NO MESMO MUNICIPIO DE RESIDENCIA DO U...,2691841,88015270,MÉDICO ORTOPEDISTA E TRAUMATOLOGISTA,PRIORIDADE 3 - ATENDIMENTO ELETIVO,2020-04-06,21,CONFIRMADO,1
3,11112XX86X7,57,SAO VICENTE,355100,FEMININO,PARDA,11365140,ATENDIDO NO MESMO MUNICIPIO DE RESIDENCIA DO U...,6177344,11355230,MÉDICO ORTOPEDISTA E TRAUMATOLOGISTA,PRIORIDADE 3 - ATENDIMENTO ELETIVO,2020-04-07,0,CONFIRMADO,1
4,111162XX5X7,75,PITIMBU,251190,MASCULINO,PARDA,58324000,ATENDIDO NO MESMO MUNICIPIO DE RESIDENCIA DO U...,2399555,58020560,MÉDICO CIRURGIÃO GERAL,"PRIORIDADE 1 - URGÊNCIA, ATENDIMENTO O MAIS RÁ...",2020-04-03,50,FALTA,1


In [5]:
#Comando utilizado para verificar as linhas finais do DataFrame
df_dados.tail()

Unnamed: 0,CNS_USUARIO,IDADE_USUARIO,MUNICIPIO_USUARIO,IBGE_USUARIO,SEXO_USUARIO,RACA_COR_USUARIO,CEP_USUARIO,DESLOCAMENTO,CNES_EXECUTANTE,CEP_UNID_EXECUTANTE,ESPECIALIDADE,GRAVIDADE,DATA_ATEND,TEMPO_ESPERA,CONF_ATEND,quant
7884540,XXXX87XX6X7,13,CAMPO GRANDE,500270,MASCULINO,BRANCA,79092180,ATENDIDO NO MESMO MUNICIPIO DE RESIDENCIA DO U...,10375,79086110,MÉDICO ALERGISTA E IMUNOLOGISTA,PRIORIDADE 3 - ATENDIMENTO ELETIVO,2021-12-15,14,CONFIRMADO,1
7884541,XXXX92X43X7,39,SANTA CRUZ DO RIO PARDO,354640,FEMININO,BRANCA,18900296,ATENDIDO NO MESMO MUNICIPIO DE RESIDENCIA DO U...,2030284,18900000,MÉDICO EM CIRURGIA VASCULAR,PRIORIDADE 3 - ATENDIMENTO ELETIVO,2021-12-14,48,CONFIRMADO,1
7884542,XXXXX4X89X7,52,CRICIUMA,420460,MASCULINO,BRANCA,88818455,ATENDIDO NO MESMO MUNICIPIO DE RESIDENCIA DO U...,2419971,88809340,MÉDICO NEFROLOGISTA,PRIORIDADE 3 - ATENDIMENTO ELETIVO,2021-12-17,21,CONFIRMADO,1
7884543,XXXXX6X32X7,44,NOVA OLIMPIA,510623,MASCULINO,AMARELA,78370000,ATENDIDO NO MESMO MUNICIPIO DE RESIDENCIA DO U...,9841903,78010100,MÉDICO ORTOPEDISTA E TRAUMATOLOGISTA,"PRIORIDADE 1 - URGÊNCIA, ATENDIMENTO O MAIS RÁ...",2021-12-16,51,CONFIRMADO,1
7884544,XXXXX9X26X7,43,SAO LUIS,211130,FEMININO,PRETA,65059844,ATENDIDO NO MESMO MUNICIPIO DE RESIDENCIA DO U...,838535,65057420,MÉDICO GINECOLOGISTA E OBSTETRA,PRIORIDADE 3 - ATENDIMENTO ELETIVO,2021-12-11,53,CONFIRMADO,1


In [6]:
#Comando utilizado para verificar informações sobre os dados(Tipo de variáveis, Variáveis, Quantidade de registros, etc)

# A variaveis CNS_USUARIO e quant poderá ser excluídas
# As variaveis UF, ESCOLARIDADE, CASA_PROPRIA, OUTRA_RENDA, TRABALHANDO_ATUALMENTE e ESTADO_CIVIL --> OneHotEncoding
# A variavel ULTIMO_SALARIO está como STRING e precisa ser NUMERICA
df_dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7884545 entries, 0 to 7884544
Data columns (total 16 columns):
 #   Column               Dtype 
---  ------               ----- 
 0   CNS_USUARIO          object
 1   IDADE_USUARIO        int64 
 2   MUNICIPIO_USUARIO    object
 3   IBGE_USUARIO         object
 4   SEXO_USUARIO         object
 5   RACA_COR_USUARIO     object
 6   CEP_USUARIO          object
 7   DESLOCAMENTO         object
 8   CNES_EXECUTANTE      object
 9   CEP_UNID_EXECUTANTE  object
 10  ESPECIALIDADE        object
 11  GRAVIDADE            object
 12  DATA_ATEND           object
 13  TEMPO_ESPERA         int64 
 14  CONF_ATEND           object
 15  quant                int64 
dtypes: int64(3), object(13)
memory usage: 962.5+ MB


In [7]:
# Vamos excluir as variaveis CNS_USUARIO e quant
df_dados.drop('CNS_USUARIO', axis=1, inplace=True)
df_dados.drop('quant', axis=1, inplace=True)

In [None]:
# Vamos converter a variavel DATA_ATEND em date


In [None]:
# Dessa forma podemos agrupar os valores e identificar se há algum valor discrepante.
# Observe que há um valor que foi inserido como "SEM DADOS"
df_dados.groupby(['ULTIMO_SALARIO']).size()

In [8]:
df_dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7884545 entries, 0 to 7884544
Data columns (total 14 columns):
 #   Column               Dtype 
---  ------               ----- 
 0   IDADE_USUARIO        int64 
 1   MUNICIPIO_USUARIO    object
 2   IBGE_USUARIO         object
 3   SEXO_USUARIO         object
 4   RACA_COR_USUARIO     object
 5   CEP_USUARIO          object
 6   DESLOCAMENTO         object
 7   CNES_EXECUTANTE      object
 8   CEP_UNID_EXECUTANTE  object
 9   ESPECIALIDADE        object
 10  GRAVIDADE            object
 11  DATA_ATEND           object
 12  TEMPO_ESPERA         int64 
 13  CONF_ATEND           object
dtypes: int64(2), object(12)
memory usage: 842.2+ MB
