# Pré processamento da coleção de dados

Aplicação de técnicas de pré processamento de dados para ser possível uma pré-análise dos dados enquanto ocore a transformação para dados padronizados e normalizados.

## Lidando com valores ausentes (missing values)
Dados ausentes talvez sejam a característica mais comum de dados impuros. Esses valores geralmente assumem a forma de NaN ou None.

Existem várias maneiras de preencher os valores ausentes:

* Remover as linhas com os dados se seu conjunto de dados for grande o suficiente e a porcentagem de valores ausentes for alta (mais de 50%, por exemplo);
* Preencher todas as variáveis nulas com 0 para lidar com valores numéricos;
* Usar alguma biblioteca (ex: classe SimpleImputer da biblioteca scikit-learn) para preencher os valores ausentes com os dados (média, mediana, moda) para atributos discretos;
* Usar alguma biblioteca (ex: OrdenalEncoder e OneHotEncoder da biblioteca scikit-learn) para preencher os valores categóricos em numéricos e em seguida criar atributos "fictícios";
    * Ou seja, uma coluna será substituída por uma coluna para cada uma das variáveis categóricas que tinha na coluna original e com 1s e 0s substituindo as variáveis categóricas.
    * É possível também utilizar o codificador de rótulo se houver variáveis categóricas como "sim" e "não".
* Preencher os valores ausentes com qualquer valor que vier diretamente depois deles na mesma coluna.

Essas decisões dependem do tipo de dados, do deseja-se fazer com os dados e da causa dos valores ausentes. Na verdade, só porque algo é popular não significa necessariamente que seja a escolha certa. A estratégia <b>mais comum</b> é usar o valor médio, mas dependendo de seus dados, você pode chegar a uma abordagem totalmente diferente.

> Média é a estratégia padrão, então não é necessário realmente especificar isso, mas está aqui para ter uma ideia de quais informações pode-se desejar incluir. Os valores padrão para missing_values é nan. Se o conjunto de dados tiver valores ausentes chamados "NaN", permaneceremos com np.nan no parâmetro. <b>Conferir a documentação oficial [aqui](https://scikit-learn.org/stable/modules/generated/sklearn.impute.SimpleImputer.html)!</b>

## Tipos de dados incorretos 
Cada coluna está atribuída ao tipo de dados correto. Isso pode ser verificado por meio da propriedade `dtypes`.

## Dados homogêneos
Este aspecto envolve dados categóricos e numéricos. Os dados categóricos devem ter o mesmo estilo de formatação, como minúsculas ou espaço em branco no início e final da string. Os dados numéricos devem ter, por exemplo, o mesmo número de dígitos após o ponto e outras coisas com arredondamento para cima e para baixo.

## Dimensionamento de recursos (feature scaling)
É muito importante dimensionar os dados ao usar algoritmos de aprendizado de máquina. Existem exceções, mas quando as variáveis estão em escalas diferentes, geralmente é necessário dimensioná-las.

Algumas maneiras de fazer isso:

* Escala min-max: subtraia o valor min e divida pelo intervalo (max-min). Os valores variam de 0 a 1. A classe MinMaxScaler faz isso.
* Padronização (Standardization): subtraia a média e divida pelo desvio padrão. Você acaba com a média 0 e variação unitária. Os valores não são limitados neste caso. A padronização (Standardization) é menos afetada por outliers. A classe StandardScaler faz isso.

In [1]:
from fun_dependencies import *

### Tabela Interacao

In [2]:
df_interacao = load_data('dataset/Detail_Interaction.csv', ';')
print(f'Attributes type\n{df_interacao.dtypes}')

Attributes type
ci_name_aff_              object
ci_type_aff_              object
ci_subtype_aff_           object
service_comp_wbs_aff_     object
interaction_id            object
status                    object
impact                     int64
urgency                   object
priority                   int64
category                  object
km_number                 object
open_time_first_touch_    object
close_time                object
closure_code              object
first_call_resolution     object
handle_time_secs_          int64
related_incident          object
dtype: object


In [3]:
df_interacao = missing_treatment(df_interacao)
print(f'Attributes type\n{df_interacao.dtypes}')

Before Missing Values
                            0          1
ci_name_aff_                0   0.000000
ci_type_aff_                0   0.000000
ci_subtype_aff_             0   0.000000
service_comp_wbs_aff_       0   0.000000
interaction_id              0   0.000000
status                      0   0.000000
impact                      0   0.000000
urgency                     0   0.000000
priority                    0   0.000000
category                    0   0.000000
km_number                   0   0.000000
open_time_first_touch_      0   0.000000
close_time                  0   0.000000
closure_code              487   0.331284
first_call_resolution       0   0.000000
handle_time_secs_           0   0.000000
related_incident        94250  64.113902
After Missing Values
                        0    1
ci_name_aff_            0  0.0
ci_type_aff_            0  0.0
ci_subtype_aff_         0  0.0
service_comp_wbs_aff_   0  0.0
interaction_id          0  0.0
status                  0  0.0
im

In [4]:
df_interacao.to_csv('cleaning_dataset/Detail_Interaction.csv', sep=';', encoding='utf-8', index=False)

### Tabela Incidente

In [5]:
df_incidente = load_data('dataset/Detail_Incident.csv', sep=';')
print(f'Attributes type\n{df_incidente.dtypes}')

Attributes type
ci_name_aff_                   object
ci_type_aff_                   object
ci_subtype_aff_                object
service_component_wbs_aff_     object
incident_id                    object
                               ...   
unnamed_73                    float64
unnamed_74                    float64
unnamed_75                    float64
unnamed_76                    float64
unnamed_77                    float64
Length: 78, dtype: object


In [6]:
df_incidente = missing_treatment(df_incidente)
print(f'Attributes type\n{df_incidente.dtypes}')

Before Missing Values
                                0           1
ci_name_aff_                  203    0.433677
ci_type_aff_                  203    0.433677
ci_subtype_aff_               203    0.433677
service_component_wbs_aff_    203    0.433677
incident_id                   203    0.433677
...                           ...         ...
unnamed_73                  46809  100.000000
unnamed_74                  46809  100.000000
unnamed_75                  46809  100.000000
unnamed_76                  46809  100.000000
unnamed_77                  46809  100.000000

[78 rows x 2 columns]
After Missing Values
                            0    1
ci_name_aff_                0  0.0
ci_type_aff_                0  0.0
ci_subtype_aff_             0  0.0
service_component_wbs_aff_  0  0.0
incident_id                 0  0.0
status                      0  0.0
impact                      0  0.0
urgency                     0  0.0
priority                    0  0.0
category                    0  0

In [7]:
df_incidente.to_csv('cleaning_dataset/Detail_Incident.csv', sep=';', encoding='utf-8', index=False)

### Tabela Atividades Incidente

In [8]:
df_atividades_incidente = load_data('dataset/Detail_Incident_Activity.csv', sep=';')
print(f'Attributes type\n{df_atividades_incidente.dtypes}')

Attributes type
incident_id                object
datestamp                  object
incidentactivity_number    object
incidentactivity_type      object
assignment_group           object
km_number                  object
interaction_id             object
dtype: object


In [9]:
df_atividades_incidente = missing_treatment(df_atividades_incidente)
print(f'Attributes type\n{df_atividades_incidente.dtypes}')

Before Missing Values
                         0    1
incident_id              0  0.0
datestamp                0  0.0
incidentactivity_number  0  0.0
incidentactivity_type    0  0.0
assignment_group         0  0.0
km_number                0  0.0
interaction_id           0  0.0
After Missing Values
                         0    1
incident_id              0  0.0
datestamp                0  0.0
incidentactivity_number  0  0.0
incidentactivity_type    0  0.0
assignment_group         0  0.0
km_number                0  0.0
interaction_id           0  0.0

Percent missing value removed: 0.00%

Attributes type
incident_id                string
datestamp                  string
incidentactivity_number    string
incidentactivity_type      string
assignment_group           string
km_number                  string
interaction_id             string
dtype: object


In [10]:
df_atividades_incidente.to_csv('cleaning_dataset/Detail_Incident_Activity.csv', sep=';', encoding='utf-8', index=False)

### Tabela Mudanças

In [11]:
df_mudancas = load_data('dataset/Detail_Change.csv', sep=';')
print(f'Attributes type\n{df_mudancas.dtypes}')

Attributes type
ci_name_aff_                   object
ci_type_aff_                   object
ci_subtype_aff_                object
service_component_wbs_aff_     object
change_id                      object
change_type                    object
risk_assessment                object
emergency_change               object
cab_approval_needed            object
planned_start                  object
planned_end                    object
scheduled_downtime_start       object
scheduled_downtime_end         object
actual_start                   object
actual_end                     object
requested_end_date             object
change_record_open_time        object
change_record_close_time       object
originated_from                object
#_related_interactions        float64
#_related_incidents           float64
dtype: object


In [12]:
df_mudancas = missing_treatment(df_mudancas)
print(f'Attributes type\n{df_mudancas.dtypes}')

Before Missing Values
                                0          1
ci_name_aff_                    0   0.000000
ci_type_aff_                    0   0.000000
ci_subtype_aff_                 0   0.000000
service_component_wbs_aff_      0   0.000000
change_id                       0   0.000000
change_type                     0   0.000000
risk_assessment                 0   0.000000
emergency_change                0   0.000000
cab_approval_needed             0   0.000000
planned_start                   0   0.000000
planned_end                    43   0.142031
scheduled_downtime_start    29520  97.506193
scheduled_downtime_end      29531  97.542527
actual_start                 3258  10.761354
actual_end                   3261  10.771263
requested_end_date              0   0.000000
change_record_open_time         0   0.000000
change_record_close_time        0   0.000000
originated_from                 0   0.000000
#_related_interactions      30273  99.993394
#_related_incidents         28327

In [13]:
df_mudancas.to_csv('cleaning_dataset/Detail_Change.csv', sep=';', encoding='utf-8', index=False)