Valores Faltantes
=================

Es los suficientemente común, al trabajar con un problema de aprendizaje automatizado, el encontrarse que el conjunto de datos a utilizar tiene valores faltantes. Esto puede resultar en modelos que no funcionan correctamente, o en la imposibilidad de utilizar ciertos algoritmos. Por lo tanto, es importante saber cómo manejar estos valores faltantes.

Al encontrarse con valores faltantes, uno puede realizar cuatro posibles acciones:

- Dejarlos como están. El peor de los casos, ya que la mayoría de los algoritmos de aprendizaje automatizado no pueden trabajar con valores faltantes.
- Imputar valores faltantes. Esto significa reemplazar los valores faltantes con algún valor. Por ejemplo, se puede reemplazar con la media de los valores de la columna, o la moda.
- Eliminar las filas que contienen valores faltantes. Esto puede ser una buena opción si el número de filas con valores faltantes es pequeño.
- Eliminar las columnas que contienen valores faltantes. Si la columna tiene muchos valores faltantes, puede ser una buena opción eliminarla.

Veamos como realizar varias de estas tareas.

## Python

In [27]:
import pandas as pd
import numpy as np

In [28]:
dataset: pd.DataFrame = pd.read_csv('./datasets/full.csv')
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 899 entries, 0 to 898
Data columns (total 77 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   dataset   899 non-null    object 
 1   id        899 non-null    int64  
 2   ccf       899 non-null    int64  
 3   age       899 non-null    int64  
 4   sex       899 non-null    int64  
 5   painloc   617 non-null    float64
 6   painexer  617 non-null    float64
 7   relrest   613 non-null    float64
 8   pncaden   0 non-null      float64
 9   cp        899 non-null    int64  
 10  trestbps  840 non-null    float64
 11  htn       865 non-null    float64
 12  chol      869 non-null    float64
 13  smoke     230 non-null    float64
 14  cigs      479 non-null    float64
 15  years     467 non-null    float64
 16  fbs       809 non-null    float64
 17  dm        95 non-null     float64
 18  famhist   477 non-null    float64
 19  restecg   897 non-null    float64
 20  ekgmo     846 non-null    float6

Asignemos tipos de datos correctos a las columnas:

In [29]:
for column in dataset.columns:
    try:
        dataset[column] = dataset[column].astype('string')
        dataset[column] = dataset[column].astype(float)
        dataset[column] = dataset[column].astype(int)
    except:
        pass
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 899 entries, 0 to 898
Data columns (total 77 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   dataset   899 non-null    string 
 1   id        899 non-null    int32  
 2   ccf       899 non-null    int32  
 3   age       899 non-null    int32  
 4   sex       899 non-null    int32  
 5   painloc   617 non-null    float64
 6   painexer  617 non-null    float64
 7   relrest   613 non-null    float64
 8   pncaden   0 non-null      float64
 9   cp        899 non-null    int32  
 10  trestbps  840 non-null    float64
 11  htn       865 non-null    float64
 12  chol      869 non-null    float64
 13  smoke     230 non-null    float64
 14  cigs      479 non-null    float64
 15  years     467 non-null    float64
 16  fbs       809 non-null    float64
 17  dm        95 non-null     float64
 18  famhist   477 non-null    float64
 19  restecg   897 non-null    float64
 20  ekgmo     846 non-null    float6

Eliminemos las columnas que tienen mas del 30% de valores faltantes.

In [30]:
dataset = dataset.dropna(axis=1, thresh=0.7*len(dataset))
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 899 entries, 0 to 898
Data columns (total 46 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   dataset   899 non-null    string 
 1   id        899 non-null    int32  
 2   ccf       899 non-null    int32  
 3   age       899 non-null    int32  
 4   sex       899 non-null    int32  
 5   cp        899 non-null    int32  
 6   trestbps  840 non-null    float64
 7   htn       865 non-null    float64
 8   chol      869 non-null    float64
 9   fbs       809 non-null    float64
 10  restecg   897 non-null    float64
 11  ekgmo     846 non-null    float64
 12  ekgday    845 non-null    float64
 13  ekgyr     846 non-null    float64
 14  dig       831 non-null    float64
 15  prop      833 non-null    float64
 16  nitr      834 non-null    float64
 17  pro       836 non-null    float64
 18  diuretic  817 non-null    float64
 19  proto     787 non-null    float64
 20  thaldur   843 non-null    float6

Inputemos valores faltantes con la media, para aquellos valores que sean numéricos reales.

In [31]:
for column in dataset.columns:
    if dataset[column].dtype == np.float64:
        dataset[column] = dataset[column].fillna(dataset[column].mean())
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 899 entries, 0 to 898
Data columns (total 46 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   dataset   899 non-null    string 
 1   id        899 non-null    int32  
 2   ccf       899 non-null    int32  
 3   age       899 non-null    int32  
 4   sex       899 non-null    int32  
 5   cp        899 non-null    int32  
 6   trestbps  899 non-null    float64
 7   htn       899 non-null    float64
 8   chol      899 non-null    float64
 9   fbs       899 non-null    float64
 10  restecg   899 non-null    float64
 11  ekgmo     899 non-null    float64
 12  ekgday    899 non-null    float64
 13  ekgyr     899 non-null    float64
 14  dig       899 non-null    float64
 15  prop      899 non-null    float64
 16  nitr      899 non-null    float64
 17  pro       899 non-null    float64
 18  diuretic  899 non-null    float64
 19  proto     899 non-null    float64
 20  thaldur   899 non-null    float6

Por ultimo, eliminemos las filas que tengan valores faltantes.

In [32]:
dataset = dataset.dropna(axis=0, how='any')
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 899 entries, 0 to 898
Data columns (total 46 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   dataset   899 non-null    string 
 1   id        899 non-null    int32  
 2   ccf       899 non-null    int32  
 3   age       899 non-null    int32  
 4   sex       899 non-null    int32  
 5   cp        899 non-null    int32  
 6   trestbps  899 non-null    float64
 7   htn       899 non-null    float64
 8   chol      899 non-null    float64
 9   fbs       899 non-null    float64
 10  restecg   899 non-null    float64
 11  ekgmo     899 non-null    float64
 12  ekgday    899 non-null    float64
 13  ekgyr     899 non-null    float64
 14  dig       899 non-null    float64
 15  prop      899 non-null    float64
 16  nitr      899 non-null    float64
 17  pro       899 non-null    float64
 18  diuretic  899 non-null    float64
 19  proto     899 non-null    float64
 20  thaldur   899 non-null    float6

El resultado es un conjunto de datos que no tiene valores faltantes.

## RapidMiner

En RapidMiner el proceso es complicado. Desafortunadamente no existen operadores que permitan remover columnas basados en cantidad o proporcion de valores faltantes. Para realizar esto crearemos un proceso que:

1. Transponga el conjunto de datos. Permitiendonos trabajar con las columnas como filas.
2. Cree dos nuevas columnas: una con la cantidad de datos faltantes por ejemplo, y otra con la cantidad de atributos totales.
3. Elimine las filas que tengan mas del 30% de valores faltantes.
4. Transponga el conjunto de datos nuevamente.

![Valores Faltantes 01](../images/vf-01.png)

La definicion del proceso es la siguiente:

```xml
<?xml version="1.0" encoding="UTF-8"?><process version="10.2.000">
  <operator activated="true" class="subprocess" compatibility="10.2.000" expanded="true" height="82" name="Remover Columnas Vacias" width="90" x="179" y="34">
    <process expanded="true">
      <operator activated="true" class="blending:rename" compatibility="10.2.000" expanded="true" height="82" name="Rename" width="90" x="179" y="34">
        <list key="rename attributes">
          <parameter key="id" value="id_data"/>
        </list>
        <parameter key="from_attribute" value=""/>
        <parameter key="to_attribute" value=""/>
      </operator>
      <operator activated="true" class="transpose" compatibility="10.2.000" expanded="true" height="82" name="Transpose" width="90" x="45" y="136"/>
      <operator activated="true" class="multiply" compatibility="10.2.000" expanded="true" height="103" name="Multiply" width="90" x="179" y="136"/>
      <operator activated="true" class="generate_aggregation" compatibility="10.2.000" expanded="true" height="82" name="Generate Aggregation" width="90" x="313" y="34">
        <parameter key="attribute_name" value="no_missing_count"/>
        <parameter key="attribute_filter_type" value="all"/>
        <parameter key="attribute" value=""/>
        <parameter key="attributes" value=""/>
        <parameter key="use_except_expression" value="false"/>
        <parameter key="value_type" value="attribute_value"/>
        <parameter key="use_value_type_exception" value="false"/>
        <parameter key="except_value_type" value="time"/>
        <parameter key="block_type" value="attribute_block"/>
        <parameter key="use_block_type_exception" value="false"/>
        <parameter key="except_block_type" value="value_matrix_row_start"/>
        <parameter key="invert_selection" value="false"/>
        <parameter key="include_special_attributes" value="false"/>
        <parameter key="aggregation_function" value="count"/>
        <parameter key="concatenation_separator" value="|"/>
        <parameter key="keep_all" value="true"/>
        <parameter key="ignore_missings" value="true"/>
        <parameter key="ignore_missing_attributes" value="true"/>
      </operator>
      <operator activated="true" class="extract_macro" compatibility="10.2.000" expanded="true" height="68" name="Extract Macro" width="90" x="313" y="136">
        <parameter key="macro" value="count"/>
        <parameter key="macro_type" value="number_of_attributes"/>
        <parameter key="statistics" value="average"/>
        <parameter key="attribute_name" value=""/>
        <list key="additional_macros"/>
      </operator>
      <operator activated="true" class="blending:generate_columns" compatibility="10.2.000" expanded="true" height="82" name="Generate Attributes (2)" width="90" x="447" y="136">
        <list key="function_descriptions">
          <parameter key="attr_count" value="%{count}"/>
        </list>
        <parameter key="keep_all_columns" value="true"/>
      </operator>
      <operator activated="true" class="concurrency:join" compatibility="10.2.000" expanded="true" height="82" name="Join" width="90" x="447" y="34">
        <parameter key="remove_double_attributes" value="true"/>
        <parameter key="join_type" value="inner"/>
        <parameter key="use_id_attribute_as_key" value="false"/>
        <list key="key_attributes">
          <parameter key="id" value="id"/>
        </list>
        <parameter key="keep_both_join_attributes" value="false"/>
      </operator>
      <operator activated="true" class="guess_types" compatibility="10.2.000" expanded="true" height="82" name="Guess Types" width="90" x="581" y="34">
        <parameter key="attribute_filter_type" value="single"/>
        <parameter key="attribute" value="attr_count"/>
        <parameter key="attributes" value=""/>
        <parameter key="use_except_expression" value="false"/>
        <parameter key="value_type" value="attribute_value"/>
        <parameter key="use_value_type_exception" value="false"/>
        <parameter key="except_value_type" value="time"/>
        <parameter key="block_type" value="attribute_block"/>
        <parameter key="use_block_type_exception" value="false"/>
        <parameter key="except_block_type" value="value_matrix_row_start"/>
        <parameter key="invert_selection" value="false"/>
        <parameter key="include_special_attributes" value="false"/>
        <parameter key="decimal_point_character" value="."/>
      </operator>
      <operator activated="true" class="filter_examples" compatibility="10.2.000" expanded="true" height="103" name="Filter Examples" width="90" x="581" y="136">
        <parameter key="parameter_expression" value="(no_missing_count / attr_count)&gt;=0.5"/>
        <parameter key="condition_class" value="expression"/>
        <parameter key="invert_filter" value="false"/>
        <list key="filters_list"/>
        <parameter key="filters_logic_and" value="true"/>
        <parameter key="filters_check_metadata" value="true"/>
      </operator>
      <operator activated="true" class="blending:select_attributes" compatibility="10.2.000" expanded="true" height="82" name="Select Attributes" width="90" x="715" y="136">
        <parameter key="type" value="exclude attributes"/>
        <parameter key="attribute_filter_type" value="a subset"/>
        <parameter key="select_attribute" value=""/>
        <parameter key="select_subset" value="attr_count␞no_missing_count"/>
        <parameter key="also_apply_to_special_attributes_(id,_label..)" value="true"/>
      </operator>
      <operator activated="true" class="transpose" compatibility="10.2.000" expanded="true" height="82" name="Transpose (2)" width="90" x="715" y="34"/>
      <operator activated="true" class="guess_types" compatibility="10.2.000" expanded="true" height="82" name="Guess Types (2)" width="90" x="849" y="34">
        <parameter key="attribute_filter_type" value="all"/>
        <parameter key="attribute" value="attr_count"/>
        <parameter key="attributes" value=""/>
        <parameter key="use_except_expression" value="false"/>
        <parameter key="value_type" value="attribute_value"/>
        <parameter key="use_value_type_exception" value="false"/>
        <parameter key="except_value_type" value="time"/>
        <parameter key="block_type" value="attribute_block"/>
        <parameter key="use_block_type_exception" value="false"/>
        <parameter key="except_block_type" value="value_matrix_row_start"/>
        <parameter key="invert_selection" value="false"/>
        <parameter key="include_special_attributes" value="false"/>
        <parameter key="decimal_point_character" value="."/>
      </operator>
      <connect from_port="in 1" to_op="Rename" to_port="example set input"/>
      <connect from_op="Rename" from_port="example set output" to_op="Transpose" to_port="example set input"/>
      <connect from_op="Transpose" from_port="example set output" to_op="Multiply" to_port="input"/>
      <connect from_op="Multiply" from_port="output 1" to_op="Generate Aggregation" to_port="example set input"/>
      <connect from_op="Multiply" from_port="output 2" to_op="Extract Macro" to_port="example set"/>
      <connect from_op="Generate Aggregation" from_port="example set output" to_op="Join" to_port="left"/>
      <connect from_op="Extract Macro" from_port="example set" to_op="Generate Attributes (2)" to_port="table input"/>
      <connect from_op="Generate Attributes (2)" from_port="table output" to_op="Join" to_port="right"/>
      <connect from_op="Join" from_port="join" to_op="Guess Types" to_port="example set input"/>
      <connect from_op="Guess Types" from_port="example set output" to_op="Filter Examples" to_port="example set input"/>
      <connect from_op="Filter Examples" from_port="example set output" to_op="Select Attributes" to_port="example set input"/>
      <connect from_op="Select Attributes" from_port="example set output" to_op="Transpose (2)" to_port="example set input"/>
      <connect from_op="Transpose (2)" from_port="example set output" to_op="Guess Types (2)" to_port="example set input"/>
      <connect from_op="Guess Types (2)" from_port="example set output" to_port="out 1"/>
      <portSpacing port="source_in 1" spacing="0"/>
      <portSpacing port="source_in 2" spacing="0"/>
      <portSpacing port="sink_out 1" spacing="0"/>
      <portSpacing port="sink_out 2" spacing="0"/>
    </process>
  </operator>
</process>
```

Siguiente completamos los valores faltantes de los atributos numericos reales con la media, utilizando el operador `Replace Missing Values`.

![Valores Faltantes 02](../images/vf-02.png)

Terminamos removiendo todos los ejemplos restantes con valores faltantes. Esto lo hacemos con el operador `Filter Examples`.

![Valores Faltantes 03](../images/vf-03.png)

El resultado es un conjunto de datos que no tiene valores faltantes.