# Proporción de Valores faltantes
Supongamos que le dan un conjunto de datos. ¿Cuál sería su primer paso? Naturalmente, desearía explorar los datos primero antes de construir el modelo. Mientras explora los datos, descubre que su conjunto de datos tiene algunos valores faltantes. ¿Ahora que? Intentará averiguar el motivo de estos valores faltantes y luego los reemplazará? o  los descartará por completo en las variables que tienen valores perdidos (utilizando los métodos adecuados).

¿Qué pasa si tenemos demasiados valores faltantes (digamos más del 50%)? ¿Deberíamos reemplazar los valores faltantes o descartar la variable? En general, se debería descartar la variable ya que no tendrá mucha información. Como solución, podemos establecer un valor umbral y si el porcentaje de valores faltantes en cualquier variable es mayor que ese umbral, eliminaremos la variable.

Miremos este procedimiento en Python:

In [1]:
# import required libraries
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

Primero, se cargará la información

In [2]:
# read the data
train=pd.read_csv("Train_data.csv")
# To show rows and columns
print(train.shape)
# To describe the dataset
train.describe()

#To see the columns o dimansions that it has
train.columns

(8523, 12)


Index(['Item_Identifier', 'Item_Weight', 'Item_Fat_Content', 'Item_Visibility',
       'Item_Type', 'Item_MRP', 'Outlet_Identifier',
       'Outlet_Establishment_Year', 'Outlet_Size', 'Outlet_Location_Type',
       'Outlet_Type', 'Item_Outlet_Sales'],
      dtype='object')

Nota: La ruta del archivo debe agregarse mientras lee los datos.

Ahora, verificaremos el porcentaje de valores faltantes en cada variable. Podemos usar .isnull (). Sum () para calcular esto. 

In [3]:
# checking the percentage of missing values in each variable
train.isnull().sum()/len(train)*100

Item_Identifier               0.000000
Item_Weight                  17.165317
Item_Fat_Content              0.000000
Item_Visibility               0.000000
Item_Type                     0.000000
Item_MRP                      0.000000
Outlet_Identifier             0.000000
Outlet_Establishment_Year     0.000000
Outlet_Size                  28.276428
Outlet_Location_Type          0.000000
Outlet_Type                   0.000000
Item_Outlet_Sales             0.000000
dtype: float64

Como podemos ver en  la tabla anterior, no hay demasiados valores faltantes (en realidad solo 2 variables los tienen). Podemos recuperar los valores utilizando los métodos apropiados, o podemos establecer un umbral de, digamos 20%, y eliminar la variable que tiene más del 20% de valores faltantes. Veamos cómo se puede hacer esto en Python:

In [4]:
# saving missing values in a variable
a = train.isnull().sum()/len(train)*100
# saving column names in a variable
variables = train.columns
variable = [ ]
for i in range(0,12):
    if a[i]<=20:   #setting the threshold as 20%
        variable.append(variables[i])

In [5]:
print(variable)

['Item_Identifier', 'Item_Weight', 'Item_Fat_Content', 'Item_Visibility', 'Item_Type', 'Item_MRP', 'Outlet_Identifier', 'Outlet_Establishment_Year', 'Outlet_Location_Type', 'Outlet_Type', 'Item_Outlet_Sales']


De esta manera, las variables que se utilizarán se almacenan en "variable", que contiene solo aquellas características donde los valores faltantes son inferiores al 20%