![SolidQ](https://antoniosql.github.io/images/SolidQ_Verne.png) 

# Gestionando valores nulos

In [1]:
import pandas as pd
from io import StringIO
csv_data = \
  '''A,B,C,D
  1.0,2.0,3.0,4.0
  5.0,6.0,,8.0
  10.0,11.0,12.0,'''
# Si usamos Python 2.7, necesitamos convertir el string a unicode:
# csv_data = unicode(csv_data)
df = pd.read_csv(StringIO(csv_data))
df
#En el código anterior, leemos datos en formato CSV en un DataFrame pandas via la función read_csv y vemos como las dos celdas que faldan se "rellenan" con NaN 
#La función StringIO solo se usa para facilitar la demostración para simular que tenemos un fichero real.

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


In [0]:
df.isna().sum()

In [0]:
#acceso al array NumPy que tenemos por detrás
df.values

In [0]:
#lo más "fácil"
df.dropna(axis=0)

In [0]:
#también podemos borrar columnas
df.dropna(axis=1)

In [0]:
#borrar filas donde todos los valores sea NaN
df.dropna(how='all')

In [0]:
#borrar filas que tienen menos de 4 valores reales
df.dropna(thresh=4)

In [0]:
#borrar filas con NaN en una columna específica
df.dropna(subset=['C'])

In [0]:
#directamente el porcentaje de valores nulos

df.isna().mean().round(4) * 100

Habitualmente, eliminar ejemplos o borrar columnas enteras simplemente no es posible, porque perderíamos mucho valor de los datos. En este caso, podemos utilizar técnicas de interpolación para estimar los valores que faltan de otras muestras de ejemplos de nuestro conjunto de datos. Una de las técnicas más comunes de interpolación, es la interpolación meida, donde reemplazamos el valor que falta por la media de los valores de la columna. Podemos hacerlo de un modo sencillo, a través de la clase Imputer del paquete scikit-learn

In [0]:
from sklearn.preprocessing import Imputer
imr = Imputer(missing_values='NaN', strategy='mean', axis=0)
imr = imr.fit(df.values)
imputed_data = imr.transform(df.values)
imputed_data

En el código anterior, hemos reemplazado cada valor NaN con la media correspondiente. Si cambiamos el axis=0 a Axis=1, entonces calcularíamos la media de las filas. Otra opción podría ser reemplazar los valores faltantes por los más habituales. Se suele utilizar para valores de característica categóricos.

In [0]:
from sklearn.impute import SimpleImputer
my_imputer = SimpleImputer()
imputed_data = pd.DataFrame(my_imputer.fit_transform(df))
imputed_data

# Valores duplicados

In [0]:
# import pandas as pd
import numpy as np
 
#Crear un DataFrame
d = {
    'Name':['Alisa','Bobby','jodha','jack','raghu','Cathrine',
            'Alisa','Bobby','kumar','Alisa','Alex','Cathrine'],
    'Age':[26,24,23,22,23,24,26,24,22,23,24,24],
      
       'Score':[85,63,55,74,31,77,85,63,42,62,89,77]}
 
df = pd.DataFrame(d,columns=['Name','Age','Score'])
df

In [0]:
df["is_duplicate"]= df.duplicated()
 
df

In [0]:
# eliminar filas duplicadas
 
df.drop_duplicates()

In [0]:
# eliminar filas duplicadas
 
df.drop_duplicates(keep='last')
# Deja la última y elimina el resto

In [0]:
# Ahora podemos borrar filas por nombre de columna. Las filas se borran de un modo que se mantienen valores de columna únicos para la columna especificada
 
df.drop_duplicates(['Name'], keep='last')
