![Verne](https://www.vernegroup.com/wp-content/uploads/2020/07/LOGO-VERNE-TECHNOLOGY-GROUP-3.png)

# Gestionando valores nulos

In [1]:
import pandas as pd
from io import StringIO
csv_data = \
  '''A,B,C,D
  1.0,2.0,3.0,4.0
  5.0,6.0,,8.0
  10.0,11.0,12.0,'''
# Si usamos Python 2.7, necesitamos convertir el string a unicode:
# csv_data = unicode(csv_data)
df = pd.read_csv(StringIO(csv_data))
df
#En el código anterior, leemos datos en formato CSV en un DataFrame pandas via la función read_csv y vemos como las dos celdas que faldan se "rellenan" con NaN 
#La función StringIO solo se usa para facilitar la demostración para simular que tenemos un fichero real.

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


In [2]:
df.isna().sum()

A    0
B    0
C    1
D    1
dtype: int64

In [None]:
#acceso al array NumPy que tenemos por detrás
df.values

array([[ 1.,  2.,  3.,  4.],
       [ 5.,  6., nan,  8.],
       [10., 11., 12., nan]])

In [3]:
#lo más "fácil"
df.dropna(axis=0)

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0


In [4]:
#también podemos borrar columnas
df.dropna(axis=1)

Unnamed: 0,A,B
0,1.0,2.0
1,5.0,6.0
2,10.0,11.0


In [5]:
#borrar filas donde todos los valores sea NaN
df.dropna(how='all')

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


In [6]:
#borrar filas que tienen menos de 4 valores reales
df.dropna(thresh=4)

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0


In [7]:
#borrar filas con NaN en una columna específica
df.dropna(subset=['C'])

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
2,10.0,11.0,12.0,


In [8]:
#directamente el porcentaje de valores nulos

df.isna().mean().round(4) * 100

A     0.00
B     0.00
C    33.33
D    33.33
dtype: float64

Habitualmente, eliminar ejemplos o borrar columnas enteras simplemente no es posible, porque perderíamos mucho valor de los datos. En este caso, podemos utilizar técnicas de interpolación para estimar los valores que faltan de otras muestras de ejemplos de nuestro conjunto de datos. Una de las técnicas más comunes de interpolación, es la interpolación meida, donde reemplazamos el valor que falta por la media de los valores de la columna. Podemos hacerlo de un modo sencillo, a través de la clase Imputer del paquete scikit-learn

In [9]:
import numpy as np
from sklearn.impute import SimpleImputer
imr = SimpleImputer(missing_values=np.nan, strategy='mean')
imr = imr.fit(df.values)
imputed_data = imr.transform(df.values)
imputed_data

array([[ 1. ,  2. ,  3. ,  4. ],
       [ 5. ,  6. ,  7.5,  8. ],
       [10. , 11. , 12. ,  6. ]])

En el código anterior, hemos reemplazado cada valor NaN con la media correspondiente. Si cambiamos el axis=0 a Axis=1, entonces calcularíamos la media de las filas. Otra opción podría ser reemplazar los valores faltantes por los más habituales. Se suele utilizar para valores de característica categóricos.

In [None]:
from sklearn.impute import SimpleImputer
my_imputer = SimpleImputer()
imputed_data = pd.DataFrame(my_imputer.fit_transform(df))
imputed_data

Unnamed: 0,0,1,2,3
0,1.0,2.0,3.0,4.0
1,5.0,6.0,7.5,8.0
2,10.0,11.0,12.0,6.0


# Valores duplicados

In [10]:
# import pandas as pd
import numpy as np
 
#Crear un DataFrame
d = {
    'Name':['Alisa','Bobby','jodha','jack','raghu','Cathrine',
            'Alisa','Bobby','kumar','Alisa','Alex','Cathrine'],
    'Age':[26,24,23,22,23,24,26,24,22,23,24,24],
      
       'Score':[85,63,55,74,31,77,85,63,42,62,89,77]}
 
df = pd.DataFrame(d,columns=['Name','Age','Score'])
df

Unnamed: 0,Name,Age,Score
0,Alisa,26,85
1,Bobby,24,63
2,jodha,23,55
3,jack,22,74
4,raghu,23,31
5,Cathrine,24,77
6,Alisa,26,85
7,Bobby,24,63
8,kumar,22,42
9,Alisa,23,62


In [11]:
df["is_duplicate"]= df.duplicated()
 
df

Unnamed: 0,Name,Age,Score,is_duplicate
0,Alisa,26,85,False
1,Bobby,24,63,False
2,jodha,23,55,False
3,jack,22,74,False
4,raghu,23,31,False
5,Cathrine,24,77,False
6,Alisa,26,85,True
7,Bobby,24,63,True
8,kumar,22,42,False
9,Alisa,23,62,False


In [12]:
# eliminar filas duplicadas
 
df.drop_duplicates()

Unnamed: 0,Name,Age,Score,is_duplicate
0,Alisa,26,85,False
1,Bobby,24,63,False
2,jodha,23,55,False
3,jack,22,74,False
4,raghu,23,31,False
5,Cathrine,24,77,False
6,Alisa,26,85,True
7,Bobby,24,63,True
8,kumar,22,42,False
9,Alisa,23,62,False


In [None]:
# eliminar filas duplicadas
 
df.drop_duplicates(keep='last')
# Deja la última y elimina el resto

Unnamed: 0,Name,Age,Score,is_duplicate
0,Alisa,26,85,False
1,Bobby,24,63,False
2,jodha,23,55,False
3,jack,22,74,False
4,raghu,23,31,False
5,Cathrine,24,77,False
6,Alisa,26,85,True
7,Bobby,24,63,True
8,kumar,22,42,False
9,Alisa,23,62,False


In [None]:
# Ahora podemos borrar filas por nombre de columna. Las filas se borran de un modo que se mantienen valores de columna únicos para la columna especificada
 
df.drop_duplicates(['Name'], keep='last')


Unnamed: 0,Name,Age,Score,is_duplicate
2,jodha,23,55,False
3,jack,22,74,False
4,raghu,23,31,False
7,Bobby,24,63,True
8,kumar,22,42,False
9,Alisa,23,62,False
10,Alex,24,89,False
11,Cathrine,24,77,True


In [None]:
import pandas as pd
import sqlite3
import numpy as np

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
conn = sqlite3.connect('/content/drive/MyDrive/Datos/Tiendas24H.sqlite')
query = "select c.CodCliente, FechaNacimiento, EstadoCivil, Sexo,IngresosAnuales,HijosACargo, N.NivelAcademico, O.Ocupacion from clientes c inner join NivelAcademico N    on c.NivelAcademico = N.Codigo     inner join Ocupacion O on c.Ocupacion = o.Codigo"

df = pd.read_sql_query(query,conn)

df.head()

Unnamed: 0,CodCliente,FechaNacimiento,EstadoCivil,Sexo,IngresosAnuales,HijosACargo,NivelAcademico,Ocupacion
0,20,1976-04-08,M,M,90000.0,0.0,Licenciatura,Profesional especializado
1,26,1975-05-14,S,M,60000.0,3.0,Licenciatura,Profesional especializado
2,29,1975-08-12,M,M,60000.0,3.0,Licenciatura,Profesional especializado
3,46,1978-02-15,S,F,70000.0,0.0,Licenciatura,Profesional especializado
4,47,1978-08-08,S,F,80000.0,5.0,Licenciatura,Profesional especializado


In [None]:
df.isna().sum()

CodCliente         0
FechaNacimiento    0
EstadoCivil        1
Sexo               1
IngresosAnuales    1
HijosACargo        1
NivelAcademico     1
Ocupacion          1
dtype: int64

In [None]:
df.dropna(axis=0,inplace=True)

In [None]:
df

Unnamed: 0,CodCliente,FechaNacimiento,EstadoCivil,Sexo,IngresosAnuales,HijosACargo,NivelAcademico,Ocupacion
0,000020,1976-04-08,M,M,90000.0,0.0,Licenciatura,Profesional especializado
1,000026,1975-05-14,S,M,60000.0,3.0,Licenciatura,Profesional especializado
2,000029,1975-08-12,M,M,60000.0,3.0,Licenciatura,Profesional especializado
3,000046,1978-02-15,S,F,70000.0,0.0,Licenciatura,Profesional especializado
4,000047,1978-08-08,S,F,80000.0,5.0,Licenciatura,Profesional especializado
...,...,...,...,...,...,...,...,...
2436,Y1795344R,1944-09-17,M,F,70000.0,0.0,Estudios de postgrado,Mando intermedio
2437,Y2404085R,1973-01-04,S,F,90000.0,0.0,Estudios universitarios (en curso),Profesional especializado
2438,Y2544794L,1973-08-26,M,M,90000.0,0.0,Estudios universitarios (en curso),Profesional especializado
2439,Y2671043K,1973-10-23,S,F,90000.0,0.0,Estudios universitarios (en curso),Profesional especializado
