![Dataging](https://raw.githubusercontent.com/dataging/public-resources/61263724aea5476ba5ebf38478beada519091957/logodataging.png)

# Gestionando valores nulos

In [1]:
import pandas as pd
from io import StringIO
csv_data = \
  '''A,B,C,D
  1.0,2.0,3.0,4.0
  5.0,6.0,,8.0
  10.0,11.0,12.0,'''
# Si usamos Python 2.7, necesitamos convertir el string a unicode:
# csv_data = unicode(csv_data)
df = pd.read_csv(StringIO(csv_data))
df
#En el código anterior, leemos datos en formato CSV en un DataFrame pandas via la función read_csv y vemos como las dos celdas que faldan se "rellenan" con NaN 
#La función StringIO solo se usa para facilitar la demostración para simular que tenemos un fichero real.

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


In [None]:
df.head()

In [2]:
df.isna().sum()

A    0
B    0
C    1
D    1
dtype: int64

In [None]:
#acceso al array NumPy que tenemos por detrás
df.values

array([[ 1.,  2.,  3.,  4.],
       [ 5.,  6., nan,  8.],
       [10., 11., 12., nan]])

In [3]:
#lo más "fácil"
df.dropna(axis=0)

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0


In [4]:
#también podemos borrar columnas
df.dropna(axis=1)

Unnamed: 0,A,B
0,1.0,2.0
1,5.0,6.0
2,10.0,11.0


In [5]:
#borrar filas donde todos los valores sea NaN
df.dropna(how='all')

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


In [6]:
#borrar filas que tienen menos de 4 valores reales
df.dropna(thresh=4)

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0


In [7]:
#borrar filas con NaN en una columna específica
df.dropna(subset=['C'])

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
2,10.0,11.0,12.0,


In [8]:
#directamente el porcentaje de valores nulos

df.isna().mean().round(4) * 100

A     0.00
B     0.00
C    33.33
D    33.33
dtype: float64

Habitualmente, eliminar ejemplos o borrar columnas enteras simplemente no es posible, porque perderíamos mucho valor de los datos. En este caso, podemos utilizar técnicas de interpolación para estimar los valores que faltan de otras muestras de ejemplos de nuestro conjunto de datos. Una de las técnicas más comunes de interpolación, es la interpolación meida, donde reemplazamos el valor que falta por la media de los valores de la columna. Podemos hacerlo de un modo sencillo, a través de la clase Imputer del paquete scikit-learn

In [9]:
import numpy as np
from sklearn.impute import SimpleImputer
imr = SimpleImputer(missing_values=np.nan, strategy='mean')
imr = imr.fit(df.values)
imputed_data = imr.transform(df.values)
imputed_data

array([[ 1. ,  2. ,  3. ,  4. ],
       [ 5. ,  6. ,  7.5,  8. ],
       [10. , 11. , 12. ,  6. ]])

En el código anterior, hemos reemplazado cada valor NaN con la media correspondiente. Si cambiamos el axis=0 a Axis=1, entonces calcularíamos la media de las filas. Otra opción podría ser reemplazar los valores faltantes por los más habituales. Se suele utilizar para valores de característica categóricos.

In [None]:
from sklearn.impute import SimpleImputer
my_imputer = SimpleImputer()
imputed_data = pd.DataFrame(my_imputer.fit_transform(df))
imputed_data

Unnamed: 0,0,1,2,3
0,1.0,2.0,3.0,4.0
1,5.0,6.0,7.5,8.0
2,10.0,11.0,12.0,6.0


# Valores duplicados

In [10]:
# import pandas as pd
import numpy as np
 
#Crear un DataFrame
d = {
    'Name':['Alisa','Bobby','jodha','jack','raghu','Cathrine',
            'Alisa','Bobby','kumar','Alisa','Alex','Cathrine'],
    'Age':[26,24,23,22,23,24,26,24,22,23,24,24],
      
       'Score':[85,63,55,74,31,77,85,63,42,62,89,77]}
 
df = pd.DataFrame(d,columns=['Name','Age','Score'])
df

Unnamed: 0,Name,Age,Score
0,Alisa,26,85
1,Bobby,24,63
2,jodha,23,55
3,jack,22,74
4,raghu,23,31
5,Cathrine,24,77
6,Alisa,26,85
7,Bobby,24,63
8,kumar,22,42
9,Alisa,23,62


In [11]:
df["is_duplicate"]= df.duplicated()
 
df

Unnamed: 0,Name,Age,Score,is_duplicate
0,Alisa,26,85,False
1,Bobby,24,63,False
2,jodha,23,55,False
3,jack,22,74,False
4,raghu,23,31,False
5,Cathrine,24,77,False
6,Alisa,26,85,True
7,Bobby,24,63,True
8,kumar,22,42,False
9,Alisa,23,62,False


In [12]:
# eliminar filas duplicadas
 
df.drop_duplicates()

Unnamed: 0,Name,Age,Score,is_duplicate
0,Alisa,26,85,False
1,Bobby,24,63,False
2,jodha,23,55,False
3,jack,22,74,False
4,raghu,23,31,False
5,Cathrine,24,77,False
6,Alisa,26,85,True
7,Bobby,24,63,True
8,kumar,22,42,False
9,Alisa,23,62,False


In [None]:
# eliminar filas duplicadas
 
df.drop_duplicates(keep='last')
# Deja la última y elimina el resto

Unnamed: 0,Name,Age,Score,is_duplicate
0,Alisa,26,85,False
1,Bobby,24,63,False
2,jodha,23,55,False
3,jack,22,74,False
4,raghu,23,31,False
5,Cathrine,24,77,False
6,Alisa,26,85,True
7,Bobby,24,63,True
8,kumar,22,42,False
9,Alisa,23,62,False


In [None]:
# Ahora podemos borrar filas por nombre de columna. Las filas se borran de un modo que se mantienen valores de columna únicos para la columna especificada
 
df.drop_duplicates(['Name'], keep='last')


Unnamed: 0,Name,Age,Score,is_duplicate
2,jodha,23,55,False
3,jack,22,74,False
4,raghu,23,31,False
7,Bobby,24,63,True
8,kumar,22,42,False
9,Alisa,23,62,False
10,Alex,24,89,False
11,Cathrine,24,77,True


In [2]:
import os
from dotenv import load_dotenv

load_dotenv() #lee las variables de entorno del archivo .env

servidor = os.getenv("SERVIDOR_MYSQL")
usuario = os.getenv("USUARIO_MYSQL")
password = os.getenv("PASSWORD_MYSQL")

import mysql.connector
try:
    cnx = mysql.connector.connect(user=usuario, password=password,
                              host=servidor, database='sakila') # Definimos la cadena de conexión de la base de datos e intentamos conectar
    cursor=cnx.cursor() #Creamos una cursos para poder ejecutar consultas
    cursor.execute("SELECT * FROM actor") #Ejecutamos la consulta SQL
    resultado = cursor.fetchall() # Obtenemos todas las filas de la consulta
except mysql.connector.Error as err:
    print("Error conectando a la base de datos " + err)
    
cursor.close() 
cnx.close()

In [3]:
import pandas as pd
#Convertimos el resultado en un DataFrame de Pandas seleccionando solo cuatro columnas
df = pd.DataFrame(resultado, columns=['actor_id','first_name','last_name','timestamp']) 
df.head() # Mostramos las cinco primeras filas del DataFrame

Unnamed: 0,actor_id,first_name,last_name,timestamp
0,1,PENELOPE,GUINESS,2006-02-15 04:34:33
1,2,NICK,WAHLBERG,2006-02-15 04:34:33
2,3,ED,CHASE,2006-02-15 04:34:33
3,4,JENNIFER,DAVIS,2006-02-15 04:34:33
4,5,JOHNNY,LOLLOBRIGIDA,2006-02-15 04:34:33


In [6]:
df.isna().sum()

actor_id      0
first_name    0
last_name     0
timestamp     0
dtype: int64

In [7]:
df.dropna(axis=0,inplace=True)

In [8]:
df

Unnamed: 0,actor_id,first_name,last_name,timestamp
0,1,PENELOPE,GUINESS,2006-02-15 04:34:33
1,2,NICK,WAHLBERG,2006-02-15 04:34:33
2,3,ED,CHASE,2006-02-15 04:34:33
3,4,JENNIFER,DAVIS,2006-02-15 04:34:33
4,5,JOHNNY,LOLLOBRIGIDA,2006-02-15 04:34:33
...,...,...,...,...
195,196,BELA,WALKEN,2006-02-15 04:34:33
196,197,REESE,WEST,2006-02-15 04:34:33
197,198,MARY,KEITEL,2006-02-15 04:34:33
198,199,JULIA,FAWCETT,2006-02-15 04:34:33
