In [None]:
# MIT License

# Copyright (c) GDSC UNI

# Permission is hereby granted, free of charge, to any person obtaining a copy
# of this software and associated documentation files (the "Software"), to deal
# in the Software without restriction, including without limitation the rights
# to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
# copies of the Software, and to permit persons to whom the Software is
# furnished to do so, subject to the following conditions:

# The above copyright notice and this permission notice shall be included in all
# copies or substantial portions of the Software.

# THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
# IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
# FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
# AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
# LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
# OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
# SOFTWARE.

<table align="center">
  <td align="center"><a target="_blank" href="https://gdsc.community.dev/universidad-nacional-de-ingenieria/">
        <img src="https://i.ibb.co/pX2w52P/GDSC.png" style="padding-bottom:5px;" />
      View GDSC UNI</a></td>

  <td align="center"><a target="_blank" href="https://colab.research.google.com/drive/1J_ERiblO9-3X_gaA2xqrivBTbhtTxU0m?usp=sharing">
        <img src="https://i.ibb.co/Bf0HK0q/Colaboratory.png"  style="padding-bottom:5px;" />Run in Google Colab </a></td>

  <td align="center"><a target="_blank" href="https://github.com/GDSC-UNI/Pandas-For-Data-Science/PFDS5_Datos_Duplicados_y_Faltantes.ipynb">
        <img src="https://i.ibb.co/VHHdRx2/Github.png"  height="110px" style="padding-bottom:5px;"/>View source on GitHub</a></td>
</table>

<h1></h1>

<h1 style="font-size:42px; text-align:center; margin-bottom:30px;"><span style="color:#000080">PFDS5:</span> Datos Duplicados y Faltantes</h1>
<hr>

# Datos Duplicados

Es usual que, en los registros de una base de datos, aparezcan datos repetidos. Pandas cuenta con una funcionalidad que nos permite lidiar con este problema. Para aprender estas funcionalidades, crearemos un DataFrame con datos repetidos.

In [None]:
import pandas as pd

In [None]:
df = pd.DataFrame({ 'Name' : ['Henando', 'Henando', 'Sara', 'Fernando', 'Renato', 'Renato', 'Roberto', 'Fernando', 'Fernando'],
                    'age' : [18, 18, 15, 17, 20, 20, 18, 17, 17]})

df

Unnamed: 0,Name,age
0,Henando,18
1,Henando,18
2,Sara,15
3,Fernando,17
4,Renato,20
5,Renato,20
6,Roberto,18
7,Fernando,17
8,Fernando,17


Para conocer los datos repetidos, usamos el método *duplicate*, si le agregamos el parámetro keep='first', marcamos solo la primera ocurrencia, con keep='last', marcamos la última.

In [None]:
df.duplicated()

0    False
1     True
2    False
3    False
4    False
5     True
6    False
7     True
8     True
dtype: bool

In [None]:
df.duplicated(keep='first')

0    False
1     True
2    False
3    False
4    False
5     True
6    False
7     True
8     True
dtype: bool

In [None]:
df.duplicated(keep='last')

0     True
1    False
2    False
3     True
4     True
5    False
6    False
7     True
8    False
dtype: bool

In [None]:
df[df.duplicated(keep=False)]

Unnamed: 0,Name,age
0,Henando,18
1,Henando,18
3,Fernando,17
4,Renato,20
5,Renato,20
7,Fernando,17
8,Fernando,17


Existen dos formas de visualizar el DataFrame sin los datos repetidos, uno de ellos es agregando la negación al método duplicated() y colocar este como índice. La otra forma es utilizando el método *drop_duplicate*.

In [None]:
df[~df.duplicated()]

Unnamed: 0,Name,age
0,Henando,18
2,Sara,15
3,Fernando,17
4,Renato,20
6,Roberto,18


In [None]:
df.drop_duplicates()

Unnamed: 0,Name,age
0,Henando,18
2,Sara,15
3,Fernando,17
4,Renato,20
6,Roberto,18


Además, a este método podemos agregarle el parámetro 'keep=last' que dejará solamente la última aparición de los datos. Para una mejor visualización de esto, haremos modificaciones al DataFrame y aplicaremos, drop en la columna Name.

In [None]:
df_1 = pd.DataFrame({ 'Name' : ['Henando', 'Henando', 'Sara', 'Fernando', 'Renato', 'Renato', 'Roberto', 'Fernando', 'Fernando'],
                    'age' : [18, 18, 15, 17, 20, 21, 11, 17, 16]})

df_1

Unnamed: 0,Name,age
0,Henando,18
1,Henando,18
2,Sara,15
3,Fernando,17
4,Renato,20
5,Renato,21
6,Roberto,11
7,Fernando,17
8,Fernando,16


In [None]:
df_1.drop_duplicates(['Name'], keep='last')

Unnamed: 0,Name,age
1,Henando,18
2,Sara,15
5,Renato,21
6,Roberto,11
8,Fernando,16


# Datos Faltantes

Otro problema común al trabajar con un conjunto de datos es cómo lidiar con los datos faltantes, representados como NaN (Not a mumber). Por definición, los datos faltantes son aquellos valores que no están disponibles, sin embargo, serían significativos si se observan. Estos datos se pueden generar, por ejemplo, por fallos en el instrumento de medida, personas que no asistieron a un examen o no contestaron algunas preguntas de una encuesta. Si no lidiamos con este tipo de datos, podemos tener problemas al momento de hacer nuestro análisis, teniendo sesgos considerables y una pérdida de la información.
 
Los datos faltantes se clasifican en 3 tipos:
* Missing At Random (MAR): Cuando la ausencia del dato faltante podría depender de los valores observados.
* Missing Not at Random (MNAR): Cuando el dato faltante depende del valor de los datos no observados.
* Missing Completely At Ramdom (MCAR): Si el evento de que cierto valor sea faltante es independiente de las variables observadas y no observadas, ocurren de manera aleatoria.

In [None]:
import numpy as np

Dentro de la librería de numpy, podemos encontrar el objeto nan, el cual tiene propiedades matemáticas, al hacer cualquier tipo de operación con este tipo de dato, como suma, resta o multiplicación, obtenemos como resultado nan.

In [None]:
np.nan

nan

In [None]:
np.nan + 273

nan

A continuación, generaremos un DataFrame que contendrá notas aleatorias entre 0 y 20 de 5 alumnos. Dentro de este DataFrame generado, 3 alumnos faltaron a la quinta práctica calificada teniendo como valor el objeto nan.

In [None]:
notas = [[np.random.randint(0,20) for i in range(5)] for i in range(5)]
df = pd.DataFrame(notas, columns=['PC1', 'PC2', 'PC3','PC4', 'PC5'])
df.loc[::2, 'PC5'] = np.nan
df

Unnamed: 0,PC1,PC2,PC3,PC4,PC5
0,18,6,2,11,
1,1,8,9,10,13.0
2,7,3,14,3,
3,7,8,13,19,13.0
4,9,2,13,14,


En este DataFrame generado es fácil identificar que datos son nulos y que datos no lo son, sin embargo, habrá veces en las que no será tan sencillo identificarlos de manera visual. Dentro de librería de pandas, tenemos el método *isnull* que nos permite reconocer si un objeto es nulo o no, además si a este método le concatenamos el método *sum* obtenemos la cantidad de elementos faltantes por columnas.

In [None]:
df.isnull()

Unnamed: 0,PC1,PC2,PC3,PC4,PC5
0,False,False,False,False,True
1,False,False,False,False,False
2,False,False,False,False,True
3,False,False,False,False,False
4,False,False,False,False,True


In [None]:
df.isnull().sum()

PC1    0
PC2    0
PC3    0
PC4    0
PC5    3
dtype: int64

Similar a *isnull*, tenemos el método *notnull* que nos muestra los datos que no son faltantes. Además, le podemos agregar como parámetro axis=1, para que se aplique esta búsqueda a nivel de filas.

In [None]:
df.notnull().sum(axis=1)

0    4
1    5
2    4
3    5
4    4
dtype: int64

Podemos obtener la cantidad de elementos nulos de todo nuestro DataFrame de la siguiente manera:

In [None]:
df.size-df.notnull().sum().sum()

3

Inclusive podemos usar la identificación de datos nulos y no nulos para hacer filtros en nuestro DataFrame.

In [None]:
df[df['PC5'].notnull()]

Unnamed: 0,PC1,PC2,PC3,PC4,PC5
1,1,8,9,10,13.0
3,7,8,13,19,13.0


Si queremos eliminar las filas con registros faltantes, usamos el método *dropna*.

In [None]:
df['PC5'].dropna()

1    13.0
3    13.0
Name: PC5, dtype: float64

Sin embargo, eliminar toda la fila en la que solo una columna tiene un dato faltante podría ser perjudicial para nuestro análisis, para nuestro ejemplo, al ser notas del alumno, estaríamos eliminando todas las notas de un alumno. Algo que definitivamente no queremos. Lo que generalmente se hace con este tipo de datos, es llenarlos con un valor, como se muestra a continuación:

In [None]:
df.fillna(0)

Unnamed: 0,PC1,PC2,PC3,PC4,PC5
0,18,6,2,11,0.0
1,1,8,9,10,13.0
2,7,3,14,3,0.0
3,7,8,13,19,13.0
4,9,2,13,14,0.0


Existen otras formas de llenar estos datos faltantes, por ejemplo con el método ffill que reemplazamos este dato, con el valor que lo antepone o el método bfill que lo reemplaza con el valor que le sigue.

In [None]:
df.fillna(method='ffill', axis=1)

Unnamed: 0,PC1,PC2,PC3,PC4,PC5
0,18.0,6.0,2.0,11.0,11.0
1,1.0,8.0,9.0,10.0,13.0
2,7.0,3.0,14.0,3.0,3.0
3,7.0,8.0,13.0,19.0,13.0
4,9.0,2.0,13.0,14.0,14.0


In [None]:
df.fillna(method='bfill')

Unnamed: 0,PC1,PC2,PC3,PC4,PC5
0,18,6,2,11,13.0
1,1,8,9,10,13.0
2,7,3,14,3,13.0
3,7,8,13,19,13.0
4,9,2,13,14,


En la mayoría de casos, para reemplazar los datos faltantes, usamos la media, como por ejemplo, sería, colocar como valor la media de las notas en la cuarta PC.

In [None]:
df.fillna(df['PC4'].median())

Unnamed: 0,PC1,PC2,PC3,PC4,PC5
0,18,6,2,11,11.0
1,1,8,9,10,13.0
2,7,3,14,3,11.0
3,7,8,13,19,13.0
4,9,2,13,14,11.0


Por último, podemos llenar estos datos, haciendo uso de una interpolación.

In [None]:
df_d = pd.concat([df[['PC5']], df[['PC5']].interpolate()],axis=1)
df_d.columns = ['d_antes','d_interpolado']
df_d


Unnamed: 0,d_antes,d_interpolado
0,,
1,13.0,13.0
2,,13.0
3,13.0,13.0
4,,13.0
