![picture](https://drive.google.com/uc?export=view&id=1e3nj5xVsTXcfjDxSPipCyZPQBSEp4lp-)

#<h1><font size = 6>Módulo 5: Resolviendo problemas de calidad sencillos - Datos duplicados</font></h1>

<p><strong>Objetivo: </strong> El objetivo de este cuaderno es explicar el procedimiento para encontrar y eliminar filas duplicadas:

## <strong>Cargar los datos</strong>

Para este ejemplo se va a trabajar con el conjunto de datos <b>Titanic</b>, un conjunto muy utilizado para ciencia de datos. En el siguiente enlace puede encontrar más información:
<ul>
  <li>descripción de los datos: <a href="https://www.kaggle.com/c/titanic/overview" target="_blank">https://www.kaggle.com/c/titanic/overview</a></li>
  <li>para descargar el archivo original: <a href="https://www.kaggle.com/c/titanic/data" target="_blank">https://www.kaggle.com/c/titanic/data</a></li>
  <li>tipo de datos: csv</li>
</ul>  
<p>En el siguiente código se cargan los datos de la misma forma que en los notebooks anteriores:</p>

In [None]:
'''
# si subimos la data al drive, concedemos permisos a colab para que acceda
from google.colab import drive
drive.mount('/content/drive')
'''

In [6]:
# Importar libreria requerida
import pandas as pd
# Leer datos desde archivo CSV
csv_path = "train.csv" # si fuese del drive seria: "/content/drive/MyDrive/Colab Notebooks/train.csv"
df = pd.read_csv(csv_path,sep=",")
# crear la lista headers
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


Para trabajar el tema de los datos duplicados se va  a utilizar un subconjunto de los datos:

In [7]:
df = df.loc[:300, ['Survived', 'Pclass', 'Sex', 'Cabin', 'Embarked']].dropna()
df.shape

(62, 5)

## <strong>Identificar datos duplicados</strong>

Con este comando se le infoma a Pandas que muestre la totalidad de las filas. Se cambia la configuración para poder visualizar todos los resultados:

In [8]:
pd.set_option('display.max_rows', None)

<p>Para encontrar duplicados en una columna específica, simplemente se puede llamar al método <code>duplicated()</code> en la columna. En este caso se desea encontrar duplicados en la columna <b>Cabin</b>.</p>
<p>El resultado es una serie booleana con el valor <code>True</code> que denota duplicado. En otras palabras, el valor <code>True</code> significa que la entrada es idéntica a una anterior.</p>
<p>Se puede observar que para esa columna existen algunas filas duplicadas, aunque esto no tiene que ser un error, algunos pasajeros pudieran tener el mismo número de cabina:</p>

In [None]:
# Una sola columna
df.Cabin.duplicated()

Para ver la duplicación en el DataFrame como un todo, simplemente llame al método <code>duplicated()</code>en el DataFrame. Emite <code>True</code> si una fila completa es idéntica a una fila anterior:

In [None]:
#Todo el dataframe
df.duplicated()

El metodo `any()` valida si existe algun dato duplicado

In [13]:
# si hay algun dato duplicado
df.duplicated().any()

True

Para considerar ciertas columnas para identificar duplicados, se puede pasar una lista de columnas al subconjunto de argumentos:

In [11]:
# Teniendo en cuenta algunas columnas
df.duplicated(subset=['Survived', 'Pclass', 'Sex'])

1      False
3       True
6      False
10     False
11      True
21     False
23     False
27      True
31      True
52      True
54      True
55      True
62      True
66     False
75     False
88      True
92      True
96      True
97      True
102     True
110     True
118     True
123     True
124     True
128     True
136     True
137     True
139     True
148    False
151     True
166     True
170     True
174     True
177    False
183     True
185     True
193     True
194     True
195     True
205    False
209     True
215     True
218     True
224     True
230     True
245     True
248     True
251     True
252     True
257     True
262     True
263     True
268     True
269     True
273     True
275     True
284     True
291     True
292     True
297     True
298     True
299     True
dtype: bool

## <strong>Contando las filas duplicadas</strong>

El resultado del <code>duplicated()</code> es una Serie booleana, y se pueden sumar para contar el número de duplicados. Por debajo, True se convierte en 1 y False se convierte en 0, y luego se puede contar:

In [12]:
# Contando duplicados de una columna
df.Cabin.duplicated().sum()

8

Tambien se pueden contar los duplicados en un DataFrame y en ciertas columnas:

In [14]:
#Contando los duplicados de todo el dataframe
df.duplicated().sum()

2

In [15]:
#Contando los duplicados tienen en cuenta algunas columnas
df.duplicated(subset=['Survived', 'Pclass', 'Sex']).sum()

52

Si se desea contar el número de no duplicados (El número de <code>False</code>), se puede invertir con el símbolo de negación (~) y luego llamar a sum ():

In [16]:
# Contando los no duplicados
(~df.duplicated()).sum()

60

## <strong>Extraer filas duplicadas</strong>

El método de Pandas <code>duplicated()</code> devuelve una serie booleana. Sin embargo, no es práctico ver una lista de Verdaderos y Falsos cuando se necesita realizar algún análisis de datos.
Se puede utilizar el comando <code>loc</code> para extraer esas filas duplicadas:

In [17]:
# Permite ver las filas duplicadas de todo el dataframe
df.loc[df.duplicated(), :]

Unnamed: 0,Survived,Pclass,Sex,Cabin,Embarked
124,0,1,male,D26,S
251,0,3,female,G6,S


In [18]:
# Permite ver las filas duplicadas de una columna
df.loc[df.Cabin.duplicated(), :]

Unnamed: 0,Survived,Pclass,Sex,Cabin,Embarked
88,1,1,female,C23 C25 C27,S
124,0,1,male,D26,S
137,0,1,male,C123,S
193,1,2,male,F2,S
205,0,3,female,G6,S
230,1,1,female,C83,S
251,0,3,female,G6,S
299,1,1,female,B58 B60,C


El comando <code>loc</code> puede tomar una serie booleana y filtrar datos basados en Verdadero y Falso. El primer argumento df.duplicated () encontrará las filas que fueron identificadas por duplicated (). El segundo argumento : mostrará todas las columnas.

## <strong>Marcar los duplicados</strong>

El método <code>duplicated()</code> tiene un argumento llamado <code>keep</code> para determinar qué duplicados marcar.
El comando  <code>keep</code> por defecto conserva el primero <code>first</code>, lo que significa que la primera aparición se mantiene y todas las demás se identifican como duplicadas.
Tambien se puede cambiar al último <code>last</code>, mantener la última aparición y marcar todos los demás como duplicados.

In [19]:
# 'keep' por defecto 'first'
df.loc[df.duplicated(keep='first'), :]

Unnamed: 0,Survived,Pclass,Sex,Cabin,Embarked
124,0,1,male,D26,S
251,0,3,female,G6,S


In [20]:
df.loc[df.duplicated(keep='last'), :]

Unnamed: 0,Survived,Pclass,Sex,Cabin,Embarked
102,0,1,male,D26,S
205,0,3,female,G6,S


Hay una tercera opción se puede usar <code>keep = False</code>. Marca todos los duplicados como <code>True</code> y permite ver todas las filas duplicadas.

In [21]:
df.loc[df.duplicated(keep=False), :]

Unnamed: 0,Survived,Pclass,Sex,Cabin,Embarked
102,0,1,male,D26,S
124,0,1,male,D26,S
205,0,3,female,G6,S
251,0,3,female,G6,S


## <strong>Eliminar los duplicados</strong>

Se puede utilizar el método integrado <code>drop_duplicates()</code> de Pandas para eliminar filas duplicadas.

In [22]:
# Note que inicialmente eran 62 filas, ahora tenemos 60
# Si se desea aplicar en el dataframe agregar argumento `inplace=True` o guardar en otro dataframe el resultado
# df.drop_duplicates(inplace=True)
df_drop = df.drop_duplicates() # elimina las filas 124 y 251
df_drop.shape

(60, 5)

El argumento <code>keep</code> se puede establecer para <code>drop_duplicates()</code> también para determinar cuales duplicados conservar. El valor predeterminado es <code>first</code> para mantener la primera aparición y eliminar todos los demás duplicados.
Del mismo modo, se puede utilizar en <code>last</code> para mantener la última aparición y eliminar otros duplicados.

In [23]:
# Utilice keep='last' para mantener la última ocurrencia
df_drop = df.drop_duplicates(keep='last') # elimina las filas 102 y 205
df_drop.shape

(60, 5)

Y se puede establecer en <code>False</code> para eliminar todos los duplicados:

In [24]:
# Para eliminar todos los duplicados
df_drop = df.drop_duplicates(keep=False) # elimina las 4 filas
df_drop.shape

(58, 5)

De manera similar, se pueden considerar ciertas columnas para eliminar duplicados, se puede pasar una lista de columnas al subconjunto de argumentos:

In [25]:
df_drop = df.drop_duplicates(subset=['Survived', 'Pclass', 'Sex'])
df_drop.shape

(10, 5)