[![Banner-Preparaci-n.png](https://i.postimg.cc/q7vd5LZP/Banner-Preparaci-n.png)](https://postimg.cc/QFwPBpDm)

# Integración y preparación de datos

## L2: Duplicados


De acuerdo con el caso de uso del sector retail, vamos a cumplir los objetivos de mejorar la calidad de los datos y en este caso vamos a enfocarnos en la existencia de datos duplicados.

**Autor:** David Ocampo, Daniel Galindo Ruiz
    
d.ocampo@uniandes.edu.co, d.galindo@uniandes.edu.co

### 1. Contexto del negocio 

El distribuidor de la organización está confundido porque hay más registros de órdenes que órdenes, así que quiere entender la situación y de ser posible corregir el problema de raíz. 
Este problema parece ser un caso de registros duplicados, para lo cual debemos entender bien el problema, proponer soluciones viables para la organización, validarlas con las personas del negocio y aplicarlas cuando sea necesario.


### Objetivos

1. Identificar registros duplicados.
2. Plantear posibles causas de ese problema.
3. Plantear y aplicar alternativas de solución.
4. Reflexionar sobre alternativas para automatizar este proceso al recibir nuevas versiones de la fuente de datos analizada.

### 2. Importación de librerías y archivos

En las siguientes líneas se importará la librería necesaria, la cual es son **Pandas** para el manejo de datos.

In [1]:
# Importar las librerías necesarias según el análisis que se vaya a realizar
# Librería para manejo de datos convencional
import pandas as pd

In [2]:
# cargar los datos en csv
data= pd.read_csv('ordenes_por_producto.csv', sep=';')
# Visualizar los datos
data.head()

Unnamed: 0,orden_id,producto_id,vendedor_id,fecha_envio_limite,precio,valor_flete,codigo_postal_vendedor,ciudad_vendedor,departamento_vendedor,nombre_categoria_producto,longitud_nombre_producto,longitud_descripcion_producto,cantidad_fotos_producto,peso_g_producto,longitud_cm_producto,altura_cm_producto,ancho_cm_producto,volumen_cm3_producto
0,1564PA53A-A,PA53,VE6785,1-ago-17,-7.27,27.12,52565,Providencia,Nariño,Electrodomésticos,19,28,29,1324,48,17,11,8976
1,28983PD80A-A,PD80,VE3342,31-may-18,3.22,6.01,52203,Colon,Nariño,Celulares,18,29,16,4677,26,6,16,2496
2,38613PB61A-A,PB61,VE7671,27-oct-17,104.18,17.7,52051,Arboleda,Nariño,Ropa_de_adultos,13,30,29,101,17,26,24,10608
3,4978PS63A-A,PS63,VE1492,13/12/2017,348.39,34.84,52323,Gualmatan,Nariño,Carnicería,33,26,13,514,47,16,43,32336
4,73781PA71A-A,PA71,VE8575,1/11/2018 0:00,29.03,30.23,5002,Abejorral,Antioquia,Electrodomésticos,27,3,13,2962,20,26,28,14560


### 3. Análisis de la fuente de los datos

### 3.1. Registros y atributos
El número de registros y atributos nos dará una guía del correcto cargue de los datos. Podemos utilizar la función shape para la revisión de este paso.

In [3]:
# Tamaño del dataset (filas, columnas)
data.shape

(1651, 18)

In [4]:
# Revisión de los atributos
data.columns

Index(['orden_id', 'producto_id', 'vendedor_id', 'fecha_envio_limite',
       'precio', 'valor_flete', 'codigo_postal_vendedor', 'ciudad_vendedor',
       'departamento_vendedor', 'nombre_categoria_producto',
       'longitud_nombre_producto', 'longitud_descripcion_producto',
       'cantidad_fotos_producto', 'peso_g_producto', 'longitud_cm_producto',
       'altura_cm_producto', 'ancho_cm_producto', 'volumen_cm3_producto'],
      dtype='object')

### 4. Análisis de datos duplicados

Identificar y proponer soluciones para el problema de datos duplicados permite tener asertividad en los análisis y no generar información errónea al utilizar estos datos en análisis posteriores.

### 4.1. Identificar el identificador único

El conocer el identificador único de una fuente de datos es valioso ya que nos permite comprender la semántica de los registros y asociado a este campo debemos validar que no tenga registros duplicados ni valores nulos. Estos serían ejemplos claros de problemas de calidad de datos en la fuente, los cuales deben ser analizados y si es necesario, reportados al negocio y corregios.

Como se sabe, la fuente de datos son las órdenes por producto y el identificador único es el número de orden.

In [5]:
### Contar los identificadores únicos
len(data['orden_id'].unique())

1150

El número de registros de nuestra fuente es de 1651 registros. Sin embargo, existen únicamente 1150 identificadores únicos. Un  claro indicador de que existen registros duplicados.

### 4.2. Identificar los valores duplicados

Debemos identificar dónde se encuentran los datos duplicados, podemos ver si en particular es en un solo atributo, o todos los atributos se encuentran duplicados, en las siguientes líneas vamos a desarrollar los dos análisis.

In [6]:
# revisar si el problema de duplicados está en un solo atributo, en este caso el número de orden
data[data.duplicated('orden_id')]

Unnamed: 0,orden_id,producto_id,vendedor_id,fecha_envio_limite,precio,valor_flete,codigo_postal_vendedor,ciudad_vendedor,departamento_vendedor,nombre_categoria_producto,longitud_nombre_producto,longitud_descripcion_producto,cantidad_fotos_producto,peso_g_producto,longitud_cm_producto,altura_cm_producto,ancho_cm_producto,volumen_cm3_producto
538,107500PO59A-B,PS22,VE1558,20/10/2017 9:07,115.73,4.68,52405,Leiva,Nariño,Carnicería,10,31,20,256,43,2,21,1806
1151,1564PA53A-A,PA53,VE6785,6/05/2018 12:56,-7.27,27.12,52565,Providencia,Nariño,Electrodomésticos,19,28,29,1324,48,17,11,8976
1152,28983PD80A-A,PD80,VE3342,18/10/2017 14:12,3.22,6.01,52203,Colon,Nariño,Celulares,18,29,16,4677,26,6,16,2496
1153,38613PB61A-A,PB61,VE7671,10/09/2017 22:31,104.18,17.70,52051,Arboleda,Nariño,Ropa_de_adultos,13,30,29,101,17,26,24,10608
1154,4978PS63A-A,PS63,VE1492,11/01/2018 16:45,348.39,34.84,52323,Gualmatan,Nariño,Carnicería,33,26,13,514,47,16,43,32336
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1646,78554PB94A-A,PB94,VE3062,18/10/2017 22:51,66.10,48.81,52323,Gualmatan,Nariño,Ropa de adultos,23,15,24,2158,4,12,20,960
1647,59098PR35A-A,PR35,VE3939,3/05/2018 11:57,33.61,10.47,52480,Nariño,Nariño,Frutas y verduras,11,2,15,399,20,14,30,8400
1648,58398PK12A-A,PK12,VE5445,27/10/2017 22:10,40.51,18.96,52560,Potosi,Nariño,Deportes,8,26,23,2208,10,8,22,1760
1649,35518PR69B-B,PR69,VE8338,27/11/2017 19:44,315.17,32.78,52399,La union,Nariño,Frutas y verduras,37,20,0,1547,5,9,23,1035


In [7]:
# revisar si hay registros donde todos los atributos están duplicados (son iguales)
data[data.duplicated()]

Unnamed: 0,orden_id,producto_id,vendedor_id,fecha_envio_limite,precio,valor_flete,codigo_postal_vendedor,ciudad_vendedor,departamento_vendedor,nombre_categoria_producto,longitud_nombre_producto,longitud_descripcion_producto,cantidad_fotos_producto,peso_g_producto,longitud_cm_producto,altura_cm_producto,ancho_cm_producto,volumen_cm3_producto
1156,58767PS40A-A,PS40,VE1175,6/11/1901 21:06,220.91,8.18,52323,Gualmatan,Nariño++,Carnicería,36,2,2,3510,22,5,20,2200
1157,28468PB76A-A,PB76,VE8634,20/09/2017 4:24,101.55,111.74,52427,Magui,Nariño,Ropa de adultos,9,16,2,330,6,5,16,0
1158,8111PB14A-A,PB14,VE5681,25/10/2017 16:35,73.75,17.51,52210,Contadero,Nariño,Ropa de adultos,15,15,38,592,51,32,20,0
1159,81437PS10A-A,PS10,VE3482,14/02/2018 0:09,-14.97,,52051,Arboleda,Nariño,,6,5,0,2032,50,12,21,12600
1160,73702PS92A-A,PS92,VE9623,14/01/2018 21:46,13.48,20.66,52411,Linares,Nariño,Carnicería,25,18,0,3862,34,27,8,7344
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1646,78554PB94A-A,PB94,VE3062,18/10/2017 22:51,66.10,48.81,52323,Gualmatan,Nariño,Ropa de adultos,23,15,24,2158,4,12,20,960
1647,59098PR35A-A,PR35,VE3939,3/05/2018 11:57,33.61,10.47,52480,Nariño,Nariño,Frutas y verduras,11,2,15,399,20,14,30,8400
1648,58398PK12A-A,PK12,VE5445,27/10/2017 22:10,40.51,18.96,52560,Potosi,Nariño,Deportes,8,26,23,2208,10,8,22,1760
1649,35518PR69B-B,PR69,VE8338,27/11/2017 19:44,315.17,32.78,52399,La union,Nariño,Frutas y verduras,37,20,0,1547,5,9,23,1035


Como vemos, existen 495 datos que se repiten en todos los atributos y también está el caso de 6 registros que se repiten en el número de orden, pero no necesariamente es igual en los otros atributos. Vamos a revisar estos casos en particular para entenderlos mejor.

In [8]:
# revisar los registros que tienen el número de orden duplicado pero no son iguales los valores de los dempas atributos
data[data.duplicated('orden_id') & ~data.duplicated()]

Unnamed: 0,orden_id,producto_id,vendedor_id,fecha_envio_limite,precio,valor_flete,codigo_postal_vendedor,ciudad_vendedor,departamento_vendedor,nombre_categoria_producto,longitud_nombre_producto,longitud_descripcion_producto,cantidad_fotos_producto,peso_g_producto,longitud_cm_producto,altura_cm_producto,ancho_cm_producto,volumen_cm3_producto
538,107500PO59A-B,PS22,VE1558,20/10/2017 9:07,115.73,4.68,52405,Leiva,Nariño,Carnicería,10,31,20,256,43,2,21,1806
1151,1564PA53A-A,PA53,VE6785,6/05/2018 12:56,-7.27,27.12,52565,Providencia,Nariño,Electrodomésticos,19,28,29,1324,48,17,11,8976
1152,28983PD80A-A,PD80,VE3342,18/10/2017 14:12,3.22,6.01,52203,Colon,Nariño,Celulares,18,29,16,4677,26,6,16,2496
1153,38613PB61A-A,PB61,VE7671,10/09/2017 22:31,104.18,17.7,52051,Arboleda,Nariño,Ropa_de_adultos,13,30,29,101,17,26,24,10608
1154,4978PS63A-A,PS63,VE1492,11/01/2018 16:45,348.39,34.84,52323,Gualmatan,Nariño,Carnicería,33,26,13,514,47,16,43,32336
1155,73781PA71A-A,PA71,VE8575,17/11/2017 0:11,29.03,30.23,5002,Abejorral,Antioquia,Electrodomésticos,27,3,13,2962,20,26,28,14560


In [10]:
data[data['orden_id']=='58767PS40A-A']

Unnamed: 0,orden_id,producto_id,vendedor_id,fecha_envio_limite,precio,valor_flete,codigo_postal_vendedor,ciudad_vendedor,departamento_vendedor,nombre_categoria_producto,longitud_nombre_producto,longitud_descripcion_producto,cantidad_fotos_producto,peso_g_producto,longitud_cm_producto,altura_cm_producto,ancho_cm_producto,volumen_cm3_producto
5,58767PS40A-A,PS40,VE1175,6/11/1901 21:06,220.91,8.18,52323,Gualmatan,Nariño++,Carnicería,36,2,2,3510,22,5,20,2200
1156,58767PS40A-A,PS40,VE1175,6/11/1901 21:06,220.91,8.18,52323,Gualmatan,Nariño++,Carnicería,36,2,2,3510,22,5,20,2200


In [12]:
data[data['orden_id']=='4978PS63A-A']

Unnamed: 0,orden_id,producto_id,vendedor_id,fecha_envio_limite,precio,valor_flete,codigo_postal_vendedor,ciudad_vendedor,departamento_vendedor,nombre_categoria_producto,longitud_nombre_producto,longitud_descripcion_producto,cantidad_fotos_producto,peso_g_producto,longitud_cm_producto,altura_cm_producto,ancho_cm_producto,volumen_cm3_producto
3,4978PS63A-A,PS63,VE1492,13/12/2017,348.39,34.84,52323,Gualmatan,Nariño,Carnicería,33,26,13,514,47,16,43,32336
1154,4978PS63A-A,PS63,VE1492,11/01/2018 16:45,348.39,34.84,52323,Gualmatan,Nariño,Carnicería,33,26,13,514,47,16,43,32336


In [16]:
# revisar en particular las órdenes que tiene este comportamiento
numero_ordenes_duplicadas=data[data.duplicated('orden_id') & ~data.duplicated()]['orden_id']
#numero_ordenes_duplicadas
data[data['orden_id'].isin(numero_ordenes_duplicadas)]

Unnamed: 0,orden_id,producto_id,vendedor_id,fecha_envio_limite,precio,valor_flete,codigo_postal_vendedor,ciudad_vendedor,departamento_vendedor,nombre_categoria_producto,longitud_nombre_producto,longitud_descripcion_producto,cantidad_fotos_producto,peso_g_producto,longitud_cm_producto,altura_cm_producto,ancho_cm_producto,volumen_cm3_producto
0,1564PA53A-A,PA53,VE6785,1-ago-17,-7.27,27.12,52565,Providencia,Nariño,Electrodomésticos,19,28,29,1324,48,17,11,8976
1,28983PD80A-A,PD80,VE3342,31-may-18,3.22,6.01,52203,Colon,Nariño,Celulares,18,29,16,4677,26,6,16,2496
2,38613PB61A-A,PB61,VE7671,27-oct-17,104.18,17.7,52051,Arboleda,Nariño,Ropa_de_adultos,13,30,29,101,17,26,24,10608
3,4978PS63A-A,PS63,VE1492,13/12/2017,348.39,34.84,52323,Gualmatan,Nariño,Carnicería,33,26,13,514,47,16,43,32336
4,73781PA71A-A,PA71,VE8575,1/11/2018 0:00,29.03,30.23,5002,Abejorral,Antioquia,Electrodomésticos,27,3,13,2962,20,26,28,14560
268,107500PO59A-B,PK20,VE9159,17/08/2017 8:15,432.99,82.7,52506,Ospina,Nariño,Deportes,25,5,4,5270,9,27,29,7047
538,107500PO59A-B,PS22,VE1558,20/10/2017 9:07,115.73,4.68,52405,Leiva,Nariño,Carnicería,10,31,20,256,43,2,21,1806
1151,1564PA53A-A,PA53,VE6785,6/05/2018 12:56,-7.27,27.12,52565,Providencia,Nariño,Electrodomésticos,19,28,29,1324,48,17,11,8976
1152,28983PD80A-A,PD80,VE3342,18/10/2017 14:12,3.22,6.01,52203,Colon,Nariño,Celulares,18,29,16,4677,26,6,16,2496
1153,38613PB61A-A,PB61,VE7671,10/09/2017 22:31,104.18,17.7,52051,Arboleda,Nariño,Ropa_de_adultos,13,30,29,101,17,26,24,10608


Vemos que los registros con índices:
+ 0 y 1151
+ 1 y 1152
+ 2 y 1153
+ 3 y 1154
+ 4 y 1155
+ 268, 538 y 1419

Son exactamente los mismos registros, solamente que el formato de fecha está cambiado, por lo tanto podemos dejar un solo representante y reportar el caso. Adicionalmente, tenemos el registro 0, que tiene valores cero en varios de sus atributos, lo que nos indica que es un valor de orden errónea, por lo tanto se procede a eliminarla y a reportarla para encontrar las causas de su existencia. 

## 4.3. Eliminación de duplicados

Se van a proceder a eliminar los registros duplicados, ya que no aportan nada al análisis y sí generan una confusión en el análisis final de los datos.

In [17]:
#Eliminar los registros de columnas que están con la misma información
data=data.drop([0,1,2,3,4,268,538])
data.head()

Unnamed: 0,orden_id,producto_id,vendedor_id,fecha_envio_limite,precio,valor_flete,codigo_postal_vendedor,ciudad_vendedor,departamento_vendedor,nombre_categoria_producto,longitud_nombre_producto,longitud_descripcion_producto,cantidad_fotos_producto,peso_g_producto,longitud_cm_producto,altura_cm_producto,ancho_cm_producto,volumen_cm3_producto
5,58767PS40A-A,PS40,VE1175,6/11/1901 21:06,220.91,8.18,52323,Gualmatan,Nariño++,Carnicería,36,2,2,3510,22,5,20,2200
6,28468PB76A-A,PB76,VE8634,20/09/2017 4:24,101.55,111.74,52427,Magui,Nariño,Ropa de adultos,9,16,2,330,6,5,16,0
7,8111PB14A-A,PB14,VE5681,25/10/2017 16:35,73.75,17.51,52210,Contadero,Nariño,Ropa de adultos,15,15,38,592,51,32,20,0
8,81437PS10A-A,PS10,VE3482,14/02/2018 0:09,-14.97,,52051,Arboleda,Nariño,,6,5,0,2032,50,12,21,12600
9,73702PS92A-A,PS92,VE9623,14/01/2018 21:46,13.48,20.66,52411,Linares,Nariño,Carnicería,25,18,0,3862,34,27,8,7344


In [18]:
# eliminar el resto de duplicados
data=data.drop_duplicates()
data.head()

Unnamed: 0,orden_id,producto_id,vendedor_id,fecha_envio_limite,precio,valor_flete,codigo_postal_vendedor,ciudad_vendedor,departamento_vendedor,nombre_categoria_producto,longitud_nombre_producto,longitud_descripcion_producto,cantidad_fotos_producto,peso_g_producto,longitud_cm_producto,altura_cm_producto,ancho_cm_producto,volumen_cm3_producto
5,58767PS40A-A,PS40,VE1175,6/11/1901 21:06,220.91,8.18,52323,Gualmatan,Nariño++,Carnicería,36,2,2,3510,22,5,20,2200
6,28468PB76A-A,PB76,VE8634,20/09/2017 4:24,101.55,111.74,52427,Magui,Nariño,Ropa de adultos,9,16,2,330,6,5,16,0
7,8111PB14A-A,PB14,VE5681,25/10/2017 16:35,73.75,17.51,52210,Contadero,Nariño,Ropa de adultos,15,15,38,592,51,32,20,0
8,81437PS10A-A,PS10,VE3482,14/02/2018 0:09,-14.97,,52051,Arboleda,Nariño,,6,5,0,2032,50,12,21,12600
9,73702PS92A-A,PS92,VE9623,14/01/2018 21:46,13.48,20.66,52411,Linares,Nariño,Carnicería,25,18,0,3862,34,27,8,7344


In [19]:
#validar que no existan duplicados
# longitud de la base
print(data.shape)
print(data.duplicated().sum())

(1150, 18)
0


Como vemos, después de eliminar los datos duplicados, se obtienen 1150 registros, que son los que desde un inicio deberíamos dejar como resultado para utilizar en análisis futuros.

### Caso de extensión
Trabajaremos con el archivo de productos_por_fecha, en el cual se encuentran los productos que se han vendido a lo largo del tiempo. Además de realizar los siguientes puntos para el archivo dado, contempla cuales son los riesgos que corre la empresa al utilizar datos con los problemas identificados.

+ Identifica los registros duplicados
+ Crea una solución para este problema de duplicidad