# Integración y preparación de datos

## Duplicados

### 1. Importación de librerías y archivos

En las siguientes líneas se importará la librería necesaria, la cual es son **Pandas** para el manejo de datos.

In [1]:
# Importar las librerías necesarias según el análisis que se vaya a realizar
# Librería para manejo de datos convencional
import pandas as pd

In [2]:
# cargar los datos en csv
data= pd.read_csv('productos_por_fecha.csv', sep=';', encoding='latin-1')
# Visualizar los datos
data.head()

Unnamed: 0,producto_id,fecha_envio_limite,nombre_categoria_producto,longitud_nombre_producto,longitud_descripcion_producto,cantidad_fotos_producto,longitud_cm_producto,altura_cm_producto,ancho_cm_producto,volumen_cm3_producto
0,PA53,9-may-18,Electrodomésticos,19,28,29,48,17,11,8976
1,PD80,18-oct-17,Celulares,18,29,16,26,6,16,2496
2,PB61,10-sep-17,Ropa_de_adultos,13,30,29,17,26,24,10608
3,PS63,1/11/2018,Carnicería,33,26,13,47,16,43,32336
4,PA71,17/11/2017,Electrodomésticos,27,3,13,20,26,28,14560


### 3. Análisis de la fuente de los datos

### 3.1. Registros y atributos
El número de registros y atributos nos dará una guía del correcto cargue de los datos. Podemos utilizar la función shape para la revisión de este paso.

In [3]:
# Tamaño del dataset (filas, columnas)
data.shape

(1161, 10)

In [4]:
# Revisión de los atributos
data.columns

Index(['producto_id', 'fecha_envio_limite', 'nombre_categoria_producto',
       'longitud_nombre_producto', 'longitud_descripcion_producto',
       'cantidad_fotos_producto', 'longitud_cm_producto', 'altura_cm_producto',
       'ancho_cm_producto', 'volumen_cm3_producto'],
      dtype='object')

### 4. Análisis de datos duplicados

Identificar y proponer soluciones para el problema de datos duplicados permite tener asertividad en los análisis y no generar información errónea al utilizar estos datos en análisis posteriores.

### 4.1. Identificar el identificador único

El conocer el identificador único de una fuente de datos es valioso ya que nos permite comprender la semántica de los registros y asociado a este campo debemos validar que no tenga registros duplicados ni valores nulos. Estos serían ejemplos claros de problemas de calidad de datos en la fuente, los cuales deben ser analizados y si es necesario, reportados al negocio y corregios.

Como se sabe, la fuente de datos son las órdenes por producto y el identificador único es el número de orden.

In [5]:
### Contar los identificadores únicos
len(data['producto_id'].unique())

476

El número de registros de nuestra fuente es de 1651 registros. Sin embargo, existen únicamente 1150 identificadores únicos. Un  claro indicador de que existen registros duplicados.

### 4.2. Identificar los valores duplicados

Debemos identificar dónde se encuentran los datos duplicados, podemos ver si en particular es en un solo atributo, o todos los atributos se encuentran duplicados, en las siguientes líneas vamos a desarrollar los dos análisis.

In [6]:
# revisar si el problema de duplicados está en un solo atributo, en este caso el número de producto_id
data[data.duplicated('producto_id')]

Unnamed: 0,producto_id,fecha_envio_limite,nombre_categoria_producto,longitud_nombre_producto,longitud_descripcion_producto,cantidad_fotos_producto,longitud_cm_producto,altura_cm_producto,ancho_cm_producto,volumen_cm3_producto
37,PS80,1/06/2018 11:39,Carnicería,8,29,31,5,18,11,990
49,PR86,16/09/2017 18:41,Frutas y verduras,9,29,19,48,3,19,2736
71,PS72,16/05/2018 7:42,Carnicería,29,12,11,29,29,11,9251
78,PS63,4/05/2018 7:24,Carnicería,36,0,35,49,6,18,5292
93,PK27,12/08/2017 17:09,,12,33,5,54,17,26,-23868
...,...,...,...,...,...,...,...,...,...,...
1156,PS40,6/11/1901 21:06,Carnicería,36,2,2,22,5,20,2200
1157,PB76,20/09/2017 4:24,Ropa de adultos,9,16,2,6,5,16,0
1158,PB14,25/10/2017 16:35,Ropa de adultos,15,15,38,51,32,20,0
1159,PS10,14/02/2018 0:09,,6,5,0,50,12,21,12600


In [7]:
# revisar si hay registros donde todos los atributos están duplicados (son iguales)
data[data.duplicated()]

Unnamed: 0,producto_id,fecha_envio_limite,nombre_categoria_producto,longitud_nombre_producto,longitud_descripcion_producto,cantidad_fotos_producto,longitud_cm_producto,altura_cm_producto,ancho_cm_producto,volumen_cm3_producto


Como vemos, existen 0 datos que se repiten en todos los atributos y también está el caso de 685 registros que se repiten en el número de orden, pero no necesariamente es igual en los otros atributos. Vamos a revisar estos casos en particular para entenderlos mejor.

In [9]:
# revisar los registros que tienen el número de orden duplicado pero no son iguales los valores de los dempas atributos
data[data.duplicated('producto_id') & ~data.duplicated()]

Unnamed: 0,producto_id,fecha_envio_limite,nombre_categoria_producto,longitud_nombre_producto,longitud_descripcion_producto,cantidad_fotos_producto,longitud_cm_producto,altura_cm_producto,ancho_cm_producto,volumen_cm3_producto
37,PS80,1/06/2018 11:39,Carnicería,8,29,31,5,18,11,990
49,PR86,16/09/2017 18:41,Frutas y verduras,9,29,19,48,3,19,2736
71,PS72,16/05/2018 7:42,Carnicería,29,12,11,29,29,11,9251
78,PS63,4/05/2018 7:24,Carnicería,36,0,35,49,6,18,5292
93,PK27,12/08/2017 17:09,,12,33,5,54,17,26,-23868
...,...,...,...,...,...,...,...,...,...,...
1156,PS40,6/11/1901 21:06,Carnicería,36,2,2,22,5,20,2200
1157,PB76,20/09/2017 4:24,Ropa de adultos,9,16,2,6,5,16,0
1158,PB14,25/10/2017 16:35,Ropa de adultos,15,15,38,51,32,20,0
1159,PS10,14/02/2018 0:09,,6,5,0,50,12,21,12600


In [12]:
data[data['producto_id']=='PR86']

Unnamed: 0,producto_id,fecha_envio_limite,nombre_categoria_producto,longitud_nombre_producto,longitud_descripcion_producto,cantidad_fotos_producto,longitud_cm_producto,altura_cm_producto,ancho_cm_producto,volumen_cm3_producto
36,PR86,15/08/2017 6:11,Frutas y verduras,1,2,10,2,18,14,504
49,PR86,16/09/2017 18:41,Frutas y verduras,9,29,19,48,3,19,2736
194,PR86,23/12/2017 15:37,Frutas_y_verduras,39,12,14,32,34,29,31552


In [None]:
data[data['producto_id']=='PS80']

In [11]:
# revisar en particular las órdenes que tiene este comportamiento
numero_ordenes_duplicadas=data[data.duplicated('producto_id') & ~data.duplicated()]['producto_id']
#numero_ordenes_duplicadas
data[data['producto_id'].isin(numero_ordenes_duplicadas)]

Unnamed: 0,producto_id,fecha_envio_limite,nombre_categoria_producto,longitud_nombre_producto,longitud_descripcion_producto,cantidad_fotos_producto,longitud_cm_producto,altura_cm_producto,ancho_cm_producto,volumen_cm3_producto
0,PA53,9-may-18,Electrodomésticos,19,28,29,48,17,11,8976
1,PD80,18-oct-17,Celulares,18,29,16,26,6,16,2496
2,PB61,10-sep-17,Ropa_de_adultos,13,30,29,17,26,24,10608
3,PS63,1/11/2018,Carnicería,33,26,13,47,16,43,32336
4,PA71,17/11/2017,Electrodomésticos,27,3,13,20,26,28,14560
...,...,...,...,...,...,...,...,...,...,...
1156,PS40,6/11/1901 21:06,Carnicería,36,2,2,22,5,20,2200
1157,PB76,20/09/2017 4:24,Ropa de adultos,9,16,2,6,5,16,0
1158,PB14,25/10/2017 16:35,Ropa de adultos,15,15,38,51,32,20,0
1159,PS10,14/02/2018 0:09,,6,5,0,50,12,21,12600


En este ejemplo es dificil poder en todos los casos de duplicados, en que varian los datos. 

## 4.3. Eliminación de duplicados

Se van a proceder a eliminar los registros duplicados, ya que no aportan nada al análisis y sí generan una confusión en el análisis final de los datos.

In [15]:
# eliminar los duplicados
data=data.drop_duplicates('producto_id')
data.head()

Unnamed: 0,producto_id,fecha_envio_limite,nombre_categoria_producto,longitud_nombre_producto,longitud_descripcion_producto,cantidad_fotos_producto,longitud_cm_producto,altura_cm_producto,ancho_cm_producto,volumen_cm3_producto
0,PA53,9-may-18,Electrodomésticos,19,28,29,48,17,11,8976
1,PD80,18-oct-17,Celulares,18,29,16,26,6,16,2496
2,PB61,10-sep-17,Ropa_de_adultos,13,30,29,17,26,24,10608
3,PS63,1/11/2018,Carnicería,33,26,13,47,16,43,32336
4,PA71,17/11/2017,Electrodomésticos,27,3,13,20,26,28,14560


In [16]:
#validar que no existan duplicados
# longitud de la base
print(data.shape)
print(data.duplicated().sum())

(476, 10)
0


Como vemos, después de eliminar los datos duplicados, se obtienen 476 registros, que son los que desde un inicio deberíamos dejar como resultado para utilizar en análisis futuros.