# Integración y preparación de datos

## L2: Estandarización 

De acuerdo con el caso de uso del sector retail, vamos a cumplir los objetivos de mejorar la calidad de los datos, en este caso utilizando la estandarización de los mismos.

### 2. Importación de librerías y archivos

En las siguientes líneas se importarán las librerías necesarias, las cuales son **Pandas** para el manejo de datos.

In [1]:
# Importar las librerías necesarias según el análisis que se vaya a realizar
# Librería para manejo de datos convensional
import pandas as pd

In [2]:
# cargar los datos en csv
data= pd.read_csv('productos_por_fecha.csv', sep=';', encoding='latin-1')
# Visualizar los datos
data.head()

Unnamed: 0,producto_id,fecha_envio_limite,nombre_categoria_producto,longitud_nombre_producto,longitud_descripcion_producto,cantidad_fotos_producto,longitud_cm_producto,altura_cm_producto,ancho_cm_producto,volumen_cm3_producto
0,PA53,9-may-18,Electrodomésticos,19,28,29,48,17,11,8976
1,PD80,18-oct-17,Celulares,18,29,16,26,6,16,2496
2,PB61,10-sep-17,Ropa_de_adultos,13,30,29,17,26,24,10608
3,PS63,1/11/2018,Carnicería,33,26,13,47,16,43,32336
4,PA71,17/11/2017,Electrodomésticos,27,3,13,20,26,28,14560


### 3. Análisis de la fuente de los datos

### 3.1. Registros y atributos
El número de registros y atributos nos dará una guía del correcto cargue de los datos, podemos utilizar la función shape para lograr este objetivo.

In [3]:
# Tamaño del dataset (filas, columnas)
data.shape

(1161, 10)

In [4]:
# Revisión de los atributos
data.columns

Index(['producto_id', 'fecha_envio_limite', 'nombre_categoria_producto',
       'longitud_nombre_producto', 'longitud_descripcion_producto',
       'cantidad_fotos_producto', 'longitud_cm_producto', 'altura_cm_producto',
       'ancho_cm_producto', 'volumen_cm3_producto'],
      dtype='object')

### 3.2. Tipos de datos

Debemos identificar en la fuente el tipo de datos de las variables que estamos analizando, para poder establecer su formato y su dominio. Recordemos en este punto lo importante de corroborarlos con el diccionario de datos de la fuente.

In [5]:
#identificar los tipos de datos
data.dtypes

producto_id                      object
fecha_envio_limite               object
nombre_categoria_producto        object
longitud_nombre_producto          int64
longitud_descripcion_producto     int64
cantidad_fotos_producto           int64
longitud_cm_producto              int64
altura_cm_producto                int64
ancho_cm_producto                 int64
volumen_cm3_producto              int64
dtype: object

En nuestra fuente de datos tenemos tipo de datos numérico y string, esto corresponde con las características del producto y los datos que se especifican en el diccionario, a excepción de los primeros identificadores y del atributo fecha_envio_limite que debemos transformar a Datetime.

In [6]:
#describir el dominio de los atributos y otras características estadísticas
data.describe()

Unnamed: 0,longitud_nombre_producto,longitud_descripcion_producto,cantidad_fotos_producto,longitud_cm_producto,altura_cm_producto,ancho_cm_producto,volumen_cm3_producto
count,1161.0,1161.0,1161.0,1161.0,1161.0,1161.0,1161.0
mean,20.046512,20.046512,16.951766,29.891473,18.114556,23.364341,9549.582257
std,11.687876,11.663585,14.782367,14.960878,11.331516,10.993293,14323.671275
min,0.0,0.0,-39.0,0.0,0.0,0.0,-90828.0
25%,10.0,10.0,7.0,19.0,9.0,16.0,1080.0
50%,20.0,20.0,18.0,30.0,17.0,23.0,5814.0
75%,30.0,30.0,28.0,41.0,26.0,31.0,14868.0
max,40.0,40.0,40.0,76.0,59.0,62.0,78925.0


Con este resumen de los datos, podemos identificar rápidamente el dominio de atributos de caracter numérico lo cuales deberían cumplir ciertos requisitos como por ejemplo, para el precio, ser un atributo numérico, en principio, positivo.

### 4. Estandarización 

La identificación de estos problemas de estandarización es muy costoso. Sin embargo, como proceso para lograrlo, inicialmente se debe realizar de forma manual, para luego proponer la automatización de los mismos. Es en este punto donde la identificación de patrones que cumplen los registros aporta en la solución de estos problemos de calidad de datos. 

En el perfilamiento identificamos problemas con los siguientes atributos:
* fecha_envio_limite: Existen diferentes formatos de la fecha.
* departamento_vendedor: Tiene caracteres anómalos que no complen con el estándar de la base.
* nombre_categoria_producto: no cumple con las características definidas.

En las siguientes líneas vamos a proponer soluciones para estandarizar estas variables.


### 4.1. Estandarizar un atributo tipo fecha
Inicialmente identificamos que en la fuente de datos el valor del atributo es de tipo string, por lo que debemos transformarlo a datetime, sin embargo, primero debemos revisar el formato tiene.

In [7]:
# revisar el formato del atributo  fecha_envío_límite
data[['fecha_envio_limite']].head(20)

Unnamed: 0,fecha_envio_limite
0,9-may-18
1,18-oct-17
2,10-sep-17
3,1/11/2018
4,17/11/2017
5,6-nov-01
6,20/09/2017
7,10/25/2017
8,02/14/2018
9,01-14-2018


debemos generar una función para transformar los datos al formato estándar de la mayoría de registros que es: **dd/mm/AAAA hh:mm**

Esto lo logramos entender cuando vemos los 3 formatos utilizados para la fecha e identificamos el formato más frecuente, lo cual se se hace en un proceso manual. Al aplicarlo a este caso, identificamos los siguientes patrones:

* dd - mes - AA
* AAAA - mm - dd
* dd/mm/AAAA hh:mm

donde dd: es día en con 2 dígitos, mes: primeras 3 letras del mes, mm: el mes con 2 dígitos, AAAA: año con 4 dígitos, AA: año con dos dígitos, hh: la hora con 2 dígitos y mm: los minutos con 2 dígitos 

Con la identificación de los patrones estamos listos para continuar. La estrategia es crear dos funciones adicionales que van a aportar en la identificación del mes asociado a la fecha y en el caracter utilizado como separador.

In [8]:
# función para pasar el mes que están en letras a números
def mes_a_numero(mes):
    numero=''
    if mes=='ene':
        numero='01'
    if mes=='feb':
        numero='02'
    if mes=='mar':
        numero='03'
    if mes=='abr':
        numero='04'
    if mes=='may':
        numero='05'
    if mes=='jun':
        numero='06'
    if mes=='jul':
        numero='07'
    if mes=='ago':
        numero='08'
    if mes=='sep':
        numero='09'
    if mes=='oct':
        numero='10'
    if mes=='nov':
        numero='11'
    if mes=='dic':
        numero='12'
    return numero
        
# función para validar que es correcto el separador utilizado para la fecha
def validar_corregir_fecha(fecha):
    # revisar que el guión es el separador
    if '-' in fecha:
        vector_fecha=fecha.split('-')
        # si el primer registro es el año sabemos cómo rearmar el formato
        if len(vector_fecha[0])==4:
            fecha_nueva= vector_fecha[2]+'/'+vector_fecha[1]+'/'+vector_fecha[0]+' 00:00' # consstruir el formato adecuado
        else:
            fecha_nueva= vector_fecha[0]+'/'+mes_a_numero(vector_fecha[1])+'/20'+vector_fecha[2]+' 00:00'
    # si el guión no está en el registro el formato es correcto
    else:
        vector_fecha = fecha.split('/')
        if len(vector_fecha) == 3:
            fecha_nueva = vector_fecha[0]+'/'+vector_fecha[1]+'/'+vector_fecha[2]+' 00:00'
        else:
            fecha_nueva=fecha
    return fecha_nueva

In [9]:
# validamos y si es necesario corregimos el formato de la fecha con la función validar_corregir_fecha
print(data.at[0,'fecha_envio_limite'])
validar_corregir_fecha(data.at[0,'fecha_envio_limite'])


9-may-18


'9/05/2018 00:00'

In [10]:
# validamos y si es necesario corregimos el formato de la fecha con la función validar_corregir_fecha
print(data.at[3,'fecha_envio_limite'])
validar_corregir_fecha(data.at[3,'fecha_envio_limite'])


1/11/2018


'1/11/2018 00:00'

In [11]:
# validamos y si es necesario corregimos el formato de la fecha con la función validar_corregir_fecha
print(data.at[5,'fecha_envio_limite'])
validar_corregir_fecha(data.at[5,'fecha_envio_limite'])


6-nov-01


'6/11/2001 00:00'

Vemos cómo los registros 0, 3 y 5 que son los que tienen los 3 formatos distintos se pueden transformar fácilmente con la función creada, por lo tanto podemos proceder a automatizar y aplicar la función sobre toda la fuente de datos.

In [13]:
# se aplica la función a todo el atributo de fecha
data['fecha_envio_limite']=data['fecha_envio_limite'].apply(validar_corregir_fecha)
data[['fecha_envio_limite']].head(30)

UnboundLocalError: local variable 'numero' referenced before assignment

In [13]:
# convertir a datetime el atributo fecha_envio_limite
data['fecha_envio_limite']=pd.to_datetime(data['fecha_envio_limite'])
data[['fecha_envio_limite']].head()

Unnamed: 0,fecha_envio_limite
0,2017-01-08
1,2018-05-31
2,2017-10-27
3,2017-12-13
4,2018-01-11


In [16]:
# revisar que el tipo de dato haya quedado correcto
data[['fecha_envio_limite']].dtypes

fecha_envio_limite    datetime64[ns]
dtype: object

Pudimos ver que el proceso de encontrar el estándar para cada variable puede ser costoso en tiempo, en especial este tipo de campos como el de fecha, cuyo contenido se puede escribir de varias formas aunque represente lo mismo. Sin embargo, con la revisión manual y funciones automatizadas se puede lograr tener el contenido del dato correcto. 

### 4.2. Estandarizar un atributo categórico
En el perfilamiento de los datos logramos identificar un patrón erróneo en dos variables de tipo string, que tienen unas categorías asignadas. Vamos a realizar la revisión manual para luego pasar a la automatización.

In [16]:
# Consultar los datos del atributo departamento
data['departamento_vendedor'].value_counts()

Nariño         1428
Antioquia       121
Nariño++         91
Antioquia++      11
Name: departamento_vendedor, dtype: int64

En el análisis vemos que existen solamente 4 departamentos escritos correctamente, los demás no cumplen con el formato establecido en el diccionario que son solamente 2 letras para cada departamento. El registro registro con valor 0, puede ser un dato anómalo y no es posible estandarizarlo, de acuerdo a lo validado con la organización, por lo tanto podemos tratarlo como un campo vacío.

In [17]:
# función para limpiar el atributo departamento y llevarlo a que cumpla el formato establecido
def transformar_departamento(departamento):
    if '++' in departamento:  
        nuevo_departamento=str(departamento)[0:-2] #tomar los primeros 2 caracteres del campo
    else:
        nuevo_departamento = departamento
    return nuevo_departamento    

In [18]:
# utilizar la función sobre toda la columna
data['departamento_vendedor']=data['departamento_vendedor'].apply(transformar_departamento)
data['departamento_vendedor']

0          Nariño
1          Nariño
2          Nariño
3          Nariño
4       Antioquia
          ...    
1646       Nariño
1647       Nariño
1648       Nariño
1649       Nariño
1650       Nariño
Name: departamento_vendedor, Length: 1651, dtype: object

In [19]:
# validar que se haya estandarizado la variable
data['departamento_vendedor'].value_counts()

Nariño       1519
Antioquia     132
Name: departamento_vendedor, dtype: int64

En efecto con la función utilizada se logró realizar la estandarización de los datos, ahora se va a realizar el mismo proceso de análisis para la variable **nombre_categoria_producto**

In [20]:
# Consultar las categorías existentes
data['nombre_categoria_producto'].value_counts()

Carnicería           261
Deportes             258
Electrodomésticos    253
Frutas y verduras    249
Celulares            247
Ropa de adultos      246
Ropa_de_adultos       23
Frutas_y_verduras     12
Name: nombre_categoria_producto, dtype: int64

Vemos en el análisis que algunas de las categorías están escritas con un guión bajo para la separación entre palabras ("Frutas_y_verduras") y otras no ("Tarjetas regalo"). Esto se puede atribuir a los tipos de sistemas que utiliza la empresa y puede estar afectando los análisis y quizás procesos como el de envío, ya que de cara a los procesos las categorías sin el guión bajo son diferentes a las que sí lo tienen. Realizado este proceso manual, podemos proceder a realizar la automatización para todos los registros del atributo e incluir para todos el caracter **"_"** como separador.

In [21]:
# función para incluir el guión bajo
def transformar_categoria(nombre_categoria):
    nuevo_nombre=str(nombre_categoria).replace('_',' ') # reemplazamos los espacios en blanco por guión bajo
    return nuevo_nombre

In [22]:
# aplicamos la función a todos los registros del atributo
data['nombre_categoria_producto']=data['nombre_categoria_producto'].apply(transformar_categoria)
data['nombre_categoria_producto']

0       Electrodomésticos
1               Celulares
2         Ropa de adultos
3              Carnicería
4       Electrodomésticos
              ...        
1646      Ropa de adultos
1647    Frutas y verduras
1648             Deportes
1649    Frutas y verduras
1650             Deportes
Name: nombre_categoria_producto, Length: 1651, dtype: object

In [23]:
# validamos las categorías
data['nombre_categoria_producto'].value_counts()

Ropa de adultos      269
Carnicería           261
Frutas y verduras    261
Deportes             258
Electrodomésticos    253
Celulares            247
nan                  102
Name: nombre_categoria_producto, dtype: int64

Podemos ver que en este último caso, también encontramos campos vacíos o mal escritos. Esto lo vamos a corregir en una siguiente lección.

### Caso de extensión
Utiliza el archivo de productos_por_fecha, en el cual se encuentran los productos que se han vendido a lo largo del tiempo, para realizar el proceso de análisis relacionado con la dimensión de calidad de datos de estandarización. Además de realizar los siguientes puntos para el archivo dado, contempla cuál sería el problema para el negocio con los problemas identificados y los riesgos, con las soluciones propuestas.

+ Revisa el estándar de los datos para fecha y nombre_categoria_producto.
+ Identifica el problema en los atributos.
+ Automatiza el proceso de estandarización.