![Banner-Preparaci-n.png](https://i.postimg.cc/q7vd5LZP/Banner-Preparaci-n.png)

# Integración y preparación de datos

## L3: Integracion de Datos no estructurados

En este notebook veremos cómo solucionar un problema en una empresa de retarail a través de una fuente de datos no estructurada.

**Autor:** David Ocampo, Daniel Galindo Ruiz

d.ocampo@uniandes.edu.co, d.galindo@uniandes.edu.co

### 1. Contexto del negocio 

El servicio de mensajería que realiza los despachos a todo el país envió el informe de entregas realizadas con su respectiva fecha para cada categoría de productos que entregó, sin embargo, se identificó un problema en la captura de datos. El gerente de mercadeo necesita saber cuántos envíos se han realizado de cada categoría para poder establecer campañas de publicidad a las categorías que menos ventas tienen, pero no se ha logrado decifrar la data de una manera rápida. El proceso de conversión manual ha tomado ya dos semanas y aún no se tienen resultados. Además se quieren saber de los envíos, los meses en los que se realizaron, para lo cual se designó al área de ciencia de datos para resolver este problema.


### Objetivos

1. Identificar las características de una fuente de datos no estructurada.
2. Conocer las funciones más útiles para la transformación de los datos.
3. Realizar el cambio de estructura para obtener datos estructurados.

### 2. Importación de librerías y archivos

En las siguientes líneas se importará la librería **Pandas** para el manejo de datos.

In [1]:
# Importar las librerías necesarias según el análisis que se vaya a realizar
# Librería para manejo de datos
import pandas as pd

In [2]:
#Cargar los datos
data=pd.read_csv('categorias_envio.csv',sep=',',encoding="latin-1")
data.head()

Unnamed: 0,nombre_categoria_producto,fecha_envio_limite
0,Electrodomésticos,2018-05-17;17/05/2018;17/05/2018;27/12/2017;27...
1,Ropa_de_adultos,2018-04-23;23/04/2018;15/02/2018;15/02/2018;15...
2,Ropa_infantil,2017-12-13;3/02/2018;11/09/2017;11/09/2017;11/...
3,Celulares,2018-04-04;4/04/2018;4/04/2018;4/04/2018
4,Tecnología,2018-03-28;28/03/2018;28/03/2018;28/03/2018;28...


Vemos que el dataframe tiene toda la información relacionada con la fecha de envío, pero todas las fechas de envío de una categoría están agrupadas en una celda, es decir, la información no está estructurada. La idea es que después de estructurar esta fuente de datos, podamos extraer:
* Fechas de envío.
* Cantidad de envíos (Siendo cada fecha un envío).
* Mes de envío.
* Categoría a la que pertenece.

### 3. Mapeo del problema

En un principio vamos a realizar la extracción de los datos de la primera categoría, como sabemos que las demás filas(categorías) tienen el mismo formato, podremos replicarlo para así optimizar nuestra escritura de código y el tiempo gastado en la transformación de los datos. Para esto vamos a realizar los siguientes pasos:

1. Para la primera fila extraer las fechas en una lista.
2. Con la lista creada la convertiremos en una columna de un nuevo dataframe.
3. Uniremos la columna creada con una columna que contenga las repeticiones de envíos de esa categoría.
4. Realizaremos un proceso iterativo para cada fila(categoría) nueva.
5. Uniremos los dataframe resultantes en uno solo para obtener la base de datos final.


### 4. Utilización de listas

Para la columna de fecha de envío, vamos a realizar una transformación en el objeto llamado listas, esto porque nos permite transformar directamente a una columna de lo que será la fuente de datos final.

In [3]:
#Primero convertiremos la categoría en el índice
data=data.set_index('nombre_categoria_producto')
data.head()

Unnamed: 0_level_0,fecha_envio_limite
nombre_categoria_producto,Unnamed: 1_level_1
Electrodomésticos,2018-05-17;17/05/2018;17/05/2018;27/12/2017;27...
Ropa_de_adultos,2018-04-23;23/04/2018;15/02/2018;15/02/2018;15...
Ropa_infantil,2017-12-13;3/02/2018;11/09/2017;11/09/2017;11/...
Celulares,2018-04-04;4/04/2018;4/04/2018;4/04/2018
Tecnología,2018-03-28;28/03/2018;28/03/2018;28/03/2018;28...


In [4]:
# Ahora podemos seleccionar esa única celda con la función de ubicación aprendida
data.loc['Electrodomésticos','fecha_envio_limite']

'2018-05-17;17/05/2018;17/05/2018;27/12/2017;27/12/2017'

### 4.1. Separar los elementos

Con esta función podremos extraer los elementos de alguna cadena de texto y dejarlas en una lista de la longitud de los elementos de la cadena

In [5]:
# Utilizamos la función split para separar con el argumento del separador
lista=data.loc['Electrodomésticos','fecha_envio_limite'].split(';')
lista

['2018-05-17', '17/05/2018', '17/05/2018', '27/12/2017', '27/12/2017']

### 5. Creación de DataFrame con lista

Un DataFrame de pandas es una estructura de datos etiquetada bidimensional con columnas de tipos potencialmente diferentes. Este DataFrame se puede crear de varias formas una de estas es usando una lista.

In [6]:
#Creación de dataframe
nueva_data_cat_1 = pd.DataFrame(
    lista, # Pasamos nuestra lista ya creada
    columns =['fecha_envio_limite'] # Ingresamos la columna de interés
)
#Visualizamos el resultado
nueva_data_cat_1

Unnamed: 0,fecha_envio_limite
0,2018-05-17
1,17/05/2018
2,17/05/2018
3,27/12/2017
4,27/12/2017


### 6. Agregar columna de constante

En muchos casos de la ciencia de datos necesitamos establecer una correspondencia entre las diferentes columnas, para esto debemos agregar el elemento que está relacionado con la otrs columna, en este caso vamos a agregar la categoría en cuestion como una constante para así tener nuestro primer dataframe completo

In [7]:
# Creamos una variable que sea la categoría
categoria='Electrodomésticos'
# Creamos la nueva columna y asignamos el valor
nueva_data_cat_1['nombre_categoria_producto']=categoria
#visualizamos el dataset
nueva_data_cat_1

Unnamed: 0,fecha_envio_limite,nombre_categoria_producto
0,2018-05-17,Electrodomésticos
1,17/05/2018,Electrodomésticos
2,17/05/2018,Electrodomésticos
3,27/12/2017,Electrodomésticos
4,27/12/2017,Electrodomésticos


### 7. La repetición de proceso

Como sabemos que el proceso se debe repetir, vamos a generar el mismo proceso para la segunda categoría, luego de esto vamos a unir a un solo dataframe que va a ser nuestro dataframe maestro donde estaremos reuniendo toda la información útil de los envíos.

Ahora bien el último paso tendría que ser la unión de los dataframe que hemos creado para cada categoría, esto lo haremos con la función concat.

```python
pd.concat([base_1,base_2])
```

In [8]:
# Separamos los elementos de la segunda línea
lista=data.loc['Ropa_de_adultos','fecha_envio_limite'].split(';')

#Creación de dataframe
nueva_data_cat_2 = pd.DataFrame(lista,columns =['fecha_envio_limite'])

#Cambiamos el nombre de la categoría 
categoria='Ropa_de_adultos'

# Se crea la nueva columna
nueva_data_cat_2['nombre_categoria_producto']=categoria

#visualizamos el dataset
nueva_data_cat_2

Unnamed: 0,fecha_envio_limite,nombre_categoria_producto
0,2018-04-23,Ropa_de_adultos
1,23/04/2018,Ropa_de_adultos
2,15/02/2018,Ropa_de_adultos
3,15/02/2018,Ropa_de_adultos
4,15/02/2018,Ropa_de_adultos
5,15/02/2018,Ropa_de_adultos
6,15/02/2018,Ropa_de_adultos
7,15/02/2018,Ropa_de_adultos
8,15/02/2018,Ropa_de_adultos
9,15/02/2018,Ropa_de_adultos


In [9]:
# Realizamos la unión de los dataframe
data_total=pd.concat([nueva_data_cat_1,nueva_data_cat_2],ignore_index=True)
data_total.head(6)

Unnamed: 0,fecha_envio_limite,nombre_categoria_producto
0,2018-05-17,Electrodomésticos
1,17/05/2018,Electrodomésticos
2,17/05/2018,Electrodomésticos
3,27/12/2017,Electrodomésticos
4,27/12/2017,Electrodomésticos
5,2018-04-23,Ropa_de_adultos


### 8. Proceso iterativo
Como vemos que es un proceso que se va a generar varias veces podemos optimizar a través de un método de programación llamado bucle. En general, un bucle es una estructura de control que repite un bloque de instrucciones. Un bucle 'for' es un bucle que repite el bloque de instrucciones un número predeterminado de veces. El bloque de instrucciones que se repite se suele llamar cuerpo del bucle y cada repetición se suele llamar iteración.

Así nuestros componentes del bucle serán:

* Número de veces: la cantidad de categorías.
* Cuerpo del bucle: la separación de texto y unión al dataframe final.


In [10]:
for categoria in data.index: # Establecer la repetición
    print(categoria) #Mirar qué está iterando

Electrodomésticos
Ropa_de_adultos
Ropa_infantil
Celulares
Tecnología
Muebles
Salud
Bebés
Juguetes
Mascotas
Deportes
Libros
Ferretería
Dormitorio
Productos_ecoamigables
Licor
Lácteos
Frutas_y_verduras
Carnicería
Tarjetas_regalo


In [11]:
# Creamos el dataframe vacío para rellenar con los nuevos dataframe
data_total=pd.DataFrame(columns=['nombre_categoria_producto','fecha_envio_limite'])
data_total

Unnamed: 0,nombre_categoria_producto,fecha_envio_limite


In [12]:
# Ahora vamos a incluir el bloque de código al bucle
for categoria in data.index:
    #Realizamos un print para ver en cual iteración va
    
    print('Iteración de: '+ categoria)

    # Separamos los elementos de la segunda línea
    lista=data.loc[categoria,'fecha_envio_limite'].split(';')

    #Creación de dataframe de las fechas
    nueva_data = pd.DataFrame(lista,columns =['fecha_envio_limite'])

    # Se crea la nueva columna
    nueva_data['nombre_categoria_producto']=categoria

    # Pegamos la nueva data al dataframe final
    data_total=pd.concat([data_total,nueva_data],ignore_index=True)
    
print('Finalizado con Éxito!')

Iteración de: Electrodomésticos
Iteración de: Ropa_de_adultos
Iteración de: Ropa_infantil
Iteración de: Celulares
Iteración de: Tecnología
Iteración de: Muebles
Iteración de: Salud
Iteración de: Bebés
Iteración de: Juguetes
Iteración de: Mascotas
Iteración de: Deportes
Iteración de: Libros
Iteración de: Ferretería
Iteración de: Dormitorio
Iteración de: Productos_ecoamigables
Iteración de: Licor
Iteración de: Lácteos
Iteración de: Frutas_y_verduras
Iteración de: Carnicería
Iteración de: Tarjetas_regalo
Finalizado con Éxito!


In [13]:
#Revisamos la data final
data_total

Unnamed: 0,nombre_categoria_producto,fecha_envio_limite
0,Electrodomésticos,2018-05-17
1,Electrodomésticos,17/05/2018
2,Electrodomésticos,17/05/2018
3,Electrodomésticos,27/12/2017
4,Electrodomésticos,27/12/2017
...,...,...
1240,Carnicería,17/04/2018
1241,Carnicería,17/04/2018
1242,Tarjetas_regalo,2018-08-02
1243,Tarjetas_regalo,2/08/2018


Una vez creado el dataframe con la data total podemos realizar los conteos de envíos por categoría, y la conversión de la columna de fecha para extraer el mes y entregar la información requerida.

### 9. Extracción de información

En esta parte vamos a realizar una par de transformaciones de valor para el negocio, pasos que ya se han realizado en anteriores tutoriales que siempre puedes volver a consultar.

In [14]:
# Columna a formato fecha
data_total['fecha_envio_limite']=pd.to_datetime(data_total['fecha_envio_limite'])

In [15]:
# Extraer el mes
data_total['fecha_mes']=data_total['fecha_envio_limite'].dt.month
data_total[['fecha_mes']].head()

Unnamed: 0,fecha_mes
0,5
1,5
2,5
3,12
4,12


In [16]:
#Visualizar el dataframe resultante
data_total.head()

Unnamed: 0,nombre_categoria_producto,fecha_envio_limite,fecha_mes
0,Electrodomésticos,2018-05-17,5
1,Electrodomésticos,2018-05-17,5
2,Electrodomésticos,2018-05-17,5
3,Electrodomésticos,2017-12-27,12
4,Electrodomésticos,2017-12-27,12


In [17]:
# Utilizar el diccionario de mes para obtener la etiqueta
diccionario_meses={
    1:'Enero',
    2:'Febrero',
    3:'Marzo',
    4:'Abril',
    5:'Mayo',
    6:'Junio',
    7:'Julio',
    8:'Agosto',
    9:'Septiembre',
    10:'Octubre',
    11:'Noviembre',
    12:'Diciembre'
}

In [18]:
# Aplicar una función para el etiquetado
data_total['fecha_mes_etiqueta']=data_total['fecha_mes'].apply(lambda x: diccionario_meses[x])
data_total['fecha_mes_etiqueta']

0            Mayo
1            Mayo
2            Mayo
3       Diciembre
4       Diciembre
          ...    
1240        Abril
1241        Abril
1242       Agosto
1243      Febrero
1244        Julio
Name: fecha_mes_etiqueta, Length: 1245, dtype: object

In [19]:
# Realizar los resúmenes por total de envíos por categoría
resumen_categorias=data_total.groupby('nombre_categoria_producto').count().reset_index().sort_values(by='fecha_envio_limite',ascending=False)
resumen_categorias[['nombre_categoria_producto','fecha_envio_limite']].head()

Unnamed: 0,nombre_categoria_producto,fecha_envio_limite
12,Mascotas,458
0,Bebés,439
11,Lácteos,72
8,Juguetes,56
19,Tecnología,56


In [20]:
# Realizar los resúmenes por total de envíos por mes
resumen_mes=data_total.groupby('fecha_mes_etiqueta').count().reset_index().sort_values(by='fecha_envio_limite',ascending=False)
resumen_mes[['fecha_mes_etiqueta','fecha_envio_limite']].head()

Unnamed: 0,fecha_mes_etiqueta,fecha_envio_limite
6,Junio,214
5,Julio,148
7,Marzo,136
1,Agosto,129
2,Diciembre,128


Con este par de conversiones de una fuente de datos no estructurada, pudimos establecer cómo construir información de valor para la compañía transformando los datos en una fuente de datos estructurada.