![Banner-Preparaci-n.png](https://i.postimg.cc/q7vd5LZP/Banner-Preparaci-n.png)

# Integración y preparación de datos

## L2: Lookups y complemento de datos

De acuerdo al caso de uso del sector retail se va a revisar algunas funciones útiles para realizar búsqueda tanto puntuales como a nivel condición, esto para permitir un mayor análisis y revisión de nuestra fuente de datos.

**Autor:** David Ocampo, Daniel Galindo Ruiz

d.ocampo@uniandes.edu.co, d.galindo@uniandes.edu.co

### 1. Contexto del negocio 
El gerente general de la compañía se ha enterado que existen varios casos de reclamos relacionados con el destino final del envío, esto se debe a que el área de ciencia de datos no tiene manera de revisar estos casos particulares, pues solamente se han realizado cálculos y arreglos en los datos para mejorar su calidad global. Sin embargo, esto ha permitido que sean recurrentes estos errores. Por lo tanto, se debe establecer un método para encontrar las ciudades de envío en específico y determinar cuántos del total de envíos están generando un volumen muy grande a la hora de embalaje y despacho para así poder tomar medidas con la mensajería de elección.


### Objetivos

1. Realizar consultas de puntos en particular de la fuente de datos.
2. Indexar una fuente de datos con alguna columna de interés.
3. Realizar una condición para crear una nueva columna con información relevante.

### 2. Importación de librerías y archivos

En las siguientes líneas se importarán las librerías necesarias, las cuales son **Pandas** para el manejo de datos y **Numpy** para manejar condiciones sobre los datos:

In [1]:
# Importar las librerías necesarias según el análisis que se vaya a realizar
# Librería para manejo de datos
import pandas as pd
# Librería para manejo de condicionales
import numpy as np

In [2]:
#Cargar los datos de las órdenes
data=pd.read_csv('ordenes_por_fecha.csv', sep=';',encoding="latin-1")

In [3]:
#Visualizar los datos
data.head()

Unnamed: 0,producto_id,fecha_envio_limite,nombre_categoria_producto,longitud_nombre_producto,longitud_descripcion_producto,cantidad_fotos_producto,peso_g_producto,longitud_cm_producto,altura_cm_producto,ancho_cm_producto,orden_id,order_item_id,vendedor_id,precio,valor_flete,codigo_postal_vendedor,ciudad_vendedor,departamento_vendedor
0,PA10,2017-08-30,Electrodomésticos,8,21,28,25,35,1,28,51806PA10B,B,VE1402,348.72,1.69,52490,Olaya herrera,Nariño
1,PA10,2017-08-30,Electrodomésticos,8,21,28,25,35,1,28,17905PA10A,A,VE4937,92.34,12.61,52323,Gualmatan,Nariño
2,PA10,2017-08-30,Electrodomésticos,8,21,28,25,35,1,28,19498PA10A,A,VE3549,168.52,2.55,52385,La llanada,Nariño
3,PA10,2017-08-30,Electrodomésticos,8,21,28,25,35,1,28,51131PA10C,C,VE9609,2.16,6.95,52323,Gualmatan,Nariño
4,PA10,2017-08-30,Electrodomésticos,8,21,28,25,35,1,28,107500PO59A,A,VE3159,108.38,35.39,54003,Abrego,Norte de santander


### 3. Uso de Lookups

Nos encontramos en un punto donde ya tenemos la data cargada y podemos hacer varias operaciones de utilidad para el manejo, arreglo, visualización y operación de datos, sin embargo, también sería muy interesante poder seleccionar subconjuntos o simplemente una celda para poder revisar qué datos contienen. Como lo hemos mostrado durante todos los cursos, la visualización de datos es clave para entender qué datos estamos cargando. En los siguientes ejercicios vamos a revisar:

* Cómo indexar una fuente de datos por una columna de interés.
* Cómo seleccionar una celda en particular.

In [4]:
# Vamos a seleccionar el primer envío y buscar a qué ciudad se envío
# la selección de lookups se realiza con lookup(índice de filas, índice de columnas)
# Seleccionamos la fila 0 que sería el primer registro
# Y la columna ciudad vendedor
data.lookup([0],['ciudad_vendedor'])

  data.lookup([0],['ciudad_vendedor'])


array(['Olaya herrera'], dtype=object)

In [5]:
# Ahora vamos a indexar la base por el id de la orden así podremos encontrar el la ciudad de envío 
data=data.drop_duplicates(subset=['orden_id'])
# Es muy importante realizar el paso anterior para garantizar que el índice sea único
data=data.set_index('orden_id')
data.head()

Unnamed: 0_level_0,producto_id,fecha_envio_limite,nombre_categoria_producto,longitud_nombre_producto,longitud_descripcion_producto,cantidad_fotos_producto,peso_g_producto,longitud_cm_producto,altura_cm_producto,ancho_cm_producto,order_item_id,vendedor_id,precio,valor_flete,codigo_postal_vendedor,ciudad_vendedor,departamento_vendedor
orden_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1
51806PA10B,PA10,2017-08-30,Electrodomésticos,8,21,28,25,35,1,28,B,VE1402,348.72,1.69,52490,Olaya herrera,Nariño
17905PA10A,PA10,2017-08-30,Electrodomésticos,8,21,28,25,35,1,28,A,VE4937,92.34,12.61,52323,Gualmatan,Nariño
19498PA10A,PA10,2017-08-30,Electrodomésticos,8,21,28,25,35,1,28,A,VE3549,168.52,2.55,52385,La llanada,Nariño
51131PA10C,PA10,2017-08-30,Electrodomésticos,8,21,28,25,35,1,28,C,VE9609,2.16,6.95,52323,Gualmatan,Nariño
107500PO59A,PA10,2017-08-30,Electrodomésticos,8,21,28,25,35,1,28,A,VE3159,108.38,35.39,54003,Abrego,Norte de santander


In [10]:
# Ahora vamor a buscar el envío:
# 51806PA10B
data.lookup(['51806PA10B'],['ciudad_vendedor'])

  data.lookup(['51806PA10B'],['ciudad_vendedor'])


array(['Olaya herrera'], dtype=object)

Al final vemos que podemos identificar las ciudades de los envíos que tanto el científico de datos como los encargados de despacho puedan verificar que sí se está realizando los pedidos a la ciudad adecuada, esto, tomando un caso en particular para analizar la ciudad. Sin embargo, es siempre posible cambiar el índice de la fuente para obtener información de otras columnas en particular.

### 4. Uso de función Where

La función where es una aplicación del algoritmo Si - Entonces (if-then) muy similar a la función de Excel ya conocida. Para cada elemento en la fuente de datos que llama, si la condición es verdadera, se usa el elemento; de lo contrario, se utiliza el otro elemento de la función correspondiente.

```python
fuente_datos.where(condición, elemento_si_verdadero, elemento_si_falso)

```

![If-else](https://picodotdev.github.io/blog-bitix/2020/06/las-sentencias-de-control-de-flujo-en-java-if-switch-for-while-do-while-try-catch-break-continue-e-invocacion/images/sentencia-if-else_hu869d4585cc82fedd18187c9eb1e4060a_23522_750x750_fit_box_3.png)

Para la práctica de esta función vamos a revisar una función sencilla que nos permita a identificar el tamaño del producto si es mayor a 30 centímetros de largo, así las características de la función serían:

* **Condición:** Longitud del producto mayor a 30cm 
* **Valor si verdadero**: Grande
* **Valor si falso**: Pequeño


In [7]:
# Creación de la condición
np.where(data['longitud_cm_producto']>30, #Condición
         'GRANDE', #Valor si verdadero
         'PEQUEÑO') #Valor si falso

array(['GRANDE', 'GRANDE', 'GRANDE', ..., 'GRANDE', 'GRANDE', 'GRANDE'],
      dtype='<U7')

In [8]:
# asignarlo a una columna nueva de la fuente de datos
data['tipo_tamano_producto']=np.where(data['longitud_cm_producto']>30, 'GRANDE','PEQUEÑO')
# visualizar la columna nueva
data[['tipo_tamano_producto']].head()

Unnamed: 0_level_0,tipo_tamano_producto
orden_id,Unnamed: 1_level_1
51806PA10B,GRANDE
17905PA10A,GRANDE
19498PA10A,GRANDE
51131PA10C,GRANDE
107500PO59A,GRANDE


In [9]:
data['tipo_tamano_producto'].value_counts()

PEQUEÑO    5207
GRANDE     4789
Name: tipo_tamano_producto, dtype: int64

Con esta función podemos encontrar rápidamente subconjuntos de los datos para realizar información complementaria que nos aporte el análisis del negocio.

### Caso de Extensión

Con el caso de empleados de los Alpes, vamos a llevar lo aprendido a la práctica, para lo cual se ha planteado una pregunta de negocio, en este momento se quiere conocer a cuáles departamentos se realizan la mayor cantidad de viajes, además identificar qué tipo de empleado está teniendo una mayor tasa de deserción.

* La empresa quiere saber los 2 departamentos más frecuentes de los empleados allí.
* Genera una columna extra para saber si el empleado es administrativo o técnico. Un empleado es técnico si proviene del depto de I+D, y administrativo de lo contrario.
* Con esta nueva columna, genera un histograma que nos cuente la tasa de deserción de empleados técnicos vs. administrativos.