# Integración y preparación de datos - Proyecto

### 1. Contexto del negocio 

El gerente general necesita saber una relación de precios reales a los cuales se está enfrentando el cliente final, sin embargo los archivos que se están enviando a gerencia tienen una magnitud impresionante, tanto incluso que no es posible abrir los archivos siquiera. De estos archivos, se necesita entregar un reporte con la información real de los precios finales, condensada de al menos las categorías más relevantes para que se pueda interpretar y se tomen decisiones sobre los objetivos estratégicos de la empresa.


### Objetivos

1. Identificar cuáles atributos generan valor al análisis.
2. Crear atributos a partir de información extraída de la fuente de datos.
3. Eliminar atributos que no generan valor.

### 2. Importación de librerías y archivos

En las siguientes líneas se importarán la librería necesaria, la cual es **Pandas** para el manejo de datos.

In [1]:
# Importar las librerías necesarias según el análisis que se vaya a realizar
# Librería para manejo de datos
import pandas as pd

In [2]:
# cargar los datos en csv
ordenes= pd.read_csv('ordenes_por_producto.csv', sep=';',encoding="latin-1")
#Visualizar los datos
ordenes.head()

Unnamed: 0,orden_id,order_item_id,producto_id,vendedor_id,precio,valor_flete,codigo_postal_vendedor,ciudad_vendedor,departamento_vendedor
0,88176PT66A,A,PT66,VE3877,226.31,2.86,11001,Bogota d.c.,Bogota d.c.
1,61602PB76A,A,PB76,VE8568,338.38,3.28,27001,Quibdo,Choco
2,106573PJ55A,A,PJ55,VE4333,155.29,11.48,70001,Sincelejo,Sucre
3,15563PO85A,A,PO85,VE7960,137.82,25.39,85001,Yopal,Casanare
4,11468PG31A,A,PG31,VE1019,141.9,22.94,52480,Nariño,Nariño


### 3. Eliminando atributos

Vemos que hay variables que para nuestro análisis no nos va a aportar mayor conocimiento. Por ejemplo, utilizar los identificadores de la orden, del producto, del vendedor, entre otros, no son necesarios para cumplir con el objetivo propuesto.

Por ahora vamor a seleccionar los siguientes atributos para identificar el **precio total por ciudad**.

- [ ] orden_id
- [ ] orden_item_id
- [ ] producto_id
- [ ] vendedor_id
- [x] precio
- [x] valor_flete
- [ ] codigo_postal_vendedor
- [x] ciudad_vendedor
- [ ] departamento_vendedor

Vamos a realizar la eliminación de variables con la siguiente función:

```python
data.drop(columnas_a_eliminar,axis=1)
```

In [3]:
#Eliminación de varibles de las ordenes
ordenes=ordenes.drop(['orden_id', 'order_item_id', 'producto_id', 'vendedor_id', 
                     'codigo_postal_vendedor','departamento_vendedor'],axis=1)
ordenes.head()

Unnamed: 0,precio,valor_flete,ciudad_vendedor
0,226.31,2.86,Bogota d.c.
1,338.38,3.28,Quibdo
2,155.29,11.48,Sincelejo
3,137.82,25.39,Yopal
4,141.9,22.94,Nariño


### 4. Creación de atributos de valor

Como el precio final para el cliente depende también del valor del flete, vamos a realizar la suma de las columnas para obtener el precio total. Además estableceremos unos intervalos para poder resumir mucho mejor cómo se encuentran los precios en las diferentes ciudades.

In [4]:
#Sumar las columnas
ordenes['precio_final']=ordenes['precio']+ordenes['valor_flete']
ordenes.head()

Unnamed: 0,precio,valor_flete,ciudad_vendedor,precio_final
0,226.31,2.86,Bogota d.c.,229.17
1,338.38,3.28,Quibdo,341.66
2,155.29,11.48,Sincelejo,166.77
3,137.82,25.39,Yopal,163.21
4,141.9,22.94,Nariño,164.84


In [5]:
# Realizar los intervalos
#Establcer cantidad de intervalos deseados
numero_intervalos=5
ordenes['intervalo_precio']=pd.cut(ordenes['precio_final'],numero_intervalos)
#Visualizar el resultado
ordenes.head()

Unnamed: 0,precio,valor_flete,ciudad_vendedor,precio_final,intervalo_precio
0,226.31,2.86,Bogota d.c.,229.17,"(-0.894, 257.236]"
1,338.38,3.28,Quibdo,341.66,"(257.236, 514.082]"
2,155.29,11.48,Sincelejo,166.77,"(-0.894, 257.236]"
3,137.82,25.39,Yopal,163.21,"(-0.894, 257.236]"
4,141.9,22.94,Nariño,164.84,"(-0.894, 257.236]"


Vemos como con la eliminación de valores poco útilies para el análisis podemos obtener mejores resultados, además crear valor a partir de los atributos con los que se cuenta, ahora podemos elegir cualquier ciudad para obtener el rango de precios en el cual se encuentran las compras por zona.

In [6]:
#Elegir ciudad
ciudad='Quibdo'
ordenes[ordenes['ciudad_vendedor']==ciudad].groupby(['ciudad_vendedor','intervalo_precio']).count()[['precio']]

Unnamed: 0_level_0,Unnamed: 1_level_0,precio
ciudad_vendedor,intervalo_precio,Unnamed: 2_level_1
Quibdo,"(-0.894, 257.236]",122
Quibdo,"(257.236, 514.082]",16
Quibdo,"(514.082, 770.928]",1
Quibdo,"(770.928, 1027.774]",1
Quibdo,"(1027.774, 1284.62]",0


Vemos que podemos obtener información bastante útil ya que vemos que para cada ciudad seleccionada existe una distribución en un rango de precios.

### Extensión
Para demostrar que los empleados de tecnología de los Alpes las distribución de salarios en los diferentes generos se necesita realizar una comparación de cuántas personas hay en diferentes rangos de salario para lo cual se te pide:
    
* Eliminar las variables innecesarias.
* Extraer la suma de salario mensual y la tarifa mensual que sería el total devengado por el empleado.
* Crear 5 intervalos con ese nuevo atributo creado.
* Agrupa la cantidad de personas por género en los diferentes intervalos de salario.