![Banner-Introducci-n.png](https://i.postimg.cc/VkCcqsvv/Banner-Introducci-n.png)

# Introducción a ciencia de datos

## L1: Estadística univariada

De acuerdo con el caso de uso del sector **retail** que se menciona en el PDF, se va a desarrollar en los temas vistos en las infografías y videos anteriores, además utilice este notebook como guía para la solución de los problemas que se propongan en el caso de uso A 


### Objetivos
Aplicar los temas vistos en el material del curso en el caso del sector **retail**

1. Entender y analizar los usos de las tablas de frecuencias para resolver problemas relevantes para el negocio
2. Entender y analizar las principales medidas de tendencia central y su interpretación
3. Entender y analizar las medidas de dispersión más comunes para el análisis de datos 


**Autor:** David Ocampo

### 1. Contexto del caso

En este notebook se analizará las medidas de **dispersión, posición y variabilidad** para el sector retail, para esto tomaremos los datos más relevantes de precios, medidas y envíos de los productos para poder validar las hipótesis propuestas para cada tema 

### 2. Importación de librerías y archivos
En las siguientes líneas de código se importaran los materiales de trabajo necesarios para desarrollar el caso de uso, en esto se incluyen las *librerías y los datos*

In [1]:
# Importar las librerías necesarias según el análisis que se vaya a realizar
# Librería para comando de sistema
import os
# Librería para manejo de datos
import pandas as pd

In [2]:
# cargar los datos en csv
data= pd.read_csv('Ordenes_productos_C1_M2.csv', sep=';',encoding='latin-1')

### 3. Lectura de datos
Es importante tener en cuenta la visualización de los datos porque además de contexto se puede entender mucho mejor de qué se está hablando y qué tipos de datos se han cargado desde la máquina

In [3]:
#visualizar los primeros registros
data.head(5)

Unnamed: 0,orden_id,order_item_id,producto_id,vendedor_id,fecha_envio_limite,precio,valor_flete,codigo_postal_vendedor,ciudad_vendedor,departamento_vendedor,nombre_categoria_producto,longitud_nombre_producto,longitud_descripcion_producto,cantidad_fotos_producto,peso_g_producto,longitud_cm_producto,altura_cm_producto,ancho_cm_producto
0,107500PO59A,A,PO59,VE5389,7/04/2018 18:12,271.86,30.72,52435,Mallama,Nariño,Productos ecoamigables,6,7,27,2486,17,11,14
1,37493PS22B,B,PS22,VE1558,20/10/2017 9:07,115.73,4.68,52203,Colon,Nariño,Carnicería,10,31,20,256,43,2,21
2,28050PK20B,B,PK20,VE9159,17/08/2017 8:15,432.99,82.7,66001,Pereira,Risaralda,Deportes,25,5,4,5270,9,27,29
3,52187PA10A,A,PA10,VE3159,23/09/2017 23:27,108.38,35.39,52435,Mallama,Nariño,Electrodomésticos,10,1,6,734,46,48,22
4,84639PR12A,A,PR12,VE5090,7/01/2018 11:50,51.5,11.1,73001,Ibague,Tolima,Frutas y verduras,23,16,35,884,45,26,18


Los tipos de datos nos van a ayudar a entender qué análisis se pueden realizar con cada variable para su correcta interpretación

In [4]:
# Revisar los tipos de data en el archivo
data.dtypes

orden_id                          object
order_item_id                     object
producto_id                       object
vendedor_id                       object
fecha_envio_limite                object
precio                           float64
valor_flete                      float64
codigo_postal_vendedor             int64
ciudad_vendedor                   object
departamento_vendedor             object
nombre_categoria_producto         object
longitud_nombre_producto           int64
longitud_descripcion_producto      int64
cantidad_fotos_producto            int64
peso_g_producto                    int64
longitud_cm_producto               int64
altura_cm_producto                 int64
ancho_cm_producto                  int64
dtype: object

### 4. Tablas de frecuencias
Para la solución del caso de uso es necesario identificar una posible hipótesis para validar a través de las herramientas que se revisarán en las siguientes líneas

La tabla de frecuencias es una herramienta que permite ordenar los datos, de manera que se presentan numéricamente las características de la distribución de un conjunto de datos o muestra.

**Hipótesis:** La categoría de celulares es la que más productos vende, se quiere validar ya que se desea lanzar una campaña de descuento para traer más clientes a la empresa, sin embargo se debe conocer cuál va a ser la categoría en la cual se invierta más publicidad

In [7]:
## Tabla de frecuencia univariada
#Se va a realizar una tabla para analizar las categorías que se venden en el comercio
# Frecuencia absoluta
frec_data=data['nombre_categoria_producto'].value_counts().reset_index()
frec_data.head(10)

Unnamed: 0,index,nombre_categoria_producto
0,Tecnología,543
1,Deportes,537
2,Frutas y verduras,532
3,Carnicería,523
4,Ropa de adultos,521
5,Ferretería,519
6,Juguetes,519
7,Ropa infantil,512
8,Electrodomésticos,510
9,Dormitorio,509


In [8]:
#frecuencia relativa
frec_data['porcentaje_nombre_categoria_producto']=frec_data['nombre_categoria_producto'].apply(lambda x: x/frec_data['nombre_categoria_producto'].sum())
frec_data.head(5)

Unnamed: 0,index,nombre_categoria_producto,porcentaje_nombre_categoria_producto
0,Tecnología,543,0.053582
1,Deportes,537,0.05299
2,Frutas y verduras,532,0.052497
3,Carnicería,523,0.051608
4,Ropa de adultos,521,0.051411


In [9]:
# frecuencia absoluta y relativa acumulada con cumsum()
# absoluta acumulada
frec_data['acumulada_nombre_categoria_producto']=frec_data['nombre_categoria_producto'].cumsum()
# relativa acumulada
frec_data['acumulada_porcentaje_nombre_categoria_producto']=frec_data['porcentaje_nombre_categoria_producto'].cumsum()
frec_data.head(5)

Unnamed: 0,index,nombre_categoria_producto,porcentaje_nombre_categoria_producto,acumulada_nombre_categoria_producto,acumulada_porcentaje_nombre_categoria_producto
0,Tecnología,543,0.053582,543,0.053582
1,Deportes,537,0.05299,1080,0.106572
2,Frutas y verduras,532,0.052497,1612,0.159068
3,Carnicería,523,0.051608,2135,0.210677
4,Ropa de adultos,521,0.051411,2656,0.262088


In [10]:
frec_data

Unnamed: 0,index,nombre_categoria_producto,porcentaje_nombre_categoria_producto,acumulada_nombre_categoria_producto,acumulada_porcentaje_nombre_categoria_producto
0,Tecnología,543,0.053582,543,0.053582
1,Deportes,537,0.05299,1080,0.106572
2,Frutas y verduras,532,0.052497,1612,0.159068
3,Carnicería,523,0.051608,2135,0.210677
4,Ropa de adultos,521,0.051411,2656,0.262088
5,Ferretería,519,0.051214,3175,0.313302
6,Juguetes,519,0.051214,3694,0.364515
7,Ropa infantil,512,0.050523,4206,0.415038
8,Electrodomésticos,510,0.050326,4716,0.465364
9,Dormitorio,509,0.050227,5225,0.515591


In [13]:
## Mediana 
#Mediana de precios, valor central de la distribución de los datos
data['precio'].median()

83.12

In [14]:
## Moda
# Valor más común en los precios
data['precio'].mode()

0     3.92
1    11.39
2    11.79
3    15.80
4    16.42
5    25.45
6    34.43
7    36.96
8    56.79
Name: precio, dtype: float64

**Análisis:** Es posible analizar que el promedio es inferior a 500 ubicándose en 120, la mediana que es el dato central se ubica 83.12 y existen varios valores comunes y todos debajo de 60 lo que nos muestra que la mayor cantidad de precios son bajos y que permite ser más atractivos para el consumidor final que compra mayormente productos debajo de 500

### 6. Medidas de localización
Los ___cuantiles y percentiles___ son puntos de corte que dividen el rango de una distribución de probabilidad en intervalos continuos con probabilidades iguales o que dividen las observaciones en una muestra de la misma forma.

Así se pueden representar un porcentaje de datos a través de los cuantiles para identificar cómo están localizados los datos

**Hipótesis:** La mitad(50%) de los productos pesa más de 500 gramos, ya que la empresa de mensajería quiere realizar un descuento si los productos pesan menos de 500 gramos, así la compañía podría bajar los precios de envío de la mitad de los productos que se venden


In [15]:
## Cuantiles
# Calcular el 20%, 50% y 70% del peso de los productos
data['peso_g_producto'].quantile([0.20,0.50,0.70])

0.2     470.0
0.5    1458.5
0.7    2535.1
Name: peso_g_producto, dtype: float64

**Análisis:** El percentil 50 tiene un valor de 1458, lo cual nos indica que la mitad de los productos tienen un peso más alto que 500 gramos lo cual nos rechaza la hipótesis y nos indica que no se puede realizar el descuento sobre ese volumen de producto, sin embargo deja abierta la puerta encontrar qué cantidad de productos pueden contar con el descuento

### 7. Medidas de dispersión

Se utilizan las estadísticas de dispersión para dar un número único que describa qué tan compacto o disperso es un conjunto de observaciones. Estas se complementan de las medidas mencionadas anteriormente

Estas medidas entre más grandes, representan más dispersión y entre más pequeñas más concentradas están las observaciones (es importante tener en cuenta la escala de la variable para analizar el dimensión)

1. Desviación estándar
2. Rango Intercuartílico
3. Rango 
4. Coeficiente de variación

**Hipótesis**: La variación de las longitudes de los datos es mayor a 20cms, ya que las de empresas de mensajería que tienen cubículos de transporte de mensajería individual de producto de longitud 20 cm son más económicas, así se podría cambiar a estas empresas y ahorrar en costos de envío 


In [16]:
## Desviación estándar
# Encontrar la desviación estándar de la longitud de los productos de la muestra
# Representa qué tan lejos de la media se encuentran las observaciones
data['longitud_cm_producto'].std()

15.292866357696994

In [17]:
## Rango intercuartílico
# Encontrar el rango intercuartílico de la longitud de los productos
# es la diferencia entre el tercer y el primer cuartil.
data['longitud_cm_producto'].quantile(0.75)-data['longitud_cm_producto'].quantile(0.25)

22.0

In [18]:
## Rango
# Encontrar el rango de la longitud de los productos de la muestra
# Representa la diferencia que existe entre el producto más grande y el más pequeño
data['longitud_cm_producto'].max()-data['longitud_cm_producto'].min()

91

In [19]:
## Coeficiente de variación
# Encontrar el coeficiente de variaciónd de la longitud de los productos
# Es la división de la desviación estándar sobre la media
data['longitud_cm_producto'].std()/data['longitud_cm_producto'].mean()

0.5085427931474799

**Análisis:** A pesar que la desviación estándar y el rango intercuartílico son menores a 25, se puede analizar con el rango que la variación entre el máximo y el mínimo es de 91cms, por lo tanto se podía migra al rededor de 50% de los productos a las empresas de mensajería con el cubículo de 20 cms y darle al cliente un descuento en el el envío

### Bonus
En la librería de pandas es posible encontrar una función que agrega varias estadísticas que permiten analizar rápidamente la distribución de los datos numéricos de un data frame



In [20]:
data.describe()

Unnamed: 0,precio,valor_flete,codigo_postal_vendedor,longitud_nombre_producto,longitud_descripcion_producto,cantidad_fotos_producto,peso_g_producto,longitud_cm_producto,altura_cm_producto,ancho_cm_producto
count,10134.0,10134.0,10134.0,10134.0,10134.0,10134.0,10134.0,10134.0,10134.0,10134.0
mean,119.792347,20.053246,49991.684626,20.074798,19.845372,20.110026,2106.109236,30.071936,17.915433,22.905861
std,119.340785,20.106163,22463.89534,11.721956,11.854161,11.802456,2093.734472,15.292866,11.36036,11.151559
min,0.01,0.0,5001.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,34.155,5.76,50001.0,10.0,10.0,10.0,607.0,19.0,9.0,15.0
50%,83.12,13.98,52323.0,20.0,20.0,20.0,1458.5,30.0,17.0,23.0
75%,165.515,27.455,54003.0,30.0,30.0,30.0,2941.0,41.0,26.0,30.0
max,1262.94,183.15,99001.0,40.0,40.0,40.0,20661.0,91.0,64.0,72.0


En esta última tabla se pueden ver todas las variables que se tienen en el data set relacionada con:
1. **Datos del envío**: valor_flete, codigo_postal_vendedor
2. **Datos del producto**:precio, longitud_nombre_producto, longitud_descripcion_producto, cantidad_fotos_producto
3. **Dimensiones del producto**: peso_g_producto, longitud_cm_producto, altura_cm_producto, ancho_cm_producto

En donde se muestran las principales estadísticas descriptivas de resumen como:
1. count : conteo de registros
2. mean : Promedio de la variable
3. std : desviación estándar de la variable
4. min y max : mínimo y máximo de la variable
5. Percentil 25,50,75 : Percentiles de la distribución de las variables

Como se puede analizar estas variables son varias de las que se vieron durante el desarrollo del notebook y que nos servirán para tener una perspectiva descriptiva de los datos y todas unificadas en una sola tabla

![Banner-Introducci-n.png](https://i.postimg.cc/VkCcqsvv/Banner-Introducci-n.png)