![Banner-Introducci-n.png](https://i.postimg.cc/VkCcqsvv/Banner-Introducci-n.png)

# Introducción a ciencia de datos


## L2:Tablas de contingencia y pruebas chi cuadrado

De acuerdo con el caso de uso del sector **retail**  se van a desarrollar en los temas vistos en las infografías y videos anteriores

### Objetivos
1. Entender la construcción de una tabla de contingencia
2. Identificar los perfiles filas y perfiles columna
3. Interpretar la hipótesis encontrada con la prueba chi cuadrado

**Autor:** David Ocampo

d.ocampo@uniandes.edu.co

### 1. Contexto del caso
La compañía está muy interesada en generar estrategias de ventas más focalizadas tanto en productos como en los departamentos de ventas de este, por lo tanto se debe guiar un análisis que nos muestre cuáles posibles relaciones existen entre estas dos variables para generar las estrategias comerciales correctas tanto en aliados como en distribución. Se debe conducir una prueba piloto con los departamentos con más ventas así como los productos que se venden mas.

### 2. Importación de librerías y archivos
En las siguientes líneas de código se importaran los materiales de trabajo necesarios para desarrollar el caso de uso, en esto se incluyen las *librerías y los datos*

In [4]:
# Importar las librerías necesarias según el análisis que se vaya a realizar
# Librería para comando de sistema
import os
# Librería para manejo de datos
import pandas as pd
# Librería para el test chi cuadrado
from scipy.stats import chi2_contingency
from scipy.stats import chi2

In [5]:
# cargar los datos en csv
data= pd.read_csv('Ordenes_productos_C1_M3.csv', sep=';',encoding='latin-1')

Es importante tener en cuenta la visualización de los datos porque además de contexto se puede entender mucho mejor de qué se está hablando y qué tipos de datos se han cargado desde la máquina

In [6]:
#visualizar los primeros registros
data.head(5)

Unnamed: 0,orden_id,order_item_id,producto_id,vendedor_id,fecha_envio_limite,precio,valor_flete,codigo_postal_vendedor,ciudad_vendedor,departamento_vendedor,nombre_categoria_producto,longitud_nombre_producto,longitud_descripcion_producto,cantidad_fotos_producto,peso_g_producto,longitud_cm_producto,altura_cm_producto,ancho_cm_producto
0,107500PO59A,A,PO59,VE5389,07/04/2018 18:12,271.86,30.72,70001,Sincelejo,Sucre,Productos ecoamigables,6,7,27,2486,17,11,14
1,37493PS22B,B,PS22,VE1558,20/10/2017 09:07,115.73,4.68,66001,Pereira,Risaralda,Carnicería,10,31,20,256,43,2,21
2,28050PK20B,B,PK20,VE9159,17/08/2017 08:15,432.99,82.7,8001,Barranquilla,Atlantico,Deportes,25,5,4,5270,9,27,29
3,52187PA10A,A,PA10,VE3159,23/09/2017 23:27,108.38,35.39,18001,Florencia,Caqueta,Electrodomésticos,10,1,6,734,46,48,22
4,84639PR12A,A,PR12,VE5090,07/01/2018 11:50,51.5,11.1,11001,Bogota d.c.,Bogota d.c.,Frutas y verduras,23,16,35,884,45,26,18


### 3. Tablas de contingencia
La tabla de contingencia es una de las técnicas para explorar dos o incluso más variables. Básicamente es un recuento de recuentos entre dos o más variables categóricas. La información sin procesar puede ser difícil de interpretar. Incluso para pequeños conjuntos de datos, es demasiado fácil obtener resultados incorrectos con solo mirar los datos. La tabla ofrece un método simple de agrupar variables, que minimiza el potencial de confusión o error al proporcionar resultados claros.

**Hipótesis:** El departamento donde se concentran los top 5 productos es NARIÑO

In [7]:
#buscar los top 5  categorías de productos 
categoria_top=data.groupby('nombre_categoria_producto').count().reset_index()[['nombre_categoria_producto','producto_id']].sort_values(by=['producto_id'], ascending=False)
categoria_top_lista=categoria_top.head()['nombre_categoria_producto']
categoria_top.head()

Unnamed: 0,nombre_categoria_producto,producto_id
19,Tecnología,543
3,Deportes,537
7,Frutas y verduras,532
1,Carnicería,523
15,Ropa de adultos,521


In [8]:
# Encontrar los departamentos top 5
departamento_top=data.groupby('departamento_vendedor').count().reset_index()[['departamento_vendedor','producto_id']].sort_values(by=['producto_id'], ascending=False)
departamento_top_lista=departamento_top.head()['departamento_vendedor'].to_list()
departamento_top.head()

Unnamed: 0,departamento_vendedor,producto_id
21,Nariño,3648
20,Meta,1258
22,Norte de santander,473
25,Risaralda,405
7,Caldas,378


In [9]:
#filtrar por los departamentos top
data_top=data[data['nombre_categoria_producto'].isin(categoria_top_lista) & data['departamento_vendedor'].isin(departamento_top_lista)]
data_top.head()

Unnamed: 0,orden_id,order_item_id,producto_id,vendedor_id,fecha_envio_limite,precio,valor_flete,codigo_postal_vendedor,ciudad_vendedor,departamento_vendedor,nombre_categoria_producto,longitud_nombre_producto,longitud_descripcion_producto,cantidad_fotos_producto,peso_g_producto,longitud_cm_producto,altura_cm_producto,ancho_cm_producto
1,37493PS22B,B,PS22,VE1558,20/10/2017 09:07,115.73,4.68,66001,Pereira,Risaralda,Carnicería,10,31,20,256,43,2,21
5,73003PS37A,A,PS37,VE3806,09/12/2017 16:52,132.51,33.68,52323,Gualmatan,Nariño,Carnicería,13,19,29,811,29,9,16
6,41673PB76A,A,PB76,VE2456,11/02/2018 20:04,420.95,12.19,50006,Acacias,Meta,Ropa de adultos,8,37,24,621,26,41,29
23,89816PE75A,A,PE75,VE3939,06/04/2018 20:43,42.16,16.63,54001,Cucuta,Norte de santander,Tecnología,0,33,30,75,7,34,44
39,97099PB61A,A,PB61,VE5090,01/09/2017 03:19,155.2,29.78,54003,Abrego,Norte de santander,Ropa de adultos,11,2,11,118,38,36,46


Una vez realizado el filtrado de los productos top y las categorías top se realiza la tabla de contingencia para analizar cómo se distribuyen las ventas departamento vs categoría

In [10]:
#realizar la tabla de contingencia
tabla_contingencia=pd.crosstab(data_top['nombre_categoria_producto'],data['departamento_vendedor'],margins = True)
tabla_contingencia

departamento_vendedor,Caldas,Meta,Nariño,Norte de santander,Risaralda,All
nombre_categoria_producto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Carnicería,19,63,185,26,13,306
Deportes,22,60,193,21,25,321
Frutas y verduras,18,58,192,43,32,343
Ropa de adultos,17,66,184,22,32,321
Tecnología,26,71,202,31,18,348
All,102,318,956,143,120,1639


Análisis: Rápidamente podemos ver que el departamento Nariño en efecto es el que mayormente genera ventas de las categorías top, ahora vamos a extender el análisis por filas y columnas para identificar diferentes tipos de hipótesis

## 3.1. Análisis fila
Al construir una tabla de contingencia, en cada celda se coloca el total de casos que cumplen las categorías donde se cruzan. Para calcular los porcentajes por filas, se divide el número de casos de cada casilla, con el total de casos de la fila.

**Hipótesis:** Es claro que la mayor cantidad de ventas se va a concentrar en Nariño, por lo tanto la organización quiere analizar si la categoría Frutas y verduras y Ropa de adultos tienen alguna ciudad de preferencia de ventas

In [11]:
pd.crosstab(data_top['nombre_categoria_producto'],data['departamento_vendedor'],margins = True, normalize='index')

departamento_vendedor,Caldas,Meta,Nariño,Norte de santander,Risaralda
nombre_categoria_producto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Carnicería,0.062092,0.205882,0.604575,0.084967,0.042484
Deportes,0.068536,0.186916,0.601246,0.065421,0.077882
Frutas y verduras,0.052478,0.169096,0.559767,0.125364,0.093294
Ropa de adultos,0.05296,0.205607,0.573209,0.068536,0.099688
Tecnología,0.074713,0.204023,0.58046,0.08908,0.051724
All,0.062233,0.194021,0.583282,0.087248,0.073215


Análisis: Para el caso de Frutas y verduras vemos que donde más se vende es en el departamento de Nariño adicionalmente se da el caso para la categoría de ropa de adultos, sin embargo como nos estamos fijando en los departamentos que le siguen en ventas, vemos que para Frutas y verduras así como para ropa de adultos su competidor es el departamento del Meta 

## 3.2. Análisis columna
De manera análoga para calcular los porcentajes por columnas, se divide el número de casos de cada casilla, con el total de casos de la columna.

**Hipótesis:** Es necesario identificar en que departamento se tienen la mayor cantidad de ventas en las categoría de Frutas y verduras y la ropa de adultos

In [12]:
pd.crosstab(data_top['nombre_categoria_producto'],data['departamento_vendedor'],margins = True, normalize='columns')

departamento_vendedor,Caldas,Meta,Nariño,Norte de santander,Risaralda,All
nombre_categoria_producto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Carnicería,0.186275,0.198113,0.193515,0.181818,0.108333,0.186699
Deportes,0.215686,0.188679,0.201883,0.146853,0.208333,0.195851
Frutas y verduras,0.176471,0.18239,0.200837,0.300699,0.266667,0.209274
Ropa de adultos,0.166667,0.207547,0.192469,0.153846,0.266667,0.195851
Tecnología,0.254902,0.22327,0.211297,0.216783,0.15,0.212325


Análisis: Para el departamento Nariño no se vende es Frutas y verduras tanto como en Norte de Santander, adicionalmente no ocurre con la categoría de Ropa de adultos que se vende en su mayoría en Risaralda

### 3.3. Análisis de totales

El objetivo de esta técnica estadística es averiguar si las dos variables están relacionadas y la manera de averiguarlo es mediante la distribución de porcentajes. Concretamente se trata de analizar si la distribución de porcentajes de una variable se repiten por igual en las categorías de la otra variable.

**Hipótesis:** Es posible identificar cuál es el producto que menos se vende en todas las ciudades

In [14]:
# tabla de contingencia con porcentajes
pd.crosstab(data_top['nombre_categoria_producto'],data['departamento_vendedor'],margins = True, normalize='all')

departamento_vendedor,Caldas,Meta,Nariño,Norte de santander,Risaralda,All
nombre_categoria_producto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Carnicería,0.011592,0.038438,0.112874,0.015863,0.007932,0.186699
Deportes,0.013423,0.036608,0.117755,0.012813,0.015253,0.195851
Frutas y verduras,0.010982,0.035387,0.117145,0.026236,0.019524,0.209274
Ropa de adultos,0.010372,0.040268,0.112264,0.013423,0.019524,0.195851
Tecnología,0.015863,0.043319,0.123246,0.018914,0.010982,0.212325
All,0.062233,0.194021,0.583282,0.087248,0.073215,1.0


In [15]:
tabla_contingencia

departamento_vendedor,Caldas,Meta,Nariño,Norte de santander,Risaralda,All
nombre_categoria_producto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Carnicería,19,63,185,26,13,306
Deportes,22,60,193,21,25,321
Frutas y verduras,18,58,192,43,32,343
Ropa de adultos,17,66,184,22,32,321
Tecnología,26,71,202,31,18,348
All,102,318,956,143,120,1639


Análisis: Con la tabla de continecia de los porcentajes podemos identificar que el que menos se vende es los productos de carnicería con un porcentaje de apenas 18% de todas las ventas, esto lo podemos contrastar con la tabla totalizada con apenas 306 ventas, es importante ver que con esta ayuda de porcentajes el análisis es mucho más rápido y podemos al final corroborar con los datos originales, incluso con las funciones integradas podemos volver a confirmar.

In [16]:
#utilizar el mínimo para columnas
tabla_contingencia.min()

departamento_vendedor
Caldas                 17
Meta                   58
Nariño                184
Norte de santander     21
Risaralda              13
All                   306
dtype: int64

In [31]:
#utilizar el mínimo para filas
tabla_contingencia.transpose().min()

nombre_categoria_producto
Carnicería            13
Deportes              21
Frutas y verduras     18
Ropa de adultos       17
Tecnología            18
All                  102
dtype: int64

### 4.Prueba Chi-cuadrado
La prueba de chi-cuadrado es una prueba de hipótesis estadística que asume (la hipótesis nula) que las frecuencias observadas para una variable categórica coinciden con las frecuencias esperadas para la variable categórica. Para determinar la existencia o no de independencia entre dos variables. Que dos variables sean independientes significa que no tienen relación, y que por lo tanto una no depende de la otra, ni viceversa.
Así, con el estudio de la independencia, se origina también un método para verificar si las frecuencias observadas en cada categoría son compatibles con la independencia entre ambas variables.

**Hipótesis:** Las ventas de las categorías de productos no están relacionadas con el departamento que se venda


In [17]:
#Establecer los valores del test chi cuadrado
chi, pval, dof, exp = chi2_contingency(tabla_contingencia)

# chi: valor del test
# pval: p-valor del test
# dof: grados de libertad

#imprimir los resultados del test
print('p-valor es: ', pval)

# Establecer la significancia del test
significancia = 0.05
p = 1 - significancia

#establecer el valor crítico
valor_critico = chi2.ppf(p, dof)
print('chi=%.6f, valor crítico=%.6f\n' % (chi, valor_critico))

#según el valor crítico se toma la decisión de rechazar o no la hipótesis 
if chi > valor_critico:
    print("""A un %.2f de nivel de significancia, se rechaza la hipótesis nula y se acepta H1. 
No son independientes, por lo tanto están correlacionados""" % (significancia))
else:
    print("""A un %.2f de nivel de significancia, no se rechaza la hipótesis nula. 
Son independientes, no tienen relación""" % (significancia))

p-valor es:  0.48301469357016336
chi=24.634237, valor crítico=37.652484

A un 0.05 de nivel de significancia, no se rechaza la hipótesis nula. 
Son independientes, no tienen relación


Análisis: Se puede establecer que no tienen algún tipo de relación las categorías y los sitios de venta, esto se puede dar por las características culturales de algún lugar, o por los habitos de consumo, lo que nos indica que podemos como organización podemos utilizar las mismas estrategias de venta independientemente del producto

![Banner-Introducci-n.png](https://i.postimg.cc/VkCcqsvv/Banner-Introducci-n.png)