### **Universidad Panamericana**

### **Facultad de Ingeniería**

### Gestión y análisis del conocimiento (BDP COM145)

### Prof. Mtra. Sarahí Aguilar González

### *Solución al Primer Examen Parcial*

### *Febrero 2022*

#### **1. Describe las etapas del ciclo de vida de un proyecto de ciencia de datos.**
*Valor: 2 puntos*

El ciclo de vida de un proyecto de ciencia de datos consta de cuatro principales etapas: **Entendimiento del contexto**, **Adquisición y comprensión de los datos**, **Modelado** y **Despliegue**. 

En la primera etapa,  **Entendimiento del contexto**, junto con las partes interesadas, se identifica el problema/pregunta que se busca resolver, se define tanto un objetivo central como las métricas de éxito, y, de forma complementaria, se identifican las fuentes de datos relevantes y precisas. 

En la segunda etapa, **Adquisición y comprensión de los datos**, se ingieren los datos al ambiente de desarrollo para llevar a cabo la exploración, limpieza, manipulación y análisis de los mismos. También, es posible que en esta etapa se inicie la configuración del pipeline de ingesta de datos. 

En la tercer etapa, **Modelado**, se entrenan y evalúan distintos modelos para resolver el problema/pregunta del proyecto hasta encontrar la versión que más se adecúe según las métricas de éxito. Así mismo, es posible que en esta etapa se requiera de feature engineering, cuyo objetivo es crear nuevas variables que faciliten el aprendizaje del modelo.

En la cuarta etapa, **Despliegue** se incorpora el modelo al ambiente de producción para el usuario final y comienza la etapa de monitoreo de los resultados. 


*Otros términos relevantes*: objetivos SMART (Específico, Mensurable, Realizable, Pertinente y Limitados en el tiempo), documento RFC (Request for Comments), almacenamiento en la nube, diccionarios de datos, diagramas E-R, batch, streaming, tamaño de muestra, ajuste de hiperparámetros, interpretabilidad, ética, ambiente de prueba, API, microservicio.

#### **2. Describe la importancia de los ambientes de conda.**
*Valor: 1 punto*

Los ambientes de conda permiten crear, exportar e importar entornos de desarrollo aislados con versiones distintas tanto de paquetes de código como de lenguajes de programación según la necesidad de un usario y/o un proyecto. Lo anterior facilita la reproducibilidad y la colaboración. 

#### **3. Describe las ventajas de utilizar estructuras de datos de NumPy sobre listas estándar de Python.**
*Valor: 1 punto*

La estructura básica de NumPy es el ndarray, un arreglo homogéneo y de tamaño fijo que facilita las operaciones matemáticas avanzadas y exhaustivas por medio de la vectorización (ausencia de bucles e indexación explícita) y el broadcasting (ausencia de operaciones elemento por elemento). Estas características son heredadas a la series y el dataframe, estructuras de datos más robustas de Pandas basadas en el ndarray. 

*Otros términos relevantes*: consistencia, facilidad de leer, menor código, similitud a la notación matemática estándar, software científico, código precompilado, CPython. 

#### **4. Utilizando NumPy, desarrolle y resuelva lo siguiente en un Jupyter notebook de Google Colaboratory.**
*Valor: 3 puntos*

En estadística, el error cuadrático medio (ECM) de un estimador (un procedimiento para estimar un valor) mide el promedio de los errores al cuadrado, es decir, la diferencia cuadrática promedio entre los valores estimados y los valores reales. 

El ECM puede ser expresado como: 

<img src="https://cdn-images-1.medium.com/max/800/1*3wB5otkgKEiv9X6Gdd0r2Q@2x.png" height="60">

Donde: 
* n es el total de valores reales
* Ŷ son los valores estimados
* Y son los valores reales 

Ejemplo del cálculo de Ŷ y del ECM considerando un estimador lineal (y = a*x + b): 

a = 2

b = 1

X = [1, 2, 3]

Y = [3, 5, 10]
	
n = total de valores reales = 3 

Calculando Ŷ…

ŷ1 = a*x1 + b = 2*1 + 1 = 3

ŷ2 = a*x2 + b = 2*2 + 1 = 5

ŷ3 = a*x3 + b = 2*3 + 1 = 7

Calculando el ECM…

ECM = ((ŷ1-y1)² + (ŷ2-y2)² + (ŷ3-y3)²)/n  =  ((3-3)² + (5-5)² + (7-10)²)/3 = 3 


Considerando un estimador lineal (y = a*x + b), escriba una función que:
* reciba como entrada:
  * el valor a
  * el valor b
  * un arreglo X (compuesto por X1, X2… Xn)
  * un arreglo Y (compuesto por Y1, Y2… Yn) 
* calcule Ŷ
* calcule el ECM
* devuelva como salida el ECM

In [1]:
import numpy as np

In [2]:
# Opción #1
def ecm(a, b, X, Y):
  # Estima Y
  Y_hat = np.multiply(X, a)
  Y_hat = np.add(Y_hat, b)

  # Calcula ECM
  sub = np.subtract(Y, Y_hat)
  pow = np.power(sub, 2)
  ecm = np.mean(pow)
  
  return ecm

In [3]:
ecm(2, 1, np.array([1, 2, 3]), np.array([3, 5, 10]))

3.0

In [4]:
# Opción #2
def ecm(a, b, X, Y):
  # Estima Y
  Y_hat = a*X + b

  # Calcula ECM
  ecm = ((Y-Y_hat)**2).mean()
  
  return ecm

In [5]:
ecm(2, 1, np.array([1, 2, 3]), np.array([3, 5, 10]))

3.0

#### **5. Utilizando NumPy y/o Pandas, desarrolle y resuelva lo siguiente en un Jupyter notebook de Google Colaboratory.**
*Valor: 4 puntos*

Responda las siguientes tres preguntas que la tienda departamental Bristol tiene sobre sus ventas hasta la fecha:
1. ¿Cuál ha sido la cantidad máxima de unidades vendidas por un producto? 
2. ¿Qué porcentaje de los productos disponibles a la venta han vendido más de $1,000,000? 
3. ¿Cuál es la cantidad de unidades vendidas por producto mínima, promedio y máxima de cada categoría? 


Para responder las preguntas anteriores, le han compartido dos conjuntos de datos y el modelo entidad-relación correspondiente: 

* ventas: ventas por producto hasta la fecha de la tienda departamental Bristol
  
  Disponible para su descarga en: 
https://raw.githubusercontent.com/sarahiaguilar/fundamentos-cdd/main/datos/ventas.csv

* catalogo: productos disponibles a la venta en la tienda departamental Bristol

  Disponible para su descarga en:
https://raw.githubusercontent.com/sarahiaguilar/fundamentos-cdd/main/datos/catalogo.csv 

In [6]:
import pandas as pd

In [7]:
path_ventas = "https://raw.githubusercontent.com/sarahiaguilar/fundamentos-cdd/main/datos/ventas.csv"
ven = pd.read_csv(path_ventas)

In [8]:
path_catalogo = "https://raw.githubusercontent.com/sarahiaguilar/fundamentos-cdd/main/datos/catalogo.csv"
cat = pd.read_csv(path_catalogo)

##### 1. ¿Cuál ha sido la cantidad máxima de unidades vendidas por un producto?

**5,670,850 unidades** 

In [9]:
# Imprime cantidad de IDs de producto único
len(ven.id_producto.unique())

2813

In [10]:
# Imprime información
ven.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2813 entries, 0 to 2812
Data columns (total 2 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   id_producto        2813 non-null   int64  
 1   unidades_vendidas  2793 non-null   float64
dtypes: float64(1), int64(1)
memory usage: 44.1 KB


In [11]:
ven.head(20)

Unnamed: 0,id_producto,unidades_vendidas
0,2854,5670850.0
1,1536,1962667.0
2,648,1640859.0
3,2733,1440412.0
4,1222,1232604.0
5,2852,1180012.0
6,2876,1107793.0
7,506,1069471.0
8,691,852611.0
9,21,


In [12]:
# Reemplaza valores NaN por 0
ven = ven.fillna({"unidades_vendidas": 0})

In [13]:
ven.head(10)

Unnamed: 0,id_producto,unidades_vendidas
0,2854,5670850.0
1,1536,1962667.0
2,648,1640859.0
3,2733,1440412.0
4,1222,1232604.0
5,2852,1180012.0
6,2876,1107793.0
7,506,1069471.0
8,691,852611.0
9,21,0.0


In [14]:
# Imprime cantidad máxima de unidades vendidas por un producto
ven.unidades_vendidas.max()

5670850.0

#### ¿Qué porcentaje de todos los productos disponibles a la venta han vendido más de $1,000,000?
**53.36%**

In [15]:
# Imprime cantidad de IDs de producto único
len(cat.id_producto.unique())

3272

In [16]:
# Imprime información
cat.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3272 entries, 0 to 3271
Data columns (total 4 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   id_producto         3272 non-null   int64 
 1   titulo_producto     3272 non-null   object
 2   categoria_producto  3272 non-null   object
 3   precio_producto     3272 non-null   int64 
dtypes: int64(2), object(2)
memory usage: 102.4+ KB


In [17]:
# Une ventas y catalogo en nuevo dataframe
ven_cat = pd.merge(ven, 
                   cat, 
                   how="inner", 
                   on="id_producto")

In [18]:
ven_cat.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2813 entries, 0 to 2812
Data columns (total 5 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   id_producto         2813 non-null   int64  
 1   unidades_vendidas   2813 non-null   float64
 2   titulo_producto     2813 non-null   object 
 3   categoria_producto  2813 non-null   object 
 4   precio_producto     2813 non-null   int64  
dtypes: float64(1), int64(2), object(2)
memory usage: 131.9+ KB


In [19]:
# Crea nueva columna con venta en pesos
ven_cat["venta_pesos"] = ven_cat.unidades_vendidas*ven_cat.precio_producto

In [20]:
ven_cat.head()

Unnamed: 0,id_producto,unidades_vendidas,titulo_producto,categoria_producto,precio_producto,venta_pesos
0,2854,5670850.0,SURGICAL AND INDUSTRIAL MASK,PHARMACEUTICS,231,1309966000.0
1,1536,1962667.0,HEADPHONES,COMPUTER ACCESSORIES & PERIPHERALS,3299,6474838000.0
2,648,1640859.0,CELLPHONE COVER,MOBILE ACCESSORIES,187,306840600.0
3,2733,1440412.0,SNEAKERS,SNEAKERS,1800,2592742000.0
4,1222,1232604.0,FACIAL SKIN CARE PRODUCT,PERFUMERY BEAUTY,251,309383600.0


In [21]:
# Declara nuevo dataframe con productos con venta 
ven_cat_1M = ven_cat[ven_cat.venta_pesos>1000000]

In [22]:
# Imprime porcentaje de todos los productos disponibles a la venta que han vendido más de $1,000,000
ven_cat_1M.shape[0]/cat.shape[0]*100

53.36185819070904

#### ¿Cuál es la cantidad mínima, promedio y máxima de unidades vendidas por producto de cada categoría?

In [23]:
# Declara objeto de agrupación por categoría de producto
ven_cat_grouped = ven_cat.groupby(ven_cat.categoria_producto)

In [24]:
# Declara dataframe con la cantidad mínima, promedio y máxima de unidades vendidas por producto de cada categoría
summary_cat = pd.concat([ven_cat_grouped["unidades_vendidas"].min(), 
                         ven_cat_grouped["unidades_vendidas"].mean(), 
                         ven_cat_grouped["unidades_vendidas"].max()], 
                        axis=1)

In [25]:
# Cambiar nombres de columnas
summary_cat.columns = ["min", "mean", "max"]

In [26]:
summary_cat.head(10)

Unnamed: 0_level_0,min,mean,max
categoria_producto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
AUTOMOTIVE,46.0,36601.625,236772.0
BAG & BACKPACK,494.0,99503.705882,646182.0
BASICS,3092.0,107991.5,234734.0
"BOOKS, MULTIMEDIA & OTHER E!",5.0,106890.230769,1069471.0
BOOTS,785.0,169923.0,507748.0
CELLPHONES,723977.0,723977.0,723977.0
CLOTHING,100.0,185608.217391,1107793.0
COMPUTER ACCESSORIES & PERIPHERALS,0.0,44891.919075,1962667.0
COMPUTERS,264.0,19129.5,74370.0
CONSOLES,128746.0,128746.0,128746.0
