<a href="https://colab.research.google.com/github/julvc/python_diplo/blob/master/Julio_Varas_MP1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Miniproyecto 1: ¡Bienvenido a tu nueva empresa!
#### **Curso:** Introducción a Minería de Datos y Machine Learning

---

**¡Bienvenido a AMAZOFF!**

Has sido seleccionado para unirte al equipo de E-commerce como Data Scientist Junior.

Después de integrarte al equipo, te han asignado tu primera misión:

> Trabajar con una base de datos antigua y descuidada que durante años nadie ha limpiado ni analizado.

Tu tarea es realizar un preprocessing de alta calidad para convertir estos datos en información valiosa que respalde
decisiones estratégicas.

La base de datos contiene información crucial sobre clientes, productos y transacciones, pero está plagada de
inconsistencias, datos faltantes y otros problemas que dificultan su uso.

El reto es mayor porque los resultados de tu análisis y las respuestas a las preguntas de negocio serán presentados
directamente al CEO de AMAZOFF.

Por lo tanto, debes aplicar tus conocimientos técnicos y comprender cómo tus hallazgos se alinean con las necesidades y
objetivos de la empresa.

**¿Estás listo para asumir tu nueva misión y demostrar que puedes hacer la diferencia en AMAZOFF?**

¡Es hora de empezar y transformar esos datos en información estratégica para el negocio!

# Pauta de Evaluación

Este MP1 está enfocado en responder preguntas de negocio relevantes para **AMAZOFF**.

### Preguntas de Negocio

1. (20 puntos) Tu líder de equipo necesitará explicar qué información contiene la base de datos al CEO de la empresa. ¿Podrías explicarle qué información contienen los datos?
2. (25 puntos) ¡Habemus data! Me dicen que los datos estaban muy sucios... ¿podrías corregir esto?
3. (15 puntos) ¡Me encantan los datos limpios! Pero es mucha data. ¿Podrías hacer algunos gráficos interesantes para el equipo de Marketing?
4. (15 puntos) Marketing ama los gráficos. Pero el CEO es una persona de números. Te pide un informe con 3 estadísticas MUY interesantes y NUEVAS de los datos.
5. (10 puntos) [ ERROR ] Detectamos que el rating va de 1-5, pero nuestros sistemas solo toleran ratings normalizados. ¿Nos puedes ayudar?
6. (15 puntos) El CEO está interesado en simplificar el análisis de datos complejos sin perder información crucial. ¿Puedes aplicar una técnica de reducción de dimensionalidad como PCA y explicar los resultados?

### Tener en consideración:

En caso de que el código esté bien, pero no se responda (usando celdas de texto) la pregunta de negocio (sección **Explicación**), **se asignará máximo la mitad de puntos** de esa pregunta.

> Al principio de la pregunta 3 tendrás la opción de descomentar un código (dando una explicación) que te permitirá utilizar la base de datos `output.csv` como `df`. Esto, en caso de que la pregunta 2 la encuentres muy difícil. Sin embargo, esto automáticamente te pondrá 0 puntos en la pregunta 2. Sin dar una explicación de por qué utilizarás esta opción, el tutor corrector puede comentar nuevamente la celda y queda `df` según lo realizado en la pregunta 2. ¡Ten cuidado!

El miniproyecto está diseñado para completar código. Suba el notebook solo con el código para responder la pregunta de negocio.

> # ¡NO OLVIDES GUARDAR Y SUBIR EL NOTEBOOK A LA PLATAFORMA CUANDO TERMINES! FORMATO .ipynb

# Preámbulo

In [3]:
# Machine Learning
from sklearn.preprocessing import StandardScaler, MinMaxScaler, RobustScaler
from sklearn.decomposition import PCA

# General Data Science
from matplotlib import pyplot as plt
import seaborn as sns
import pandas as pd
import numpy as np

In [4]:
# Esta configuración permite que los dataframes se muestren completos.
pd.set_option('display.max_columns', None)

# 1. Tu líder de equipo necesitará explicar qué información contiene la base de datos al CEO de la empresa. ¿Podrías explicarle qué información contienen los datos?

⁉️ **Consideración:** Los datos vienen divididos en tres bases de datos: `order`, `product` y `delivery`. Estas tienen en común algo que nos servirá para unirlas utilizando el método `join`. Une las tres bases de datos, mira qué datos hay, elimina las columnas que no utilizarás y reordenalas correctamente según `output.csv`. ¡No olvides explicar qué información contienen los datos!

ℹ️ **HINT:** ¿Para qué sirve el parámetro `r_suffix` del método `join`? ¿Qué información nos da `df.info()`?

📖 **Referencia Externa:** [Método `join`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.join.html).

---

✅ **Explicación:**

[ AGREGA TU RESPUESTA ACÁ ]

In [14]:
order = pd.read_csv('raw_ecommerce_order.csv', index_col=0)
order.head(2)

Unnamed: 0,city,payment,seller,estimated_delivery,state,rating,customer,order
0,campinas,credit card,2.0,2018-01-30,SP,4.5,27313.0,27313.0
1,UNKNOWN,OTHER,7.0,2017-04-17 12:00:00,SP,1.0,47584.0,47584.0


In [15]:
product = pd.read_csv('raw_ecommerce_product.csv', index_col=0).rename(columns={'precio':'price'})
product.head(2)

Unnamed: 0,price,shipping,product,customer,category,seller,order
0,232.99,86.85,5.0,31453.0,toys,21.0,31453.0
1,383.5,2.94,5.0,55708.0,technology,10.0,55708.0


In [16]:
delivery = pd.read_csv('raw_ecommerce_delivery.csv', index_col=0)
delivery.head(2)

Unnamed: 0,order,purchased,delivered,shipping,estimated_delivery,product
0,23487.0,2018-03-10 23:29:10,2018-03-23 15:58:23,133.52,,6.0
1,11275.0,2018-01-19 13:39:35,2018-02-01 17:22:51,31.94,2018-02-15 12:00:00,7.0


In [17]:
df = order.join(product.set_index('order'),lsuffix='_order', rsuffix='_product')
#df = df.join(delivery.set_index('order'),lsuffix='_delivery', rsuffix='_order_product')
df

Unnamed: 0,city,payment,seller_order,estimated_delivery,state,rating,customer_order,order,price,shipping,product,customer_product,category,seller_product
0.0,campinas,credit card,2.0,2018-01-30,SP,4.5,27313.0,27313.0,,,,,,
1.0,UNKNOWN,OTHER,7.0,2017-04-17 12:00:00,SP,1.0,47584.0,47584.0,,,,,,
2.0,rio de janeiro,credit card,10.0,nones,RJ,5.0,42432.0,42432.0,,,,,,
3.0,unknown,credit card,4.0,2018-08-16 12:00:00,sp,,47325.0,47325.0,,,,,,
4.0,SAO PAULO,CREDIT CARD,22.0,NAN,SP,4.0,20502.0,20502.0,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1796.0,sao paulo,credit card,2.0,2018-08-31 12:00:00,sp,3.0,16530.0,16530.0,,,,,,
1797.0,caxias do sul,other,22.0,2017-11-16,rs,2.0,16230.0,16230.0,,,,,,
1798.0,SAO GONCALO,CREDIT CARD,13.0,2018-02-19 12:00:00,RJ,1.0,37692.0,37692.0,,,,,,
1799.0,UNKNOWN,OTHER,8.0,2017-12-22 12:00:00,SP,1.5,61074.0,61074.0,,,,,,


In [10]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1871 entries, 0.0 to 1800.0
Data columns (total 19 columns):
 #   Column                            Non-Null Count  Dtype  
---  ------                            --------------  -----  
 0   city                              1823 non-null   object 
 1   payment                           1817 non-null   object 
 2   seller_order                      1871 non-null   float64
 3   estimated_delivery_delivery       1719 non-null   object 
 4   state                             1829 non-null   object 
 5   rating                            1825 non-null   object 
 6   customer_order                    1871 non-null   float64
 7   order                             1871 non-null   float64
 8   precio                            101 non-null    object 
 9   shipping_delivery                 98 non-null     object 
 10  product_delivery                  101 non-null    float64
 11  customer_product                  101 non-null    float64
 12  categor

In [None]:
drop_columns = [
    # [ AGREGA TU CÓDIGO AQUÍ ]
]

df.drop(columns=drop_columns, inplace=True, errors='ignore')
df.head(2)

In [None]:
correct_order = [
    # [ AGREGA TU CÓDIGO AQUÍ ]
]

df = df[correct_order]
df.head(2)

# 2. ¡Habemus data! Me dicen que los datos estaban muy sucios... ¿podrías corregir esto?

⁉️ **Consideración:** Deberás verificar datos faltantes, duplicados, tipos de datos incorrectos, etc. Completa el código en las celdas para realizar esto. Explica cada paso de la limpieza. Se te entregó una base de datos llamada `output.csv`. El resultado de tu limpieza debería intentar generar "exactamente" esta base de datos.

ℹ️ **HINT 1:** En el tratamiento de las fechas podría haber ligeras discrepancias con `output.csv`. No se descontará mientras sean ligeras.

ℹ️ **HINT 2:** En la columna *city*, el valor `unknown` no lo consideres dato faltante.

ℹ️ **HINT 3:** ¿Hay una hora fija para la estimación de las entregas?

📖 **Referencia Externa:** [Pandas Data Preprocessing](https://medium.com/@sujathamudadla1213/pandas-data-preprocessing-methods-e4fcee1de88b).

---

✅ **Explicación:**

[ AGREGA TU RESPUESTA ACÁ ]

In [None]:
# Tu código debería producir un dataframe similar a `output`.
# No te preocupes si son ligeramente diferentes.
# Por ejemplo: Las fechas podrían ser ligeramente diferentes. Mismo día, diferentes segundos.
output = pd.read_csv('output.csv')
print(f'{output.shape[0]} filas y {output.shape[1]} columnas.')
output

In [None]:
# Renombra las columnas que tengan un nombre incorrecto.
# HINT: Utiliza el método rename con un diccionario.

df.rename(
    columns=# [ AGREGA TU CÓDIGO AQUÍ ]
    inplace=True,
    errors='ignore'
)

In [None]:
# Pasar todas las columnas de texto a minúsculas.
# HINT: Columnas tipo object son columnas de texto (string).

# [ AGREGA TU CÓDIGO AQUÍ ]

In [None]:
# Identificar datos faltantes diferentes y unificarlos. Unifícalos en np.nan.
# HINT: Utiliza df.value_counts("col") para identificar los valores faltantes en cada columna.
# HINT: Considera los diferentes valores faltantes. Hay al menos 5 diferentes.

print(f'Datos faltantes en el dataframe: {df.isnull().sum().sum()}')

MISSING_VALUES = [
    # [ AGREGA TU CÓDIGO AQUÍ ]
]
df.replace(MISSING_VALUES, np.nan, inplace=True)

print(f'Datos faltantes unificados en el dataframe: {df.isnull().sum().sum()}')

In [None]:
# Elimina datos duplicados.
# HINT: ¿Qué dato debería ser único en cada fila?

print(f'Filas en el dataframe: {df.shape[0]}')

# [ AGREGA TU CÓDIGO AQUÍ ]

print(f'Filas en el dataframe (correcto=1000): {df.shape[0]}')

In [None]:
# ¿Ves algo raro en los precios? ¿Qué deberías hacer con ellos?
# HINT: ¿Split? ¿Replace? ¿Lambda functions?
# HINT: Métodos de strings en pandas.

df.price = # [ AGREGA TU CÓDIGO AQUÍ ]
df.shipping = # [ AGREGA TU CÓDIGO AQUÍ ]

In [None]:
# Pasa los datos que deberían ser numéricos a numéricos.
# HINT: Hay datos númericos que son enteros (int) y otros que son decimales (float).
# HINT: Los enteros cuando son strings, pásalos primero a float y luego a int.

int_columns = # [ AGREGA TU CÓDIGO AQUÍ ]
float_columns = # [ AGREGA TU CÓDIGO AQUÍ ]

df[int_columns] = # [ AGREGA TU CÓDIGO AQUÍ ]
df[float_columns] = # [ AGREGA TU CÓDIGO AQUÍ ]

In [None]:
# ¡Fechas! ¿Qué deberíamos hacer con ellas?
# HINT: pd.to_datetime(). Considera el formato de las fechas.
# HINT: ¿Formato 'mixed'? ¿Qué es eso?

df.purchased = # [ AGREGA TU CÓDIGO AQUÍ ]
df.delivered = # [ AGREGA TU CÓDIGO AQUÍ ]

# ¿Ves algo raro en estimated_delivery?
# HINT: ¿Le falta algo a algunas fechas?
# HINT: ¿Podrías rellenar ese algo que falta? ¿Con qué valor? Investiga pd.Timedelta.

df.estimated_delivery = # [ AGREGA TU CÓDIGO AQUÍ ]
filter_zero = df.estimated_delivery.dt.hour == 0
df.loc[filter_zero, 'estimated_delivery'] += # [ AGREGA TU CÓDIGO AQUÍ ]

df

In [None]:
df.info()

In [None]:
# Hay una columna muy especial. ¿Cuál es? ¿Qué deberíamos hacer con los datos faltantes?
# HINT: Hay una columna que si no tiene datos, no nos sirve de nada.

df.dropna(
    subset=# [ AGREGA TU CÓDIGO AQUÍ ]
    inplace=True
)

In [None]:
# Rellena los datos faltantes. Cada columna tiene un método diferente.
# Hay columnas donde no es posible rellenar los datos faltantes. ¿Las borramos?
# HINT: Habrá columnas donde no importa si hay datos faltantes. ¿Cuáles son?

# State: ¿El estado más común? ¿La moda?
# HINT: La moda es el valor más común en una columna. Utiliza el método mode.

df.state = df.state.fillna(# [ AGREGA TU CÓDIGO AQUÍ ]

# City: ¿La ciudad más común? ¿La ciudad puede estar relacionada con el estado?
# HINT: La función map de pandas sirve para reemplazar valores con un diccionario.

replace_city = {
    'sp': 'sao paulo',
    # [ AGREGA TU CÓDIGO AQUÍ ]
}
df.city = df.city.fillna(df.state.map(replace_city))

# ¿Qué otras columnas se pueden rellenar?
# HINT CATEGORY: ¿Cuál es la categoría más común?
# HINT PRICE: ¿Cuál es el precio promedio?
# HINT SHIPPING: ¿Cuál es el precio promedio del envío?
# HINT PAYMENT: ¿Cuál es el método de pago más común?

df.category = # [ AGREGA TU CÓDIGO AQUÍ ]
df.price = # [ AGREGA TU CÓDIGO AQUÍ ]
df.shipping = # [ AGREGA TU CÓDIGO AQUÍ ]
df.payment = # [ AGREGA TU CÓDIGO AQUÍ ]

# ¡Fechas! ¿Qué deberíamos hacer con ellas?
# HINT PURCHASED: En promedio, ¿cuánto tiempo pasa entre que se compra y se envía?
# HINT DELIVERED: En promedio, ¿cuánto tiempo pasa entre que se envía y se entrega?
# HINT ESTIMATED_DELIVERY: En promedio, ¿cuánto tiempo pasa entre que se envía y se estima que se entrega?

mean_purchased_to_delivered = (df.delivered-df.purchased).mean()
mean_purchased_to_estimated = # [ AGREGA TU CÓDIGO AQUÍ ]
mean_delivered_to_estimated = # [ AGREGA TU CÓDIGO AQUÍ ]

# Se rellena con todas las combinaciones posibles.

df.purchased = df.purchased.fillna(df.delivered-mean_purchased_to_delivered)
df.purchased = df.purchased.fillna(df.estimated_delivery-mean_purchased_to_estimated)

df.delivered = # [ AGREGA TU CÓDIGO AQUÍ ]
df.delivered = # [ AGREGA TU CÓDIGO AQUÍ ]

df.estimated_delivery = # [ AGREGA TU CÓDIGO AQUÍ ]
df.estimated_delivery = # [ AGREGA TU CÓDIGO AQUÍ ]

In [None]:
# ¡No modificar esta celda!
# Al final de la limpieza, deberías tener 0 datos faltantes y 945 filas.

print(f'Datos faltantes en el dataframe: {df.isnull().sum().sum()}')

# Borramos datos faltantes, reordenamos y reseteamos el índice.
df.dropna(inplace=True)
df.sort_values('order', inplace=True)
df.reset_index(drop=True, inplace=True)

print(f'¡Limpieza de datos finalizada! Tiene {df.shape[0]} filas y {df.shape[1]} columnas.')
df.head(3)

In [None]:
# ¡No olvides que deberías tener un dataframe similar a `output`!
print(f'{output.shape[0]} filas y {output.shape[1]} columnas.')
output.head(3)

# 3. ¡Me encantan los datos limpios! Pero es mucha data. ¿Podrías hacer algunos gráficos interesantes para el equipo de Marketing?

⁉️ **Consideración:** Debes de pensar en tres gráficos DIFERENTES que respondan preguntas de negocio importantes para **AMAZOFF** según los datos disponibles. ¡No olvides que dato e información no son lo mismo! Debes explicar por qué hiciste cada gráfico y qué información valiosa para el negocio lograste sacar.

ℹ️ **HINT 1:** ¿Sabías que puedes hacer gráficos muy lindos utilizando `sns` (Seaborn)? Matplotlib y Seaborn te servirán para hacer gráficos sofisticados. No olvides que un gŕafico debe incluir títulos, leyenda, etc.

ℹ️ **HINT 2:** Gráficos diferentes en general significa que puedes aprender cosas totalmente diferentes entre los gráficos. Dos gráficos pueden ser diferentes y utililizar la misma función, pero intenta utilizar 3 métodos distintos.

📖 **Referencia Externa:** [Seaborn Examples](https://medium.com/geekculture/8-best-seaborn-visualizations-20143a4b3b2f), [Seaborn Basic Tutorial](https://medium.com/@armantunga/data-visualization-made-easy-seaborn-with-python-a-beginners-guide-e24a9ea9e599), [Matplotlib Cheatsheets](https://matplotlib.org/cheatsheets/).

---

✅ **Explicación:**

- **Gráfico 1:** [ AGREGA TU RESPUESTA ACÁ ]
- **Gráfico 2:** [ AGREGA TU RESPUESTA ACÁ ]
- **Gráfico 3:** [ AGREGA TU RESPUESTA ACÁ ]

In [None]:
# ¡Lee con cuidado la pauta de evaluación! ¿Tuviste problemas con la limpieza de datos?

########################################################################################################################

# Si descomentas los siguientes códigos, tu pregunta 2 tendrá 0 puntos.
# ¡No olvides que debes explicar por qué decidiste descomentar este código!

    # Explicación: [ AGREGA AQUÍ TU EXPLICACIÓN ]

# Reemplazar df por output en caso de que tuviste problemas con la limpieza de datos (pregunta 2 con 0 puntos).

    # df = pd.read_csv('output.csv')
    # df.purchased = pd.to_datetime(df.purchased)
    # df.delivered = pd.to_datetime(df.delivered)
    # df.estimated_delivery = pd.to_datetime(df.estimated_delivery)
    # df.head(3)

In [None]:
# Gráfico 1: [ TÍTULO DEL GRÁFICO ]

# [ AQÚI VA TU CÓDIGO ]

In [None]:
# Gráfico 2: [ TÍTULO DEL GRÁFICO ]

# [ AQÚI VA TU CÓDIGO ]

In [None]:
# Gráfico 3: [ TÍTULO DEL GRÁFICO ]

# [ AQÚI VA TU CÓDIGO ]

# 4. Marketing ama los gráficos. Pero el CEO es una persona de números. Te pide un informe con 3 estadísticas MUY interesantes y NUEVAS de los datos.

⁉️ **Consideración:** Debes de generar tres códigos, cada uno debe generar estadísticas (ejemplo: números, DataFrame, Series, etc.) que aporten información valiosa para **AMAZOFF**. ¡La información debe ser diferente a la que aportan los gráficos de la pregunta 3. Para que cuente como estadística interesante, no puede ser simplemente calcular un promedio o una desviación. ¡Debes de modificar los datos, filtrarlos, agruparlos, u otros!

ℹ️ **HINT 1:** Funciones como `groupby`, `rolling`, `resample`, calcular estadísticas con filtros, por grupos, etc... son métodos que generan estadísticas más interesantes.

ℹ️ **HINT 2:** La forma más fácil es mezclar métodos avanzados con cálculos descriptivos básicos (ejemplo: media, mediana, moda, desviación, percentiles, etc.).

ℹ️ **HINT 3:** ¡Explica cómo tu estadística puede ser útil para **AMAZOFF**!

📖 **Referencia Externa:** [Pandas Data Analysis](https://medium.com/@anshulika12/deep-dive-into-pandas-and-numpy-advanced-data-analysis-techniques-3b381ad31785).

---

✅ **Explicación:**

- **Estadística 1:** [ AGREGA TU RESPUESTA ACÁ ]
- **Estadística 2:** [ AGREGA TU RESPUESTA ACÁ ]
- **Estadística 3:** [ AGREGA TU RESPUESTA ACÁ ]

In [None]:
# Estadística 1: [ TÍTULO DE LA ESTADÍSTICA ]

# [ AQÚI VA TU CÓDIGO ]

In [None]:
# Estadística 2: [ TÍTULO DE LA ESTADÍSTICA ]

# [ AQÚI VA TU CÓDIGO ]

In [None]:
# Estadística 3: [ TÍTULO DE LA ESTADÍSTICA ]

# [ AQÚI VA TU CÓDIGO ]

# 5. [ ERROR ] Detectamos que el rating va de 1-5, pero nuestros sistemas solo toleran ratings normalizados. ¿Nos puedes ayudar?

⁉️ **Consideración:** En ejercicio deberás Normalizar y Estandarizar. Pero sobre todo, se busca profundizar sobre cuándo se utilizaría cada medida. Por lo que debes de pensar en ejemplos de negocios donde aplicarías una técnica o la otra.

ℹ️ **HINT:** Imagina diferentes escenarios donde la escala para el negocio podría ser relevante. Enfócate en las características del negocio, no en un tema técnico (mal enfoque: el sistema interno lo requiere).

📖 **Referencia Externa:** [Normalization](https://www.geeksforgeeks.org/data-normalization-with-pandas/).

---

✅ **Explicación:**

- **¿En qué casos utilizarías normalización?** [ AGREGA TU RESPUESTA ACÁ ]
- **¿En qué casos utilizarías estandarización?** [ AGREGA TU RESPUESTA ACÁ ]
- **¿Qué otra columa del DataFrame crees que se podría normalizar o estandarizar?** [ AGREGA TU RESPUESTA ACÁ ]

In [None]:
# Normalización

minmax = # [ AGREGA TU CÓDIGO AQUÍ ]
df['minmax_rating'] = minmax.fit_transform(df[['rating']])

In [None]:
# Estandarización

std = # [ AGREGA TU CÓDIGO AQUÍ ]
df['std_rating'] = # [ AGREGA TU CÓDIGO AQUÍ ]

In [None]:
# ¡No modificar esta celda! Gráficos de Ratings normalizados. Fíjate en el eje x.

fig, ax = plt.subplots(1, 3, figsize=(15, 5))

sns.histplot(df.rating, kde=True, ax=ax[0], color='skyblue')
sns.histplot(df.minmax_rating, kde=True, ax=ax[1], color='salmon')
sns.histplot(df.std_rating, kde=True, ax=ax[2], color='lightgreen')

ax[0].set_title('Rating')
ax[1].set_title('Rating (MinMax)')
ax[2].set_title('Rating (Standard)')

plt.tight_layout()
plt.show()

# 6. El CEO está interesado en simplificar el análisis de datos complejos sin perder información crucial. ¿Puedes aplicar una técnica de reducción de dimensionalidad como PCA y explicar los resultados?

⁉️ **Consideración:** Primero, crea nuevas features. Utilizarás esas y otra features para hacer una reducción de dimensionalidad. No olvides escalar tus datos antes. La parte compleja de este ejercicio es explicar tus hallazgos en el gráfico de PCA con 2 componentes.

ℹ️ **HINT:** ¿Ves una tendencia en los colores del gráfico? ¿Grupos?

📖 **Referencia Externa:** [Python PCA](https://www.geeksforgeeks.org/implementing-pca-in-python-with-scikit-learn/).

---

✅ **Explicación:**

[ AGREGA TU RESPUESTA ACÁ ]

In [None]:
# ¡No modificar esta celda! Agregaremos más datos al dataframe.

# Hora de compra y entrega.
df['purchase_hour'] = df.purchased.dt.hour
df['delivery_hour'] = df.delivered.dt.hour

# Día de la semana de compra y entrega.
df['purchase_weekday'] = df.purchased.dt.weekday
df['delivery_weekday'] = df.delivered.dt.weekday

# Precio del producto versus precio del envío.
df['price_shipping_rate'] = df.price/(df.price+df.shipping)

# Precio y envío ajustados por los percentiles 20 y 80.
df['pricing_clipped'] = df.price.clip(df.price.quantile(0.2), df.price.quantile(0.8))
df['shipping_clipped'] = df.shipping.clip(df.shipping.quantile(0.2), df.shipping.quantile(0.8))

In [None]:
# ¿Qué columnas deberíamos considerar para un análisis de componentes principales?

cols_pca = [
    # [ AGREGA TU CÓDIGO AQUÍ ]
]

# ¿Qué método de escalamiento deberíamos utilizar?

scaler = # [ AGREGA TU CÓDIGO AQUÍ ]
df_scaled = scaler.# [ AGREGA TU CÓDIGO AQUÍ ]
df_scaled = pd.DataFrame(df_scaled, columns=cols_pca)
df_scaled.head(3)

In [None]:
# Genera un modelo de PCA con 2 componentes y ajusta el modelo a los datos escalados.

pca = # [ AGREGA TU CÓDIGO AQUÍ ]
df[['component_1', 'component_2']] = pca.fit_transform# [ AGREGA TU CÓDIGO AQUÍ ]
df.head(3)

In [None]:
# Gráfico de componentes principales según rating. ¿Qué puedes inferir de este gráfico?
# HINT: Utiliza el parámetro hue para colorear los puntos según el rating.

sns.scatterplot(
    data=df,
    x=# [ AGREGA TU CÓDIGO AQUÍ ]
    y=# [ AGREGA TU CÓDIGO AQUÍ ]
    hue=# [ AGREGA TU CÓDIGO AQUÍ ]
    palette='RdYlBu',
    legend='full'
)

plt.title('Componentes Principales')
plt.show()

In [None]:
# ¿Cuánta varianza explica cada componente?

print(f'Varianza explicada por cada componente: {pca.explained_variance_ratio_}')
print(f'Varianza explicada total: {# [ AGREGA TU CÓDIGO AQUÍ ]

> # ¡NO OLVIDES GUARDAR Y SUBIR EL NOTEBOOK A LA PLATAFORMA CUANDO TERMINES! FORMATO .ipynb