# 🧪 Prácticas por Dataset de Kaggle

## 🛍️ Retail Sales Dataset

🔗 Dataset disponible en: [https://www.kaggle.com/datasets/mohammadtalib786/retail-sales-dataset?utm_source=chatgpt.com](https://www.kaggle.com/datasets/mohammadtalib786/retail-sales-dataset?utm_source=chatgpt.com)

In [1]:
import pandas as pd

In [2]:
df_retail = pd.read_csv('./Datasets/retail_sales_dataset.csv')

In [4]:
df_retail.head()

Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100


**Pregunta:** ¿Cuántas filas y columnas tiene el dataset?

In [None]:
# Tu código aquí
df_retail.shape

(1000, 9)

**Pregunta:** ¿Cuáles son los tipos de datos de cada columna?

In [9]:
# Tu código aquí
df_retail.dtypes

Transaction ID       int64
Date                object
Customer ID         object
Gender              object
Age                  int64
Product Category    object
Quantity             int64
Price per Unit       int64
Total Amount         int64
dtype: object

**Pregunta:** ¿Qué productos tienen mayores ventas en cantidad?

In [13]:
# Tu código aquí
ventas_por_productos = df_retail.groupby('Product Category')['Quantity'].sum()
ventas_por_productos = ventas_por_productos.sort_values(ascending=False)
ventas_por_productos

Product Category
Clothing       894
Electronics    849
Beauty         771
Name: Quantity, dtype: int64

**Pregunta:** ¿Qué tiendas venden más productos?

In [16]:
# Tu código aquí
ventas_por_tienda = df_retail.groupby('Customer ID')['Quantity'].sum()
ventas_por_tienda = ventas_por_tienda.sort_values(ascending=False)
ventas_por_tienda

Customer ID
CUST008    4
CUST010    4
CUST014    4
CUST726    4
CUST729    4
          ..
CUST973    1
CUST974    1
CUST979    1
CUST004    1
CUST003    1
Name: Quantity, Length: 1000, dtype: int64

**Pregunta:** ¿Existen datos faltantes o duplicados?

In [20]:
# Tu código aquí

# Datos faltantes
datos_faltantes = df_retail.isnull().sum()
datos_faltantes

# Datos duplicadas
datos_duplicados = df_retail.duplicated().sum()
datos_duplicados

np.int64(0)

**Pregunta:** ¿Cuál es el ingreso total por tienda?

In [21]:
# Tu código aquí
ingreso_total_por_tienda = df_retail.groupby('Customer ID')['Total Amount'].sum()
ingreso_total_por_tienda = ingreso_total_por_tienda.sort_values(ascending=False)
ingreso_total_por_tienda

Customer ID
CUST015    2000
CUST412    2000
CUST970    2000
CUST547    2000
CUST281    2000
           ... 
CUST379      25
CUST952      25
CUST371      25
CUST397      25
CUST955      25
Name: Total Amount, Length: 1000, dtype: int64

**Pregunta:** Agrupa las ventas por tipo de producto y encuentra la media de precios.

In [28]:
# Tu código aquí
media_de_precios = df_retail.groupby('Product Category')['Price per Unit'].mean()
media_de_precios

Product Category
Beauty         184.055375
Clothing       174.287749
Electronics    181.900585
Name: Price per Unit, dtype: float64

**Pregunta:** Crea una nueva columna llamada `ingreso_total` que sea precio * cantidad.

In [29]:
df_retail.head()

Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100


In [30]:
# Tu código aquí
df_retail['Ingreso Total'] = df_retail['Price per Unit'] * df_retail['Quantity']
df_retail.head()

Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount,Ingreso Total
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150,150
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000,1000
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30,30
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500,500
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100,100


**Pregunta:** Usa una tabla dinámica para comparar ingresos por tienda y por producto.

In [32]:
# Tu código aquí
tabla_comparacion = pd.pivot_table(df_retail,
                                   values='Ingreso Total',
                                   index='Customer ID',
                                   columns='Product Category',
                                   aggfunc='sum',
                                   fill_value=0)
tabla_comparacion

Product Category,Beauty,Clothing,Electronics
Customer ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
CUST001,150,0,0
CUST002,0,1000,0
CUST003,0,0,30
CUST004,0,500,0
CUST005,100,0,0
...,...,...,...
CUST995,0,30,0
CUST996,0,50,0
CUST997,90,0,0
CUST998,100,0,0


## 📈 Dummy Advertising and Sales Data

🔗 Dataset disponible en: [https://www.kaggle.com/datasets/harrimansaragih/dummy-advertising-and-sales-data?utm_source=chatgpt.com](https://www.kaggle.com/datasets/harrimansaragih/dummy-advertising-and-sales-data?utm_source=chatgpt.com)

**Pregunta:** ¿Cuál es el gasto promedio en publicidad por canal (TV, Radio, Periódico)?

In [None]:
# Tu código aquí

**Pregunta:** ¿Existe correlación entre el presupuesto publicitario y las ventas?

In [None]:
# Tu código aquí

**Pregunta:** ¿Qué campañas tienen ventas superiores a la media?

In [None]:
# Tu código aquí

**Pregunta:** Filtra las campañas con publicidad en TV > 200 y Radio > 20.

In [None]:
# Tu código aquí

**Pregunta:** Agrupa por canal publicitario y calcula la media de ventas.

In [None]:
# Tu código aquí

**Pregunta:** Crea una columna de ROI estimado usando una fórmula simple.

In [None]:
# Tu código aquí

**Pregunta:** Realiza una pivot_table para ver ventas promedio por cada tipo de canal.

In [None]:
# Tu código aquí

## 🎬 The Movies Dataset

🔗 Dataset disponible en: [https://www.kaggle.com/datasets/rounakbanik/the-movies-dataset?utm_source=chatgpt.com](https://www.kaggle.com/datasets/rounakbanik/the-movies-dataset?utm_source=chatgpt.com)

**Pregunta:** ¿Cuáles son las películas con mayor presupuesto?

In [None]:
# Tu código aquí

**Pregunta:** ¿Qué películas obtuvieron mayor ganancia (ingresos - presupuesto)?

In [None]:
# Tu código aquí

**Pregunta:** ¿Cuántas películas hay por género?

In [None]:
# Tu código aquí

**Pregunta:** ¿Existen películas con presupuesto o ingresos nulos?

In [None]:
# Tu código aquí

**Pregunta:** Crea una nueva columna de rentabilidad (ganancia/presupuesto).

In [None]:
# Tu código aquí

**Pregunta:** Agrupa por año de lanzamiento y calcula ingresos promedio.

In [None]:
# Tu código aquí

**Pregunta:** Realiza una tabla dinámica que compare ingresos por género y año.

In [None]:
# Tu código aquí

## 🌦️ Climate Insights Dataset

🔗 Dataset disponible en: [https://www.kaggle.com/datasets/goyaladi/climate-insights-dataset?utm_source=chatgpt.com](https://www.kaggle.com/datasets/goyaladi/climate-insights-dataset?utm_source=chatgpt.com)

**Pregunta:** ¿Cuántos registros hay por año?

In [None]:
# Tu código aquí

**Pregunta:** ¿Cuál es la temperatura media mensual más alta y más baja?

In [None]:
# Tu código aquí

**Pregunta:** ¿Qué meses tienen mayor precipitación?

In [None]:
# Tu código aquí

**Pregunta:** ¿Existen valores faltantes en alguna columna?

In [None]:
# Tu código aquí

**Pregunta:** Agrupa por estación del año y calcula la media de temperatura.

In [None]:
# Tu código aquí

**Pregunta:** Crea una columna que clasifique los días como 'calurosos' o 'templados'.

In [None]:
# Tu código aquí

**Pregunta:** Genera una pivot_table que muestre la temperatura promedio por año y mes.

In [None]:
# Tu código aquí