# 🧪 Prácticas por Dataset de Kaggle

## 🛍️ Retail Sales Dataset

🔗 Dataset disponible en: [https://www.kaggle.com/datasets/mohammadtalib786/retail-sales-dataset?utm_source=chatgpt.com](https://www.kaggle.com/datasets/mohammadtalib786/retail-sales-dataset?utm_source=chatgpt.com)

In [68]:
import pandas as pd

In [69]:
sales = pd.read_csv("DataSets/retail_sales_dataset.csv")

**Pregunta:** ¿Cuántas filas y columnas tiene el dataset?

In [70]:
# Tu código aquí
#1000 filas y 9 columnos

sales.shape

(1000, 10)

**Pregunta:** ¿Cuáles son los tipos de datos de cada columna?

In [71]:
# Tu código aquí

sales.dtypes

Transaction ID       int64
Date                object
Customer ID         object
Gender              object
Age                  int64
Product Category    object
Quantity             int64
Price per Unit       int64
Total Amount         int64
Tienda              object
dtype: object

**Pregunta:** ¿Qué productos tienen mayores ventas en cantidad?

In [72]:
# Tu código aquí

sales.columns

Index(['Transaction ID', 'Date', 'Customer ID', 'Gender', 'Age',
       'Product Category', 'Quantity', 'Price per Unit', 'Total Amount',
       'Tienda'],
      dtype='object')

In [73]:
ventaproducto = sales.groupby("Product Category")["Quantity"].sum().sort_values(ascending=False)
print(ventaproducto)


Product Category
Clothing       894
Electronics    849
Beauty         771
Name: Quantity, dtype: int64


**Pregunta:** ¿Qué tiendas venden más productos?

In [74]:
# Tu código aquí

ventas_por_tienda = sales.groupby("Tienda")["Quantity"].sum().sort_values(ascending=False)
print(ventas_por_tienda)

Tienda
SuperAhorro         171
MegaMart Centro     155
Nube Azul           150
Express Plaza       147
Hogar & Deco        146
Almacenes Rivera    142
MaxiCompras         133
Outlet Sur          128
La Gran Bodega      127
ElectroHogar        126
FashionPoint        123
MiniMarket Norte    122
Delicias Gourmet    121
TecnoPlus           118
Mercado Urbano      109
CityShop            104
Estrella Market     104
EcoMarket           104
La Esquinita        101
Comercial Sol        83
Name: Quantity, dtype: int64


**Pregunta:** ¿Existen datos faltantes o duplicados?

In [75]:
# Tu código aquí

sales.isnull().sum(), sales.duplicated().sum()

(Transaction ID      0
 Date                0
 Customer ID         0
 Gender              0
 Age                 0
 Product Category    0
 Quantity            0
 Price per Unit      0
 Total Amount        0
 Tienda              0
 dtype: int64,
 np.int64(0))

**Pregunta:** ¿Cuál es el ingreso total por tienda?

In [76]:
# Tu código aquí
sales.groupby("Tienda")["Total Amount"].sum().sort_values(ascending=False)


Tienda
SuperAhorro         35095
Outlet Sur          31705
Nube Azul           31565
MegaMart Centro     31210
La Gran Bodega      29110
FashionPoint        26085
Estrella Market     23830
MaxiCompras         23570
Express Plaza       23520
Almacenes Rivera    23475
Hogar & Deco        23200
ElectroHogar        21965
TecnoPlus           20155
MiniMarket Norte    19770
Delicias Gourmet    18245
Mercado Urbano      16655
CityShop            15310
EcoMarket           15230
La Esquinita        14585
Comercial Sol       11720
Name: Total Amount, dtype: int64

**Pregunta:** Agrupa las ventas por tipo de producto y encuentra la media de precios.

In [77]:
# Tu código aquí
sales.groupby("Product Category")["Price per Unit"].mean()

Product Category
Beauty         184.055375
Clothing       174.287749
Electronics    181.900585
Name: Price per Unit, dtype: float64

**Pregunta:** Crea una nueva columna llamada `ingreso_total` que sea precio * cantidad.

In [78]:
# Tu código aquí
sales["ingreso_total"] = sales["Price per Unit"] * sales["Quantity"]

**Pregunta:** Usa una tabla dinámica para comparar ingresos por tienda y por producto.

In [79]:
# Tu código aquí
tabla_dinamica = sales.pivot_table(
    index="Tienda",              # Filas → Tienda
    columns="Product Category", # Columnas → Tipo de producto
    values="ingreso_total",     # Valores → Ingresos totales
    aggfunc="sum"               # Función de agregación → Suma
)

print(tabla_dinamica)


Product Category  Beauty  Clothing  Electronics
Tienda                                         
Almacenes Rivera   10380      5795         7300
CityShop            6595      7590         1125
Comercial Sol       1535      4785         5400
Delicias Gourmet    4480      4460         9305
EcoMarket           4720      4690         5820
ElectroHogar        7430      8175         6360
Estrella Market     7140      5900        10790
Express Plaza       6335     10800         6385
FashionPoint        8780     10795         6510
Hogar & Deco        8905      4880         9415
La Esquinita        3790      6630         4165
La Gran Bodega      7975      7785        13350
MaxiCompras         8760      3255        11555
MegaMart Centro     6750     10135        14325
Mercado Urbano      5815      5600         5240
MiniMarket Norte    3955      9715         6100
Nube Azul           7935     14195         9435
Outlet Sur         16925      8280         6500
SuperAhorro         7055     15975      

## 📈 Dummy Advertising and Sales Data

🔗 Dataset disponible en: [https://www.kaggle.com/datasets/harrimansaragih/dummy-advertising-and-sales-data?utm_source=chatgpt.com](https://www.kaggle.com/datasets/harrimansaragih/dummy-advertising-and-sales-data?utm_source=chatgpt.com)

In [52]:
import pandas as pd

In [85]:
Data = pd.read_csv("DataSets/Dummy Data HSS.csv")

**Pregunta:** ¿Cuál es el gasto promedio en publicidad por canal (TV, Radio, Periódico)?

In [86]:
Data.columns

Index(['TV', 'Radio', 'Social Media', 'Influencer', 'Sales'], dtype='object')

In [88]:
# Tu código aquí
Data[["TV", "Radio", "Social Media"]].mean()

TV              54.066857
Radio           18.160356
Social Media     3.323956
dtype: float64

**Pregunta:** ¿Existe correlación entre el presupuesto publicitario y las ventas?

In [89]:
# Tu código aquí
Data[["TV", "Radio", "Social Media", "Sales"]].corr()

Unnamed: 0,TV,Radio,Social Media,Sales
TV,1.0,0.86946,0.528168,0.999497
Radio,0.86946,1.0,0.607452,0.869105
Social Media,0.528168,0.607452,1.0,0.528906
Sales,0.999497,0.869105,0.528906,1.0


**Pregunta:** ¿Qué campañas tienen ventas superiores a la media?

In [90]:
# Tu código aquí
ventas_media = Data["Sales"].mean()
campañas_superiores = Data[Data["Sales"] > ventas_media]

campañas_superiores

Unnamed: 0,TV,Radio,Social Media,Influencer,Sales
3,83.0,30.020028,6.922304,Mega,298.246340
6,55.0,24.893811,4.273602,Micro,198.679825
8,76.0,24.648898,7.130116,Macro,270.189400
10,62.0,24.345189,5.151483,Nano,224.961019
12,64.0,20.240424,3.921148,Micro,229.632381
...,...,...,...,...,...
4561,60.0,21.841864,5.092528,Macro,210.680016
4563,93.0,25.285149,2.805840,Macro,327.466288
4564,99.0,36.024174,4.288755,Macro,355.807121
4568,71.0,20.610685,6.545573,Nano,249.101915


**Pregunta:** Filtra las campañas con publicidad en TV > 200 y Radio > 20.

In [92]:
Data[["TV", "Radio"]].max()

TV       100.000000
Radio     48.871161
dtype: float64

In [93]:
# Tu código aquí
campañas = Data[(Data["TV"] > 80) & (Data["Radio"] > 20)]
campañas


Unnamed: 0,TV,Radio,Social Media,Influencer,Sales
3,83.0,30.020028,6.922304,Mega,298.246340
18,100.0,36.116091,3.674296,Macro,353.804639
19,92.0,40.736990,4.636564,Nano,329.350540
23,99.0,37.263819,6.886535,Nano,349.861575
31,90.0,29.021017,6.431995,Micro,323.032183
...,...,...,...,...,...
4517,85.0,32.785842,3.253216,Macro,303.060675
4555,88.0,35.544561,7.522555,Macro,309.903896
4556,85.0,24.181104,2.542531,Mega,301.994116
4563,93.0,25.285149,2.805840,Macro,327.466288


**Pregunta:** Agrupa por canal publicitario y calcula la media de ventas.

In [101]:
# Tu código aquí
ventas = Data.groupby('Influencer')['Sales'].mean()
print(ventas)

Influencer
Macro    195.613601
Mega     190.593666
Micro    191.809095
Nano     191.934304
Name: Sales, dtype: float64


**Pregunta:** Crea una columna de ROI estimado usando una fórmula simple.

In [95]:
# Tu código aquí
Data["ROI"] = (Data["Sales"] - (Data["TV"] + Data["Radio"] + Data["Social Media"])) / (Data["TV"] + Data["Radio"] + Data["Social Media"])


In [97]:
Data[["TV", "Radio", "Social Media", "Sales", "ROI"]].head()

Unnamed: 0,TV,Radio,Social Media,Sales,ROI
0,16.0,6.566231,2.907983,54.732757,1.148555
1,13.0,9.237765,2.409567,46.677897,0.893832
2,41.0,15.886446,2.91341,150.177829,1.511341
3,83.0,30.020028,6.922304,298.24634,1.486581
4,15.0,8.437408,1.405998,56.594181,1.278036


**Pregunta:** Realiza una pivot_table para ver ventas promedio por cada tipo de canal.

In [98]:
# Tu código aquí
df_largo = Data.melt(
    id_vars="Sales",
    value_vars=["TV", "Radio", "Social Media"],
    var_name="Canal",
    value_name="Inversion"
)

pivot = df_largo.pivot_table(index="Canal", values="Sales", aggfunc="mean").sort_values("Sales", ascending=False)
pivot.round(2)


Unnamed: 0_level_0,Sales
Canal,Unnamed: 1_level_1
Radio,192.47
Social Media,192.47
TV,192.47


## 🎬 The Movies Dataset

🔗 Dataset disponible en: [https://www.kaggle.com/datasets/rounakbanik/the-movies-dataset?utm_source=chatgpt.com](https://www.kaggle.com/datasets/rounakbanik/the-movies-dataset?utm_source=chatgpt.com)

In [None]:
import pandas as pd

In [104]:
Movies = pd.read_csv("DataSets/MovieFranchises.csv")

**Pregunta:** ¿Cuáles son las películas con mayor presupuesto?

In [107]:
Movies.head()

Unnamed: 0,index,MovieID,Title,Lifetime Gross,Year,Studio,Rating,Runtime,Budget,ReleaseDate,VoteAvg,VoteCount,FranchiseID
0,0,1001,Star Wars: Episode IV - A New Hope,775398007,1977,Lucasfilm,PG,121.0,11000000.0,05-25-77,4.09,96233.0,101.0
1,1,1002,Star Wars: Episode V - The Empire Strikes Back,538375067,1980,Lucasfilm,PG,124.0,18000000.0,06-20-80,4.12,79231.0,101.0
2,2,1003,Star Wars: Episode VI - Return of the Jedi,475106177,1983,Lucasfilm,PG,135.0,32500000.0,05-25-83,3.98,76082.0,101.0
3,3,1004,Jurassic Park,1109802321,1993,Universal Pictures,PG-13,127.0,63000000.0,06-11-93,3.69,82700.0,102.0
4,4,1005,The Lost World: Jurassic Park,618638999,1997,Universal Pictures,PG-13,129.0,73000000.0,05-23-97,3.01,19721.0,102.0


In [106]:
# Tu código aquí
Movies.sort_values("Budget", ascending=False)

Unnamed: 0,index,MovieID,Title,Lifetime Gross,Year,Studio,Rating,Runtime,Budget,ReleaseDate,VoteAvg,VoteCount,FranchiseID
50,50,1051,Avengers: Endgame,2797501328,2019,Marvel Studios,PG-13,181.0,400000000.0,04-26-19,3.91,11841.0,105.0
43,43,1044,Star Wars: Episode VIII - The Last Jedi,1332698830,2017,Lucasfilm,PG-13,152.0,317000000.0,12-15-17,3.31,6467.0,101.0
36,36,1037,Star Wars: Episode VII - The Force Awakens,2069521700,2015,Lucasfilm,PG-13,136.0,306000000.0,12-18-15,3.65,19215.0,101.0
45,45,1046,Avengers: Infinity War,2048359754,2018,Marvel Studios,PG-13,156.0,300000000.0,04-27-18,3.93,15145.0,105.0
33,33,1034,Avengers: Age of Ultron,1402809540,2015,Marvel Studios,PG-13,141.0,280000000.0,04-22-15,3.50,12137.0,105.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
600,600,101,Star Wars,1977,George Lucas,,,,,,,,
601,601,102,Jurassic Park,1993,Michael Crichton,,,,,,,,
602,602,103,Wizarding World,2001,J. K. Rowling,,,,,,,,
603,603,104,Middle Earth,2001,J. R. R. Tolkien,,,,,,,,


**Pregunta:** ¿Qué películas obtuvieron mayor ganancia (ingresos - presupuesto)?

In [116]:
Movies.columns

Index(['index', 'MovieID', 'Title', 'Lifetime Gross', 'Year', 'Studio',
       'Rating', 'Runtime', 'Budget', 'ReleaseDate', 'VoteAvg', 'VoteCount',
       'FranchiseID'],
      dtype='object')

In [None]:
# Tu código aquí
import pandas as pd
import random

def generar_ingresos_aleatorios(budget):
    min_variacion = 0.8  
    max_variacion = 1.2  
    return budget * random.uniform(min_variacion, max_variacion)
Movies['Estimated Gross'] = Movies['Budget'].apply(generar_ingresos_aleatorios)
print(Movies[['Title', 'Budget', 'Estimated Gross']].head())


                                            Title      Budget  Estimated Gross
0              Star Wars: Episode IV - A New Hope  11000000.0     1.207662e+07
1  Star Wars: Episode V - The Empire Strikes Back  18000000.0     1.958956e+07
2      Star Wars: Episode VI - Return of the Jedi  32500000.0     2.618855e+07
3                                   Jurassic Park  63000000.0     5.720710e+07
4                   The Lost World: Jurassic Park  73000000.0     7.770626e+07


**Pregunta:** ¿Cuántas películas hay por género?

In [123]:
import random
Movies['Genero'] = [random.choice(['Terror', 'Accion', 'Documental', 'Suspenso']) for _ in range(len(Movies))]
Movies

Unnamed: 0,index,MovieID,Title,Lifetime Gross,Year,Studio,Rating,Runtime,Budget,ReleaseDate,VoteAvg,VoteCount,FranchiseID,Ganancia,Estimated Gross,Genero
0,0,1001,Star Wars: Episode IV - A New Hope,775398007,1977,Lucasfilm,PG,121.0,11000000.0,05-25-77,4.09,96233.0,101.0,0.0,1.207662e+07,Terror
1,1,1002,Star Wars: Episode V - The Empire Strikes Back,538375067,1980,Lucasfilm,PG,124.0,18000000.0,06-20-80,4.12,79231.0,101.0,0.0,1.958956e+07,Terror
2,2,1003,Star Wars: Episode VI - Return of the Jedi,475106177,1983,Lucasfilm,PG,135.0,32500000.0,05-25-83,3.98,76082.0,101.0,0.0,2.618855e+07,Documental
3,3,1004,Jurassic Park,1109802321,1993,Universal Pictures,PG-13,127.0,63000000.0,06-11-93,3.69,82700.0,102.0,0.0,5.720710e+07,Accion
4,4,1005,The Lost World: Jurassic Park,618638999,1997,Universal Pictures,PG-13,129.0,73000000.0,05-23-97,3.01,19721.0,102.0,0.0,7.770626e+07,Accion
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
600,600,101,Star Wars,1977,George Lucas,,,,,,,,,,,Suspenso
601,601,102,Jurassic Park,1993,Michael Crichton,,,,,,,,,,,Terror
602,602,103,Wizarding World,2001,J. K. Rowling,,,,,,,,,,,Accion
603,603,104,Middle Earth,2001,J. R. R. Tolkien,,,,,,,,,,,Documental


**Pregunta:** ¿Existen películas con presupuesto o ingresos nulos?

In [125]:
Movies[(Movies["Budget"].isna()) | (Movies["Budget"] == 0) |
       (Movies["Lifetime Gross"].isna()) | (Movies["Lifetime Gross"] == 0)]



Unnamed: 0,index,MovieID,Title,Lifetime Gross,Year,Studio,Rating,Runtime,Budget,ReleaseDate,VoteAvg,VoteCount,FranchiseID,Ganancia,Estimated Gross,Genero
60,60,MovieCastID,MovieID,ActorName,,,,,,,,,,,,Suspenso
61,61,1001,1001,Mark Hamill,,,,,,,,,,,,Terror
62,62,1002,1001,Harrison Ford,,,,,,,,,,,,Terror
63,63,1003,1001,Carrie Fisher,,,,,,,,,,,,Suspenso
64,64,1004,1001,Peter Cushing,,,,,,,,,,,,Suspenso
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
600,600,101,Star Wars,1977,George Lucas,,,,,,,,,,,Suspenso
601,601,102,Jurassic Park,1993,Michael Crichton,,,,,,,,,,,Terror
602,602,103,Wizarding World,2001,J. K. Rowling,,,,,,,,,,,Accion
603,603,104,Middle Earth,2001,J. R. R. Tolkien,,,,,,,,,,,Documental


**Pregunta:** Crea una nueva columna de rentabilidad (ganancia/presupuesto).

In [145]:
Movies['Rentabilidad'] = Movies['Ganancia'] / Movies['Budget']
print(Movies[['Title', 'Lifetime Gross', 'Budget', 'Ganancia', 'Rentabilidad']].head())


                                            Title Lifetime Gross      Budget  \
0              Star Wars: Episode IV - A New Hope      775398007  11000000.0   
1  Star Wars: Episode V - The Empire Strikes Back      538375067  18000000.0   
2      Star Wars: Episode VI - Return of the Jedi      475106177  32500000.0   
3                                   Jurassic Park     1109802321  63000000.0   
4                   The Lost World: Jurassic Park      618638999  73000000.0   

   Ganancia  Rentabilidad  
0       0.0           0.0  
1       0.0           0.0  
2       0.0           0.0  
3       0.0           0.0  
4       0.0           0.0  


## 🌦️ Climate Insights Dataset

🔗 Dataset disponible en: [https://www.kaggle.com/datasets/goyaladi/climate-insights-dataset?utm_source=chatgpt.com](https://www.kaggle.com/datasets/goyaladi/climate-insights-dataset?utm_source=chatgpt.com)

In [127]:
import pandas as pd

In [128]:
climate = pd.read_csv("DataSets/climate_change_data.csv")

**Pregunta:** ¿Cuántos registros hay por año?

In [130]:
climate.columns

Index(['Date', 'Location', 'Country', 'Temperature', 'CO2 Emissions',
       'Sea Level Rise', 'Precipitation', 'Humidity', 'Wind Speed'],
      dtype='object')

In [None]:
# Tu código aquí

climate['Year'] = climate['Date'].dt.year
climate.groupby('Year').size()



Year
2000    436
2001    435
2002    434
2003    435
2004    435
2005    435
2006    434
2007    435
2008    435
2009    435
2010    434
2011    435
2012    436
2013    434
2014    434
2015    435
2016    436
2017    434
2018    435
2019    434
2020    436
2021    434
2022    434
dtype: int64

**Pregunta:** ¿Cuál es la temperatura media mensual más alta y más baja?

In [135]:
# Tu código aquí
climate['Month'] = climate['Date'].dt.month

mes_max = temp_media_mensual.idxmax()
temp_max = temp_media_mensual.max()

mes_min = temp_media_mensual.idxmin()
temp_min = temp_media_mensual.min()

print(f"Mes con temperatura media más alta: {mes_max} ({temp_max:.2f}°C)")
print(f"Mes con temperatura media más baja: {mes_min} ({temp_min:.2f}°C)")

Mes con temperatura media más alta: 11 (15.29°C)
Mes con temperatura media más baja: 4 (14.75°C)


**Pregunta:** ¿Qué meses tienen mayor precipitación?

In [136]:
# Tu código aquí
precip_total_mensual = climate.groupby('Month')['Precipitation'].sum().sort_values(ascending=False)
print(precip_total_mensual)


Month
5     43144.962842
3     42869.727342
10    42654.633473
12    42500.932188
1     41923.681776
9     41828.135719
7     41267.060682
4     41207.802504
6     41206.965759
8     40986.871087
11    40968.691625
2     38252.610826
Name: Precipitation, dtype: float64


**Pregunta:** ¿Existen valores faltantes en alguna columna?

In [137]:
# Tu código aquí
climate.isnull().sum()

Date              0
Location          0
Country           0
Temperature       0
CO2 Emissions     0
Sea Level Rise    0
Precipitation     0
Humidity          0
Wind Speed        0
Year              0
Month             0
dtype: int64

**Pregunta:** Agrupa por estación del año y calcula la media de temperatura.

In [138]:
# Tu código aquí
climate['Date'] = pd.to_datetime(climate['Date'])

def get_season(month):
    if month in [12, 1, 2]:
        return 'Invierno'
    elif month in [3, 4, 5]:
        return 'Primavera'
    elif month in [6, 7, 8]:
        return 'Verano'
    else:
        return 'Otoño'

climate['Season'] = climate['Date'].dt.month.apply(get_season)

climate.groupby('Season')['Temperature'].mean()


Season
Invierno     14.957014
Otoño        15.003823
Primavera    14.809827
Verano       14.974683
Name: Temperature, dtype: float64

**Pregunta:** Crea una columna que clasifique los días como 'calurosos' o 'templados'.

In [139]:
# Tu código aquí
climate['Clima'] = climate['Temperature'].apply(lambda x: 'caluroso' if x > 25 else 'templado')


**Pregunta:** Genera una pivot_table que muestre la temperatura promedio por año y mes.

In [None]:
# Tu código aquí
climate['Date'] = pd.to_datetime(climate['Date'])


climate['Año'] = climate['Date'].dt.year
climate['Mes'] = climate['Date'].dt.month


tabla_temp = climate.pivot_table(
    values='Temperature',
    index='Año',
    columns='Mes',
    aggfunc='mean'
)

print(tabla_temp)


Mes          1          2          3          4          5          6   \
Año                                                                      
2000  14.206357  13.932424  16.353462  14.956865  15.447593  15.312805   
2001  14.708201  16.514600  13.973159  15.036136  14.800959  14.723588   
2002  13.620897  14.760417  14.212325  13.850515  13.673576  13.502537   
2003  14.885562  16.854469  14.114849  14.987196  14.129527  14.842865   
2004  15.914895  13.717340  14.815031  15.814182  15.283723  15.279225   
2005  15.310610  14.956032  16.763042  14.461071  16.430089  15.204628   
2006  13.021321  14.050059  16.181762  14.232334  15.479402  16.405412   
2007  14.419660  14.287890  14.973328  13.083154  15.425498  16.270065   
2008  15.947948  15.317924  14.456524  14.146105  15.636002  15.028988   
2009  15.004275  13.500589  14.986215  13.581644  13.945644  14.644463   
2010  16.430713  16.602293  13.796567  14.304352  14.307113  14.671207   
2011  14.799867  13.479437  15.693903 