# 🧪 Prácticas por Dataset de Kaggle

## 🛍️ Retail Sales Dataset

🔗 Dataset disponible en: [https://www.kaggle.com/datasets/mohammadtalib786/retail-sales-dataset?utm_source=chatgpt.com](https://www.kaggle.com/datasets/mohammadtalib786/retail-sales-dataset?utm_source=chatgpt.com)

In [18]:
# importar pandas
import pandas as pd 



In [19]:
#cargar el dataset
df_retail= pd.read_csv('./datasets/retail_sales_dataset.csv')

**Pregunta:** ¿Cuántas filas y columnas tiene el dataset?

In [20]:
num_filas, num_columnas = df_retail.shape

In [21]:
print(f"El dataset tiene {num_filas} filas y {num_columnas} columnas")

El dataset tiene 1000 filas y 9 columnas


**Pregunta:** ¿Cuáles son los tipos de datos de cada columna?

In [22]:
# cuales son los tipos de datos de las columnas
print(df_retail.dtypes)

Transaction ID       int64
Date                object
Customer ID         object
Gender              object
Age                  int64
Product Category    object
Quantity             int64
Price per Unit       int64
Total Amount         int64
dtype: object


**Pregunta:** ¿Qué productos tienen mayores ventas en cantidad?

In [23]:
# productos tienen mayores ventas en cantidad
#
productos_ventas = df_retail.groupby('Product Category')['Quantity'].sum().sort_values(ascending=False).head(10)
print(productos_ventas)


Product Category
Clothing       894
Electronics    849
Beauty         771
Name: Quantity, dtype: int64


In [24]:
import numpy as np

# Crear lista de nombres de tiendas ficticias
tiendas = ['Norte', 'Sur', 'Centro', 'Este', 'Oeste']

# Asignar aleatoriamente una tienda a cada transacción
df_retail['Store'] = np.random.choice(tiendas, size=len(df_retail))

# Verificar
print(df_retail[['Transaction ID', 'Store']].head())

   Transaction ID   Store
0               1   Oeste
1               2   Oeste
2               3  Centro
3               4    Este
4               5     Sur


In [25]:
# Diccionario de mapeo de categoría a tienda
mapeo_tiendas = {
    'Clothing': 'Tienda Moda',
    'Electronics': 'Tienda Tecnología',
    'Beauty': 'Tienda Belleza'
}

# Crear columna basada en categoría
df_retail['Store'] = df_retail['Product Category'].map(mapeo_tiendas)

In [27]:
# Suponiendo que 'Customer ID' contiene información geográfica
df_retail['Store'] = df_retail['Customer ID'].apply(lambda x: 'Norte' if x.startswith('N') else 'Sur')

In [26]:
# Ventas por tienda (cantidad)
ventas_por_tienda = df_retail.groupby('Store')['Quantity'].sum().sort_values(ascending=False)
print("\nVentas por tienda (cantidad):")
print(ventas_por_tienda)

# Ingresos por tienda (monto total)
ingresos_por_tienda = df_retail.groupby('Store')['Total Amount'].sum().sort_values(ascending=False)
print("\nIngresos por tienda:")
print(ingresos_por_tienda)


Ventas por tienda (cantidad):
Store
Tienda Moda          894
Tienda Tecnología    849
Tienda Belleza       771
Name: Quantity, dtype: int64

Ingresos por tienda:
Store
Tienda Tecnología    156905
Tienda Moda          155580
Tienda Belleza       143515
Name: Total Amount, dtype: int64


**Pregunta:** ¿Qué tiendas venden más productos?

In [28]:
# Qué tiendas venden más productos

tiendas_ventas = df_retail.groupby('Store')['Quantity'].sum().sort_values(ascending=False)
porcentaje_ventas = (df_retail['Store'].value_counts(normalize=True) * 100).round(1)
print("\nDistribución porcentual por tienda:")
print(porcentaje_ventas)



Distribución porcentual por tienda:
Store
Sur    100.0
Name: proportion, dtype: float64


**Pregunta:** ¿Existen datos faltantes o duplicados?

In [29]:
# existen dotos faltantes o duplicados 
print(df_retail.isnull().sum())
print(df_retail.duplicated().sum())



Transaction ID      0
Date                0
Customer ID         0
Gender              0
Age                 0
Product Category    0
Quantity            0
Price per Unit      0
Total Amount        0
Store               0
dtype: int64
0


**Pregunta:** ¿Cuál es el ingreso total por tienda?

In [None]:
#cual es el ingreso total de la tienda }
ingreso_total = df_retail['Total Amount'].sum()
print(f'El ingreso total de la tienda es: {ingreso_total}')


El ingreso total de la tienda es: 456000


**Pregunta:** Agrupa las ventas por tipo de producto y encuentra la media de precios.

In [None]:
# Agrupa las ventas por tipo de producto y encuentra la media de precios
mean_prices = df_retail.groupby('Product Category')['Price per Unit'].mean()
print(mean_prices)

Product Category
Beauty         184.055375
Clothing       174.287749
Electronics    181.900585
Name: Price per Unit, dtype: float64


**Pregunta:** Crea una nueva columna llamada `ingreso_total` que sea precio * cantidad.

In [None]:
# Crea una nueva columna llamada `ingreso_total` que sea precio * cantidad.
df_retail['ingreso_total'] = df_retail['Price per Unit'] * df_retail['Quantity']
print(df_retail[['Price per Unit', 'Quantity', 'ingreso_total']].head())


   Price per Unit  Quantity  ingreso_total
0              50         3            150
1             500         2           1000
2              30         1             30
3             500         1            500
4              50         2            100


**Pregunta:** Usa una tabla dinámica para comparar ingresos por tienda y por producto.

In [None]:
# Usa una tabla dinámica para comparar ingresos por tienda y por producto.
pivot_table = df_retail.pivot_table(values='ingreso_total', index='Price per Unit', columns='Product Category', aggfunc='sum', fill_value=0)
print(pivot_table)

Product Category  Beauty  Clothing  Electronics
Price per Unit                                 
25                  3925      4600         4525
30                  3990      5130         4230
50                  8500      9450         8750
300                42600     57900        54900
500                84500     78500        84500


## 📈 Dummy Advertising and Sales Data

🔗 Dataset disponible en: [https://www.kaggle.com/datasets/harrimansaragih/dummy-advertising-and-sales-data?utm_source=chatgpt.com](https://www.kaggle.com/datasets/harrimansaragih/dummy-advertising-and-sales-data?utm_source=chatgpt.com)

In [32]:
import pandas as pd

In [33]:
dummy_data =pd.read_csv('./datasets/Dummy Data HSS.csv')

In [31]:
dummy_data.head()

Unnamed: 0,version https://git-lfs.github.com/spec/v1
0,oid sha256:79948d29df471e3112679d7db719f621076...
1,size 201852


**Pregunta:** ¿Cuál es el gasto promedio en publicidad por canal (TV, Radio, Periódico)

In [34]:
# Cuál es el gasto promedio en publicidad por canal (TV, Radio, Social Media)
avg_ad_spend = dummy_data[['TV', 'Radio', 'Social Media']].mean()
print(avg_ad_spend)

TV              54.066857
Radio           18.160356
Social Media     3.323956
dtype: float64


**Pregunta:** ¿Existe correlación entre el presupuesto publicitario y las ventas?

In [None]:
# Existe correlación entre el presupuesto publicitario y las ventas}
correlation = dummy_data[['TV', 'Radio', 'Social Media', 'Sales']].corr()
print(correlation['Sales'].sort_values(ascending=False))

Sales           1.000000
TV              0.999497
Radio           0.869105
Social Media    0.528906
Name: Sales, dtype: float64


**Pregunta:** ¿Qué campañas tienen ventas superiores a la media?

In [None]:
# Qué campañas tienen ventas superiores a la media 
mean_sales = dummy_data['Sales'].mean()
high_sales_campaigns = dummy_data[dummy_data['Sales'] > mean_sales]     
print(high_sales_campaigns)


        TV      Radio  Social Media Influencer       Sales
3     83.0  30.020028      6.922304       Mega  298.246340
6     55.0  24.893811      4.273602      Micro  198.679825
8     76.0  24.648898      7.130116      Macro  270.189400
10    62.0  24.345189      5.151483       Nano  224.961019
12    64.0  20.240424      3.921148      Micro  229.632381
...    ...        ...           ...        ...         ...
4561  60.0  21.841864      5.092528      Macro  210.680016
4563  93.0  25.285149      2.805840      Macro  327.466288
4564  99.0  36.024174      4.288755      Macro  355.807121
4568  71.0  20.610685      6.545573       Nano  249.101915
4570  71.0  17.534640      1.940873      Macro  253.610411

[2239 rows x 5 columns]


**Pregunta:** Filtra las campañas con publicidad en TV > 200 y Radio > 20.

se cambia de 200 a 20 por que no sale lo cambie por 20 a 5 para que podamos ver que saldria 

In [None]:
high_tv_radio_campaigns = dummy_data[(dummy_data['TV'] > 20 & (dummy_data['Radio'] > 5)) | (dummy_data['TV'] > 20 & (dummy_data['Radio'] > 5))]
print(high_tv_radio_campaigns)


        TV      Radio  Social Media Influencer       Sales
0     16.0   6.566231      2.907983       Mega   54.732757
1     13.0   9.237765      2.409567       Mega   46.677897
2     41.0  15.886446      2.913410       Mega  150.177829
3     83.0  30.020028      6.922304       Mega  298.246340
4     15.0   8.437408      1.405998      Micro   56.594181
...    ...        ...           ...        ...         ...
4567  26.0   4.472360      0.717090      Micro   94.685866
4568  71.0  20.610685      6.545573       Nano  249.101915
4569  44.0  19.800072      5.096192      Micro  163.631457
4570  71.0  17.534640      1.940873      Macro  253.610411
4571  42.0  15.966688      5.046548      Micro  148.202414

[4562 rows x 5 columns]


In [None]:
#  Filtra las campañas con publicidad en TV > 200 y Radio > 20.
high_tv_radio_campaigns = dummy_data[(dummy_data['TV'] > 200) & (dummy_data['Radio'] > 20)]
print(high_tv_radio_campaigns)


Empty DataFrame
Columns: [TV, Radio, Social Media, Influencer, Sales]
Index: []


**Pregunta:** Agrupa por canal publicitario y calcula la media de ventas.

In [None]:
# Agrupa por canal publicitario y calcula la media de ventas
mean_sales_by_channel = dummy_data.groupby(['TV', 'Radio', 'Social Media'])['Sales'].mean()
print(mean_sales_by_channel)


TV     Radio      Social Media
10.0   0.573244   1.072542         33.719607
       0.688749   0.982756         33.459886
       0.758569   0.527881         35.547998
       0.858810   3.621606         36.882298
       1.179967   0.939789         34.205170
                                     ...    
100.0  42.225232  8.977117        364.079751
       42.832653  3.965113        354.869546
       43.760694  6.420971        350.087078
       44.560410  8.470340        357.092487
       45.082921  4.511628        352.657695
Name: Sales, Length: 4552, dtype: float64


**Pregunta:** Crea una columna de ROI estimado usando una fórmula simple.

In [None]:
# Crea una columna de ROI estimado usando una fórmula simple
dummy_data['Estimated ROI'] = (dummy_data['Sales'] - (dummy_data['TV'] + dummy_data['Radio'] + dummy_data['Social Media'])) / (dummy_data['TV'] + dummy_data['Radio'] + dummy_data['Social Media'])
print(dummy_data[['Sales', 'TV', 'Radio', 'Social Media', 'Estimated ROI']].head())


        Sales    TV      Radio  Social Media  Estimated ROI
0   54.732757  16.0   6.566231      2.907983       1.148555
1   46.677897  13.0   9.237765      2.409567       0.893832
2  150.177829  41.0  15.886446      2.913410       1.511341
3  298.246340  83.0  30.020028      6.922304       1.486581
4   56.594181  15.0   8.437408      1.405998       1.278036


**Pregunta:** Realiza una pivot_table para ver ventas promedio por cada tipo de canal.

In [None]:
# Realiza una pivot_table para ver ventas promedio por cada tipo de canal
pivot_table = dummy_data.pivot_table(values='Sales', index='TV', columns='Radio', aggfunc='mean', fill_value=0)
print(pivot_table)

Radio  0.000684   0.014486   0.021883   0.026295   0.038151   0.043082   \
TV                                                                        
10.0         0.0   0.000000   0.000000        0.0   0.000000        0.0   
11.0         0.0   0.000000   0.000000        0.0  34.059559        0.0   
12.0         0.0   0.000000   0.000000        0.0   0.000000        0.0   
13.0         0.0  45.032326   0.000000        0.0   0.000000        0.0   
14.0         0.0   0.000000  53.702021        0.0   0.000000        0.0   
...          ...        ...        ...        ...        ...        ...   
96.0         0.0   0.000000   0.000000        0.0   0.000000        0.0   
97.0         0.0   0.000000   0.000000        0.0   0.000000        0.0   
98.0         0.0   0.000000   0.000000        0.0   0.000000        0.0   
99.0         0.0   0.000000   0.000000        0.0   0.000000        0.0   
100.0        0.0   0.000000   0.000000        0.0   0.000000        0.0   

Radio  0.066123   0.0841

## 🎬 The Movies Dataset

🔗 Dataset disponible en: [https://www.kaggle.com/datasets/rounakbanik/the-movies-dataset?utm_source=chatgpt.com](https://www.kaggle.com/datasets/rounakbanik/the-movies-dataset?utm_source=chatgpt.com)

In [None]:
import pandas as pd

In [None]:
movie_daily = pd.read_csv('./datasets/movie_daily.csv')

In [None]:
Movie_franchise = pd.read_csv('./datasets/MovieFranchises.csv')

In [None]:
movie_daily.head()

Unnamed: 0,index,Movie,Distr,Gross,date
0,0,Despicable Me 2,Universal,6845130,2013/07/16
1,1,Grown Ups 2,Sony Pictures,5273521,2013/07/16
2,2,Pacific Rim,Warner Bros.,4416340,2013/07/16
3,3,The Heat,20th Century…,2175635,2013/07/16
4,4,Monsters University,Walt Disney,1931131,2013/07/16


In [None]:
# Verifica las columnas disponibles
print("Columnas disponibles:", movie_daily.columns.tolist())


Columnas disponibles: ['index', 'Movie', 'Distr', 'Gross', 'date']


In [None]:
print(movie_daily.dtypes)

print(movie_daily.columns)


print(movie_daily.head())

index     int64
Movie    object
Distr    object
Gross     int64
date     object
dtype: object
Index(['index', 'Movie', 'Distr', 'Gross', 'date'], dtype='object')
   index                Movie          Distr    Gross        date
0      0      Despicable Me 2      Universal  6845130  2013/07/16
1      1          Grown Ups 2  Sony Pictures  5273521  2013/07/16
2      2          Pacific Rim   Warner Bros.  4416340  2013/07/16
3      3             The Heat  20th Century…  2175635  2013/07/16
4      4  Monsters University    Walt Disney  1931131  2013/07/16


**Pregunta:** ¿Cuáles son las películas con mayor presupuesto?

In [None]:
# Top 10 películas con mayores ingresos diarios (Gross)
top_gross = movie_daily[['Movie', 'Gross']].sort_values('Gross', ascending=False).head(10)
print("Películas con mayores ingresos diarios:")
print(top_gross.to_string(index=False))


Películas con mayores ingresos diarios:
                      Movie     Gross
          Avengers: Endgame 157461641
 Star Wars Ep. VII: The Fo… 119119282
          Avengers: Endgame 109264122
     Avengers: Infinity War 106334939
 Star Wars Ep. VIII: The L… 104684491
          Avengers: Endgame  90389244
 Star Wars: The Rise of Sk…  89615288
The Avengers: Age of Ultron  84424532
     Avengers: Infinity War  82131612
             Jurassic World  81953950


**Pregunta:** ¿Qué películas obtuvieron mayor ganancia (ingresos - presupuesto)?

In [None]:
# Qué películas obtuvieron mayor ganancia (ingresos - presupuesto)
top_profit = movie_daily[['Movie', 'Gross']].assign(Profit=lambda x: x['Gross']).sort_values('Profit', ascending=False).head(10)
print("\nPelículas con mayor ganancia:")
print(top_profit.to_string(index=False))



Películas con mayor ganancia:
                      Movie     Gross    Profit
          Avengers: Endgame 157461641 157461641
 Star Wars Ep. VII: The Fo… 119119282 119119282
          Avengers: Endgame 109264122 109264122
     Avengers: Infinity War 106334939 106334939
 Star Wars Ep. VIII: The L… 104684491 104684491
          Avengers: Endgame  90389244  90389244
 Star Wars: The Rise of Sk…  89615288  89615288
The Avengers: Age of Ultron  84424532  84424532
     Avengers: Infinity War  82131612  82131612
             Jurassic World  81953950  81953950


In [None]:
# Verifica si hay alguna columna que pueda servir como categoría
print(movie_daily.columns.tolist())  

# Ejemplo usando Distribuidora (Distr) como alternativa
if 'Distr' in movie_daily.columns:
    distr_counts = movie_daily['Distr'].value_counts()
    print("\nPelículas por distribuidora:")
    print(distr_counts)
else:
    print("No hay columnas de categoría disponibles en este dataset")

['index', 'Movie', 'Distr', 'Gross', 'date']

Películas por distribuidora:
Distr
Warner Bros.     12433
20th Century…     9779
Sony Pictures     8985
Universal         8524
Lionsgate         7741
                 ...  
Drafthouse F…        1
MUBI                 1
Parade Deck …        1
Carpe Stella         1
Area 23a             1
Name: count, Length: 213, dtype: int64


**Pregunta:** ¿Cuántas películas hay por género?

In [None]:
# cuantas peliculas hay por género
genre_counts = movie_daily['Movie'].value_counts()
print("\nCantidad de películas por género:")
print(genre_counts)



Cantidad de películas por género:
Movie
Island of Lemurs: Madagascar    354
The Hunger Games: Mocking…      219
Free Solo                       216
Gravity                         215
The Lego Movie                  210
                               ... 
Amy                               1
Jimmy's Hall                      1
Maggie                            1
Gemma Bovery                      1
Testament of Youth                1
Name: count, Length: 2134, dtype: int64


**Pregunta:** ¿Existen películas con presupuesto o ingresos nulos?

In [None]:
# existen peliculas con presupesto o ingreso nulo 
null_movies = movie_daily[movie_daily['Distr'].isnull() | movie_daily['Gross'].isnull()]
if not null_movies.empty:
    print("\nPelículas con presupuesto o ingreso nulo:")
    print(null_movies[['Movie', 'Distr', 'Gross']])
else:
    print("No hay películas con presupuesto o ingreso nulo")



Películas con presupuesto o ingreso nulo:
              Movie Distr   Gross
40              NaN   NaN      48
82              NaN   NaN     152
125             NaN   NaN     133
165             NaN   NaN     123
205             NaN   NaN      71
...             ...   ...     ...
83170  Perfect Blue   NaN     674
83219  Perfect Blue   NaN    2155
83281  Perfect Blue   NaN     920
83347  Perfect Blue   NaN     772
99028  Dear Comrade   NaN  457000

[172 rows x 3 columns]


**Pregunta:** Crea una nueva columna de rentabilidad (ganancia/presupuesto).

In [None]:
# Unir presupuesto desde Movie_franchise
movie_daily = movie_daily.merge(
    Movie_franchise[['Title', 'Budget']],
    left_on='Movie',
    right_on='Title',
    how='left'
)

# Limpiar presupuesto a numérico
movie_daily['Budget'] = (
    movie_daily['Budget']
    .astype(str)
    .str.replace(r'[^0-9.]', '', regex=True)
    .replace('', '0')
    .astype(float)
)

# Calcular rentabilidad
movie_daily['Rentabilidad'] = (
    movie_daily['Gross'] - movie_daily['Budget']
) / movie_daily['Budget']

print(movie_daily[['Movie', 'Gross', 'Budget', 'Rentabilidad']].head())

                 Movie    Gross  Budget  Rentabilidad
0      Despicable Me 2  6845130     0.0           inf
1          Grown Ups 2  5273521     0.0           inf
2          Pacific Rim  4416340     0.0           inf
3             The Heat  2175635     0.0           inf
4  Monsters University  1931131     0.0           inf


**Pregunta:** Agrupa por año de lanzamiento y calcula ingresos promedio.

In [None]:
# Crear columna Year desde date
movie_daily['date'] = pd.to_datetime(movie_daily['date'], errors='coerce')
movie_daily['Year'] = movie_daily['date'].dt.year

# Agrupar por año y calcular promedio de Gross
ingreso_promedio_por_ano = (
    movie_daily.groupby('Year')['Gross']
    .mean()
    .reset_index(name='Ingreso Promedio')
)

print(ingreso_promedio_por_ano.head())


   Year  Ingreso Promedio
0  2013     644874.290173
1  2014     691907.382737
2  2015     772615.352941
3  2016     689819.505449
4  2017     646944.925885


**Pregunta:** Realiza una tabla dinámica que compare ingresos por género y año.

In [None]:
tabla_dinamica = movie_daily.pivot_table(
    values='Gross',
    index='Distr',     # si tienes 'Genero', cámbialo aquí
    columns='Year',
    aggfunc='sum',
    fill_value=0
)

print(tabla_dinamica.head())


Year                2013        2014        2015        2016        2017  \
Distr                                                                      
101 Studios            0           0           0           0           0   
1091 Media             0           0           0           0           0   
20th Century…  452313791  1818828936  1316958058  1499089514  1352981840   
3DLive                 0           0           0           0           0   
A24              5265338      409600    15996304    52781473   102387948   

Year                 2018       2019       2020  
Distr                                            
101 Studios             0    5978643   18606492  
1091 Media              0     721341      26343  
20th Century…  1114546358  483730493  158515896  
3DLive                  0          0      31252  
A24              92710338   94964952   26047848  


## 🌦️ Climate Insights Dataset

🔗 Dataset disponible en: [https://www.kaggle.com/datasets/goyaladi/climate-insights-dataset?utm_source=chatgpt.com](https://www.kaggle.com/datasets/goyaladi/climate-insights-dataset?utm_source=chatgpt.com)

In [None]:
import pandas as pd

In [None]:
climate_change = pd.read_csv('./datasets/climate_change_data.csv')   

In [None]:
climate_change.head()

Unnamed: 0,Date,Location,Country,Temperature,CO2 Emissions,Sea Level Rise,Precipitation,Humidity,Wind Speed
0,2000-01-01 00:00:00.000000000,New Williamtown,Latvia,10.688986,403.118903,0.717506,13.835237,23.631256,18.492026
1,2000-01-01 20:09:43.258325832,North Rachel,South Africa,13.81443,396.663499,1.205715,40.974084,43.982946,34.2493
2,2000-01-02 16:19:26.516651665,West Williamland,French Guiana,27.323718,451.553155,-0.160783,42.697931,96.6526,34.124261
3,2000-01-03 12:29:09.774977497,South David,Vietnam,12.309581,422.404983,-0.475931,5.193341,47.467938,8.554563
4,2000-01-04 08:38:53.033303330,New Scottburgh,Moldova,13.210885,410.472999,1.135757,78.69528,61.789672,8.001164


In [None]:
print("Columnas disponibles:",climate_change.columns.tolist())

Columnas disponibles: ['Date', 'Location', 'Country', 'Temperature', 'CO2 Emissions', 'Sea Level Rise', 'Precipitation', 'Humidity', 'Wind Speed']


**Pregunta:** ¿Cuántos registros hay por año?

In [None]:

# Convertir la columna Date a datetime y extraer el año
climate_change['Date'] = pd.to_datetime(climate_change['Date'])
climate_change['Year'] = climate_change['Date'].dt.year

# Contar registros por año
registros_por_año = climate_change['Year'].value_counts().sort_index()
print("\nRegistros por año:")
print(registros_por_año)


Registros por año:
Year
2000    436
2001    435
2002    434
2003    435
2004    435
2005    435
2006    434
2007    435
2008    435
2009    435
2010    434
2011    435
2012    436
2013    434
2014    434
2015    435
2016    436
2017    434
2018    435
2019    434
2020    436
2021    434
2022    434
Name: count, dtype: int64


**Pregunta:** ¿Cuál es la temperatura media mensual más alta y más baja?

In [None]:
# Tu código aquí
# Extraer mes y año
climate_change['Month'] = climate_change['Date'].dt.month

# Calcular medias mensuales
temp_mensual = climate_change.groupby(['Year', 'Month'])['Temperature'].mean()

# Encontrar valores extremos
max_temp = temp_mensual.idxmax()
min_temp = temp_mensual.idxmin()

print(f"\nMes más cálido: {max_temp} con {temp_mensual.max():.2f}°C")
print(f"Mes más frío: {min_temp} con {temp_mensual.min():.2f}°C")


Mes más cálido: (np.int32(2014), np.int32(2)) con 17.75°C
Mes más frío: (np.int32(2022), np.int32(3)) con 12.73°C


**Pregunta:** ¿Qué meses tienen mayor precipitación?

In [None]:
# Tu código aquí
# Precipitación media por mes
precip_mensual = climate_change.groupby('Month')['Precipitation'].mean().sort_values(ascending=False)

print("\nMeses con mayor precipitación:")
print(precip_mensual.head())


Meses con mayor precipitación:
Month
9     50.947790
5     50.818566
3     50.494378
10    50.241029
4     50.131147
Name: Precipitation, dtype: float64


**Pregunta:** ¿Existen valores faltantes en alguna columna?

In [None]:
# Tu código aquí
# Verificar valores faltantes
valores_faltantes = climate_change.isnull().sum()

print("\nValores faltantes por columna:")
print(valores_faltantes[valores_faltantes > 0])


Valores faltantes por columna:
Series([], dtype: int64)


**Pregunta:** Agrupa por estación del año y calcula la media de temperatura.

In [None]:
# Tu código aquí
# Definir función para determinar estación
def get_season(month):
    if month in [12, 1, 2]:
        return 'Verano'
    elif month in [3, 4, 5]:
        return 'Otoño'
    elif month in [6, 7, 8]:
        return 'Invierno'
    else:
        return 'Primavera'

# Aplicar función
climate_change['Season'] = climate_change['Month'].apply(get_season)

# Calcular media por estación
temp_por_estacion = climate_change.groupby('Season')['Temperature'].mean()

print("\nTemperatura media por estación:")
print(temp_por_estacion)


Temperatura media por estación:
Season
Invierno     14.974683
Otoño        14.809827
Primavera    15.003823
Verano       14.957014
Name: Temperature, dtype: float64


**Pregunta:** Crea una columna que clasifique los días como 'calurosos' o 'templados'.

In [None]:
# Tu código aquí
# Calcular umbral (media + 1 desviación estándar)
umbral = climate_change['Temperature'].mean() + climate_change['Temperature'].std()

# Crear columna de clasificación
climate_change['Day_Type'] = climate_change['Temperature'].apply(
    lambda x: 'Caluroso' if x > umbral else 'Templado'
)

print("\nDistribución de días:")
print(climate_change['Day_Type'].value_counts())


Distribución de días:
Day_Type
Templado    8403
Caluroso    1597
Name: count, dtype: int64


**Pregunta:** Genera una pivot_table que muestre la temperatura promedio por año y mes.

In [None]:
# Tu código aquí
# Crear pivot table
pivot_temp = pd.pivot_table(
    climate_change,
    values='Temperature',
    index='Year',
    columns='Month',
    aggfunc='mean'
)

print("\nTemperatura promedio por año y mes:")
print(pivot_temp)


Temperatura promedio por año y mes:
Month         1          2          3          4          5          6   \
Year                                                                      
2000   14.206357  13.932424  16.353462  14.956865  15.447593  15.312805   
2001   14.708201  16.514600  13.973159  15.036136  14.800959  14.723588   
2002   13.620897  14.760417  14.212325  13.850515  13.673576  13.502537   
2003   14.885562  16.854469  14.114849  14.987196  14.129527  14.842865   
2004   15.914895  13.717340  14.815031  15.814182  15.283723  15.279225   
2005   15.310610  14.956032  16.763042  14.461071  16.430089  15.204628   
2006   13.021321  14.050059  16.181762  14.232334  15.479402  16.405412   
2007   14.419660  14.287890  14.973328  13.083154  15.425498  16.270065   
2008   15.947948  15.317924  14.456524  14.146105  15.636002  15.028988   
2009   15.004275  13.500589  14.986215  13.581644  13.945644  14.644463   
2010   16.430713  16.602293  13.796567  14.304352  14.307113  1