In [0]:
from pyspark.sql.functions import year, month, dayofmonth, avg, max, min, count, col

# Leer tabla Gold diaria
weather_diaria = spark.table("weather_lima.gold_diaria")

# Mostrar esquema y primeras filas
weather_diaria.printSchema()
weather_diaria.show(5)

# Análisis exploratorio básico
print("\nDistribución de registros por distrito:")
weather_diaria.groupBy("distrito").count().orderBy("count", ascending=False).show()

print("\nResumen de temperaturas máximas por distrito:")
weather_diaria.groupBy("distrito").agg(
    avg("temperatura_maxima").alias("prom_temp_max"),
    max("temperatura_maxima").alias("max_temp_max"),
    min("temperatura_maxima").alias("min_temp_max")
).orderBy("prom_temp_max", ascending=False).show()

print("\nResumen de precipitación total por distrito:")
weather_diaria.groupBy("distrito").agg(
    avg("precipitacion_total").alias("prom_precipitacion"),
    max("precipitacion_total").alias("max_precipitacion"),
    min("precipitacion_total").alias("min_precipitacion")
).orderBy("prom_precipitacion", ascending=False).show()

print("\nConteo de registros por año y mes:")
weather_diaria.withColumn("anio", year("fecha")).withColumn("mes", month("fecha")).groupBy("anio", "mes").count().orderBy("anio", "mes").show()

print("\nDistritos con más días con precipitación (> 0.1mm):")
weather_diaria.filter(col("precipitacion_total") > 0.1).groupBy("distrito").count().orderBy("count", ascending=False).show()
