<a href="https://colab.research.google.com/github/FrancoCalcia/Pandas-Python/blob/main/Pandas_Matplotlib.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Análisis de Datos con Pandas y gráfica con Matplotlib

# Carga de datos

In [None]:
#Bajamos el .csv desde Drive
!pip install gdown
!gdown "1J-oBZ31iJL7UkmKVbevZJo-CO35nKoXt" --output "ServicioMeteorologico.csv"

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

data = pd.read_csv("ServicioMeteorologico.csv", encoding='unicode_escape', na_values = 'S/D')

# Limpieza de datos


In [None]:
#Actualizamos la columna 'Estacin' por 'Estación'.
data.rename(columns={'Estacin':'Estación'}, inplace=True)

#Limpiamos los valores con caracteres no legibles
data["Valor Medio de"] = data["Valor Medio de"].str.replace("","á")
data["Valor Medio de"] = data["Valor Medio de"].str.replace("","í")
data["Valor Medio de"] = data["Valor Medio de"].str.replace("","ó")
data["Estación"] = data["Estación"].str.replace("Ã","O")

In [None]:
# Convertir todas las columnas de meses a numérico, para mejorar su posterior analisis.
meses = ['Ene', 'Feb', 'Mar', 'Abr', 'May', 'Jun', 'Jul', 'Ago', 'Sep', 'Oct', 'Nov', 'Dic']

for mes in meses:
    data[mes] = pd.to_numeric(data[mes], errors='coerce')

In [None]:
#Sirve para mostrar las primeras 25 estaciones
data.head(25)

Unnamed: 0,Estación,Valor Medio de,Ene,Feb,Mar,Abr,May,Jun,Jul,Ago,Sep,Oct,Nov,Dic
0,LA QUIACA OBS.,Temperatura (grados C),12.8,12.5,12.4,10.9,6.9,4.4,4.1,6.7,9.3,11.7,12.8,13.2
1,LA QUIACA OBS.,Temperatura máxima (grados C),20.1,19.9,19.9,19.7,17.3,15.6,15.4,17.4,19.2,21.1,21.7,21.3
2,LA QUIACA OBS.,Temperatura mínima (grados C),7.4,7.0,6.3,2.8,-3.0,-6.2,-6.8,-4.2,-1.1,2.8,5.2,6.9
3,LA QUIACA OBS.,Humedad relativa (%),65.3,64.1,62.4,48.2,34.6,31.1,30.1,31.7,34.4,45.3,52.3,59.2
4,LA QUIACA OBS.,Velocidad del Viento (km/h),6.9,7.1,6.5,6.4,6.0,4.9,6.6,6.6,8.6,8.7,8.8,8.3
5,LA QUIACA OBS.,Nubosidad total (octavos),5.2,4.8,4.1,2.7,1.8,1.6,1.4,1.6,2.0,3.0,3.6,4.5
6,LA QUIACA OBS.,Precipitación (mm),97.5,68.4,55.9,8.2,1.0,0.5,0.0,1.4,3.5,16.0,27.3,71.9
7,LA QUIACA OBS.,Frecuencia de días con Precipitación superior ...,15.9,12.2,9.8,2.4,0.3,0.1,0.0,0.4,0.9,3.5,7.4,12.7
8,TARTAGAL AERO,Temperatura (grados C),25.2,24.4,,20.2,17.2,14.9,14.6,17.4,20.2,23.9,24.6,25.3
9,TARTAGAL AERO,Temperatura máxima (grados C),31.7,30.7,29.1,25.5,22.7,21.0,22.1,25.5,28.2,31.4,31.7,32.0


# Análisis descriptivo

In [None]:
#Tomamos como variable relevante la temperatura promedio y calculamos las estadísticas resumen
t=data[data['Valor Medio de'] == "Temperatura (grados C)"]
t.describe()



---



In [None]:
#Tomamos como variable relevante la humedad relativa y calculamos las estadísticas resumen
h=data[data['Valor Medio de'] == "Humedad relativa (%)"]
h.describe()



---



En el siguiente gráfico se muestran la agrupación de estaciones que superan una temperatura máxima a 25°C y además las que superan una humedad relativa a 65%.

In [None]:
# Filtrar estaciones con temperatura máxima > 25°C y humedad relativa > 65%
m = data[((data['Valor Medio de'] == 'Temperatura máxima (grados C)') & (data['Ene'] > 25)) |
         ((data['Valor Medio de'] == 'Humedad relativa (%)') & (data['Ene'] > 65))]

# Crear un boxplot para la columna 'Ene' de las estaciones filtradas
boxplot = m.boxplot(column='Ene',by='Valor Medio de',figsize=(10, 6))

plt.title('Datos para Enero')
plt.xlabel('Mes de Enero')
plt.ylabel('Valores de variables')
plt.show()



---



En el siguiente gráfico se muestra la variación de temperatura promedio de todos los meses, utilizando boxplot.

In [None]:
meses = ['Ene', 'Feb', 'Mar', 'Abr', 'May', 'Jun', 'Jul', 'Ago', 'Sep', 'Oct', 'Nov', 'Dic']

# Filtrar por "Valor Medio de" y asegurarse de que los valores no sean nulos en al menos un mes
data_filtrado = data[(data['Valor Medio de'] == "Temperatura (grados C)") &
                     data[meses].notnull().any(axis=1)]

# Crear un boxplot con todas las columnas de meses
plt.boxplot([data_filtrado[mes] for mes in meses])

# Personalizar el boxplot
plt.xlabel('Meses')
plt.ylabel('Temperatura (Grados C)')
plt.title('Variacion de temperatura promedio')

# Agregar etiquetas para cada caja
plt.xticks(range(1, len(meses) + 1), meses)

# Mostrar el boxplot
plt.show()



---



En base a este analisis podemos decir que la temperatura promedio mínima se registró en el mes de Julio. Por ende ahora queremos mostrar el Top 10 de temperaturas mínimas de Julio.
Lo mismo vamos a realizar para las temperaturas máximas registradas en el mes de Enero.

Se puede observar que existen valores atípicos.

In [None]:
# Filtrar por "Valor Medio de" y asegurarse de que los valores no sean nulos en julio
data_filtrado = data[(data['Valor Medio de'] == "Temperatura mínima (grados C)") & data['Jul'].notnull()]

# Calcular la temperatura mínima de julio para cada estación
temperaturas_minimas_por_estacion = data_filtrado.groupby('Estación')['Jul'].min()

# Ordenar las temperaturas mínimas de manera ascendente y seleccionar el top 10
top_10_temperaturas_bajas = temperaturas_minimas_por_estacion.sort_values(ascending=True).head(10)

# Graficar el top 10 de temperaturas más bajas
top_10_temperaturas_bajas.plot(kind='bar', figsize=(10, 6), color='skyblue')

# Personalizar el gráfico
plt.xlabel('Estación')
plt.ylabel('Temperatura Mínima (°C)')
plt.title('Top 10 de Temperaturas Más Bajas en Julio por Estación')

# Mostrar el gráfico
plt.show()



---



In [None]:
# Filtrar por "Valor Medio de" y asegurarse de que los valores no sean nulos en Enero
data_filtrado = data[(data['Valor Medio de'] == "Temperatura máxima (grados C)") & data["Ene"].notnull()]

# Calcular la temperatura maxima de Enero para cada estación
temperaturas_maximas_por_estacion = data_filtrado.groupby('Estación')["Ene"].max()

# Ordenar las temperaturas maximas de manera descendente y seleccionar el top 10
top_10_temperaturas_altas = temperaturas_maximas_por_estacion.sort_values(ascending=False).head(10)

# Graficar el top 10 de temperaturas más altas
top_10_temperaturas_altas.plot(kind='bar', figsize=(10, 6), color='skyblue')

# Personalizar el gráfico
plt.xlabel('Estación')
plt.ylabel('Temperatura Máxima (°C)')
plt.title('Top 10 de Temperaturas Más Altas en Enero por Estación')

# Mostrar el gráfico
plt.show()



---



En el siguiente gráfico se muestra el top 10 de estaciones con mayores vientos por mes.

In [None]:
meses = ['Ene', 'Feb', 'Mar', 'Abr', 'May', 'Jun', 'Jul', 'Ago', 'Sep', 'Oct', 'Nov', 'Dic']

# Filtrar por "Valor Medio de" y asegurarse de que los valores no sean nulos en al menos un mes
data_filtrado = data[(data['Valor Medio de'] == "Velocidad del Viento (km/h)") &
                     data[meses].notnull().any(axis=1)]

# Calcular los vientos máximos por estación
vientos_max_por_estacion = data_filtrado.groupby('Estación')[meses].max()

# Obtener el top 10 de estaciones con los mayores vientos para cualquier mes
top_10_vientos_max = vientos_max_por_estacion.max(axis=1).nlargest(10)

# Filtrar solo las estaciones del top 10
top_10_vientos_data = vientos_max_por_estacion.loc[top_10_vientos_max.index]

# Crear un gráfico de barras para mostrar el top 10 de estaciones con los mayores vientos
top_10_vientos_data.transpose().plot(kind='bar', figsize=(12, 6), colormap='viridis', width=0.8)

# Personalizar el gráfico
plt.xlabel('Estaciones')
plt.ylabel('Viento Máximo (Km/h)')
plt.title('Top 10 de Estaciones con los Mayores Vientos por Mes')

# Mostrar el gráfico
plt.show()



---



# Análisis temporal

En el siguiente gráfico se muestra la variación de temperaturas (máxima, promedio y mínima) de todos los meses, utilizando gráfico de líneas

In [None]:
meses = ['Ene', 'Feb', 'Mar', 'Abr', 'May', 'Jun', 'Jul', 'Ago', 'Sep', 'Oct', 'Nov', 'Dic']

# Filtrar por "Valor Medio de" y asegurarse de que los valores no sean nulos en al menos un mes
data_filtrado = data[(data['Valor Medio de'] == "Temperatura máxima (grados C)") |
                     (data['Valor Medio de'] == "Temperatura (grados C)") |
                     (data['Valor Medio de'] == "Temperatura mínima (grados C)") &
                     data[meses].notnull().any(axis=1)]

# Crear un gráfico de líneas con todas las columnas de meses para temperatura máxima
data_filtrado[data_filtrado['Valor Medio de'] == 'Temperatura máxima (grados C)'][meses].mean().plot(
    marker='o', linestyle='-', color='#FF55BA', label='Temperatura Máxima', figsize=(15, 6))

# Crear un gráfico de líneas con todas las columnas de meses para temperatura promedio
data_filtrado[data_filtrado['Valor Medio de'] == 'Temperatura (grados C)'][meses].mean().plot(
    marker='o', linestyle='-', color='#55FFED', label='Temperatura Promedio')

# Crear un gráfico de líneas con todas las columnas de meses para temperatura mínima
data_filtrado[data_filtrado['Valor Medio de'] == 'Temperatura mínima (grados C)'][meses].mean().plot(
    marker='o', linestyle='-', color='#55FF76', label='Temperatura Mínima')

# Personalizar el gráfico de líneas
plt.xlabel('Meses')
plt.ylabel('Temperatura (Grados C)')
plt.title('Variación de Temperaturas')
plt.legend()

# Mostrar el gráfico
plt.show()



---



# Preguntas de investigación

* ¿Cuál fue la estación con menor frecuencia de días con precipitación superior a 0.1mm?

In [None]:
p=data[data['Valor Medio de'] == "Frecuencia de días con Precipitación superior a 0.1 mm"]
print(f"""La estación con menor frecuencia de días con precipitación superior a 0.1mm es {p.min()["Estación"]},
a continuación se muestran sus datos:

{(p.min())}""")




---



* ¿Cuál fue el mes con mayor Nubosidad total (octavos)?

In [None]:
n = data[data['Valor Medio de'] == "Nubosidad total (octavos)"]
promedios_por_mes = n.mean(numeric_only=True)
mes_con_mayor_promedio = promedios_por_mes.idxmax()
max_promedio = promedios_por_mes.max()

print(promedios_por_mes)

print(f"""
El mes con el mayor promedio de nubosidad total es {mes_con_mayor_promedio}, con un promedio de {max_promedio:.2f} (octavos)""")



---



* ¿Cuál fue el mes con menor velocidad del viento (km/h)?

In [None]:
v = data[data['Valor Medio de'] == "Velocidad del Viento (km/h)"]
promedios_por_mes = v.mean(numeric_only=True)
mes_con_menor_promedio = promedios_por_mes.idxmin()
menor_promedio = promedios_por_mes.min()

print(promedios_por_mes)
print(f"""
El mes con el menor promedio de velocidad del viento es {mes_con_menor_promedio}, con un promedio de {menor_promedio:.2f} (Km/h)""")




---

