# Dataset exploration

In [None]:
import pandas as pd
archivo_csv = 'datos_lluvia.csv'
datos_csv = pd.read_csv(archivo_csv)

In [None]:
df = pd.DataFrame(datos_csv)
df

In [None]:
pip install matplotlib
pip install seaborn

In [None]:
fields = ['Fecha', 'Valor']
new_df = df[fields].copy()
new_df['Fecha'] = pd.to_datetime(new_df['Fecha']).dt.date
new_df

In [None]:
import matplotlib.pyplot as plt
# Gráfico de línea
plt.figure(figsize=(15, 6))
plt.plot(new_df['Fecha'], new_df['Valor'], label='Lluvia diaria', color='blue', alpha=0.7)
plt.title('Cantidad de lluvia diaria en Pereira', fontsize=16)
plt.xlabel('Fecha', fontsize=12)
plt.ylabel('Lluvia (mm)', fontsize=12)
plt.xticks(rotation=45)
plt.grid(True, linestyle='--', alpha=0.5)
plt.tight_layout()
plt.legend()
plt.show()

In [None]:
# Gráfico de barras (opcional para comparación)
plt.figure(figsize=(15, 6))
plt.bar(new_df['Fecha'], new_df['Valor'], color='skyblue', alpha=0.7, label='Lluvia diaria')
plt.title('Cantidad de lluvia diaria en Pereira', fontsize=16)
plt.xlabel('Fecha', fontsize=12)
plt.ylabel('Lluvia (mm)', fontsize=12)
plt.xticks(rotation=45)
plt.tight_layout()
plt.legend()
plt.show()

In [None]:
# Agrupar por año
new_df['Año'] = pd.to_datetime(new_df['Fecha']).dt.year
rain_by_year = new_df.groupby('Año')['Valor'].sum()

# Graficar
plt.figure(figsize=(10, 6))
rain_by_year.plot(kind='bar', color='skyblue', alpha=0.7)
plt.title('Cantidad total de lluvia por año en Pereira', fontsize=16)
plt.xlabel('Año', fontsize=12)
plt.ylabel('Lluvia total (mm)', fontsize=12)
plt.grid(axis='y', linestyle='--', alpha=0.5)
plt.tight_layout()
plt.show()

In [None]:
# Filtrar por un año específico (ejemplo: 2018)
year = 2021
filtered_df = new_df[new_df['Fecha'].apply(lambda x: x.year) == year]

# Graficar en barras
plt.figure(figsize=(15, 6))
plt.bar(filtered_df['Fecha'], filtered_df['Valor'], color='blue', alpha=0.7, label=f'Lluvia diaria en {year}')
plt.title(f'Cantidad de lluvia diaria en Pereira durante {year}', fontsize=16)
plt.xlabel('Fecha', fontsize=12)
plt.ylabel('Lluvia (mm)', fontsize=12)
plt.xticks(rotation=45)
plt.grid(axis='y', linestyle='--', alpha=0.5)
plt.tight_layout()
plt.legend()
plt.show()


In [None]:
# Filtrar por año y mes específicos (ejemplo: agosto de 2018)
year = 2018
month = 6
filtered_df = new_df[(new_df['Fecha'].apply(lambda x: x.year) == year) & (new_df['Fecha'].apply(lambda x: x.month) == month)]

# Graficar
plt.figure(figsize=(15, 6))
plt.plot(filtered_df['Fecha'], filtered_df['Valor'], label=f'Lluvia diaria en {month}/{year}', color='green', alpha=0.7)
plt.title(f'Cantidad de lluvia diaria en Pereira durante {month}/{year}', fontsize=16)
plt.xlabel('Fecha', fontsize=12)
plt.ylabel('Lluvia (mm)', fontsize=12)
plt.xticks(rotation=45)
plt.grid(True, linestyle='--', alpha=0.5)
plt.tight_layout()
plt.legend()
plt.show()