# Proyecto del Día - Análisis de Datos Meteorológicos

Este proyecto consiste en analizar un conjunto de datos meteorológicos utilizando Python y NumPy. El objetivo es aplicar las técnicas de manipulación de arrays, tratamiento de datos faltantes, y análisis estadístico básico en un conjunto de datos del mundo real.

### Tareas a Realizar:

1. Crear un DataFrame a partir de los datos del archivo `datos_meteorologicos.csv` provisto en esta lección.

2. Realizar observaciones iniciales de los datos con Pandas.

3. Convertir las columnas del DataFrame en arrays de NumPy.

4. Identificar los datos faltantes en los arrays, y reemplazarlos por el promedio de los valores del respectivo array.

5. Realizar análisis estadísticos básicos. Mínimamente se espera que puedas extraer la siguiente información de tus arrays:
    - La temperatura promedio
    - El total de precipitaciones
    - La máxima humedad registrada
    - La fecha más calurosa
    - La fecha más fría

6. Exportar los resultados a un nuevo archivo CSV.

##### 0. Importar librerías.

In [1]:
import numpy as np
import pandas as pd

##### 1. Crear un DataFrame a partir de los datos del archivo `datos_meteorologicos.csv` provisto en esta lección.

In [2]:
df: pd.DataFrame = pd.read_csv('./data/datos_meteorologicos.csv')

print(df)

           Fecha  Temperatura  Precipitación    Humedad
0     01/01/2010    17.440675      10.957482  52.384637
1     02/01/2010    25.759468       5.315628  30.633530
2     03/01/2010    20.138169      15.317706  41.496715
3     04/01/2010    17.244159      13.151008  90.684704
4     05/01/2010    11.182740      16.413667  22.116422
...          ...          ...            ...        ...
5105  24/12/2023    -9.554692      12.700998  50.094533
5106  25/12/2023     2.837831       5.475686  92.456057
5107  26/12/2023    29.873597       4.615012  18.362847
5108  27/12/2023          NaN            NaN        NaN
5109  28/12/2023    37.308043       7.330510  50.646211

[5110 rows x 4 columns]


##### 2. Realizar observaciones iniciales de los datos con Pandas.

In [3]:
# Obtener información general sobre el DataFrame
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5110 entries, 0 to 5109
Data columns (total 4 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Fecha          5110 non-null   object 
 1   Temperatura    4855 non-null   float64
 2   Precipitación  4855 non-null   float64
 3   Humedad        4855 non-null   float64
dtypes: float64(3), object(1)
memory usage: 159.8+ KB
None


In [4]:
# Obtener una descripción estadística del DataFrame (con los datos que hay)
print(df.describe())

       Temperatura  Precipitación      Humedad
count  4855.000000    4855.000000  4855.000000
mean     14.889296       9.901604    54.359061
std      14.440466       5.801842    26.096345
min      -9.996378       0.003008    10.014980
25%       2.651777       4.756907    31.866578
50%      14.693274       9.853698    54.254478
75%      27.381451      14.966997    77.029500
max      39.998201      19.999559    99.996582


In [5]:
# Obtener la cantidad de celdas nulas en el DataFrame
print(df.isna().sum())

Fecha              0
Temperatura      255
Precipitación    255
Humedad          255
dtype: int64


In [6]:
# Obtener las filas donde hay nulos
null_rows: pd.DataFrame = df[df.isna().any(axis=1)]

print(null_rows)

           Fecha  Temperatura  Precipitación  Humedad
7     08/01/2010          NaN            NaN      NaN
20    21/01/2010          NaN            NaN      NaN
39    09/02/2010          NaN            NaN      NaN
41    11/02/2010          NaN            NaN      NaN
84    26/03/2010          NaN            NaN      NaN
...          ...          ...            ...      ...
5011  21/09/2023          NaN            NaN      NaN
5034  14/10/2023          NaN            NaN      NaN
5063  12/11/2023          NaN            NaN      NaN
5088  07/12/2023          NaN            NaN      NaN
5108  27/12/2023          NaN            NaN      NaN

[255 rows x 4 columns]


In [7]:
# Obtener los índices de las filas donde hay nulos
null_indexes: pd.Index = df[df.isna().any(axis=1)].index

print(null_indexes.to_list())

[7, 20, 39, 41, 84, 85, 146, 151, 154, 188, 195, 260, 269, 290, 366, 394, 397, 412, 418, 439, 449, 487, 497, 518, 541, 543, 574, 593, 644, 689, 698, 741, 745, 752, 759, 815, 859, 870, 873, 876, 888, 921, 955, 992, 1007, 1037, 1046, 1056, 1087, 1106, 1113, 1144, 1147, 1187, 1193, 1201, 1213, 1225, 1246, 1289, 1309, 1310, 1312, 1316, 1355, 1388, 1402, 1420, 1444, 1483, 1534, 1538, 1615, 1617, 1630, 1697, 1700, 1704, 1710, 1783, 1790, 1818, 1820, 1825, 1835, 1842, 1848, 1919, 1921, 1941, 1971, 1995, 2032, 2056, 2084, 2093, 2121, 2159, 2174, 2182, 2192, 2210, 2220, 2224, 2233, 2272, 2283, 2316, 2325, 2329, 2352, 2375, 2376, 2393, 2407, 2457, 2482, 2491, 2513, 2515, 2532, 2535, 2541, 2557, 2589, 2594, 2634, 2653, 2674, 2675, 2690, 2720, 2731, 2770, 2781, 2816, 2820, 2822, 2834, 2842, 2862, 2902, 2906, 2912, 2966, 2979, 3003, 3032, 3037, 3041, 3048, 3068, 3070, 3075, 3100, 3123, 3139, 3147, 3156, 3166, 3192, 3211, 3243, 3256, 3261, 3272, 3282, 3312, 3365, 3377, 3426, 3451, 3498, 3521, 3524, 

In [8]:
# Ver un elemento de la columna 'Fecha' y su tipo de dato
print(df['Fecha'][0])
print(type(df['Fecha'][0]))

01/01/2010
<class 'str'>


##### 3. Convertir las columnas del DataFrame en arrays de NumPy.

In [9]:
# Primero, cambiar el tipo de dato de la columna 'Fecha' al correcto
df_fecha: pd.Series = df['Fecha']
df_fecha = pd.to_datetime(df['Fecha'], format='%d/%m/%Y')
print(df_fecha[0])
print(type(df_fecha[0]))

2010-01-01 00:00:00
<class 'pandas._libs.tslibs.timestamps.Timestamp'>


In [10]:
# Fecha
fecha: np.ndarray = df_fecha.to_numpy()

print(fecha)

['2010-01-01T00:00:00.000000000' '2010-01-02T00:00:00.000000000'
 '2010-01-03T00:00:00.000000000' ... '2023-12-26T00:00:00.000000000'
 '2023-12-27T00:00:00.000000000' '2023-12-28T00:00:00.000000000']


In [11]:
# Temperatura
temperatura: np.ndarray = df['Temperatura'].to_numpy()

print(temperatura)

[17.4406752  25.75946832 20.1381688  ... 29.87359717         nan
 37.30804318]


In [12]:
# Precipitación
precipitacion: np.ndarray = df['Precipitación'].to_numpy()

print(precipitacion)

[10.957482    5.31562765 15.31770609 ...  4.61501177         nan
  7.33051023]


In [13]:
# Humedad
humedad: np.ndarray = df['Humedad'].to_numpy()

print(humedad)

[52.38463749 30.63352983 41.49671458 ... 18.36284738         nan
 50.64621058]


### 4. Identificar los datos faltantes en los arrays, y reemplazarlos por el promedio de los valores del respectivo array.

In [14]:
"""
Reemplazar los valores nulos en el array de 'Temperatura' por el
promedio de los valores no nulos
"""
media_temperatura = np.nanmean(temperatura)
print(f'{media_temperatura=}')
temperatura = np.where(np.isnan(temperatura), media_temperatura, temperatura)

print(temperatura)
print(f'Cantidad de valores nulos: {np.sum(np.isnan(temperatura).tolist())}')


media_temperatura=14.889295723531715
[17.4406752  25.75946832 20.1381688  ... 29.87359717 14.88929572
 37.30804318]
Cantidad de valores nulos: 0


In [15]:
"""
Reemplazar los valores nulos en el array de 'Precipitación' por el
promedio de los valores no nulos
"""
media_precipitacion = np.nanmean(precipitacion)
print(f'{media_precipitacion=}')
precipitacion = np.where(
    np.isnan(precipitacion),
    media_precipitacion,
    precipitacion
)

print(precipitacion)
print(f'Cantidad de valores nulos: {np.sum(np.isnan(precipitacion).tolist())}')

media_precipitacion=9.9016035987084
[10.957482    5.31562765 15.31770609 ...  4.61501177  9.9016036
  7.33051023]
Cantidad de valores nulos: 0


In [16]:
"""
Reemplazar los valores nulos en el array de 'Humedad' por el
promedio de los valores no nulos
"""
media_humedad = np.nanmean(humedad)
print(f'{media_humedad=}')
humedad = np.where(np.isnan(humedad), media_humedad, humedad)

print(humedad)
print(f'Cantidad de valores nulos: {np.sum(np.isnan(humedad).tolist())}')

media_humedad=54.35906079674394
[52.38463749 30.63352983 41.49671458 ... 18.36284738 54.3590608
 50.64621058]
Cantidad de valores nulos: 0


##### 5. Realizar análisis estadísticos básicos.

In [17]:
"""
Primero que todo, crear un nuevo dataframe con las columnas 'Fecha',
'Temperatura', 'Precipitación', 'Humedad'
"""
df_corregido: pd.DataFrame = pd.DataFrame({
    'Fecha': fecha,
    'Temperatura': temperatura,
    'Precipitación': precipitacion,
    'Humedad': humedad
})

print(df_corregido)

          Fecha  Temperatura  Precipitación    Humedad
0    2010-01-01    17.440675      10.957482  52.384637
1    2010-01-02    25.759468       5.315628  30.633530
2    2010-01-03    20.138169      15.317706  41.496715
3    2010-01-04    17.244159      13.151008  90.684704
4    2010-01-05    11.182740      16.413667  22.116422
...         ...          ...            ...        ...
5105 2023-12-24    -9.554692      12.700998  50.094533
5106 2023-12-25     2.837831       5.475686  92.456057
5107 2023-12-26    29.873597       4.615012  18.362847
5108 2023-12-27    14.889296       9.901604  54.359061
5109 2023-12-28    37.308043       7.330510  50.646211

[5110 rows x 4 columns]


In [18]:
# Obtener info del nuevo dataframe
print(df_corregido.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5110 entries, 0 to 5109
Data columns (total 4 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   Fecha          5110 non-null   datetime64[ns]
 1   Temperatura    5110 non-null   float64       
 2   Precipitación  5110 non-null   float64       
 3   Humedad        5110 non-null   float64       
dtypes: datetime64[ns](1), float64(3)
memory usage: 159.8 KB
None


In [19]:
# Obtener la temperatura promedio general (se asume °C)
temperatura_promedio: np.floating = np.mean(temperatura)

print(
    'La temperatura promedio entre los años 2010 y 2023 es: '
    f'{temperatura_promedio:,.2f} °C'
)

La temperatura promedio entre los años 2010 y 2023 es: 14.89 °C


In [20]:
# Obtener el total de precipitaciones (se asume mm)
precipitaciones_totales: np.floating = np.sum(precipitacion)

print(
    'Las precipitaciones totales entre los años 2010 y 2023 son: '
    f'{precipitaciones_totales:,.2f} mm'
)

Las precipitaciones totales entre los años 2010 y 2023 son: 50,597.19 mm


In [21]:
# Obtener la máxima humedad registrada (asumiendo % humedad relativa)
maxima_humedad: np.floating = np.max(humedad)

print(
    'La humedad relativa máxima en el período 2010 - 2023 fue: '
    f'{maxima_humedad:,.2f} %'
)

La humedad relativa máxima en el período 2010 - 2023 fue: 100.00 %


In [22]:
# Obtener la fecha más calurosa
indice_max_temperatura = df_corregido['Temperatura'].idxmax()
fecha_mas_calurosa = df_corregido['Fecha'][indice_max_temperatura]
print(
    f'La fecha más calurosa fue el {fecha_mas_calurosa.strftime('%d/%m/%Y')}'
)

La fecha más calurosa fue el 12/07/2017


In [23]:
# Obtener la fecha más fría
indice_min_temperatura = df_corregido['Temperatura'].idxmin()
fecha_mas_fria = df_corregido['Fecha'][indice_min_temperatura]
print(
    f'La fecha más fria fue el {fecha_mas_fria.strftime('%d/%m/%Y')}'
)

La fecha más fria fue el 23/07/2020


##### 6. Exportar los resultados a un nuevo archivo CSV.

In [24]:
# Guardar resultados en un archivo CSV
save_path: str = './data/Proyecto_Analisis_Meteorologia.csv'
df_corregido.to_csv(save_path, index=False)
print(
    'Se ha guardado el archivo con el DataFrame completo en la ruta: '
    + save_path
)

Se ha guardado el archivo con el DataFrame completo en la ruta: ./data/Proyecto_Analisis_Meteorologia.csv


In [25]:
# Guardar sólo los resultados
save_path_results: str = './data/Proyecto_Analisis_Meteorologia_Resultados.csv'
results_df: pd.DataFrame = pd.DataFrame({
    'Métrica': ['Temperatura promedio', 'Precipitación total', 'Humedad máxima', 'Fecha más calurosa', 'Fecha más fria'],
    'Valor': [temperatura_promedio, precipitaciones_totales, maxima_humedad, fecha_mas_calurosa, fecha_mas_fria]
})
results_df.to_csv(save_path_results, index=False)
print(
    'Se ha guardado el archivo con el DataFrame completo en la ruta: '
    + save_path_results
)

Se ha guardado el archivo con el DataFrame completo en la ruta: ./data/Proyecto_Analisis_Meteorologia_Resultados.csv
