# Proyecto del Día 8 - Análisis de Datos Meteorológicos

### Aguirre Mares Juan Antonio

Este proyecto consiste en analizar un conjunto de datos meteorológicos utilizando Python y NumPy. 
El objetivo es aplicar las técnicas de manipulación de arrays, tratamiento de datos faltantes, 
y análisis estadístico básico en un conjunto de datos del mundo real.

## Tareas a Realizar:
1. Crear un DataFrame a partir de los datos del archivo **datos_meteorologicos.csv** provisto en esta lección.
2. Realizar observaciones iniciales de los datos con Pandas.
3. Convertir las columnas del DataFrame en arrays de NumPy.
4. Identificar los datos faltantes en los arrays, y reemplazarlos por el promedio de los valores del respectivo array.
5. Realizar análisis estadísticos básicos. Mínimamente se espera que puedas extraer la siguiente información de tus arrays:
    * La temperatura promedio
    * El total de precipitaciones
    * La máxima humedad registrada
    * La fecha más calurosa
    * La fehca más fría
6. Exportar los resultados a un nuevo archivo CSV.

¡Mucha suerte con tu proyecto!


### 1. Crear un DataFrame a partir de los datos del archivo datos_meteorologicos.csv provisto en esta lección.

In [2]:
import numpy as np
import pandas as pd

In [3]:
df = pd.read_csv(r"C:\Users\Juan Mares\Jupyter notebooks\data\datos_meteorologicos.csv")
df

Unnamed: 0,Fecha,Temperatura,Precipitación,Humedad
0,01/01/2010,17.440675,10.957482,52.384637
1,02/01/2010,25.759468,5.315628,30.633530
2,03/01/2010,20.138169,15.317706,41.496715
3,04/01/2010,17.244159,13.151008,90.684704
4,05/01/2010,11.182740,16.413667,22.116422
...,...,...,...,...
5105,24/12/2023,-9.554692,12.700998,50.094533
5106,25/12/2023,2.837831,5.475686,92.456057
5107,26/12/2023,29.873597,4.615012,18.362847
5108,27/12/2023,,,


### 2. Realizar observaciones iniciales de los datos con Pandas.

In [4]:
df.describe()

Unnamed: 0,Temperatura,Precipitación,Humedad
count,4855.0,4855.0,4855.0
mean,14.889296,9.901604,54.359061
std,14.440466,5.801842,26.096345
min,-9.996378,0.003008,10.01498
25%,2.651777,4.756907,31.866578
50%,14.693274,9.853698,54.254478
75%,27.381451,14.966997,77.0295
max,39.998201,19.999559,99.996582


In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5110 entries, 0 to 5109
Data columns (total 4 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Fecha          5110 non-null   object 
 1   Temperatura    4855 non-null   float64
 2   Precipitación  4855 non-null   float64
 3   Humedad        4855 non-null   float64
dtypes: float64(3), object(1)
memory usage: 159.8+ KB


In [6]:
df.head()

Unnamed: 0,Fecha,Temperatura,Precipitación,Humedad
0,01/01/2010,17.440675,10.957482,52.384637
1,02/01/2010,25.759468,5.315628,30.63353
2,03/01/2010,20.138169,15.317706,41.496715
3,04/01/2010,17.244159,13.151008,90.684704
4,05/01/2010,11.18274,16.413667,22.116422


In [55]:
# Conteo de valores nulos
df.isnull().sum()

Fecha            0
Temperatura      0
Precipitación    0
Humedad          0
dtype: int64

### 3. Convertir las columnas del DataFrame en arrays de NumPy.

In [56]:
# Se convierten las siguientes columnas a arrays independientes
array_temp = df['Temperatura'].to_numpy()
array_temp

array([17.4406752 , 25.75946832, 20.1381688 , ..., 29.87359717,
       14.88929572, 37.30804318])

In [57]:
array_precipitacion = df['Precipitación'].to_numpy()
array_precipitacion

array([10.957482  ,  5.31562765, 15.31770609, ...,  4.61501177,
        9.9016036 ,  7.33051023])

In [58]:
array_humedad = df['Humedad'].to_numpy()
array_humedad

array([52.38463749, 30.63352983, 41.49671458, ..., 18.36284738,
       54.3590608 , 50.64621058])

### 4. Identificar los datos faltantes en los arrays, y reemplazarlos por el promedio de los valores del respectivo array.

In [60]:
# Identificamos datos faltantes o nulos (Devolvemos un array booleano)
temp_nulo = np.isnan(array_temp)

precipitacion_nulo = np.isnan(array_precipitacion)

humedad_nulo = np.isnan(array_humedad)
humedad_nulo

array([False, False, False, ..., False, False, False])

In [61]:
# Identificar la media de cada array
temp_promedio = np.nanmean(array_temp)
temp_promedio

np.float64(14.889295723531713)

In [62]:
precipitacion_promedio = np.nanmean(array_precipitacion)
precipitacion_promedio

np.float64(9.9016035987084)

In [63]:
humedad_promedio = np.nanmean(array_humedad)
humedad_promedio

np.float64(54.35906079674395)

In [64]:
# Verificar si el promedio coincide con cada columna en el dataframe
df.describe()

Unnamed: 0,Temperatura,Precipitación,Humedad
count,5110.0,5110.0,5110.0
mean,14.889296,9.901604,54.359061
std,14.075477,5.655198,25.43675
min,-9.996378,0.003008,10.01498
25%,3.319656,5.034382,33.023146
50%,14.889296,9.901604,54.359061
75%,26.696268,14.726041,75.748173
max,39.998201,19.999559,99.996582


In [66]:
# Rellenar valores faltantes con el promedio (corregido sin nan)
array_temp_limpio = np.where(np.isnan(array_temp), temp_promedio, array_temp)
array_temp_limpio

array([17.4406752 , 25.75946832, 20.1381688 , ..., 29.87359717,
       14.88929572, 37.30804318])

In [69]:
array_precipitacion_limpio = np.where(np.isnan(array_precipitacion), precipitacion_promedio, array_precipitacion)
array_precipitacion_limpio

array([10.957482  ,  5.31562765, 15.31770609, ...,  4.61501177,
        9.9016036 ,  7.33051023])

In [70]:
array_humedad_limpio = np.where(np.isnan(array_humedad), humedad_promedio, array_humedad)
array_humedad_limpio

array([52.38463749, 30.63352983, 41.49671458, ..., 18.36284738,
       54.3590608 , 50.64621058])

### 5. Realizar análisis estadísticos básicos.

##### Temperatura promedio

In [26]:
temp_promedio = np.nanmean(array_temp)
print(f"Temperatura promedio: {temp_promedio}")

Temperatura promedio: 14.889295723531713


##### Total de precipitaciones

In [45]:
precipitaciones_totales = np.nansum(array_precipitacion)
print(f"Total de precipitaciones: {precipitaciones_totales}")

Total de precipitaciones: 50597.19438939993


##### Máxima humedad registrada

In [46]:
maxima_humedad = np.nanmax(array_humedad)
print(f"Maxima humedad registrada: {maxima_humedad}")

Maxima humedad registrada: 99.99658156071747


##### Fecha más calurosa

In [38]:
# Devuelve el índice del valor máximo dentro del array temperaturas.
mas_calor = np.argmax(array_temp)
mas_calor

np.int64(2749)

In [48]:
# Usamos iloc con el índice del valor máximo de temperatura para obtener la fecha correspondiente
registro_mas_caluroso = df.iloc[mas_calor]['Fecha']
print(f"Fecha mas calurosa: {registro_mas_caluroso}")

Fecha mas calurosa: 12/07/2017


##### Fecha más fría

In [41]:
mas_fria = np.argmin(array_temp)
mas_fria

np.int64(3856)

In [49]:
registro_mas_frio = df.iloc[mas_fria]['Fecha']
print(f"Fecha mas fria: {registro_mas_frio}")

Fecha mas fria: 23/07/2020


### 6. Exportar los resultados a un nuevo archivo CSV.

In [52]:
resultados = pd.DataFrame({
    'Metrica': ['Temperatura Promedio', 'Precipitación Total', 'Humedad Máxima', 'Día Más Caluroso', 'Día Más Frío'],
    'Valor': [temp_promedio, precipitaciones_totales, maxima_humedad, registro_mas_caluroso, registro_mas_frio]
})

resultados

Unnamed: 0,Metrica,Valor
0,Temperatura Promedio,14.889296
1,Precipitación Total,50597.194389
2,Humedad Máxima,99.996582
3,Día Más Caluroso,12/07/2017
4,Día Más Frío,23/07/2020


In [72]:
# Exportamos los datos
resultados.to_csv('resultados_proyecto_dia8.csv', index = False)