# Análisis de Datos Meteorológicos

Este proyecto consiste en analizar un conjunto de datos meteorológicos usando `Pandas` y `NumPy`. El objetivo es aplicar las técnicas de manipulación de arrays, tratamiento de datos faltantes y análisis estadístico basico en un conjunto de datos del mundo real.

### Tareas a realizar:
1. Crear un DataFrame a partir de los datos del archivo **datos_meteorologicos.csv**.
2. Realizar observaciones iniciales de los Datos con `Pandas`.
3. Convertir las columnas del DataFrame en arrays de `NumPy`.
4. Identificar los datos faltantes en los arrays y reemplazar esos valores faltantes por el promedio de los valores del respectivo array.
5. Realizar análisis estadísticos básicos. Mínimamente se espera que puedas extraer la siguiente información de tus arrays.
    * La temperatura promedio.
    * El total de precipitaciones.
    * La maxima humedad registrada.
    * La fecha más calurosa.
    * La fecha más fría.
6. Exportar los resultados a un nuevo archivo .CSV.

### Crea un DataFrame a partir del archivo de datos_meteorologicos.csv

In [1]:
import pandas as pd
import numpy as np

ruta = '/_DATA/datos_meteorologicos.csv'
df = pd.read_csv(ruta)
df

Unnamed: 0,Fecha,Temperatura,Precipitación,Humedad
0,01/01/2010,17.440675,10.957482,52.384637
1,02/01/2010,25.759468,5.315628,30.633530
2,03/01/2010,20.138169,15.317706,41.496715
3,04/01/2010,17.244159,13.151008,90.684704
4,05/01/2010,11.182740,16.413667,22.116422
...,...,...,...,...
5105,24/12/2023,-9.554692,12.700998,50.094533
5106,25/12/2023,2.837831,5.475686,92.456057
5107,26/12/2023,29.873597,4.615012,18.362847
5108,27/12/2023,,,


### Realiza observaciones iniciales de los datos con Pandas

In [2]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5110 entries, 0 to 5109
Data columns (total 4 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Fecha          5110 non-null   object 
 1   Temperatura    4855 non-null   float64
 2   Precipitación  4855 non-null   float64
 3   Humedad        4855 non-null   float64
dtypes: float64(3), object(1)
memory usage: 159.8+ KB


In [3]:
df.describe()

Unnamed: 0,Temperatura,Precipitación,Humedad
count,4855.0,4855.0,4855.0
mean,14.889296,9.901604,54.359061
std,14.440466,5.801842,26.096345
min,-9.996378,0.003008,10.01498
25%,2.651777,4.756907,31.866578
50%,14.693274,9.853698,54.254478
75%,27.381451,14.966997,77.0295
max,39.998201,19.999559,99.996582


In [4]:
df.shape

(5110, 4)

### Convertir las columnas de mi DataFrame en arrays

In [5]:
temperatura = df['Temperatura'].to_numpy()
precipitacion = df['Precipitación'].to_numpy()
humedad = df['Humedad'].to_numpy()

temperatura

array([17.4406752 , 25.75946832, 20.1381688 , ..., 29.87359717,
               nan, 37.30804318], shape=(5110,))

### Identificar los datos faltantes en los arrays y reemplazarlos por el promedio de los valores del respectivo array

In [6]:
# Identificar los datos faltantes con isnan()
temp_nulo = np.isnan(temperatura)
precip_nulo = np.isnan(precipitacion)
humed_nulo = np.isnan(humedad)

temp_nulo

array([False, False, False, ..., False,  True, False], shape=(5110,))

In [7]:
# Identificar el promedio de cada array
temp_promedio = np.nanmean(temperatura)
precip_promedio = np.nanmean(precipitacion)
humed_promedio = np.nanmean(humedad)

# Reemplazar los valores nulos con el promedio del array
temperatura[temp_nulo] = temp_promedio
precipitacion[precip_nulo] = precip_promedio
humedad[humed_nulo] = humed_promedio

temperatura

array([17.4406752 , 25.75946832, 20.1381688 , ..., 29.87359717,
       14.88929572, 37.30804318], shape=(5110,))

In [16]:
# Metodo alternativo para lograr el mismo resultado
# temp_corregido = np.where(np.isnan(temperatura), temp_promedio, temperatura)
# temp_corregido

### Realizar analisis estadisticos basicos

#### Temperatura promedio

In [8]:
temp_promedio = np.nanmean(temperatura)
temp_promedio

np.float64(14.889295723531713)

#### Total de precipitaciones

In [9]:
precipitacion_total = np.sum(precipitacion)
precipitacion_total

np.float64(50597.19438939993)

#### Maxima humedad registrada

In [10]:
humedad_maxima = np.max(humedad)
humedad_maxima

np.float64(99.99658156071747)

#### Fecha mas calurosa

In [11]:
# Identificar la temperatura mas alta
mas_calor = np.max(temperatura)
mas_calor

np.float64(39.99820092713012)

In [12]:
# Registro correspondiente a la temperatura mas alta
registro_mas_caluroso = np.where(temperatura == mas_calor)[0][0]
registro_mas_caluroso

np.int64(2749)

In [13]:
# Fecha correspondiente al registro mas caluroso
fecha_mas_calurosa = df.iloc[registro_mas_caluroso]['Fecha']
fecha_mas_calurosa

'12/07/2017'

#### Fecha mas fria

In [15]:
fecha_mas_fria = df.iloc[np.where(temperatura == np.min(temperatura))[0][0]]['Fecha']
fecha_mas_fria

'23/07/2020'

#### Exportar los resultados a un nuevo archivo csv

In [17]:
resultados = pd.DataFrame({
    'Metrica': ['Temperatura promedio', 'Precipitación Total', 'Maxima humedad', 'Dia mas caluroso', 'Dia mas frio'],
    'Valor': [temp_promedio, precipitacion_total, humedad_maxima, fecha_mas_calurosa, fecha_mas_fria]
})

# Guardar los resultados en un nuevo archivo csv
resultados.to_csv('/_DATA/Resultados_Meteorologicos.csv', index=False)