# Proyecto del Día 8 - Análisis de Datos Meteorológicos

Este proyecto consiste en analizar un conjunto de datos meteorológicos utilizando Python y NumPy. 
El objetivo es aplicar las técnicas de manipulación de arrays, tratamiento de datos faltantes, 
y análisis estadístico básico en un conjunto de datos del mundo real.

## Tareas a Realizar:
1. Crear un DataFrame a partir de los datos del archivo **datos_meteorologicos.csv** provisto en esta lección.
2. Realizar observaciones iniciales de los datos con Pandas.
3. Convertir las columnas del DataFrame en arrays de NumPy.
4. Identificar los datos faltantes en los arrays, y reemplazarlos por el promedio de los valores del respectivo array.
5. Realizar análisis estadísticos básicos. Mínimamente se espera que puedas extraer la siguiente información de tus arrays:
    * La temperatura promedio
    * El total de precipitaciones
    * La máxima humedad registrada
    * La fecha más calurosa
    * La fehca más fría
6. Exportar los resultados a un nuevo archivo CSV.

¡Mucha suerte con tu proyecto!


### 1. Crear un DataFrame a partir de los datos del archivo datos_meteorologicos.csv provisto en esta lección.

In [71]:
import pandas as pd

df = pd.read_csv("C:/Users/Pablo/Documents/Cursos UDEMY/Curso_Python-DS-ML/Curso_Python-DS-ML/Día8-Numpy/datos_meteorologicos.csv")

### 2. Realizar observaciones iniciales de los datos con Pandas.

In [72]:
df.head(5)

Unnamed: 0,Fecha,Temperatura,Precipitación,Humedad
0,01/01/2010,17.440675,10.957482,52.384637
1,02/01/2010,25.759468,5.315628,30.63353
2,03/01/2010,20.138169,15.317706,41.496715
3,04/01/2010,17.244159,13.151008,90.684704
4,05/01/2010,11.18274,16.413667,22.116422


In [73]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5110 entries, 0 to 5109
Data columns (total 4 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Fecha          5110 non-null   object 
 1   Temperatura    4855 non-null   float64
 2   Precipitación  4855 non-null   float64
 3   Humedad        4855 non-null   float64
dtypes: float64(3), object(1)
memory usage: 159.8+ KB


In [74]:
df['Fecha'] = pd.to_datetime(df['Fecha'], format='%d/%m/%Y')
df

Unnamed: 0,Fecha,Temperatura,Precipitación,Humedad
0,2010-01-01,17.440675,10.957482,52.384637
1,2010-01-02,25.759468,5.315628,30.633530
2,2010-01-03,20.138169,15.317706,41.496715
3,2010-01-04,17.244159,13.151008,90.684704
4,2010-01-05,11.182740,16.413667,22.116422
...,...,...,...,...
5105,2023-12-24,-9.554692,12.700998,50.094533
5106,2023-12-25,2.837831,5.475686,92.456057
5107,2023-12-26,29.873597,4.615012,18.362847
5108,2023-12-27,,,


### 3. Convertir las columnas del DataFrame en arrays de NumPy.

In [76]:
import numpy as np

df2 = df[df.columns].fillna(df[df.columns].mean())
df2.groupby(df['Fecha'].dt.to_period('Y'))['Temperatura'].sum()
df2.info()
#lambda : x df.columns

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5110 entries, 0 to 5109
Data columns (total 4 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   Fecha          5110 non-null   datetime64[ns]
 1   Temperatura    5110 non-null   float64       
 2   Precipitación  5110 non-null   float64       
 3   Humedad        5110 non-null   float64       
dtypes: datetime64[ns](1), float64(3)
memory usage: 159.8 KB


  df2 = df[df.columns].fillna(df[df.columns].mean())


In [77]:
df3 = df
df3.columns

Index(['Fecha', 'Temperatura', 'Precipitación', 'Humedad'], dtype='object')

In [78]:
df3[['Temperatura', 'Precipitación', 'Humedad']] = df3[['Temperatura', 'Precipitación', 'Humedad']].apply(lambda x: x.fillna(x.mean()))
df3

Unnamed: 0,Fecha,Temperatura,Precipitación,Humedad
0,2010-01-01,17.440675,10.957482,52.384637
1,2010-01-02,25.759468,5.315628,30.633530
2,2010-01-03,20.138169,15.317706,41.496715
3,2010-01-04,17.244159,13.151008,90.684704
4,2010-01-05,11.182740,16.413667,22.116422
...,...,...,...,...
5105,2023-12-24,-9.554692,12.700998,50.094533
5106,2023-12-25,2.837831,5.475686,92.456057
5107,2023-12-26,29.873597,4.615012,18.362847
5108,2023-12-27,14.889296,9.901604,54.359061


In [79]:
temperatura = df['Temperatura'].to_numpy()
precipitacion = df['Temperatura'].to_numpy()
humedad = df['Temperatura'].to_numpy()
fecha = df['Fecha'].to_numpy()

### 4. Identificar los datos faltantes en los arrays, y reemplazarlos por el promedio de los valores del respectivo array.

In [80]:
# Identificar datos faltantes con isnan()
temp_nulo = np.isnan(temperatura)
precip_nulo = np.isnan(precipitacion)
humed_nulo = np.isnan(humedad)

temp_nulo

array([False, False, False, ..., False, False, False])

In [81]:
# Identificar el promedio de cada array
temp_promedio = np.nanmean(temperatura)
precip_promedio = np.nanmean(precipitacion)
humed_promedio = np.nanmean(humedad)

# Reemplazar los valores nulos con el promedio del array
temperatura[temp_nulo] = temp_promedio
precipitacion[precip_nulo] = precip_promedio
humedad[humed_nulo] = humed_promedio

temperatura

array([17.4406752 , 25.75946832, 20.1381688 , ..., 29.87359717,
       14.88929572, 37.30804318])

In [82]:
# Abordaje alternativo para lograr el mismo resultado
temp_corregido = np.where(np.isnan(temperatura), temp_promedio, temperatura)

precipitacion_corregido = np.where(np.isnan(precipitacion), precip_promedio, precipitacion)

humedad_corregido = np.where(np.isnan(humedad), humed_promedio, humedad)

In [83]:
#temp = np.where(np.isnan(temperatura), np.nanmean(temperatura), temperatura)
#pre = np.where(np.isnan(precipitacion), np.nanmean(precipitacion), precipitacion)
#hum = np.where(np.isnan(humedad), np.nanmean(humedad), humedad)

### 5. Realizar análisis estadísticos básicos.

##### Temperatura promedio

In [84]:
df2['Temperatura'].mean()

14.889295723531713

In [85]:
temperatura.mean()

14.889295723531713

##### Total de precipitaciones

In [86]:
df2['Precipitación'].sum()

50597.19438939993

In [89]:
precipitation_total = np.sum(precipitacion_corregido)
precipitation_total

76084.30114724705

##### Máxima humedad registrada

In [103]:
df2['Humedad'].max()

99.99658156071747

In [90]:
humedad_maxima = np.max(humedad_corregido)
humedad_maxima

39.99820092713012

##### Fecha más calurosa

In [91]:
mas = df2['Temperatura'].sort_values(ascending=False).max()
df2[df2['Temperatura'] == mas]['Fecha']

2749   2017-07-12
Name: Fecha, dtype: datetime64[ns]

In [92]:
# Identificar la temperatura más alta
mas_calor = np.max(temperatura)
mas_calor

39.99820092713012

In [93]:
# Registro correspondiente a la temperatura más alta
registro_mas_caluroso = np.where(temperatura == mas_calor)[0][0]
registro_mas_caluroso

2749

In [94]:
# Fecha correspondiente al registro más caluroso
fecha_mas_calurosa = df.iloc[registro_mas_caluroso]['Fecha']
fecha_mas_calurosa

Timestamp('2017-07-12 00:00:00')

##### Fehca más fría

In [95]:
menos = df2['Temperatura'].sort_values(ascending=False).min()
df2[df2['Temperatura'] == menos]['Fecha']

3856   2020-07-23
Name: Fecha, dtype: datetime64[ns]

In [96]:
fecha_mas_fria = df.iloc[np.where(temperatura == np.min(temperatura))[0][0]]['Fecha']
fecha_mas_fria

Timestamp('2020-07-23 00:00:00')

### 6. Exportar los resultados a un nuevo archivo CSV.

In [97]:
# Crear un DataFrame con los resultados
resultados = pd.DataFrame({
    'Metrica': ['Temperatura Promedio', 'Precipitación Total', 'Humedad Máxima', 'Día Más Caluroso', 'Día Más Frío'],
    'Valor': [temp_promedio, precipitation_total, humedad_maxima, fecha_mas_calurosa, fecha_mas_fria]
})

# Guardar los resultados en un nuevo archivo CSV
resultados.to_csv('Resultados análisis meteorológico.csv', index=False)
