# Proyecto del Día 8 - Análisis de Datos Meteorológicos

Este proyecto consiste en analizar un conjunto de datos meteorológicos utilizando Python y NumPy. 
El objetivo es aplicar las técnicas de manipulación de arrays, tratamiento de datos faltantes, 
y análisis estadístico básico en un conjunto de datos del mundo real.

## Tareas a Realizar:
1. Crear un DataFrame a partir de los datos del archivo **datos_meteorologicos.csv** provisto en esta lección.
2. Realizar observaciones iniciales de los datos con Pandas.
3. Convertir las columnas del DataFrame en arrays de NumPy.
4. Identificar los datos faltantes en los arrays, y reemplazarlos por el promedio de los valores del respectivo array.
5. Realizar análisis estadísticos básicos. Mínimamente se espera que puedas extraer la siguiente información de tus arrays:
    * La temperatura promedio
    * El total de precipitaciones
    * La máxima humedad registrada
    * La fecha más calurosa
    * La fehca más fría
6. Exportar los resultados a un nuevo archivo CSV.

¡Mucha suerte con tu proyecto!


### 1. Crear un DataFrame a partir de los datos del archivo datos_meteorologicos.csv provisto en esta lección.

In [1]:
import pandas as pd
import numpy as np

In [2]:
ruta = "datos_meteorologicos.csv"
df_datos_clima = pd.read_csv(ruta)
df_datos_clima

Unnamed: 0,Fecha,Temperatura,Precipitación,Humedad
0,01/01/2010,17.440675,10.957482,52.384637
1,02/01/2010,25.759468,5.315628,30.633530
2,03/01/2010,20.138169,15.317706,41.496715
3,04/01/2010,17.244159,13.151008,90.684704
4,05/01/2010,11.182740,16.413667,22.116422
...,...,...,...,...
5105,24/12/2023,-9.554692,12.700998,50.094533
5106,25/12/2023,2.837831,5.475686,92.456057
5107,26/12/2023,29.873597,4.615012,18.362847
5108,27/12/2023,,,


### 2. Realizar observaciones iniciales de los datos con Pandas.

In [3]:
df_datos_clima.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5110 entries, 0 to 5109
Data columns (total 4 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Fecha          5110 non-null   object 
 1   Temperatura    4855 non-null   float64
 2   Precipitación  4855 non-null   float64
 3   Humedad        4855 non-null   float64
dtypes: float64(3), object(1)
memory usage: 159.8+ KB


In [4]:
valor_nuevo = {
    "Temperatura" : df_datos_clima['Temperatura'].mean(),
    "Precipitación" : df_datos_clima['Precipitación'].mean(),
    "Humedad" : df_datos_clima['Humedad'].mean()
}
df_datos_clima = df_datos_clima.fillna(valor_nuevo)
df_datos_clima

Unnamed: 0,Fecha,Temperatura,Precipitación,Humedad
0,01/01/2010,17.440675,10.957482,52.384637
1,02/01/2010,25.759468,5.315628,30.633530
2,03/01/2010,20.138169,15.317706,41.496715
3,04/01/2010,17.244159,13.151008,90.684704
4,05/01/2010,11.182740,16.413667,22.116422
...,...,...,...,...
5105,24/12/2023,-9.554692,12.700998,50.094533
5106,25/12/2023,2.837831,5.475686,92.456057
5107,26/12/2023,29.873597,4.615012,18.362847
5108,27/12/2023,14.889296,9.901604,54.359061


In [5]:
df_datos_clima.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5110 entries, 0 to 5109
Data columns (total 4 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Fecha          5110 non-null   object 
 1   Temperatura    5110 non-null   float64
 2   Precipitación  5110 non-null   float64
 3   Humedad        5110 non-null   float64
dtypes: float64(3), object(1)
memory usage: 159.8+ KB


In [54]:
df_datos_clima.describe()

Unnamed: 0,Temperatura,Precipitación,Humedad
count,5110.0,5110.0,5110.0
mean,14.889296,9.901604,54.359061
std,14.075477,5.655198,25.43675
min,-9.996378,0.003008,10.01498
25%,3.319656,5.034382,33.023146
50%,14.889296,9.901604,54.359061
75%,26.696268,14.726041,75.748173
max,39.998201,19.999559,99.996582


In [6]:
#Temperatura mas alta
df_temp = df_datos_clima.sort_values("Temperatura").head(5)
df_temp

Unnamed: 0,Fecha,Temperatura,Precipitación,Humedad
3856,23/07/2020,-9.996378,6.491993,37.880461
2055,18/08/2015,-9.996315,15.452998,37.960785
1633,22/06/2014,-9.981633,14.353179,68.11411
821,01/04/2012,-9.972702,4.856865,40.046371
1070,06/12/2012,-9.966789,14.330536,99.295724


In [7]:
#Humedad mas alta
df_hume = df_datos_clima.sort_values("Humedad").head(5)
df_hume

Unnamed: 0,Fecha,Temperatura,Precipitación,Humedad
4423,10/02/2022,-5.327727,12.236797,10.01498
417,22/02/2011,-9.398189,15.702724,10.018625
2234,13/02/2016,14.589202,9.294113,10.030678
2806,07/09/2017,3.325232,18.101175,10.038121
3988,02/12/2020,8.817073,2.41015,10.056986


In [8]:
#Precipitacion mas alta
df_pre = df_datos_clima.sort_values("Precipitación").head(5)
df_pre

Unnamed: 0,Fecha,Temperatura,Precipitación,Humedad
2538,13/12/2016,31.696733,0.003008,77.76183
3513,15/08/2019,-9.389474,0.005077,95.211855
2797,29/08/2017,26.703784,0.006131,63.126878
400,05/02/2011,10.062975,0.009819,14.165083
728,30/12/2011,27.964123,0.011392,70.081705


### 3. Convertir las columnas del DataFrame en arrays de NumPy.

In [9]:
np_fechas = np.array(df_datos_clima["Fecha"])
np_fechas

array(['01/01/2010', '02/01/2010', '03/01/2010', ..., '26/12/2023',
       '27/12/2023', '28/12/2023'], dtype=object)

In [10]:
np_temperatura = np.array(df_datos_clima["Temperatura"])
np_temperatura

array([17.4406752 , 25.75946832, 20.1381688 , ..., 29.87359717,
       14.88929572, 37.30804318])

In [11]:
np_humedad = np.array(df_datos_clima["Humedad"])
np_humedad

array([52.38463749, 30.63352983, 41.49671458, ..., 18.36284738,
       54.3590608 , 50.64621058])

In [12]:
np_precipitacion = np.array(df_datos_clima["Precipitación"])
np_precipitacion

array([10.957482  ,  5.31562765, 15.31770609, ...,  4.61501177,
        9.9016036 ,  7.33051023])

### 4. Identificar los datos faltantes en los arrays, y reemplazarlos por el promedio de los valores del respectivo array.

In [55]:
#Valores Nulos en los arrays
nan_temp = np.isnan(np_temperatura)
nan_hum = np.isnan(np_humedad)
nan_pre = np.isnan(np_precipitacion)

In [58]:
#Promedios sin contar valores nan
prom_temp = np.nanmean(np_temperatura)
prom_hum = np.nanmean(np_humedad)
prom_pre = np.nanmean(np_precipitacion)

#Reemplazo nans
np_temperatura[nan_temp] = prom_temp
np_temperatura[nan_hum] = prom_hum
np_temperatura[nan_pre] = prom_pre

### 5. Realizar análisis estadísticos básicos.

##### Temperatura promedio

In [17]:
print(f"Temperatura promedio {int(np_temperatura.mean())}°C")

Temperatura promedio 14°C


##### Total de precipitaciones

In [21]:
print(f"Precipitacion total {round(np_precipitacion.sum(), 2)} mm")

Precipitacion total 50597.19 mm


##### Máxima humedad registrada

In [28]:
print(f"Humedad maxima {round(np_humedad.max())}")

Humedad maxima 100


##### Fecha más calurosa

In [51]:
temp_max = df_datos_clima['Temperatura'].max()
dia_caluroso = df_datos_clima[df_datos_clima['Temperatura'] == temp_max]
print(f"El dia {dia_caluroso.iloc[0,0]} fue el dia mas calurso con {round(dia_caluroso.iloc[0,1], 2)}°C")

El dia 12/07/2017 fue el dia mas calurso con 40.0°C


##### Fehca más fría

In [50]:
temp_min = df_datos_clima['Temperatura'].min()
dia_frio = df_datos_clima[df_datos_clima['Temperatura'] == temp_min]
print(f"El dia {dia_frio.iloc[0,0]} fue el dia mas calurso con {round(dia_frio.iloc[0,1], 2)}°C")

El dia 23/07/2020 fue el dia mas calurso con -10.0°C


### 6. Exportar los resultados a un nuevo archivo CSV.

In [60]:
df_exportar = pd.DataFrame({'Temperatura promedio': np_temperatura.mean(), 'Total Precipitaciones' : np_precipitacion.sum(), 'Humedad Maxima' : np_humedad.max(), "Temperatura maxima" : [dia_caluroso.iloc[0,0], dia_caluroso.iloc[0,1]], "Temperatura minima" : [dia_frio.iloc[0,0], dia_frio.iloc[0,1]]})
df_exportar.to_csv("recopilaciones.csv", index= False)