# Proyecto del Día 8 - Análisis de Datos Meteorológicos

Este proyecto consiste en analizar un conjunto de datos meteorológicos utilizando Python y NumPy. 
El objetivo es aplicar las técnicas de manipulación de arrays, tratamiento de datos faltantes, 
y análisis estadístico básico en un conjunto de datos del mundo real.

## Tareas a Realizar:
1. Crear un DataFrame a partir de los datos del archivo **datos_meteorologicos.csv** provisto en esta lección.
2. Realizar observaciones iniciales de los datos con Pandas.
3. Convertir las columnas del DataFrame en arrays de NumPy.
4. Identificar los datos faltantes en los arrays, y reemplazarlos por el promedio de los valores del respectivo array.
5. Realizar análisis estadísticos básicos. Mínimamente se espera que puedas extraer la siguiente información de tus arrays:
    * La temperatura promedio
    * El total de precipitaciones
    * La máxima humedad registrada
    * La fecha más calurosa
    * La fehca más fría
6. Exportar los resultados a un nuevo archivo CSV.

¡Mucha suerte con tu proyecto!


### 1. Crear un DataFrame a partir de los datos del archivo datos_meteorologicos.csv provisto en esta lección.

In [126]:
import pandas as pd

df = pd.read_csv("C:/Users/Pablo/Documents/Cursos UDEMY/Curso_Python-DS-ML/Curso_Python-DS-ML/Día8-Numpy/datos_meteorologicos.csv")

### 2. Realizar observaciones iniciales de los datos con Pandas.

In [127]:
df.head(5)

Unnamed: 0,Fecha,Temperatura,Precipitación,Humedad
0,01/01/2010,17.440675,10.957482,52.384637
1,02/01/2010,25.759468,5.315628,30.63353
2,03/01/2010,20.138169,15.317706,41.496715
3,04/01/2010,17.244159,13.151008,90.684704
4,05/01/2010,11.18274,16.413667,22.116422


In [128]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5110 entries, 0 to 5109
Data columns (total 4 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Fecha          5110 non-null   object 
 1   Temperatura    4855 non-null   float64
 2   Precipitación  4855 non-null   float64
 3   Humedad        4855 non-null   float64
dtypes: float64(3), object(1)
memory usage: 159.8+ KB


In [129]:
df['Fecha'] = pd.to_datetime(df['Fecha'], format='%d/%m/%Y')
df

Unnamed: 0,Fecha,Temperatura,Precipitación,Humedad
0,2010-01-01,17.440675,10.957482,52.384637
1,2010-01-02,25.759468,5.315628,30.633530
2,2010-01-03,20.138169,15.317706,41.496715
3,2010-01-04,17.244159,13.151008,90.684704
4,2010-01-05,11.182740,16.413667,22.116422
...,...,...,...,...
5105,2023-12-24,-9.554692,12.700998,50.094533
5106,2023-12-25,2.837831,5.475686,92.456057
5107,2023-12-26,29.873597,4.615012,18.362847
5108,2023-12-27,,,


In [130]:
df2.groupby(df['Fecha'].dt.to_period('Y'))['Temperatura'].sum()

Fecha
2010    5309.517188
2011    5429.244457
2012    5448.521169
2013    5962.748726
2014    5770.608490
2015    5448.404098
2016    5644.073208
2017    5560.271071
2018    5459.834163
2019    5377.018512
2020    4882.765499
2021    5539.118509
2022    5117.657524
2023    5134.518532
Freq: A-DEC, Name: Temperatura, dtype: float64

### 3. Convertir las columnas del DataFrame en arrays de NumPy.

In [131]:
import numpy as np

df2 = df[df.columns].fillna(df[df.columns].mean())
df2.info()
#lambda : x df.columns

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5110 entries, 0 to 5109
Data columns (total 4 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   Fecha          5110 non-null   datetime64[ns]
 1   Temperatura    5110 non-null   float64       
 2   Precipitación  5110 non-null   float64       
 3   Humedad        5110 non-null   float64       
dtypes: datetime64[ns](1), float64(3)
memory usage: 159.8 KB


  df2 = df[df.columns].fillna(df[df.columns].mean())


In [138]:
temperatura = df['Temperatura'].to_numpy()
precipitacion = df['Temperatura'].to_numpy()
humedad = df['Temperatura'].to_numpy()
fecha = df['Fecha'].to_numpy()

### 4. Identificar los datos faltantes en los arrays, y reemplazarlos por el promedio de los valores del respectivo array.

In [139]:
temp = np.where(np.isnan(temperatura), np.nanmean(temperatura), temperatura)
pre = np.where(np.isnan(precipitacion), np.nanmean(precipitacion), precipitacion)
hum = np.where(np.isnan(humedad), np.nanmean(humedad), humedad)

### 5. Realizar análisis estadísticos básicos.

##### Temperatura promedio

In [140]:
df2['Temperatura'].mean()

14.889295723531713

In [141]:
temp.mean()

14.889295723531713

##### Total de precipitaciones

In [142]:
df2['Precipitación'].sum()

50597.19438939993

In [143]:
pre.sum()

76084.30114724705

##### Máxima humedad registrada

In [103]:
df2['Humedad'].max()

99.99658156071747

In [125]:
hum.max()

39.99820092713012

##### Fecha más calurosa

In [78]:
mas = df2['Temperatura'].sort_values(ascending=False).max()
df2[df2['Temperatura'] == mas]['Fecha']

2749   2017-07-12
Name: Fecha, dtype: datetime64[ns]

##### Fehca más fría

In [82]:
menos = df2['Temperatura'].sort_values(ascending=False).min()
df2[df2['Temperatura'] == menos]['Fecha']

3856   2020-07-23
Name: Fecha, dtype: datetime64[ns]

### 6. Exportar los resultados a un nuevo archivo CSV.