# Proyecto del Día 8 - Análisis de Datos Meteorológicos

Este proyecto consiste en analizar un conjunto de datos meteorológicos utilizando Python y NumPy. 
El objetivo es aplicar las técnicas de manipulación de arrays, tratamiento de datos faltantes, 
y análisis estadístico básico en un conjunto de datos del mundo real.

## Tareas a Realizar:
1. Crear un DataFrame a partir de los datos del archivo **datos_meteorologicos.csv** provisto en esta lección.
2. Realizar observaciones iniciales de los datos con Pandas.
3. Convertir las columnas del DataFrame en arrays de NumPy.
4. Identificar los datos faltantes en los arrays, y reemplazarlos por el promedio de los valores del respectivo array.
5. Realizar análisis estadísticos básicos. Mínimamente se espera que puedas extraer la siguiente información de tus arrays:
    * La temperatura promedio
    * El total de precipitaciones
    * La máxima humedad registrada
    * La fecha más calurosa
    * La fehca más fría
6. Exportar los resultados a un nuevo archivo CSV.

¡Mucha suerte con tu proyecto!


### 1. Crear un DataFrame a partir de los datos del archivo datos_meteorologicos.csv provisto en esta lección.

In [3]:
#import of libraries
import pandas as pd
import numpy as np

#read csv
df=pd.read_csv(r'C:\Users\migue\OneDrive\Desktop\curso de data science\datos_meteorologicos.csv')
df

Unnamed: 0,Fecha,Temperatura,Precipitación,Humedad
0,01/01/2010,17.440675,10.957482,52.384637
1,02/01/2010,25.759468,5.315628,30.633530
2,03/01/2010,20.138169,15.317706,41.496715
3,04/01/2010,17.244159,13.151008,90.684704
4,05/01/2010,11.182740,16.413667,22.116422
...,...,...,...,...
5105,24/12/2023,-9.554692,12.700998,50.094533
5106,25/12/2023,2.837831,5.475686,92.456057
5107,26/12/2023,29.873597,4.615012,18.362847
5108,27/12/2023,,,


### 2. Realizar observaciones iniciales de los datos con Pandas.

In [9]:
#let's check for nan values and do some exploratory analysis
df.isnull().sum()


Fecha              0
Temperatura      255
Precipitación    255
Humedad          255
dtype: int64

In [11]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5110 entries, 0 to 5109
Data columns (total 4 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Fecha          5110 non-null   object 
 1   Temperatura    4855 non-null   float64
 2   Precipitación  4855 non-null   float64
 3   Humedad        4855 non-null   float64
dtypes: float64(3), object(1)
memory usage: 159.8+ KB


In [13]:
df.describe()

Unnamed: 0,Temperatura,Precipitación,Humedad
count,4855.0,4855.0,4855.0
mean,14.889296,9.901604,54.359061
std,14.440466,5.801842,26.096345
min,-9.996378,0.003008,10.01498
25%,2.651777,4.756907,31.866578
50%,14.693274,9.853698,54.254478
75%,27.381451,14.966997,77.0295
max,39.998201,19.999559,99.996582


In [17]:
#we will set the correct type for Fecha colum, i.e. as a date
df.Fecha=pd.to_datetime(df.Fecha, format='%d/%m/%Y')
df.Fecha

0      2010-01-01
1      2010-01-02
2      2010-01-03
3      2010-01-04
4      2010-01-05
          ...    
5105   2023-12-24
5106   2023-12-25
5107   2023-12-26
5108   2023-12-27
5109   2023-12-28
Name: Fecha, Length: 5110, dtype: datetime64[ns]

### 3. Convertir las columnas del DataFrame en arrays de NumPy.

In [25]:
array_temperatura=df.Temperatura.to_numpy()
array_temperatura

array([17.4406752 , 25.75946832, 20.1381688 , ..., 29.87359717,
               nan, 37.30804318])

In [27]:
array_precipitacion=df.Precipitación.to_numpy()
array_precipitacion

array([10.957482  ,  5.31562765, 15.31770609, ...,  4.61501177,
               nan,  7.33051023])

In [29]:
array_humedad=df.Humedad.to_numpy()
array_humedad

array([52.38463749, 30.63352983, 41.49671458, ..., 18.36284738,
               nan, 50.64621058])

### 4. Identificar los datos faltantes en los arrays, y reemplazarlos por el promedio de los valores del respectivo array.

In [39]:
array_temperatura=np.where(np.isnan(array_temperatura), np.nanmean(array_temperatura),array_temperatura)
array_temperatura

array([17.4406752 , 25.75946832, 20.1381688 , ..., 29.87359717,
       14.88929572, 37.30804318])

In [45]:
array_precipitacion=np.where(np.isnan(array_precipitacion), np.nanmean(array_precipitacion),array_precipitacion)
array_precipitacion

array([10.957482  ,  5.31562765, 15.31770609, ...,  4.61501177,
        9.9016036 ,  7.33051023])

In [47]:
array_humedad=np.where(np.isnan(array_humedad), np.nanmean(array_humedad),array_humedad)
array_humedad

array([52.38463749, 30.63352983, 41.49671458, ..., 18.36284738,
       54.3590608 , 50.64621058])

### 5. Realizar análisis estadísticos básicos.

##### Temperatura promedio

In [41]:
meantemp=array_temperatura.mean()
meantemp

14.889295723531713

##### Total de precipitaciones

In [51]:
totalrain=array_precipitacion.sum()
totalrain.round(2)

50597.19

##### Máxima humedad registrada

In [55]:
maxhumidity=array_humedad.max()
maxhumidity.round()

100.0

##### Fecha más calurosa

In [57]:
maxtemp=array_temperatura.max()
maxtemp

39.99820092713012

In [111]:
index=list(np.where(df.Temperatura==maxtemp)[0])[0]
index

2749

In [113]:
hotestday=df.iloc[index]['Fecha']
hotestday


Timestamp('2017-07-12 00:00:00')

##### Fecha más fría

In [115]:
mintemp=array_temperatura.min()
mintemp

-9.996377518075391

In [117]:
index=list(np.where(df.Temperatura==mintemp)[0])[0]
index

3856

In [119]:
coldestday=df.iloc[index]['Fecha']
coldestday

Timestamp('2020-07-23 00:00:00')

### 6. Exportar los resultados a un nuevo archivo CSV.

In [131]:
#creation of a data frame with results 


results=pd.DataFrame({ 'Measurement':['Mean temp', 'Total rain', 'Maximun humidity', 'Hotest day', 
                         'Coldest day'], 'Value' : [ meantemp, totalrain, maxhumidity, hotestday, coldestday]  })
results

Unnamed: 0,Measurement,Value
0,Mean temp,14.889296
1,Total rain,50597.194389
2,Maximun humidity,99.996582
3,Hotest day,2017-07-12 00:00:00
4,Coldest day,2020-07-23 00:00:00


In [None]:
resultados.to_csv('results.csv',index=False)