# Proyecto: Análisis de Datos Meteorológicos

Este proyecto consiste en analizar un conjunto de datos meteorológicos utilizando Python y NumPy. 
El objetivo es aplicar las técnicas de manipulación de arrays, tratamiento de datos faltantes, 
y análisis estadístico básico en un conjunto de datos del mundo real.

## Tareas a Realizar:
1. Crear un DataFrame a partir de los datos del archivo **datos_meteorologicos.csv** provisto en esta lección.
2. Realizar observaciones iniciales de los datos con Pandas.
3. Convertir las columnas del DataFrame en arrays de NumPy.
4. Identificar los datos faltantes en los arrays, y reemplazarlos por el promedio de los valores del respectivo array.
5. Realizar análisis estadísticos básicos. Mínimamente se espera que puedas extraer la siguiente información de tus arrays:
    * La temperatura promedio
    * El total de precipitaciones
    * La máxima humedad registrada
    * La fecha más calurosa
    * La fehca más fría
6. Exportar los resultados a un nuevo archivo CSV.

¡Mucha suerte con tu proyecto!


In [2]:
import pandas as pd
import numpy as np

### 1. Crear un DataFrame a partir de los datos del archivo datos_meteorologicos.csv provisto en esta lección.

In [3]:
ruta = '/kaggle/input/meteorological-data/datos_meteorologicos.csv'
df = pd.read_csv(ruta)
df

Unnamed: 0,Fecha,Temperatura,Precipitación,Humedad
0,01/01/2010,17.440675,10.957482,52.384637
1,02/01/2010,25.759468,5.315628,30.633530
2,03/01/2010,20.138169,15.317706,41.496715
3,04/01/2010,17.244159,13.151008,90.684704
4,05/01/2010,11.182740,16.413667,22.116422
...,...,...,...,...
5105,24/12/2023,-9.554692,12.700998,50.094533
5106,25/12/2023,2.837831,5.475686,92.456057
5107,26/12/2023,29.873597,4.615012,18.362847
5108,27/12/2023,,,


### 2. Realizar observaciones iniciales de los datos con Pandas.

In [4]:
df.describe()

Unnamed: 0,Temperatura,Precipitación,Humedad
count,4855.0,4855.0,4855.0
mean,14.889296,9.901604,54.359061
std,14.440466,5.801842,26.096345
min,-9.996378,0.003008,10.01498
25%,2.651777,4.756907,31.866578
50%,14.693274,9.853698,54.254478
75%,27.381451,14.966997,77.0295
max,39.998201,19.999559,99.996582


In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5110 entries, 0 to 5109
Data columns (total 4 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Fecha          5110 non-null   object 
 1   Temperatura    4855 non-null   float64
 2   Precipitación  4855 non-null   float64
 3   Humedad        4855 non-null   float64
dtypes: float64(3), object(1)
memory usage: 159.8+ KB


In [6]:
df['Fecha'] = pd.to_datetime(df['Fecha'], format='%d/%m/%Y')
df

Unnamed: 0,Fecha,Temperatura,Precipitación,Humedad
0,2010-01-01,17.440675,10.957482,52.384637
1,2010-01-02,25.759468,5.315628,30.633530
2,2010-01-03,20.138169,15.317706,41.496715
3,2010-01-04,17.244159,13.151008,90.684704
4,2010-01-05,11.182740,16.413667,22.116422
...,...,...,...,...
5105,2023-12-24,-9.554692,12.700998,50.094533
5106,2023-12-25,2.837831,5.475686,92.456057
5107,2023-12-26,29.873597,4.615012,18.362847
5108,2023-12-27,,,


### 3. Convertir las columnas del DataFrame en arrays de NumPy.

In [7]:
temperatura = df['Temperatura'].to_numpy()
precipitacion = df['Precipitación'].to_numpy()
Humedad = df ['Humedad'].to_numpy()
temperatura

array([17.4406752 , 25.75946832, 20.1381688 , ..., 29.87359717,
               nan, 37.30804318])

### 4. Identificar los datos faltantes en los arrays, y reemplazarlos por el promedio de los valores del respectivo array.

In [15]:
#Identificamos los datos faltantes con isnan
temp_nulo = np.isnan(temperatura)
prec_nulo = np.isnan(precipitacion)
hum_nulo = np.isnan(Humedad)

#Calculamos los promedios ignrando los datos faltantes con nanmean
promedio_temperatura = np.nanmean(temperatura)
promedio_precipitacion = np.nanmean(precipitacion)
promedio_humedad = np.nanmean(Humedad)

print(f'Promedios:\n Temperatura: {promedio_temperatura}\n Precipitacion: {promedio_precipitacion}\n Humedad: {promedio_humedad}')


Promedios:
 Temperatura: 14.889295723531713
 Precipitacion: 9.9016035987084
 Humedad: 54.35906079674394


In [18]:
#Sustituimos los valores faltantes por los promedios
temperatura[temp_nulo] = promedio_temperatura
precipitacion[prec_nulo] = promedio_precipitacion
Humedad[hum_nulo] = promedio_humedad

temperatura

array([17.4406752 , 25.75946832, 20.1381688 , ..., 29.87359717,
       14.88929572, 37.30804318])

### 5. Realizar análisis estadísticos básicos.

##### Temperatura promedio

In [20]:
np.mean(temperatura)

14.889295723531713

##### Total de precipitaciones

In [22]:
np.sum(precipitacion)

50597.19438939993

##### Máxima humedad registrada

In [23]:
np.max(Humedad)

99.99658156071747

##### Fecha más calurosa

In [27]:
#identificar la temperatura más alta
mas_caluroso = np.max(temperatura)
mas_caluroso

39.99820092713012

In [30]:
#Localizar el registro más caluros
registro_mas_caluros = np.where(temperatura==mas_caluroso)[0][0]
registro_mas_caluros

2749

In [32]:
#Encontrar la fecha con elregistro más caluros
fecha_mas_calor = df.iloc[registro_mas_caluros]['Fecha']
fecha_mas_calor

Timestamp('2017-07-12 00:00:00')

##### Fehca más fría

In [34]:
#Localizamos la temperatura más fria
temp_mas_fria = np.min(temperatura)
temp_mas_fria

-9.996377518075391

In [36]:
#Localizamos el registro con la temperatura mas fria
registro_mas_frio = np.where(temperatura==temp_mas_fria)[0][0]
registro_mas_frio

3856

In [37]:
#Ahora localizamos la fecha con elregistro más frio
fecha_mas_fria = df.iloc[registro_mas_frio]['Fecha']
fecha_mas_fria

Timestamp('2020-07-23 00:00:00')

### 6. Exportar los resultados a un nuevo archivo CSV.

In [43]:
#'Temperatura Promedio', 'Precipitación Total', 'Humedad Máxima', 'Día Más Caluroso', 'Día Más Frío
#Crear un dataframe con los resultados
resultados = pd.DataFrame({'Métrica': ['Temperatura Promedio', 'Precipitación Total', 'Humedad Máxima', 'Día Más Caluroso', 'Día Más Frío'],
                          'Valor': [promedio_temperatura, np.sum(precipitacion), np.max(Humedad),fecha_mas_calor,fecha_mas_fria]})
resultados

Unnamed: 0,Métrica,Valor
0,Temperatura Promedio,14.889296
1,Precipitación Total,50597.194389
2,Humedad Máxima,99.996582
3,Día Más Caluroso,2017-07-12 00:00:00
4,Día Más Frío,2020-07-23 00:00:00


In [44]:
#Exportamos losdatos a un csv
resultados.to_csv('results of analys.csv', index=False)
