# Análisis de Datos Meteorológicos

Este proyecto consiste en analizar un conjunto de datos meteorológicos utilizando Python y NumPy. 
El objetivo es aplicar las técnicas de manipulación de arrays, tratamiento de datos faltantes, 
y análisis estadístico básico en un conjunto de datos del mundo real.

# Tareas a Realizar:
1. Crear un DataFrame a partir de los datos del archivo **datos_meteorologicos.csv** provisto.
2. Realizar observaciones iniciales de los datos con Pandas.
3. Convertir las columnas del DataFrame en arrays de NumPy.
4. Identificar los datos faltantes en los arrays, y reemplazarlos por el promedio de los valores del respectivo array.
5. Realizar análisis estadísticos básicos. Mínimamente se espera que puedas extraer la siguiente información de tus arrays:
    * La temperatura promedio
    * El total de precipitaciones
    * La máxima humedad registrada
    * La fecha más calurosa
    * La fehca más fría
6. Exportar los resultados a un nuevo archivo CSV.

¡Mucha suerte con tu proyecto!


### 1. DataFrame a partir de los datos del archivo datos_meteorologicos.csv provisto

In [41]:
import pandas as pd
import numpy as np

ruta = 'C:/Users/Shirley/Python Data Science y Machine Learning/Proyecto - Datos Meteorologicos/datos_meteorologicos.csv'
df = pd.read_csv(ruta)
df

Unnamed: 0,Fecha,Temperatura,Precipitación,Humedad
0,01/01/2010,17.440675,10.957482,52.384637
1,02/01/2010,25.759468,5.315628,30.633530
2,03/01/2010,20.138169,15.317706,41.496715
3,04/01/2010,17.244159,13.151008,90.684704
4,05/01/2010,11.182740,16.413667,22.116422
...,...,...,...,...
5105,24/12/2023,-9.554692,12.700998,50.094533
5106,25/12/2023,2.837831,5.475686,92.456057
5107,26/12/2023,29.873597,4.615012,18.362847
5108,27/12/2023,,,


### 2. Realizar observaciones iniciales de los datos con Pandas.

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5110 entries, 0 to 5109
Data columns (total 4 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Fecha          5110 non-null   object 
 1   Temperatura    4855 non-null   float64
 2   Precipitación  4855 non-null   float64
 3   Humedad        4855 non-null   float64
dtypes: float64(3), object(1)
memory usage: 159.8+ KB


In [6]:
df.head()

Unnamed: 0,Fecha,Temperatura,Precipitación,Humedad
0,01/01/2010,17.440675,10.957482,52.384637
1,02/01/2010,25.759468,5.315628,30.63353
2,03/01/2010,20.138169,15.317706,41.496715
3,04/01/2010,17.244159,13.151008,90.684704
4,05/01/2010,11.18274,16.413667,22.116422


In [7]:
df.describe()

Unnamed: 0,Temperatura,Precipitación,Humedad
count,4855.0,4855.0,4855.0
mean,14.889296,9.901604,54.359061
std,14.440466,5.801842,26.096345
min,-9.996378,0.003008,10.01498
25%,2.651777,4.756907,31.866578
50%,14.693274,9.853698,54.254478
75%,27.381451,14.966997,77.0295
max,39.998201,19.999559,99.996582


In [8]:
df.columns

Index(['Fecha', 'Temperatura', 'Precipitación', 'Humedad'], dtype='object')

In [9]:
df.dtypes

Fecha             object
Temperatura      float64
Precipitación    float64
Humedad          float64
dtype: object

In [10]:
df.isnull().sum()

Fecha              0
Temperatura      255
Precipitación    255
Humedad          255
dtype: int64

### 3. Convertir las columnas del DataFrame en arrays de NumPy.

In [12]:
temperatura = df['Temperatura'].to_numpy()
precipitacion = df['Precipitación'].to_numpy()
humedad = df['Humedad'].to_numpy()

temperatura

array([17.4406752 , 25.75946832, 20.1381688 , ..., 29.87359717,
               nan, 37.30804318])

### 4. Identificar los datos faltantes en los arrays, y reemplazarlos por el promedio de los valores del respectivo array.

In [14]:
temp_nulo = np.isnan(temperatura)
precip_nulo = np.isnan(precipitacion)
humed_nulo = np.isnan(humedad)

temp_nulo

array([False, False, False, ..., False,  True, False])

In [15]:
temp_promedio = np.nanmean(temperatura)
precip_promedio = np.nanmean(precipitacion)
humed_promedio = np.nanmean(humedad)

# Reemplazar los valores nulos con el promedio del array
temperatura[temp_nulo] = temp_promedio
precipitacion[precip_nulo] = precip_promedio
humedad[humed_nulo] = humed_promedio

temperatura

array([17.4406752 , 25.75946832, 20.1381688 , ..., 29.87359717,
       14.88929572, 37.30804318])

In [16]:
# Abordaje alternativo para lograr el mismo resultado
temp_corregido = np.where(np.isnan(temperatura), temp_promedio, temperatura)
temp_corregido

array([17.4406752 , 25.75946832, 20.1381688 , ..., 29.87359717,
       14.88929572, 37.30804318])

### 5. Realizar análisis estadísticos básicos.

##### Temperatura promedio

In [18]:
temp_promedio = np.nanmean(temperatura)
temp_promedio

14.889295723531713

##### Total de precipitaciones

In [20]:
precipitation_total = df['Precipitación'].sum()

##### Máxima humedad registrada

In [31]:
humedad_maxima = df['Humedad'].max()

##### Fecha más calurosa

In [24]:
# Identificar la temperatura más alta
mas_calor = np.max(temperatura)
mas_calor

39.99820092713012

In [25]:
# Registro correspondiente a la temperatura más alta
registro_mas_caluroso = np.where(temperatura == mas_calor)[0][0]
registro_mas_caluroso

2749

In [26]:
# Fecha correspondiente al registro más caluroso
fecha_mas_calurosa = df.iloc[registro_mas_caluroso]['Fecha']
fecha_mas_calurosa

'12/07/2017'

##### Fecha más fría

In [28]:
fecha_mas_fria = df.iloc[np.where(temperatura == np.min(temperatura))[0][0]]['Fecha']
fecha_mas_fria

'23/07/2020'

### 6. Exportar los resultados a un nuevo archivo CSV.

In [39]:
resultados = pd.DataFrame({
    'Metrica': ['Temperatura Promedio', 'Precipitación Total', 'Humedad Máxima', 'Día Más Caluroso', 'Día Más Frío'],
    'Valor': [temp_promedio, precipitation_total, humedad_maxima, fecha_mas_calurosa, fecha_mas_fria]
})

# Guardar los resultados en un nuevo archivo CSV
resultados.to_csv('C:/Users/Shirley/Python Data Science y Machine Learning/Proyecto - Datos Meteorologicos/Resultados_meteorologicos.csv'
, index=False)
