# Proyecto – Análisis de datos meteorológicos 

Este proyecto consiste en analizar un conjunto de datos metereologicos utilizando Python y Numpy. El objetivo es aplicar las técnicas de manipulación de arrays, tratamiento de datos faltantes, y análisis estadístico básico en un conjunto de datos del mundo real. 

Tareas para realizar: 
> 1. Crear DataFrame a partir de los datos del archivo “datos_meteorologicos.csv” provistos 
en esta lección. 
> 2. Realizar observaciones iniciales a los datos con pandas. 
> 3. Convertir las columnas del dataframe en array de Numpy. 
> 4. Identificar los datos faltantes en los arrays, y remplazarlos por el promedio de los 
valores del respectivo array. 
> 5. Realizar análisis estadísticos básicos. Mínimamente se espera que puedas extraer la 
siguiente información de tus arrays: 
> - La temperatura promedio 
> - El total de precipitaciones 
> - La máxima humedad registrada 
> - La fecha más calurosa 
> - La fecha más fría.

In [1]:
#1. Cargar los datos
#a. Importar las librerias(Conjunto archivos)
import numpy as np
import pandas as pd

In [None]:
#b. Crear el DataFrame (Tabla)
df = pd.read_csv("./Data/S4_Datos_meteorologicos.csv")
df

Unnamed: 0,Fecha,Temperatura,Precipitación,Humedad
0,01/01/2010,17.440675,10.957482,52.384637
1,02/01/2010,25.759468,5.315628,30.633530
2,03/01/2010,20.138169,15.317706,41.496715
3,04/01/2010,17.244159,13.151008,90.684704
4,05/01/2010,11.182740,16.413667,22.116422
...,...,...,...,...
5105,24/12/2023,-9.554692,12.700998,50.094533
5106,25/12/2023,2.837831,5.475686,92.456057
5107,26/12/2023,29.873597,4.615012,18.362847
5108,27/12/2023,,,


In [3]:
#2. Exploración inicial (observaciones)
df.head()

Unnamed: 0,Fecha,Temperatura,Precipitación,Humedad
0,01/01/2010,17.440675,10.957482,52.384637
1,02/01/2010,25.759468,5.315628,30.63353
2,03/01/2010,20.138169,15.317706,41.496715
3,04/01/2010,17.244159,13.151008,90.684704
4,05/01/2010,11.18274,16.413667,22.116422


In [4]:
#b. más información
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5110 entries, 0 to 5109
Data columns (total 4 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Fecha          5110 non-null   object 
 1   Temperatura    4855 non-null   float64
 2   Precipitación  4855 non-null   float64
 3   Humedad        4855 non-null   float64
dtypes: float64(3), object(1)
memory usage: 159.8+ KB


In [5]:
#c. estadisticas iniciales
df.describe()

Unnamed: 0,Temperatura,Precipitación,Humedad
count,4855.0,4855.0,4855.0
mean,14.889296,9.901604,54.359061
std,14.440466,5.801842,26.096345
min,-9.996378,0.003008,10.01498
25%,2.651777,4.756907,31.866578
50%,14.693274,9.853698,54.254478
75%,27.381451,14.966997,77.0295
max,39.998201,19.999559,99.996582


In [6]:
#3.  Procesamiento de los datos
#a. Crear arrays a partir de la serie
temperatura =  df['Temperatura'].to_numpy()
precipitacion =  df['Precipitación'].to_numpy()
humedad =  df['Humedad'].to_numpy()
temperatura

array([17.4406752 , 25.75946832, 20.1381688 , ..., 29.87359717,
               nan, 37.30804318])

In [7]:
#b. Identificar los datos faltantes
temp_nulo = np.isnan(temperatura)
precip_nulo = np.isnan(precipitacion)
humd_nulo = np.isnan(humedad)
temp_nulo

array([False, False, False, ..., False,  True, False])

In [8]:
#c. Calcular los promedios de la temperatura, precipitación y humedad
temp_promedio = np.nanmean(temperatura)
precip_promedio = np.nanmean(precipitacion)
humed_promedio = np.nanmean(humedad)
temp_promedio

np.float64(14.889295723531715)

In [9]:
#d. Remplazar los valores nulos por los promedios hallados
#Ojo lo tenemos en las variables
temperatura[temp_nulo] = temp_promedio
precipitacion[precip_nulo] = precip_promedio
humedad[humd_nulo] = humed_promedio
temperatura

array([17.4406752 , 25.75946832, 20.1381688 , ..., 29.87359717,
       14.88929572, 37.30804318])

In [10]:
#4. Analisis estadísticos ....  Ya con los datos completos
#a. Calcular el promedio
temp_promedio = np.nanmean(temperatura)
temp_promedio

np.float64(14.889295723531713)

In [11]:
#b. Suma de precipitaciones
precipitacion_total = np.sum(precipitacion)
precipitacion_total

np.float64(50597.19438939993)

In [12]:
#c. Maxima Humedad
humedad_maxima = np.max(humedad)
humedad_maxima

np.float64(99.99658156071747)

In [13]:
#d. Quiero identificar la fecha más calurosa
#paso 1. Identificar la temperatura más alta
mas_calor = np.max(temperatura)
mas_calor

np.float64(39.99820092713012)

In [14]:
#paso 2. Identificar la posición en el array
registro_mas_caluroso = np.where(temperatura==mas_calor)[0][0]
registro_mas_caluroso #Ya encontramos la posición

np.int64(2749)

In [16]:
#paso3. Identificar que fecha es tomando en cuenta la pos. encontrada
fecha_mas_calurosa = df['Fecha'][registro_mas_caluroso]
fecha_mas_calurosa

'12/07/2017'