In [1]:
import pandas as pd
import numpy as np

In [30]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


# Proyecto del Día 8 - Análisis de Datos Meteorológicos

Este proyecto consiste en analizar un conjunto de datos meteorológicos utilizando Python y NumPy.
El objetivo es aplicar las técnicas de manipulación de arrays, tratamiento de datos faltantes,
y análisis estadístico básico en un conjunto de datos del mundo real.

## Tareas a Realizar:
1. Crear un DataFrame a partir de los datos del archivo **datos_meteorologicos.csv** provisto en esta lección.
2. Realizar observaciones iniciales de los datos con Pandas.
3. Convertir las columnas del DataFrame en arrays de NumPy.
4. Identificar los datos faltantes en los arrays, y reemplazarlos por el promedio de los valores del respectivo array.
5. Realizar análisis estadísticos básicos. Mínimamente se espera que puedas extraer la siguiente información de tus arrays:
    * La temperatura promedio
    * El total de precipitaciones
    * La máxima humedad registrada
    * La fecha más calurosa
    * La fehca más fría
6. Exportar los resultados a un nuevo archivo CSV.

¡Mucha suerte con tu proyecto!


### 1. Crear un DataFrame a partir de los datos del archivo datos_meteorologicos.csv provisto en esta lección.

In [3]:
df = pd.read_csv("/content/drive/MyDrive/Dataa/40.1 datos_meteorologicos.csv")
df

Unnamed: 0,Fecha,Temperatura,Precipitación,Humedad
0,01/01/2010,17.440675,10.957482,52.384637
1,02/01/2010,25.759468,5.315628,30.633530
2,03/01/2010,20.138169,15.317706,41.496715
3,04/01/2010,17.244159,13.151008,90.684704
4,05/01/2010,11.182740,16.413667,22.116422
...,...,...,...,...
5105,24/12/2023,-9.554692,12.700998,50.094533
5106,25/12/2023,2.837831,5.475686,92.456057
5107,26/12/2023,29.873597,4.615012,18.362847
5108,27/12/2023,,,


### 2. Realizar observaciones iniciales de los datos con Pandas.

In [4]:
df.head()

Unnamed: 0,Fecha,Temperatura,Precipitación,Humedad
0,01/01/2010,17.440675,10.957482,52.384637
1,02/01/2010,25.759468,5.315628,30.63353
2,03/01/2010,20.138169,15.317706,41.496715
3,04/01/2010,17.244159,13.151008,90.684704
4,05/01/2010,11.18274,16.413667,22.116422


In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5110 entries, 0 to 5109
Data columns (total 4 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Fecha          5110 non-null   object 
 1   Temperatura    4855 non-null   float64
 2   Precipitación  4855 non-null   float64
 3   Humedad        4855 non-null   float64
dtypes: float64(3), object(1)
memory usage: 159.8+ KB


In [6]:
df.describe()

Unnamed: 0,Temperatura,Precipitación,Humedad
count,4855.0,4855.0,4855.0
mean,14.889296,9.901604,54.359061
std,14.440466,5.801842,26.096345
min,-9.996378,0.003008,10.01498
25%,2.651777,4.756907,31.866578
50%,14.693274,9.853698,54.254478
75%,27.381451,14.966997,77.0295
max,39.998201,19.999559,99.996582


In [7]:
df.isnull().sum()

Unnamed: 0,0
Fecha,0
Temperatura,255
Precipitación,255
Humedad,255


### 3. Convertir las columnas del DataFrame en arrays de NumPy.

In [8]:
array_fechas = df['Fecha'].values
array_temperatura = df['Temperatura'].values
array_humedad = df['Humedad'].values
array_precipitaciones = df['Precipitación'].values
type(array_temperatura)

numpy.ndarray

In [9]:
#identificar valores nulos por columna
temp_nulo = np.isnan(array_temperatura)
hum_nulo = np.isnan(array_humedad)
precip_nulo = np.isnan(array_precipitaciones)

temp_nulo #convierto en booleano

array([False, False, False, ..., False,  True, False])

### 4. Identificar los datos faltantes en los arrays, y reemplazarlos por el promedio de los valores del respectivo array.

In [10]:
#promedios de cada columna sin incluir los valores nulos
temp_promedio = np.nanmean(array_temperatura)
hum_promedio = np.nanmean(array_humedad)
precip_promedio = np.nanmean(array_precipitaciones)

temp_promedio

14.889295723531715

In [11]:
#REEMPLAZO LOS NLOS CON EL PROMEDIO
array_temperatura2 = np.where(np.isnan(array_temperatura),temp_promedio,array_temperatura)
#si hay nulos en array_temperatura, reemplazo con temp_promedio, sino dejo array_temperatura
array_temperatura2

array([17.4406752 , 25.75946832, 20.1381688 , ..., 29.87359717,
       14.88929572, 37.30804318])

In [12]:
#ABORDAJE ALTERNATIVO
array_humedad[hum_nulo] = hum_promedio
array_humedad
#al array original le modifico los valores nulos por el promedio

array([52.38463749, 30.63352983, 41.49671458, ..., 18.36284738,
       54.3590608 , 50.64621058])

In [13]:
array_precipitaciones[precip_nulo] = precip_promedio
array_precipitaciones

array([10.957482  ,  5.31562765, 15.31770609, ...,  4.61501177,
        9.9016036 ,  7.33051023])

### 5. Realizar análisis estadísticos básicos.

##### Temperatura promedio

In [14]:
print('Temperatura promedio: ', temp_promedio, '°C') #calculo el promedio y redondeo a 1 decimal

Temperatura promedio:  14.889295723531715 °C


##### Total de precipitaciones

In [15]:
total_precip = array_precipitaciones.sum().round(1)
print('Total de precipitaciones: ', total_precip, 'mm')

Total de precipitaciones:  50597.2 mm


##### Máxima humedad registrada

In [16]:
humedad_max = max(array_humedad)
print('Humedad maxima registrada: ' ,humedad_max, '%')

Humedad maxima registrada:  99.99658156071747 %


##### Fecha más calurosa

In [17]:
#VALOR MAS ALTO DE COLUMNA TEMPERATURA
mas_calor = np.max(array_temperatura2)
mas_calor #me devuelve el valor mas alto

39.99820092713012

In [18]:
#FECHA MAS CALUROSA
fecha_mas_calor = df.loc[df['Temperatura'] == mas_calor] #loc busca por
fecha_mas_calor['Fecha']

Unnamed: 0,Fecha
2749,12/07/2017


In [19]:
fecha_mas_calurosa = [array_temperatura.argmax()]
print('Fecha mas calurosa : ', fecha_mas_calor['Fecha'], 'con temperatura de ', mas_calor, '°C')
#argmax() devuelve el INDICE (posición) del valor máximo (temperatura más alta) dentro de ese array.
#array_fecha[]: usa el índice devuelto por argmax() para acceder al elemento correspondiente en el array_fecha


Fecha mas calurosa :  2749    12/07/2017
Name: Fecha, dtype: object con temperatura de  39.99820092713012 °C


In [20]:
#otra forma
registro_mas_caluroso = np.where(array_temperatura == mas_calor)[0][0] #0 0 primer indice del primer array
registro_mas_caluroso

2749

In [21]:
fecha_mas_caluroso = df.iloc[registro_mas_caluroso]['Fecha'] #indice que corresponde a 'Fecha'
fecha_mas_caluroso

'12/07/2017'

##### Fehca más fría

In [22]:
#DEVUELVE EL VALOR MAS BAJO
mas_fria = np.min(array_temperatura2)
mas_fria

-9.996377518075391

In [23]:
#INDICE CON VALOIR DE TEMPERATURA MAS BAJO
mas_fria_i = np.where(array_temperatura2 == mas_fria)[0][0]
mas_fria_i

3856

In [24]:
#FECHA CON VALOR DE TEMPERATURA MAS BAJO
fecha_mas_fria = df.iloc[mas_fria_i]['Fecha'] #Iloc trae por INDICE (fila) y columna
fecha_mas_fria

'23/07/2020'

### 6. Exportar los resultados a un nuevo archivo CSV.

In [25]:
#crear la ruta
ruta_salida = '/content/drive/MyDrive/Dataa/40.2 resultados_totales.csv'

In [29]:
#CREO UN DF
#resultados_totales was already defined as a dictionary in a previous cell, causing the error.
#By changing the variable name to df_resultados_totales, the code should now work as intended.

df_resultados_totales = pd.DataFrame(
    {
        'Metrica': ['Temperatura promedio', 'Total de precipitaciones', 'Máxima humedad registrada', 'Fecha más calurosa', 'Fecha más fría'],
        'Valor': [temp_promedio, total_precip, humedad_max, fecha_mas_calurosa, array_fechas[mas_fria_i]]
    }
)

df_resultados_totales.to_csv('Resultados_Total.csv', index=False)