## Importación de librerias

In [27]:
import pandas as pd
import numpy as np
import plotly.graph_objects as go
import plotly.subplots as sp
import matplotlib.pyplot as plt

## Lectura de datos y descripción de variables

In [2]:
df = pd.read_csv("climate_data.csv")
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 589265 entries, 0 to 589264
Data columns (total 12 columns):
 #   Column      Non-Null Count   Dtype  
---  ------      --------------   -----  
 0   date        589265 non-null  object 
 1   Tn          565882 non-null  float64
 2   Tx          551529 non-null  float64
 3   Tavg        544160 non-null  float64
 4   RH_avg      541083 non-null  float64
 5   RR          463881 non-null  float64
 6   ss          545544 non-null  float64
 7   ff_x        579051 non-null  float64
 8   ddd_x       576137 non-null  float64
 9   ff_avg      579138 non-null  float64
 10  ddd_car     575526 non-null  object 
 11  station_id  589265 non-null  int64  
dtypes: float64(9), int64(1), object(2)
memory usage: 53.9+ MB


## Renombre de las variables

In [3]:
df = df.rename(columns={'Tn': 'Temperatura minima',
                        'Tx': 'Temperatura máxima',
                        'Tavg': 'Temperatura media',
                        'RH_avg': 'Humedad Relativa',
                        'RR': 'Precipitación total',
                        'ff_x': 'Velocidad máxima del viento',
                        'ff_avg': 'Velocidad media del viento',
                        'date': 'Fecha',
                        
                       })
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 589265 entries, 0 to 589264
Data columns (total 12 columns):
 #   Column                       Non-Null Count   Dtype  
---  ------                       --------------   -----  
 0   Fecha                        589265 non-null  object 
 1   Temperatura minima           565882 non-null  float64
 2   Temperatura máxima           551529 non-null  float64
 3   Temperatura media            544160 non-null  float64
 4   Humedad Relativa             541083 non-null  float64
 5   Precipitación total          463881 non-null  float64
 6   ss                           545544 non-null  float64
 7   Velocidad máxima del viento  579051 non-null  float64
 8   ddd_x                        576137 non-null  float64
 9   Velocidad media del viento   579138 non-null  float64
 10  ddd_car                      575526 non-null  object 
 11  station_id                   589265 non-null  int64  
dtypes: float64(9), int64(1), object(2)
memory usage: 53.9+ MB


## Eliminación de las columnas innecesarias

In [4]:
df.drop('ss', inplace=True, axis=1)
df.drop('ddd_x', inplace=True, axis=1)
df.drop('ddd_car', inplace=True, axis=1) 

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 589265 entries, 0 to 589264
Data columns (total 9 columns):
 #   Column                       Non-Null Count   Dtype  
---  ------                       --------------   -----  
 0   Fecha                        589265 non-null  object 
 1   Temperatura minima           565882 non-null  float64
 2   Temperatura máxima           551529 non-null  float64
 3   Temperatura media            544160 non-null  float64
 4   Humedad Relativa             541083 non-null  float64
 5   Precipitación total          463881 non-null  float64
 6   Velocidad máxima del viento  579051 non-null  float64
 7   Velocidad media del viento   579138 non-null  float64
 8   station_id                   589265 non-null  int64  
dtypes: float64(7), int64(1), object(1)
memory usage: 40.5+ MB


## Visualización del dataframe con las variables renombradas y saneadas

In [6]:
df

Unnamed: 0,Fecha,Temperatura minima,Temperatura máxima,Temperatura media,Humedad Relativa,Precipitación total,Velocidad máxima del viento,Velocidad media del viento,station_id
0,01-01-2010,21.4,30.2,27.1,82.0,9.0,7.0,5.0,96001
1,02-01-2010,21.0,29.6,25.7,95.0,24.0,6.0,4.0,96001
2,03-01-2010,20.2,26.8,24.5,98.0,63.0,5.0,4.0,96001
3,04-01-2010,21.0,29.2,25.8,90.0,0.0,4.0,3.0,96001
4,05-01-2010,21.2,30.0,26.7,90.0,2.0,,,96001
...,...,...,...,...,...,...,...,...,...
589260,27-12-2020,25.2,31.2,29.2,74.0,0.0,4.0,2.0,97980
589261,28-12-2020,25.3,31.6,28.1,78.0,,12.0,2.0,97980
589262,29-12-2020,24.6,32.3,28.4,81.0,,5.0,2.0,97980
589263,30-12-2020,25.2,32.6,28.4,80.0,0.0,7.0,2.0,97980


## Filtrado por número de estación y eliminación de la columna *station_id*

In [7]:
estacion = 96001

df = df.drop(df[df.station_id != 96001].index)

In [8]:
df.drop('station_id', inplace=True, axis=1)

## Visualización del dataframe filtrado por estación

In [9]:
df

Unnamed: 0,Fecha,Temperatura minima,Temperatura máxima,Temperatura media,Humedad Relativa,Precipitación total,Velocidad máxima del viento,Velocidad media del viento
0,01-01-2010,21.4,30.2,27.1,82.0,9.0,7.0,5.0
1,02-01-2010,21.0,29.6,25.7,95.0,24.0,6.0,4.0
2,03-01-2010,20.2,26.8,24.5,98.0,63.0,5.0,4.0
3,04-01-2010,21.0,29.2,25.8,90.0,0.0,4.0,3.0
4,05-01-2010,21.2,30.0,26.7,90.0,2.0,,
...,...,...,...,...,...,...,...,...
3891,27-12-2020,23.6,30.0,27.0,86.0,0.0,3.0,1.0
3892,28-12-2020,,30.4,26.5,86.0,11.7,3.0,0.0
3893,29-12-2020,24.0,30.0,26.7,86.0,,4.0,3.0
3894,30-12-2020,24.6,30.0,27.0,84.0,0.0,6.0,3.0


## Reemplazo del tipo de la columna *Fecha* por datetime para mejor manejo

In [10]:
df['Fecha'] = pd.to_datetime(df['Fecha'], format="%d-%m-%Y")

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3896 entries, 0 to 3895
Data columns (total 8 columns):
 #   Column                       Non-Null Count  Dtype         
---  ------                       --------------  -----         
 0   Fecha                        3896 non-null   datetime64[ns]
 1   Temperatura minima           3867 non-null   float64       
 2   Temperatura máxima           3827 non-null   float64       
 3   Temperatura media            3874 non-null   float64       
 4   Humedad Relativa             3874 non-null   float64       
 5   Precipitación total          3118 non-null   float64       
 6   Velocidad máxima del viento  3744 non-null   float64       
 7   Velocidad media del viento   3744 non-null   float64       
dtypes: datetime64[ns](1), float64(7)
memory usage: 243.6 KB


## Configuración del rango de fechas para el análisis

In [11]:
fecha_inicio = '2019-01-01'
fecha_fin = '2020-12-31'

In [12]:
df_periodo = df[df['Fecha'].between(fecha_inicio, fecha_fin)]

## Eliminación de la columna fecha

In [13]:
df_periodo.drop('Fecha', inplace=True, axis=1)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_periodo.drop('Fecha', inplace=True, axis=1)


## Visualización del dataframe solamente con los datos entre las dos fechas

In [14]:
df_periodo

Unnamed: 0,Temperatura minima,Temperatura máxima,Temperatura media,Humedad Relativa,Precipitación total,Velocidad máxima del viento,Velocidad media del viento
3182,23.2,30.6,26.5,86.0,,4.0,2.0
3183,23.6,30.6,27.3,84.0,,5.0,2.0
3184,24.8,30.8,28.0,77.0,,4.0,2.0
3185,25.4,30.4,27.3,78.0,,4.0,1.0
3186,23.8,31.6,26.7,80.0,,4.0,1.0
...,...,...,...,...,...,...,...
3891,23.6,30.0,27.0,86.0,0.0,3.0,1.0
3892,,30.4,26.5,86.0,11.7,3.0,0.0
3893,24.0,30.0,26.7,86.0,,4.0,3.0
3894,24.6,30.0,27.0,84.0,0.0,6.0,3.0


## Eliminamos las columnas de temperaturas mínima y máxima, ya que no las vamos a usar en el modelo

In [15]:
df_periodo.drop('Temperatura máxima', inplace=True, axis=1)
df_periodo.drop('Temperatura minima', inplace=True, axis=1)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_periodo.drop('Temperatura máxima', inplace=True, axis=1)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_periodo.drop('Temperatura minima', inplace=True, axis=1)


## Visualizamos el modelo con los datos esenciales para construir el modelo

In [16]:
df_periodo

Unnamed: 0,Temperatura media,Humedad Relativa,Precipitación total,Velocidad máxima del viento,Velocidad media del viento
3182,26.5,86.0,,4.0,2.0
3183,27.3,84.0,,5.0,2.0
3184,28.0,77.0,,4.0,2.0
3185,27.3,78.0,,4.0,1.0
3186,26.7,80.0,,4.0,1.0
...,...,...,...,...,...
3891,27.0,86.0,0.0,3.0,1.0
3892,26.5,86.0,11.7,3.0,0.0
3893,26.7,86.0,,4.0,3.0
3894,27.0,84.0,0.0,6.0,3.0


## Calculamos los cuantiles y determinamos el índice intercuartílico

In [18]:
Q1 = df_periodo.quantile(0.25)
Q3 = df_periodo.quantile(0.75)
IQR = Q3 - Q1

## Definimos los límites para los valores atípicos

In [19]:
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

## Identificamos los valores atípicos o *outliners*

In [20]:
outliers = (df_periodo < lower_bound) | (df_periodo > upper_bound)

## Realizamos una copia del dataframe para no alterar el original

In [21]:
df_clean = df_periodo.copy()

## Reemplazamos los valores atípicos con NaN

In [22]:
df_clean[outliers] = np.nan

## Eliminamos las filas con valores NaN y las describimos

In [23]:
df_clean = df_clean.dropna()
df_clean.info()

<class 'pandas.core.frame.DataFrame'>
Index: 554 entries, 3188 to 3894
Data columns (total 5 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   Temperatura media            554 non-null    float64
 1   Humedad Relativa             554 non-null    float64
 2   Precipitación total          554 non-null    float64
 3   Velocidad máxima del viento  554 non-null    float64
 4   Velocidad media del viento   554 non-null    float64
dtypes: float64(5)
memory usage: 26.0 KB


## Hacemos el análisis de los datos redondeando a 1 decimal

In [25]:
df_clean.describe().round(1)

Unnamed: 0,Temperatura media,Humedad Relativa,Precipitación total,Velocidad máxima del viento,Velocidad media del viento
count,554.0,554.0,554.0,554.0,554.0
mean,27.5,81.7,1.6,6.1,3.0
std,1.1,5.6,3.0,2.6,2.0
min,24.5,66.0,0.0,0.0,0.0
25%,26.7,78.0,0.0,4.0,1.0
50%,27.6,82.0,0.0,5.0,3.0
75%,28.3,86.0,1.8,8.0,4.0
max,30.5,94.0,11.7,14.0,8.0


## Vamos a hacer el análisis gráfico para observar la variación de datos entre limpios y sin filtrar

#### Obtenemos la lista de columnas

In [28]:
columnas = df_periodo.columns

#### Hacemos un bucle para generar gráficas

In [None]:
# Para cada columna
for col in columnas:
    # Crea una nueva figura
    plt.figure(figsize=(10, 4))

    # Grafica los datos originales
    plt.subplot(1, 2, 1)
    plt.scatter(range(len(df_periodo[col])), df_periodo[col])
    plt.title(f'Original: {col}')

    # Grafica los datos limpios
    plt.subplot(1, 2, 2)
    plt.scatter(range(len(df_clean[col])), df_clean[col])
    plt.title(f'Limpios: {col}')

    # Muestra la gráfica
    plt.tight_layout()
    plt.show()

## Pasamos los datos a un nuevo csv para facilitar la lectura de datos posteriormente

In [30]:
df_clean.to_csv('clima_limpio.csv', index=False)