# Preprocesamiento de datos

En este cuaderno limpiaremos los datos que hemos obtenido haciendo webscrapping.

Primero importamos librerías.

In [1]:
import pandas as pd
import numpy as np

Cargamos los datos.

In [2]:
# Carga el archivo CSV omitiendo las dos primeras filas problemáticas.
data = pd.read_csv('../data/ibex_data.csv', skiprows=2)

data.head()

Unnamed: 0,2012-01-04,8683.400390625,8701.2998046875,8526.7998046875,8581.7998046875,8581.791015625,243803000
0,2012-01-05,8598.700195,8598.700195,8301.200195,8329.599609,8329.59082,192704000
1,2012-01-06,8369.700195,8445.900391,8233.799805,8289.099609,8289.09082,153765000
2,2012-01-09,8314.5,8404.400391,8250.099609,8278.900391,8278.891602,173948000
3,2012-01-10,8341.099609,8486.099609,8339.0,8472.900391,8472.891602,200515000
4,2012-01-11,8463.099609,8521.200195,8371.299805,8426.799805,8426.791016,234067000


Renombramos las columnas para que coincidan con sus valores.

In [3]:
# Renombra las columnas para que tengan sentido.
data.columns = ['Date', 'Adj Close', 'Close', 'High', 'Low', 'Open', 'Volume']

data.head()

Unnamed: 0,Date,Adj Close,Close,High,Low,Open,Volume
0,2012-01-05,8598.700195,8598.700195,8301.200195,8329.599609,8329.59082,192704000
1,2012-01-06,8369.700195,8445.900391,8233.799805,8289.099609,8289.09082,153765000
2,2012-01-09,8314.5,8404.400391,8250.099609,8278.900391,8278.891602,173948000
3,2012-01-10,8341.099609,8486.099609,8339.0,8472.900391,8472.891602,200515000
4,2012-01-11,8463.099609,8521.200195,8371.299805,8426.799805,8426.791016,234067000


Vemos los tipos de datos.

In [4]:
data.dtypes

Date          object
Adj Close    float64
Close        float64
High         float64
Low          float64
Open         float64
Volume         int64
dtype: object

Convertimos la columna `Date` a objeto datetime y la convertimos en el índice del DataFrame, una práctica común para hacer series temporales. Además eliminamos la hora de la fecha ya que no es relevante.

In [5]:
# Convertimos la columna 'Date' en un índice de fecha
data['Date'] = pd.to_datetime(data['Date'])
data['Date'] = data['Date'].dt.date  # Extrae solo la fecha (sin horas)
data.set_index('Date', inplace=True)

data.head()

Unnamed: 0_level_0,Adj Close,Close,High,Low,Open,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2012-01-05,8598.700195,8598.700195,8301.200195,8329.599609,8329.59082,192704000
2012-01-06,8369.700195,8445.900391,8233.799805,8289.099609,8289.09082,153765000
2012-01-09,8314.5,8404.400391,8250.099609,8278.900391,8278.891602,173948000
2012-01-10,8341.099609,8486.099609,8339.0,8472.900391,8472.891602,200515000
2012-01-11,8463.099609,8521.200195,8371.299805,8426.799805,8426.791016,234067000


Vemos si hay datos nulos.

In [6]:
data.isnull().sum()

Adj Close    0
Close        0
High         0
Low          0
Open         0
Volume       0
dtype: int64

Aseguramos que no haya habido errores al importar los datos y que no haya duplicados.

In [7]:
data.duplicated().sum()

0

Podemos agregar columnas de más que puedan darnos características útiles extras.

In [8]:
# Calcular características adicionales útiles
data['Daily Range'] = data['High'] - data['Low']  # Rango del día
data['Price Change'] = data['Close'] - data['Open']  # Cambio diario de precio
data['Log Volume'] = np.log1p(data['Volume'])  # Volumen logarítmico

data.head()

Unnamed: 0_level_0,Adj Close,Close,High,Low,Open,Volume,Daily Range,Price Change,Log Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
2012-01-05,8598.700195,8598.700195,8301.200195,8329.599609,8329.59082,192704000,-28.399414,269.109375,19.076666
2012-01-06,8369.700195,8445.900391,8233.799805,8289.099609,8289.09082,153765000,-55.299805,156.80957,18.850936
2012-01-09,8314.5,8404.400391,8250.099609,8278.900391,8278.891602,173948000,-28.800781,125.508789,18.974267
2012-01-10,8341.099609,8486.099609,8339.0,8472.900391,8472.891602,200515000,-133.900391,13.208008,19.1164
2012-01-11,8463.099609,8521.200195,8371.299805,8426.799805,8426.791016,234067000,-55.5,94.40918,19.271118


Consideramos una columna clave `Adj Close` ya que es útil para un análisis a largo plazo porque muestra el valor real, considerando los dividendos y otras operaciones corporativas.

Ahora que el análisis ha terminado, exportamos los datos limpios.

In [9]:
data.to_csv('../data/ibex_data_clean.csv')