# **Exploración de los archivos**

Importamos los datos

In [18]:
import pandas as pd

# Cargar los datos desde el archivo CSV guardado
csv_filepath = '../data/financial_data.csv' # 
data_raw = pd.read_csv(csv_filepath, header=[0, 1], index_col=0, parse_dates=True)

print("Datos cargados. Primeras filas:")
print(data_raw.head())
print("\nInformación del DataFrame:")
data_raw.info()

Datos cargados. Primeras filas:
Price           Close                                            High       \
Ticker           ARKQ BOTZ      GOOGL       MSFT      NVDA       ARKQ BOTZ   
Date                                                                         
2015-04-20  18.980328  NaN  27.096951  37.034481  0.532178  19.129559  NaN   
2015-04-21  19.008308  NaN  27.016832  36.801449  0.531456  19.026963  NaN   
2015-04-22  19.120234  NaN  27.328344  37.103531  0.537478  19.129561  NaN   
2015-04-23  19.259203  NaN  27.740372  37.405605  0.535310  19.260135  NaN   
2015-04-24  19.165934  NaN  28.546520  41.315315  0.530733  19.165934  NaN   

Price                                       ...       Open                  \
Ticker          GOOGL       MSFT      NVDA  ...       ARKQ BOTZ      GOOGL   
Date                                        ...                              
2015-04-20  27.160150  37.258879  0.540610  ...  19.129559  NaN  26.560516   
2015-04-21  27.258179  37.24161

# **Limpieza de Datos**

## *Inspección y conteo de valores nulos*

In [19]:
print("\nConteo de valores nulos por columna:")
print(data_raw.isnull().sum())
#Revisamos los datos nulos


Conteo de valores nulos por columna:
Price   Ticker
Close   ARKQ        0
        BOTZ      354
        GOOGL       0
        MSFT        0
        NVDA        0
High    ARKQ        0
        BOTZ      354
        GOOGL       0
        MSFT        0
        NVDA        0
Low     ARKQ        0
        BOTZ      354
        GOOGL       0
        MSFT        0
        NVDA        0
Open    ARKQ        0
        BOTZ      354
        GOOGL       0
        MSFT        0
        NVDA        0
Volume  ARKQ        0
        BOTZ      354
        GOOGL       0
        MSFT        0
        NVDA        0
dtype: int64


## *Limpieza y Rellenado de valores nulos*

In [None]:
# Aplicar forward fill para rellenar NaNs con el último valor válido conocido
data_cleaned = data_raw.ffill()

print("\nInformación del DataFrame limpio después de ffill:")
data_cleaned.info()
print("\nConteo de valores nulos después de ffill:")
print(data_cleaned.isnull().sum()) 


Información del DataFrame limpio después de ffill:
<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 2516 entries, 2015-04-20 to 2025-04-17
Data columns (total 25 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   (Close, ARKQ)    2516 non-null   float64
 1   (Close, BOTZ)    2162 non-null   float64
 2   (Close, GOOGL)   2516 non-null   float64
 3   (Close, MSFT)    2516 non-null   float64
 4   (Close, NVDA)    2516 non-null   float64
 5   (High, ARKQ)     2516 non-null   float64
 6   (High, BOTZ)     2162 non-null   float64
 7   (High, GOOGL)    2516 non-null   float64
 8   (High, MSFT)     2516 non-null   float64
 9   (High, NVDA)     2516 non-null   float64
 10  (Low, ARKQ)      2516 non-null   float64
 11  (Low, BOTZ)      2162 non-null   float64
 12  (Low, GOOGL)     2516 non-null   float64
 13  (Low, MSFT)      2516 non-null   float64
 14  (Low, NVDA)      2516 non-null   float64
 15  (Open, ARKQ)     2516 non-null   flo

## *Guardamos el resultado de la limpieza*

In [None]:
processed_data_dir = '../data/processed'
if not os.path.exists(processed_data_dir):
    os.makedirs(processed_data_dir)
    print(f"Carpeta '{processed_data_dir}' creada.")

# Defimos la ruta para guardar el archivo limpio
cleaned_parquet_filepath = os.path.join(processed_data_dir, 'ai_stocks_historical_data_cleaned.parquet')

# Guardamos el DataFrame limpio en formato Parquet
data_cleaned.to_parquet(cleaned_parquet_filepath)

print(f"\nDatos limpios guardados en: {cleaned_parquet_filepath}")


Datos limpios guardados en: ../data/processed\ai_stocks_historical_data_cleaned.parquet
