# Carga de modulos

In [4]:
import os
import pandas as pd

# Carga del dato crudo

In [6]:
# Cargar el archivo CSV
raw_all_stocks_path = '../data/raw/all_stocks_5yr.csv'
raw = pd.read_csv(raw_all_stocks_path)

# Analisis exploratorio del dato

In [7]:
# Revisar tipos de datos
print("Tipos de datos:")
print(raw.dtypes)

Tipos de datos:
date       object
open      float64
high      float64
low       float64
close     float64
volume      int64
Name       object
dtype: object


In [8]:
# Convertir la columna 'date' a formato de fecha
raw['date'] = pd.to_datetime(raw['date'], errors='coerce')

# Verificar si hubo algún valor inválido convertido a NaT (Not a Time)
valores_invalidos = raw['date'].isnull().sum()
if valores_invalidos > 0:
    print(f"Se encontraron {valores_invalidos} valores inválidos en la columna 'date'.")
else:
    print("Todos los valores de la columna 'date' son válidos.")

Todos los valores de la columna 'date' son válidos.


In [9]:
# Revisar si hay valores nulos
print("Valores nulos por columna:")
print(raw.isnull().sum())

Valores nulos por columna:
date       0
open      11
high       8
low        8
close      0
volume     0
Name       0
dtype: int64


In [12]:
# Revisar las filas con valores nulos
nulos = raw[raw.isnull().any(axis=1)]
print(nulos)

             date  open   high    low     close   volume  Name
82949  2017-07-26   NaN    NaN    NaN   69.0842        3   BHF
165734 2015-07-17   NaN  88.76  88.24   88.7200  2056819   DHR
165857 2016-01-12   NaN    NaN    NaN   88.5500        0   DHR
205076 2015-07-17   NaN  48.49  47.85   47.9200  1246786    ES
239832 2016-07-01   NaN    NaN    NaN   49.5400        0   FTV
434379 2015-07-17   NaN  47.31  46.83   46.9900  1229513     O
434502 2016-01-12   NaN    NaN    NaN   52.4300        0     O
478594 2015-06-09   NaN    NaN    NaN  526.0900    12135  REGN
558213 2016-04-07   NaN    NaN    NaN   41.5600        0    UA
581906 2015-05-12   NaN    NaN    NaN  124.0800   569747  VRTX
598236 2015-06-26   NaN    NaN    NaN   61.9000      100   WRK


In [15]:
# Aplicar Forward Fill para las columnas con valores nulos
df_clean = raw.ffill()

# Verificar que no haya valores nulos después del Forward Fill
print("Valores nulos después del Forward Fill:")
print(df_clean.isnull().sum())

Valores nulos después del Forward Fill:
date      0
open      0
high      0
low       0
close     0
volume    0
Name      0
dtype: int64


In [16]:
# Identificar duplicados
duplicados = df_clean.duplicated().sum()
print(f"Filas duplicadas: {duplicados}")

Filas duplicadas: 0


# Generar archivos de prueba

In [24]:
# Filtramos por valores únicos de la columna 'name'
unique_names = df_clean['Name'].unique()

print(f'Numero total de empresas unicas: {len(unique_names)}')

Numero total de empresas unicas: 505


In [27]:
# Definimos la fecha deseada
fecha = '08/02/2018'

# Creamos un diccionario con los valores que queremos que aparezcan en cada CSV
data = {
    'date': [fecha],
    'open': [50],
    'high': [50],
    'low': [50],
    'close': [50],
    'volume': [50]
}

# Recorremos los nombres únicos y creamos un archivo CSV para cada uno
for name in unique_names:
    # Añadimos el nombre específico al diccionario
    data['Name'] = [name]
    
    # Convertimos el diccionario en un DataFrame
    df_name = pd.DataFrame(data)
    
    # Guardamos el DataFrame en un archivo CSV con el nombre de la empresa
    filename = f"../data/raw/daily_stocks/{name}_data.csv"
    df_name.to_csv(filename, index=False)

    print(f"Archivo {filename} generado correctamente.")

Archivo ../data/raw/daily_stocks/AAL_data.csv generado correctamente.
Archivo ../data/raw/daily_stocks/AAPL_data.csv generado correctamente.
Archivo ../data/raw/daily_stocks/AAP_data.csv generado correctamente.
Archivo ../data/raw/daily_stocks/ABBV_data.csv generado correctamente.
Archivo ../data/raw/daily_stocks/ABC_data.csv generado correctamente.
Archivo ../data/raw/daily_stocks/ABT_data.csv generado correctamente.
Archivo ../data/raw/daily_stocks/ACN_data.csv generado correctamente.
Archivo ../data/raw/daily_stocks/ADBE_data.csv generado correctamente.
Archivo ../data/raw/daily_stocks/ADI_data.csv generado correctamente.
Archivo ../data/raw/daily_stocks/ADM_data.csv generado correctamente.
Archivo ../data/raw/daily_stocks/ADP_data.csv generado correctamente.
Archivo ../data/raw/daily_stocks/ADSK_data.csv generado correctamente.
Archivo ../data/raw/daily_stocks/ADS_data.csv generado correctamente.
Archivo ../data/raw/daily_stocks/AEE_data.csv generado correctamente.
Archivo ../data/