# Limpieza y analisis

In [1]:
import pandas as pd

df = pd.read_csv('../data/AAPL_bruto.csv', index_col='Date', parse_dates=True)

print("Datos cargados desde el archivo:")
display(df.head())

Datos cargados desde el archivo:


Unnamed: 0_level_0,Open,High,Low,Close,Volume,Dividends,Stock Splits
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2020-08-31 00:00:00-04:00,124.099333,127.426026,122.562438,125.519493,225702700,0.0,4.0
2020-09-01 00:00:00-04:00,129.137999,131.122352,126.968843,130.519257,151948100,0.0,0.0
2020-09-02 00:00:00-04:00,133.836251,134.21561,123.535172,127.815125,200119000,0.0,0.0
2020-09-03 00:00:00-04:00,123.447625,125.324964,117.2125,117.58213,257599600,0.0,0.0
2020-09-04 00:00:00-04:00,116.794232,120.325195,107.864682,117.65995,332607200,0.0,0.0


Carga de datos de 'data/AAPL_bruto.csv' donde `index_col="Date"` le dice a pandas que la columna 'Date' debe ser el índice de la tabla y `parse_dates=True` convierte automáticamente el texto de esa columna a objetos de fecha.

In [2]:
print("Suma de valores nulos por columna:")
print(df.isnull().sum())

print(f"\nNúmero de filas duplicadas: {df.duplicated().sum()}")

Suma de valores nulos por columna:
Open            0
High            0
Low             0
Close           0
Volume          0
Dividends       0
Stock Splits    0
dtype: int64

Número de filas duplicadas: 0


Verificamos si hay filas duplicadas.

In [None]:
df.drop(['Dividends', 'Stock Splits'], axis=1, inplace=True)

print("Columnas 'Dividends' y 'Stock Splits' eliminadas.")
display(df.head())

Columnas 'Dividends' y 'Stock Splits' eliminadas.


Unnamed: 0_level_0,Open,High,Low,Close,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2020-08-31 00:00:00-04:00,124.099333,127.426026,122.562438,125.519493,225702700
2020-09-01 00:00:00-04:00,129.137999,131.122352,126.968843,130.519257,151948100
2020-09-02 00:00:00-04:00,133.836251,134.21561,123.535172,127.815125,200119000
2020-09-03 00:00:00-04:00,123.447625,125.324964,117.2125,117.58213,257599600
2020-09-04 00:00:00-04:00,116.794232,120.325195,107.864682,117.65995,332607200


Se eliminaron las columnas 'Dividends' y 'Stock Splits' del DataFrame, ya que no son relevantes para el análisis de precios de las acciones.

Se utiliza `axis=1` para indicar que se están eliminando columnas (en lugar de filas, que sería `axis=0`), y `inplace=True` para modificar el DataFrame directamente sin necesidad de reasignarlo.

## Guardamos el DataFrame limpio en un nuevo archivo CSV.
df.to_csv('data/AAPL_limpio.csv')

In [4]:
df.to_csv('../data/AAPL_limpio.csv')

print("Datos limpios guardados exitosamente en 'data/AAPL_limpio.csv'")

Datos limpios guardados exitosamente en 'data/AAPL_limpio.csv'


En este caso bastante de esto es innecesario ya que la libreria yfinance provee datos muy limpios y estructurados, minimizando la necesidad de un preprocesamiento extenso, sin embargo, es importante realizar una revisión y limpieza básica para asegurar la calidad de los datos ademas de ser algo recomendable en cualquier proyecto de ciencia de datos.