# Limpieza y analisis

In [1]:
import pandas as pd

df = pd.read_csv('../data/AAPL_bruto.csv', index_col='Date', parse_dates=True)

print("Datos cargados desde el archivo:")
display(df.head())

Datos cargados desde el archivo:


Unnamed: 0_level_0,Open,High,Low,Close,Volume,Dividends,Stock Splits
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2020-08-31 00:00:00-04:00,124.099333,127.426026,122.562438,125.519493,225702700,0.0,4.0
2020-09-01 00:00:00-04:00,129.137999,131.122352,126.968843,130.519257,151948100,0.0,0.0
2020-09-02 00:00:00-04:00,133.836251,134.21561,123.535172,127.815125,200119000,0.0,0.0
2020-09-03 00:00:00-04:00,123.447625,125.324964,117.2125,117.58213,257599600,0.0,0.0
2020-09-04 00:00:00-04:00,116.794232,120.325195,107.864682,117.65995,332607200,0.0,0.0


Carga de datos de 'data/AAPL_bruto.csv' donde `index_col="Date"` le dice a pandas que la columna 'Date' debe ser el índice de la tabla y `parse_dates=True` convierte automáticamente el texto de esa columna a objetos de fecha.

In [2]:
print("Suma de valores nulos por columna:")
print(df.isnull().sum())

print(f"\nNúmero de filas duplicadas: {df.duplicated().sum()}")

Suma de valores nulos por columna:
Open            0
High            0
Low             0
Close           0
Volume          0
Dividends       0
Stock Splits    0
dtype: int64

Número de filas duplicadas: 0


Verificamos si hay filas duplicadas.

In [3]:
df.drop(['Dividends', 'Stock Splits'], axis=1, inplace=True)

print("Columnas 'Dividends' y 'Stock Splits' eliminadas.")
display(df.head())

Columnas 'Dividends' y 'Stock Splits' eliminadas.


Unnamed: 0_level_0,Open,High,Low,Close,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2020-08-31 00:00:00-04:00,124.099333,127.426026,122.562438,125.519493,225702700
2020-09-01 00:00:00-04:00,129.137999,131.122352,126.968843,130.519257,151948100
2020-09-02 00:00:00-04:00,133.836251,134.21561,123.535172,127.815125,200119000
2020-09-03 00:00:00-04:00,123.447625,125.324964,117.2125,117.58213,257599600
2020-09-04 00:00:00-04:00,116.794232,120.325195,107.864682,117.65995,332607200


Se eliminaron las columnas 'Dividends' y 'Stock Splits' del DataFrame, ya que no son relevantes para el análisis de precios de las acciones.

Se utiliza `axis=1` para indicar que se están eliminando columnas (en lugar de filas, que sería `axis=0`), y `inplace=True` para modificar el DataFrame directamente sin necesidad de reasignarlo.

## Guardamos el DataFrame limpio en un nuevo archivo CSV.
df.to_csv('data/AAPL_limpio.csv')

In [4]:
df.to_csv('../data/AAPL_limpio.csv')

print("Datos limpios guardados exitosamente en 'data/AAPL_limpio.csv'")

Datos limpios guardados exitosamente en 'data/AAPL_limpio.csv'


En este caso bastante de esto es innecesario ya que la libreria yfinance provee datos muy limpios y estructurados, minimizando la necesidad de un preprocesamiento extenso, sin embargo, es importante realizar una revisión y limpieza básica para asegurar la calidad de los datos ademas de ser algo recomendable en cualquier proyecto de ciencia de datos.

In [5]:
print("Resumen estadístico de los datos:")
display(df.describe())

Resumen estadístico de los datos:


Unnamed: 0,Open,High,Low,Close,Volume
count,1256.0,1256.0,1256.0,1256.0,1256.0
mean,169.621974,171.509361,167.872345,169.771447,75560920.0
std,36.193916,36.440187,36.027254,36.285478,35660380.0
min,101.687932,107.183789,100.287216,103.925163,23234700.0
25%,141.176467,143.632007,139.9414,142.086887,50789200.0
50%,167.591493,169.139098,166.042072,167.596024,67815600.0
75%,193.467698,194.990376,191.92643,193.258339,90370620.0
max,257.276679,259.179926,256.718662,258.103729,332607200.0


`describe` nos proporciona un resumen estadístico de las columnas numéricas en el DataFrame, incluyendo métricas como la media, la desviación estándar, los valores mínimo y máximo, y los cuartiles.

## Calculo de meticas financieras

In [6]:
# Retorno Diario: (Precio de hoy - Precio de ayer) / Precio de ayer
# El método .pct_change() lo calcula automáticamente.
df['Retorno_Diario'] = df['Close'].pct_change()

# Media Móvil Simple (SMA) de 50 días
df['SMA_50'] = df['Close'].rolling(window=50).mean()    

# 3. Media Móvil Simple (SMA) de 200 días
df['SMA_200'] = df['Close'].rolling(window=200).mean()

print("Nuevas columnas ('Retorno_Diario', 'SMA_50', 'SMA_200') calculadas.")

display(df.tail())

Nuevas columnas ('Retorno_Diario', 'SMA_50', 'SMA_200') calculadas.


Unnamed: 0_level_0,Open,High,Low,Close,Volume,Retorno_Diario,SMA_50,SMA_200
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2025-08-25 00:00:00-04:00,226.479996,229.300003,226.229996,227.160004,30983100,-0.002634,212.615341,220.535345
2025-08-26 00:00:00-04:00,226.869995,229.490005,224.690002,229.309998,54575100,0.009465,213.276995,220.569821
2025-08-27 00:00:00-04:00,228.610001,230.899994,228.259995,230.490005,31259500,0.005146,213.922894,220.61383
2025-08-28 00:00:00-04:00,230.820007,233.410004,229.339996,232.559998,38074700,0.008981,214.66573,220.644499
2025-08-29 00:00:00-04:00,232.509995,233.380005,231.369995,232.139999,39389400,-0.001806,215.381387,220.674413


## VISUALIZACIÓN DE PRECIOS Y MEDIAS MÓVILES

In [7]:
import plotly.express as px

fig = px.line(df,
              y=['Close', 'SMA_50', 'SMA_200'],
              title='Precio de Cierre de Apple (AAPL) y Medias Móviles',
              labels={'value': 'Precio (USD)', 'Date': 'Fecha'})

fig.update_layout(
    template='plotly_dark',
    legend_title_text='Indicadores',
    xaxis_rangeslider_visible=True # para seleccionar rango de fechas
)

fig.show()

## Grafico de Velas

In [8]:
import plotly.graph_objects as go

fig_velas = go.Figure(data=[go.Candlestick(x=df.index,
                open=df['Open'],
                high=df['High'],
                low=df['Low'],
                close=df['Close'])])

fig_velas.update_layout(
    title='Gráfico de Velas Japonesas para Apple (AAPL)',
    yaxis_title='Precio (USD)',
    xaxis_title='Fecha',
    template='plotly_dark',
    xaxis_rangeslider_visible=False
)

fig_velas.show()

## HISTOGRAMA DE RETORNOS DIARIOS

In [9]:
# Usamos la columna 'Retorno_Diario'
fig_hist = px.histogram(df,
                        x='Retorno_Diario',
                        nbins=100, # Número de "barras" en el histograma
                        title='Distribución de los Retornos Diarios de AAPL',
                        labels={'Retorno_Diario': 'Retorno Diario (%)'})

fig_hist.update_layout(
    template='plotly_dark',
    yaxis_title='Frecuencia'
)

fig_hist.show()

En esta grafica podemos ver como se distribuyen los retornos diarios de las acciones de Apple (AAPL). La mayoría de los retornos diarios se agrupan alrededor de 0, lo que indica que los cambios en el precio son generalmente pequeños. Sin embargo, también podemos observar algunos retornos extremos, tanto positivos como negativos, lo que sugiere que ha habido días de alta volatilidad.

## VOLUMEN DE NEGOCIACIÓN