## 1. Instalación e importación de librerías

In [1]:
# Solo es necesario ejecutar una vez en la terminal o en una celda con '!'  
!pip install yfinance pandas numpy matplotlib plotly



In [2]:
# Importamos las librerías básicas
import yfinance as yf
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import plotly.express as px


## 2. Descarga de datos con yfinance

In [3]:
# Definimos el ticker y el rango de fechas
tickers = ['NVDA', 'AAPL']
start_date = "2020-01-01"
end_date = "2022-12-31"

# Descarga de datos diarios
dataframe = yf.download(tickers, start=start_date, end=end_date, auto_adjust=True)

# Primer vistazo
dataframe.head()


[*********************100%***********************]  2 of 2 completed


Price,Close,Close,High,High,Low,Low,Open,Open,Volume,Volume
Ticker,AAPL,NVDA,AAPL,NVDA,AAPL,NVDA,AAPL,NVDA,AAPL,NVDA
Date,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2
2020-01-02,72.538536,5.971746,72.598914,5.971746,71.292326,5.892342,71.545912,5.942872,135480400,237536000
2020-01-03,71.83329,5.876163,72.594055,5.919972,71.608685,5.827126,71.765667,5.852018,146322800,205384000
2020-01-06,72.405693,5.900805,72.444336,5.906032,70.703027,5.756682,70.954203,5.782819,118387200,262636000
2020-01-07,72.06514,5.972246,72.671333,6.018046,71.845362,5.884129,72.41533,5.929183,108872000,314856000
2020-01-08,73.224403,5.983447,73.526295,6.024767,71.768079,5.927939,71.768079,5.968014,132079200,277108000


In [4]:
# Elegimos la columna que queramos (preci ajustado)
adj_close = dataframe['Close']

adj_close.head()

Ticker,AAPL,NVDA
Date,Unnamed: 1_level_1,Unnamed: 2_level_1
2020-01-02,72.538536,5.971746
2020-01-03,71.83329,5.876163
2020-01-06,72.405693,5.900805
2020-01-07,72.06514,5.972246
2020-01-08,73.224403,5.983447


## 3. Limpieza de datos

- Revisamos si hay valores faltantes

- Ajustamos tipos de dato

- Reindexamos si es necesario

In [5]:
# 3.1 Detectar valores nulos
print("Valores nulos por columna:")
print(adj_close.isna().sum())

Valores nulos por columna:
Ticker
AAPL    0
NVDA    0
dtype: int64


Recordemos que df_clean = df.copy() crea una copia nueva y la guarda en la variable de antes del igual.

Hay2 formas de eliminar valores faltantes:
- Por filas: (para eliminar días problemáticos)
    - df.dropna(axis=0, how='any')

        elimina todos los valores de la fila si hay CUALQUIER valor NaN (nulo)

    - df.dropna(axis=0, how='all')

        elimina todos los valores de la fila si TODOS son NaN (nulo)
        
- Por columnas: (para eliminar activos problemáticos)
    - df.dropna(axis=1, how='any')

        elimina todos los valores de la columna si hay CUALQUIER valor NaN (nulo)

    - df.dropna(axis=1, how='all')

        elimina todos los valores de la columna si TODOS son NaN (nulo)

- En la función dropna hay otros 2 argumentos que nos pueden interesar:
    - inplace=, True si queremos que la limpieza se haga en el mismo dataframe
    - thresh=, para establecer el número mínimo de valores nulos que tiene que haber para que se elimine la fila o columna en cuestión

In [7]:
# 3.2 Eliminar nulos (si los hubiese)
adj_close_clean = adj_close.dropna(axis=0, how='any')


In [8]:
# 3.3 Indexar por fecha como DatetimeIndex
adj_close_clean.index = pd.to_datetime(adj_close_clean.index)

adj_close_clean.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 756 entries, 2020-01-02 to 2022-12-30
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   AAPL    756 non-null    float64
 1   NVDA    756 non-null    float64
dtypes: float64(2)
memory usage: 17.7 KB


## 4. Slicing con condicionales

In [15]:
# Extraer datos del año 2021
# TO-DO
close_21 = adj_close_clean.loc["2021",:]
print(close_21)

close_21_distinto = adj_close_clean["2021-01-01":"2021-12-31"]
print(close_21_distinto)


Ticker            AAPL       NVDA
Date                             
2021-01-04  126.096573  13.078189
2021-01-05  127.655602  13.368654
2021-01-06  123.358528  12.580535
2021-01-07  127.567909  13.308069
2021-01-08  128.668991  13.241001
...                ...        ...
2021-12-27  176.796051  30.888638
2021-12-28  175.776428  30.266768
2021-12-29  175.864624  29.946352
2021-12-30  174.707809  29.532110
2021-12-31  174.090164  29.357424

[252 rows x 2 columns]
Ticker            AAPL       NVDA
Date                             
2021-01-04  126.096573  13.078189
2021-01-05  127.655602  13.368654
2021-01-06  123.358528  12.580535
2021-01-07  127.567909  13.308069
2021-01-08  128.668991  13.241001
...                ...        ...
2021-12-27  176.796051  30.888638
2021-12-28  175.776428  30.266768
2021-12-29  175.864624  29.946352
2021-12-30  174.707809  29.532110
2021-12-31  174.090164  29.357424

[252 rows x 2 columns]


In [23]:
# Días con cierre por encima de los 150 USD en ambas acciones
# TO-DO
high_close_both = adj_close_clean[(adj_close_clean['AAPL'] > 150) & (adj_close_clean['NVDA'] > 150)] 
high_close_both

Ticker,AAPL,NVDA
Date,Unnamed: 1_level_1,Unnamed: 2_level_1


In [24]:
# Días con cierre por encima de los 150 USD para cualquiera de las acciones
# TO-DO
high_close_both = adj_close_clean[(adj_close_clean['AAPL'] > 150) | (adj_close_clean['NVDA'] > 150)] 
high_close_both

Ticker,AAPL,NVDA
Date,Unnamed: 1_level_1,Unnamed: 2_level_1
2021-09-02,150.419373,22.352470
2021-09-03,151.055725,22.798597
2021-09-07,153.395432,22.617950
2021-09-08,151.848679,22.295576
2021-09-09,150.830536,22.133896
...,...,...
2022-09-20,154.461777,13.160932
2022-09-21,151.331161,13.245833
2022-09-22,150.366409,12.546636
2022-10-28,153.319778,13.818178


## 5. Visualización

In [None]:
plt.figure(figsize=(10, 5))
plt.plot(df_clean.index, df_clean['AAPL'], color='tab:blue', lw=1.5, label='AAPL')
plt.plot(df_clean.index, df_clean['NVDA'], color='tab:orange', lw=1.5, label='NVDA')
plt.title('Precio de Cierre de AAPL y NVDA (2020–2022)')
plt.xlabel('Fecha')
plt.ylabel('USD')
plt.grid(alpha=0.3)
plt.legend()
plt.show()


In [None]:
plt.figure(figsize=(8, 4))
plt.hist(df_clean['AAPL'], bins=50, color='tab:green', edgecolor='pink', label='AAPL')
plt.title('Distribución de Close Diario')
plt.xlabel('Close')
plt.ylabel('Frecuencia')
plt.legend()
plt.show()