In [None]:
# %pip install textblob
# %pip install pandas_datareader
# %pip install googletrans
# %pip install PIL
# %pip install wordcloud
# %pip install datetime
# %pip install  plotly
# %pip install pip install google_trans_new

In [None]:
%config Completer.use_jedi = False

import pandas as pd
import numpy as np
import pandas_datareader.data as web
import datetime as dt
from textblob import TextBlob
from google_trans_new import google_translator

import plotly
import plotly.graph_objects as go
import plotly.express as px
import plotly.express as px
from plotly.subplots import make_subplots

import matplotlib.pyplot as plt
import seaborn as sns
import matplotlib.pyplot as plt
from PIL import Image
from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator
from ipywidgets import interact,fixed

from sklearn.svm import SVC
from statsmodels.tsa.stattools import adfuller
from sklearn.preprocessing import MinMaxScaler

# Importando datos desde Yahoo Finance

In [None]:
# Extrayendo información financiera de Yahoo! Finance
inicio = '2019-01-01'
fin = '2021-02-17'

msft = web.DataReader("MSFT", 'yahoo',inicio, fin)  # información de Microsoft
aapl = web.DataReader("AAPL", 'yahoo', inicio, fin)  # información de Apple
spy = web.DataReader('SPY','yahoo',  inicio,fin)

In [None]:
msft.head(3)

In [None]:
aapl.head(3)

***
___

In [None]:
#Nos permite importar un diccionario de acciones

dic = {
    'msft' : msft['Close'],
    'aapl' : aapl['Close'],
    'spy'  : spy['Close']
}
data = pd.DataFrame(dic)
# data

In [None]:
data.plot()

***
___

# Análisis de los Retornos

para valores pequeños:

<h1>$$log(\frac{x_{t}}{x_{t-1}}) \approx \frac{x_{t}}{x_{t-1}}-1$$

In [None]:
np.log(data['msft']/data['msft'].shift(1))

In [None]:
(data['msft']/data['msft'].shift(1))-1

## ¿Pero entonces por que usar una o la otra?

> https://www.clasesdebolsa.com/index.php?/archives/229-La-paradoja-de-las-variaciones-porcentuales..html

Suponga que el precio de una acción baja de 20 a 10, tendríamos una pérdida de -50%:

In [None]:
(10/20)-1

¿Para recuperar nuestra inversión tendría que subir 50%, no?

In [None]:
10*(1+.50)

No, de hecho, para recuperar nuestra inversión el precio debería subir un 100% y no un 50% 

In [None]:
(20/10)-1

Sin embargo, en escala logarítima vemos que la magnitud en el movimiento de pérdida y recuperación es el mismo

In [None]:
np.log(10/20)

In [None]:
np.log(20/10)

***
___

# Análisis de Volatilidades históricas

### La volatilidad
Es la desviación estándar del logaritmo natural de los rendimientos, es decir, "la tasa de variación de los rendimientos históricos", también se conoce como volatilidad histórica móvil

In [None]:
def df(rezagos):
    dic = {
        'msft' : msft['Close'],
        'aapl' : aapl['Close'],
        'spy'  : spy['Close']
    }
    data = pd.DataFrame(dic)
    retornos = np.log(data/data.shift(1))
    retornos.columns = ['{}_retorno'.format(i) for i in data]

    volatilidad = data.rolling(rezagos).std() #252 son los días bursátiles en el nasdaq
    volatilidad.columns = ['{}_volatilidad'.format(i) for i in data]

    data = pd.concat([data,retornos,volatilidad], axis = 1)
    
    fig = make_subplots(rows=1,cols=2, shared_xaxes=True,shared_yaxes=False, subplot_titles=['Precio','Volatilidad'],
                   )

    fig.add_scatter(x=data.index,y=data['msft'], name='Precio MSFT', row=1,col=1)
    fig.add_scatter(x=data.index,y=data['msft_volatilidad'], name='Volatilidad MSFT', row=1,col=2)
    
    
    return fig.show()
    

In [None]:
interact(df, rezagos=[242,20,2])

In [None]:
def df2(rezagos):
    dic = {
        'msft' : msft['Close'],
        'aapl' : aapl['Close'],
        'spy'  : spy['Close']
    }
    data = pd.DataFrame(dic)
    retornos = np.log(data/data.shift(1))
    retornos.columns = ['{}_retorno'.format(i) for i in data]

    volatilidad = data.rolling(rezagos).std() #252 son los días bursátiles en el nasdaq
    volatilidad.columns = ['{}_volatilidad'.format(i) for i in data]

    data = pd.concat([data,retornos,volatilidad], axis = 1)
    
    
    data1 = data.copy()

    minmax = MinMaxScaler()
    minmax = minmax.fit(data)
    data1 = minmax.fit_transform(data)
    data1 = pd.DataFrame(data1,columns=data.columns)
    
    fig = go.Figure()

    fig.add_scatter(x=data.index,y=data1['msft'], name = 'Precio')
    fig.add_scatter(x=data.index,y=data1['msft_volatilidad'], name = 'Volatilidad')
    
    return fig.show()

In [None]:
interact(df2, rezagos =[252,20,2])

***
___

# Series de Tiempo Financieras

Wes McKinney, el principal
autor de pandas, comenzó a desarrollar la biblioteca cuando trabajaba como analista en AQR

In [None]:
fechas = pd.date_range('2021-01-01',periods=12,freq='B')
fechas 

![image.png](attachment:image.png)

***
___

# Media Móvil

In [None]:
def mma(periodos):
    fig = go.Figure()

    fig.add_scatter(x=data.index,y=data1['msft'], name = 'Precio')
    fig.add_scatter(x=data.index,y=data1['msft'].rolling(periodos).mean(), 
                    name = 'media movil de {} periodos'.format(periodos))
    fig.add_scatter(x=data.index,y=data1['msft_retorno'].rolling(periodos).std(), 
                    name = 'Volatilidad móvil de {} periodos'.format(periodos))
    
    return fig.show()

In [None]:
interact(mma,periodos=[8,20,100,200])

***
___

In [None]:
dic = {
        'msft' : msft['Close'],
        'aapl' : aapl['Close'],
        'spy'  : spy['Close']
    }
data = pd.DataFrame(dic)
retornos = np.log(data/data.shift(1))
retornos.columns = ['{}_retorno'.format(i) for i in data]

volatilidad = data.rolling(252).std() #252 son los días bursátiles en el nasdaq
volatilidad.columns = ['{}_volatilidad'.format(i) for i in data]

data = pd.concat([data,retornos,volatilidad], axis = 1)

# Valor futuro

Suponga que tiene un capital de 100 millones y desea invertir en microsoft, durante un año

<h1> $$VF = VP(1+i_{n})^{n}$$

In [None]:
vp = 100000000
r = data['msft_retorno'].resample('Y').mean().loc['2020'][0]

In [None]:
vf = lambda vp,r,n: vp*((1+r)**n)

In [None]:
vf(vp,r,1)

In [None]:
valor_futuro = np.fv(rate=r,pv=-vp,nper=1,pmt=0,when='end')
valor_futuro

***
___

# Valor presente
suponga que quiere obtener una ganancia de 150 millones al cabo de un año invirtiendo en microsoft, ¿cuánto debe invertir a la tasa de rendimiento observada?

<h1> $$VP = \frac{VF}{(1+r_{n})^{n}}$$

In [None]:
vf = 150000000
r = data['msft_retorno'].resample('Y').mean().loc['2020'][0]

In [None]:
vp = lambda vf,r,n: vf/((1+r)**n)

In [None]:
vp(vf,r,1)

valor_presente = np.pv(r,1,pmt=0,fv=-vf,when='end')
valor_presente

***
___

# Valor presente neto
suponga que compra un activo financiero que paga cuatro flujos de caja cada uno con valor = [10000000,20000000,10000000,75000000] durante un año, la tasa de interés del activo es de 3% EA, usted paga por el activo 100000000 ¿es una buena inversión?

<h1> $$VPN = -I_{0} + \sum_{t=1}^{n} \frac{Fc_{t}}{(1+r)^{t}}$$

dónde $I_{0}$ es la inversión inicial, $Fc_{t}$ es el flujo de caja en el momento t y $n$ es el número de periodos o pagos

In [None]:
fc =  [-100000000,10000000,20000000,10000000,75000000]
r = 0.03

In [None]:
valor_presente_neto = np.npv(r,values=fc) 
valor_presente_neto

***
___

# Tasa interna de retorno

La tasa de interna de retorno es la tasa que hace que el vpn sea igual a 0, es decir, nos dice el porcentaje de beneficio o pérdida verdadedo en un proyecto de inversión

<h1> $$VPN = -I_{0} + \sum_{t=1}^{n} \frac{Fc_{t}}{(1+TIR)^{t}} = 0$$

Si

  + TIR > r el proyecto de inversión es rentable
  + TIR = 0 el proyecto de inversión no genera pérdidas o ganancias
  + TIR < r el poryecto de inversión no es rentable

In [None]:
tir = np.irr(fc)
tir

In [None]:
np.round(np.npv(tir,fc))

****
___

<h1><center>Análisis de Sentimientos</center></h1>

# TextBlob

"TextBlob es una biblioteca de Python (2 y 3) para procesar datos textuales. Proporciona una API simple para sumergirse en tareas comunes de procesamiento del lenguaje natural (PNL) como el etiquetado de parte del discurso, extracción de frases nominales, análisis de sentimientos, clasificación, traducción y más"

https://textblob.readthedocs.io/en/dev/

### TextBlob para análisis de sentimientos
"El análisis de sentimiento utiliza técnicas de procesamiento de lenguaje natural (NLP) para obtener conclusiones sobre textos producidos por personas y analizar en ellos rasgos de interés asociados a emociones positivas o negativas.  Se requiere un modelo que ya haya sido entrenado con textos que nos permita obtener valores cuantificables."
> https://blog.hacemoscontactos.com/2018/07/28/analisis-de-sentimientos-sobre-twitter-usando-la-libreria-textblob-de-python/

### Métricas de Polaridad y Subjetividad

 + **La polaridad** es el sentimiento mismo, que va de -1 a +1. 
 + **La subjetividad** es una medida del sentimiento siendo objetivo a subjetivo, y va de 0 a 1. Preferimos ver el sentimiento que es objetivo que subjetivo, así que una puntuación más baja probablemente denote una lectura más precisa.
> https://unipython.com/analisis-de-sentimientos-con-textblob-y-vader/

In [None]:
nasdaq = pd.read_csv('nasdaq_26_05.csv') 
nasdaq.dropna(how='any',axis=0,inplace=True)
noticias = pd.read_csv('noticias_nasdaq2.csv')
noticias.head(3)

In [None]:
noticias.iloc[0]['Texto']

### Visualizar Gráficamente una noticia

In [None]:
text = noticias.iloc[0]['Texto']
wordcloud = WordCloud(background_color="white").generate(text)
plt.figure( figsize=(15,10))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
plt.show()

***
___

In [None]:
a = TextBlob(noticias.iloc[0]['Texto'])
print(a.sentiment.polarity)
print(a.sentiment.subjectivity)

In [None]:
b = TextBlob("This is horrible and it is the worst")
print(b.sentiment.polarity)
print(b.sentiment.subjectivity)

In [None]:
c = TextBlob('This is awesome and it is the best')
print(c.sentiment.polarity)
print(c.sentiment.subjectivity)

***
___

In [None]:
español = TextBlob('Este es el mejor curso de la UACE')
print(español.sentiment.polarity)
print(español.sentiment.subjectivity)

## Google translator en python

In [None]:
translator = google_translator()
translate_text = translator.translate(text,'es')
translate_text

In [None]:
wordcloud = WordCloud(background_color="white",).generate(translate_text)
plt.figure( figsize=(15,10))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
plt.show()

***
___

### ¿Podemos realizar algún análisis cuantitativo?

In [None]:
noticias = pd.read_csv('noticias_nasdaq2.csv')

Polarity = []
Score = []
for i in noticias['Texto']:
    sentA = TextBlob(str(i))
    Polarity.append(sentA.sentiment.polarity)
    if sentA.sentiment.polarity >= 0.05:
        score = 'positiva'
    elif -0.05 < sentA.sentiment.polarity < 0.05:
        score = 'neutral'
    else:
        score = 'negativo'
    Score.append(score)
noticias['Polarity'] = Polarity
noticias['Score'] = Score

noticias.dropna(inplace=True)

In [None]:
df = pd.concat([noticias['Polarity'],nasdaq],axis=1)
df.drop('Date',axis=1,inplace=True)

In [None]:
minmax = MinMaxScaler()
minmax = minmax.fit(df)
df = minmax.fit_transform(df)

In [None]:
fig = plt.figure()
plt.plot(df)
plt.legend(['Polarity','Nasdaq Price'])
plt.xlabel('Hora')
plt.xticks([])
plt.title('Noticias del 26 de mayo de 2020')
plt.show()

***
___

<h1><center>Machine Learning  </center></h1>

In [None]:
aapl['Retorno'] = np.log(aapl['Close']/aapl['Close'].shift(1))

# El problema de la raiz unitaria

Prueba de aumentada de Dickey-Fuller para comprobar si existe una raiz unitaria en un porceso AR(1) y concluir si existe correlación serial.

La hipótesis nula de la prueba es que la serie de tiempo puede ser representada por una raíz unitaria, que no es estacionaria (tiene alguna estructura dependiente del tiempo). La hipótesis alternativa (rechazando la hipótesis nula) es que la serie temporal es estacionaria.

 + Hipótesis nula (H0) : si no se puede rechazar, sugiere que la serie temporal tiene una raíz unitaria, lo que significa que no es estacionaria. Tiene alguna estructura dependiente del tiempo.
 + Hipótesis alternativa (H1) : se rechaza la hipótesis nula; sugiere que la serie temporal no tiene una raíz unitaria, lo que significa que es estacionaria. No tiene una estructura dependiente del tiempo.
 
> https://machinelearningmastery.com/time-series-data-stationary-python/

In [None]:
resultado = adfuller(aapl['Close'])
print('ADF Statistic: %f' % resultado[0])
print('p-value: %f' % resultado[1])
print('Critical Values:')
for key, value in resultado[4].items():
    print('\t%s: %.3f' % (key, value))

con:

 + p-value > 0.05 : No se puede rechazar la hipótesis nula (H0), los datos tienen una raíz unitaria y no son estacionarios.
 + p-value <= 0.05 : Rechaza la hipótesis nula (H0), los datos no tienen una raíz unitaria y son estacionarios.

In [None]:
aapl['Close'].plot()

In [None]:
aapl['Retorno'].plot(kind='hist')

# Preparar los Rezagos de las Acciones

Para crear predicciones para las series de tiempo financieras analizadas, trabajamos con cinco rezagos. La idea básica de los valores históricos (retorno) de los cinco días anteriores se utilizan para predecir el valor hoy. considere el siguiente conjunto de datos simple.

In [None]:
n = 15
df = pd.DataFrame(np.arange(n),index=pd.date_range('2020-05-22', periods=n, freq = 'T'),
                 columns=['data'])
# df

In [None]:
lags = 5
for lag in range(1,lags+1):
    df['lag_{}'.format(lag)] = df['data'].shift(lag)
df

In [None]:
df.dropna(inplace=True)

df.astype(int)

***
___

# Agregar los rezagos

In [None]:
def add_lags(data,instrument,lags):
    cols = []
    df = pd.DataFrame(returns[instrument])
    for lag in range(1, lags +1):
        col = 'lag_{}'.format(lag)
        
        df[col] = df[instrument].shift(lag)
        cols.append(col)
    df.dropna(inplace = True)
    return(df,cols)   

In [None]:
def add_lags(data,retorno,lags):
    cols = []
    df = pd.DataFrame(data[retorno])
    for lag in range(1,lags+1):
        df['lag_{}'.format(lag)] = df[retorno].shift(lag)
    df.dropna(inplace=True)
    return(df)

In [None]:
add_lags(aapl,'Retorno',5)

***
___

## np.sign() 
devuelve el signo de (la dirección) del campo, elemento y observación determinado

In [None]:
# aapl['Retorno']
np.sign(aapl['Retorno'])

In [None]:
# Cantidad de patrones analizados:
lags**2

## Implementar una máquina soportada en vectores, o máquinas de soporte vectorial
SVM

La matriz que consta de las columnas de datos rezagadas se usa para predecir la dirección de movimiento del día siguiente del instrumento a través del algoritmo (SVM). Este es un algoritmo de clasificación que puede aprender de patrones históricos (5 rezagos) y predecir si un movimiento hacia arriba es más probable que un movimiento hacia abajo.

> https://www.ibm.com/support/knowledgecenter/es/SS3RA7_sub/modeler_mainhelp_client_ddita/clementine/svm_perfimp.html

In [None]:
dfs = add_lags(aapl,'Retorno',5)

y = np.sign(dfs['Retorno'])
X = np.sign(dfs[['lag_1','lag_2','lag_3','lag_4','lag_5']])

model = SVC(C=10).fit(X,y)

dfs['Posición'] = model.predict(X)
# dfs

# Backtesting Vectorizado

In [None]:
dfs['Estrategia'] = dfs['Retorno'] * dfs['Posición']

# Rendimiento acumulado (no ln)

In [None]:
df[['AAPL.O','Estrategia']].cumsum().apply(np.exp).iplot()

In [None]:
fig = plt.figure(figsize=(10,7))
plt.plot(dfs['Retorno'].cumsum().apply(np.exp))
plt.plot(dfs['Estrategia'].cumsum().apply(np.exp))
plt.legend(['Retorno Verdadero','Estrategia'])
plt.show()