<img src="socalo-ICDA.png">

# Python para Finanzas y Ciencia de Datos
Federico Brun | fedejbrun@gmail.com

_Jueves 03 Septiembre 2020_

## Introducción a Python


In [None]:
course_name = "Python Para Finanzas y Ciencia de Datos"
course_calendar = ['03-09: Introduccion a Python',
                   '10-09: Sintaxis del Lenguaje',
                   '17-09: Estructuras de Datos',
                   '24-09: Terminar de definir']

###### Impresión en consola

In [None]:
print("Bienvenidos al curso {}".format(course_name))

In [None]:
print("El cronograma del curso es el siguiente:")

for class_day in course_calendar:
    print("Jueves " + class_day)

###### Control de flujo y condicionales

In [None]:
if len(course_calendar) < 5:
    print("El anterior cronograma no incluye los contenidos del modulo 2")
else:
    print("El anterior cronograma no incluye los contenidos del modulo 2")

In [None]:
x = 100
y = 21
print(x + y)    # Suma
print(x - y)    # Resta
print(x * y)    # Multiplicación
print(x / y)    # División 
print(4 * y)    # División
print(x % y)    # Módulo
print(x ** 2)   # Exponente
print(x // y)   # División Floor 
print(x == y)   # Igualdad
print(x != y)   # Diferencia
print(x >= y)   # Mayor o igual 
print(x <= y)   # Menor o igual

In [None]:
a = 200
b = 33
if b > a:
  print("b is greater than a")
elif a == b:
  print("a and b are equal")
else:
  print("a is greater than b")

###### Comentarios

In [None]:
"""
    Todo lo que se encuentra contenido entre tres comillas dobles
    es un comentario de bloque, orientado a la documentacion de
    codigo. (PYDOC)
"""

# Tambien puedo escribir comentarios de una sola linea

'''
   Documentar nuestro codigo es una muy buena practica para hacerlo
   mantenible.
'''

print("Los comentarios son ignorados por el interprete")


###### Algunos tipos de variables

In [None]:
# Logicas o booleanas
my_true = True
my_false = False

# Numeros
my_int = 10
my_float = 15.789

# Texto
my_string = "Esto es una cadena"
my_char = 'p'

# Sequencia o colecciones de datos
my_list = ["esto", "es ", "una", "lista"]
my_tuple = ("esto", "es ", "una", "tupla")

# De mapeo
my_dict = {
    'clave1': 'valor1',
    'clave2': 'valor2',
    'clave3': 'valor3'
}

###### Iteraciones simples

In [None]:
i = 1
while i < 6:
  print(i)
  i += 1 

In [None]:
for x in range(6):
    print(x)

###### Funciones

In [None]:
def my_function(class_day):
    print("Estamos en la {}º clase del curso de".format(class_day))
    print("Python para Fianzas y Ciencia de Datos")

In [None]:
my_function(1)

## Algunos ejemplos mas avanzados

### Descripción de Datos.

+ **Conceptos:**
    + **Estadística Descriptiva**:  presentación de la información de una forma clara, ordenada y sistematizada que permita a al observador tener una visión más precisa del problema que se tiene en frente.
    
    + **Inferencia Estadística**: busca extraer conclusiones respecto de el comportamiento de una o varias **variables** en una **población** a partir del estudio de una pequeña porción de dicha población, llamada **muestra**.
    
    + **Tipos de Datos:** *Cualitativos* vs *Cuantitativos*. 
    
    + **Parámetros poblacionales** vs **Estimadores**. 
    
    + **Variable Aleatoria (Va)**.    
        + A) Cualitativas o Categóricas.
        + B )Cuantitativas: a) Discretas; b) Continuas.

In [None]:
#Librerías
import statistics as sts
import pandas as pd #https://es.wikipedia.org/wiki/Pandas
import numpy as np #https://es.wikipedia.org/wiki/NumPy
from patsy import dmatrices
import statsmodels.api as sm #https://www.statsmodels.org/stable/datasets/statsmodels.datasets.get_rdataset.html

Descargamos el conjunto de *Duncan's Occupational Prestige Data*. Descripción: datos sobre el prestigio y otras características de 45 ocupaciones estadounidenses en 1950. El data frame tiene 45 filas y 4 columnas.

In [None]:
# Datos
df = sm.datasets.get_rdataset("Duncan", "carData").data

In [None]:
df.describe()

In [None]:
df.headd()

In [None]:
df_tf = df.groupby('type').count()
df_tf['Frecuencia relativa'] = round(df_tf['income']/len(df),3)
df_tf.drop(['education', 'prestige'],axis=1,inplace=True)
df_tf['Frecuencia acumulada'] = round(df_tf['Frecuencia relativa'].cumsum(),3)
df_tf

In [None]:
import plotly.express as px 

In [None]:
fig = px.bar(df.sort_values(by='income', ascending=False), x=df.sort_values(by='income', ascending=False).index, y='income')
fig.update_layout(
    title="Gráfico de barras (variables cualitativas)",
    xaxis_title="Ocupaciones",
    yaxis_title="Ingreso",
    font=dict(
        family="Arial, monospace",
        size=12,
        color="#7f7f7f"
    )
)
fig.show()

In [None]:
fig = px.bar(df.groupby('type').mean().sort_values(by='income', ascending=False), 
             x=df.groupby('type').mean().sort_values(by='income', ascending=False).index, y='income')
fig.update_layout(
    title="Gráfico de barras (variables cualitativas)",
    xaxis_title="Ocupaciones Agrupadas",
    yaxis_title="Ingreso",
    font=dict(
        family="Arial, monospace",
        size=12,
        color="#7f7f7f"
    )
)
fig.show()

In [None]:
fig = px.histogram(df, x="prestige",nbins=11)
fig.update_layout(
    title="Histograma (variables cuantitativas)",
    xaxis_title="Prestigio",
    yaxis_title="Fecuencia",
    font=dict(
        family="Arial, monospace",
        size=12,
        color="#7f7f7f"
    )
)
fig.update_traces(opacity=1.00)
fig.show()

In [None]:
fig = px.histogram(df, x="education", color="type",nbins=11)
fig.update_layout(
    title="Histograma (variables cuantitativas)",
    xaxis_title="Education",
    yaxis_title="Fecuencia",
    font=dict(
        family="Arial, monospace",
        size=12,
        color="#7f7f7f"
    )
)
fig.update_traces(opacity=0.75)
fig.show()

In [None]:
fig = px.scatter(df, x="education", y="income", size="prestige", color="type", hover_name=df.index,
            size_max=50)
fig.update_layout(
    title="Scatter Plot",
    xaxis_title="Education",
    yaxis_title="Income",
    font=dict(
        family="Arial, monospace",
        size=12,
        color="#7f7f7f"
    )
)
fig.show()

In [None]:
fig = px.scatter(df, x="education", y="income", color="type", marginal_y="box",
           marginal_x="box", trendline="ols")
fig.update_layout(
    title="Scatter Plot y Box Plots",
    xaxis_title="Education",
    yaxis_title="Income",
    font=dict(
        family="Arial, monospace",
        size=12,
        color="#7f7f7f"
    )
)
fig.show()

**Medidas de Posición Central**

a. **moda**

b. **mediana**

c. **media aritmética:** 
    
$ \mu_x=\frac{1}{N}\sum_{i=1}^{N}X_i $ (media poblacional).
            
$ \bar{X} = \frac{1}{n}\sum_{i=1}^{n}X_i $ (media muestral).

**Medidas de Dispersión**

a. **Varianza:** 
    
$ \sigma^2 = \frac{\sum_{i=1}^{N}(X_i-\bar{X})^2}{N} $ (varianza poblacional).
        
$ S^2 = \frac{\sum_{i=1}^{n}(X_i-\bar{X})^2}{n-1} $ (varianza muestral).
        
        
b. **Rango, Rango intercuartil**

c. **Coeficiente de Variación**

In [None]:
df_stats = pd.DataFrame(round(df.describe(),2))
df_stats

**Medidas de Asimetría**

a. **coeficiente de asimetría de Fisher:** 

$ \gamma_1 = \frac{\mu_3}{\sigma^3} =  \frac{\sum_{i=1}^{N}(X_i-\mu)^3}{N\sigma^3}$

donde $ \mu _{3}$ es el tercer momento en torno a la media y $\sigma$ es la desviación estándar.

Si $\gamma _{1}>0$, la distribución es asimétrica positiva o a la derecha.

Si $\gamma _{1}<0$, la distribución es asimétrica negativa o a la izquierda.


In [None]:
s = round(pd.DataFrame(df.skew(), columns=['Skew']).T,2)
df_stats = df_stats.append(s)       
df_stats

## Analisis de ADRs argentinas


In [None]:
import pandas as pd
import numpy as np
from datetime import datetime

In [None]:
t_0 = datetime(1990, 1,1, 21, 0).timestamp() #Starting Date
t_end =  datetime.now() #End Date
t_end = datetime(t_end.year, t_end.month, t_end.day, 21, 0).timestamp()

## Grupo Financiero Galicia S.A. (GGAL)
Ticker = 'GGAL'  #Ticker
url = 'https://query1.finance.yahoo.com/v7/finance/download/'+ Ticker +'?period1='+str(int(t_0))+'&period2='+ str(int(t_end)) +'&interval=1d&events=history.csv'
#url = 'https://query1.finance.yahoo.com/v7/finance/download/GGAL?period1=1432425600&period2=1590278400&interval=1d&events=history'
df_ggal = pd.read_csv(url)
df_ggal.set_index('Date', inplace=True)

## Banco Macro S.A. (BMA)
Ticker = 'BMA'  #Ticker
url = 'https://query1.finance.yahoo.com/v7/finance/download/'+ Ticker +'?period1='+str(int(t_0))+'&period2='+ str(int(t_end)) +'&interval=1d&events=history.csv'
df_bma = pd.read_csv(url)
df_bma.set_index('Date', inplace=True)

## Grupo Supervielle S.A. (SUPV)
Ticker = 'SUPV'  #Ticker
url = 'https://query1.finance.yahoo.com/v7/finance/download/'+ Ticker +'?period1='+str(int(t_0))+'&period2='+ str(int(t_end)) +'&interval=1d&events=history.csv'
df_supv = pd.read_csv(url)
df_supv.set_index('Date', inplace=True)

In [None]:
df = pd.concat([df_ggal['Close'].round(2), df_bma['Close'].round(2), df_supv['Close'].round(2)], axis=1, join='inner')
df.columns = ['GGAL USD', 'BMA USD',  'SUPV USD']
df

In [None]:
# conda install "notebook>=5.3" "ipywidgets>=7.2" 

import plotly.graph_objects as go
import plotly.express as px
from plotly.subplots import make_subplots
import plotly.figure_factory as ff

###### Series de tiempo

In [None]:
fig = make_subplots(rows=2, cols=3)

fig.update_layout(height=700, width=950)

fig.layout.title.text = "Fig.: Acciones Bancarias Argentinas (Precios en USD y retornos diarios en %)"
#GGAL
fig.add_scatter(
    x= df.index,
    y =df['GGAL USD'] ,
    name='GGAL',
    yaxis='y1',
    line = dict(color = 'black'),
    showlegend=False,
    row=1, col=1
)
fig.add_scatter(
    x= df.index,
    y =df['GGAL USD'].pct_change()*100 ,
    name='GGAL',
    yaxis='y1',
    line = dict(color = 'black'),
    showlegend=False,
    row=2, col=1
)

#BMA
fig.add_scatter(
    x= df.index,
    y =df['BMA USD'] ,
    name='BMA',
    yaxis='y1',
    line = dict(color = 'blue'),
    showlegend=False,
    row=1, col=2
)
fig.add_scatter(
    x= df.index,
    y =df['BMA USD'].pct_change()*100 ,
    name='BMA',
    yaxis='y1',
    line = dict(color = 'blue'),
    showlegend=False,
    row=2, col=2
)

#SUPV
fig.add_scatter(
    x= df.index,
    y =df['SUPV USD'] ,
    name='SUPV',
    yaxis='y1',
    line = dict(color = 'red'),
    showlegend=False,
    row=1, col=3
)
fig.add_scatter(
    x= df.index,
    y =df['SUPV USD'].pct_change()*100 ,
    name='SUPV',
    yaxis='y1',
    line = dict(color = 'red'),
    showlegend=False,
    row=2, col=3
)

fig.update_layout(showlegend=False)

fig.update_yaxes(title_text='GGAL daily prices in USD',title_font=dict(size=14, family='arial', color='black'),row=1, col=1)
fig.update_yaxes(title_text='BMA daily prices in USD',title_font=dict(size=14, family='arial', color='blue'),row=1, col=2)
fig.update_yaxes(title_text='SUPV daily prices in USD',title_font=dict(size=14, family='arial', color='red'),row=1, col=3)


fig.update_yaxes(title_text='GGAL daily return %',title_font=dict(size=14, family='arial', color='black'),row=2, col=1)
fig.update_yaxes(title_text='BMA daily return %',title_font=dict(size=14, family='arial', color='blue'),row=2, col=2)
fig.update_yaxes(title_text='SUPV daily return %',title_font=dict(size=14, family='arial', color='red'),row=2, col=3)

###### Scatterplot Matrix

In [None]:
fig = make_subplots(rows=1, cols=2)

fig.update_layout(height=900, width=1700)

fig.layout.title.text = "Fig.: Scatter Plots Acciones Bancarias Argentinas (Precios en USD y retornos diarios en %)"

fig.add_scatter(
    x= df['BMA USD'],
    y =df['GGAL USD'] ,
    name='GGAL-BMA',
    yaxis='y1',
    mode='markers',
    marker=dict(size=8, color='black'),
    row=1, col=1
)

fig.add_scatter(
    x= df['BMA USD'],
    y =df['SUPV USD'] ,
    name='SUPV-BMA',
    yaxis='y1',
    mode='markers',
    marker=dict(size=8, color='red'),
    row=1, col=1
)

fig.add_scatter(
    x= df['BMA USD'].pct_change()*100,
    y =df['GGAL USD'].pct_change()*100 ,
    name='GGAL-BMA',
    yaxis='y1',
    mode='markers',
    marker=dict(size=8, color='black'),
    showlegend=False,
    row=1, col=2
)

fig.add_scatter(
    x= df['BMA USD'].pct_change()*100,
    y =df['SUPV USD'].pct_change()*100 ,
    name='SUPV',
    yaxis='y1',
    mode='markers',
    marker=dict(size=8, color='red'),
    showlegend=False,
    row=1, col=2
)

fig.update_layout(legend=dict(x=.46, y=1))

fig.update_xaxes(title_text='BMA daily prices in USD',row=1, col=1)
fig.update_xaxes(title_text='BMA daily return %',row=1, col=2)

fig.update_yaxes(title_text='GGAL and SUPV daily prices in USD',row=1, col=1)
fig.update_yaxes(title_text='GGAL and SUPV daily return %',row=1, col=2)



###### Correlation Heatmap

In [None]:
print( np.around(df.corr(), decimals=2))

fig = make_subplots(rows=1, cols=1)

fig.update_layout(height=400, width=800)

fig.layout.title.text = "Fig.: Correlation Heatmap para precios"

fig.add_heatmap(
    z=df.corr(),
    x=['GGAL', 'BMA', 'SUPV'],
    y=['GGAL', 'BMA', 'SUPV'],
    hoverongaps = False,
    colorscale = 'Viridis' 
)

fig.show()

## El PODER de Python para la visualizacion de datos

In [None]:
# Import data
import time
import numpy as np

# conda install -c anaconda scikit-image
from skimage import io

vol = io.imread("https://s3.amazonaws.com/assets.datacamp.com/blog_assets/attention-mri.tif")
volume = vol.T
r, c = volume[0].shape

# Define frames
import plotly.graph_objects as go
nb_frames = 68

fig = go.Figure(frames=[go.Frame(data=go.Surface(
    z=(6.7 - k * 0.1) * np.ones((r, c)),
    surfacecolor=np.flipud(volume[67 - k]),
    cmin=0, cmax=200
    ),
    name=str(k) # you need to name the frame for the animation to behave properly
    )
    for k in range(nb_frames)])

# Add data to be displayed before animation starts
fig.add_trace(go.Surface(
    z=6.7 * np.ones((r, c)),
    surfacecolor=np.flipud(volume[67]),
    colorscale='Gray',
    cmin=0, cmax=200,
    colorbar=dict(thickness=20, ticklen=4)
    ))


def frame_args(duration):
    return {
            "frame": {"duration": duration},
            "mode": "immediate",
            "fromcurrent": True,
            "transition": {"duration": duration, "easing": "linear"},
        }

sliders = [
            {
                "pad": {"b": 10, "t": 60},
                "len": 0.9,
                "x": 0.1,
                "y": 0,
                "steps": [
                    {
                        "args": [[f.name], frame_args(0)],
                        "label": str(k),
                        "method": "animate",
                    }
                    for k, f in enumerate(fig.frames)
                ],
            }
        ]

# Layout
fig.update_layout(
         title='Slices in volumetric data',
         width=600,
         height=600,
         scene=dict(
                    zaxis=dict(range=[-0.1, 6.8], autorange=False),
                    aspectratio=dict(x=1, y=1, z=1),
                    ),
         updatemenus = [
            {
                "buttons": [
                    {
                        "args": [None, frame_args(50)],
                        "label": "&#9654;", # play symbol
                        "method": "animate",
                    },
                    {
                        "args": [[None], frame_args(0)],
                        "label": "&#9724;", # pause symbol
                        "method": "animate",
                    },
                ],
                "direction": "left",
                "pad": {"r": 10, "t": 70},
                "type": "buttons",
                "x": 0.1,
                "y": 0,
            }
         ],
         sliders=sliders
)

fig.show()

<a href="https://dash-gallery.plotly.host/dash-aerosandbox/" target="_blank">COOL PROJECT</a>