# Capítulo 0 - Introdução a Python

## 1 -  Abrir conta no Deepnote

Abrir conta em [Deepnote](https://deepnote.com/) e depois de fazer o log in, clicar em:

![https://deepnote.com/launch?url=https%3A%2F%2Fgithub.com%2FLuisSousaSilva%2Fcbs_pg_eff_adf](https://deepnote.com/buttons/launch-in-deepnote.svg)

## 2 - Iniciação a Python

Penso que o primeiro passo para nos habituarmos será usar python como uma calculadora.

Podemos fazer as contas que quiserermos.

### Calculadora

In [1]:
2+2

4

In [2]:
3*3

9

In [3]:
3**3

27

### Comentários

Se colocarmos um # antes do código ele não corre

In [4]:
# 2+2

Como podemos ver o # fez com o cálculo não tivesse sido feito

### Assignação de uma valor a uma variável

In [5]:
a = 3
a

3

In [6]:
a = 3
b = 5
a + b

8

In [7]:
a = 3
b = 5
a = 5
a + b

10

Isto pode parecer trivial mas em notebooks maiores, com muitas variáveis, se estas não tiverem bons nomes acaba por ser uma mistura de variáveis e uma confusão (falo por experiência própria). A correcta nomenclatura de variáveis é essencial em boa programação. Diferentes nomes mas também explicitos. Mesmo que trabalhem sozinhos daqui a 6/9 meses quando voltarem a pegar no notebook será importante será importante perceberem o que fizeram e/ou estão a calcular).

### Equality operators

Em python (como noutras linguagens de programação) podem ver se duas variáveis são iguais. Mas como ver se duas variáveis são iguais se = é o simbolo de assignação?

- == (ver se duas variáveis são iguais)
- != (ver se duas variáveis são diferentes)
- < (ver se variável esquerda é mais pequena)
- <= (ver se variável esquerda é mais pequena ou igual)
- \> (ver se variável à esquerda é maior)
- \>= (ver se variável à esquerda é maior ou igual)

A resposta do programa será TRUE ou FALSE (conhecidos por booleans)

In [8]:
a = 3
b = 3
a == b

True

In [9]:
a > b

False

In [10]:
a >= b

True

Não tem de ser necessariamente só variáveis. Podem comparar números directamente:

In [11]:
3 > 4

False

### Funções

Como vimos nas aulas as funções em python são de grande importância e que vamos usar bastante. Como criar uma função?

Temos de usar o termo "def", para que python saiba que pretendemos criar uma função, podemos usar variáveis que depois são passadas para a função e por último um return para que o computador saiba o output que pretendemos que seja devolvido. Vamos criar uma função simples chamada soma que faz a soma de dois números.

In [12]:
def soma():
  return 2+2

soma()

4

Neste caso ao corrermos a função soma() o computador devolve-nos 4, que é a soma de 2+2. Mas e se quisermos fazer a soma de quaisquer dois números em vez de apenas 2+2? Nesse caso, que é a maioria das vezes uma vez que uma função deverá ser genérica, temos de passar duas variáveis na função. Exemplo:

In [13]:
def soma(a, b):
  return a + b

soma(2, 5)

7

Atenção que se dizemos que a função tem variáveis e não as fornecermos dá erro:

In [14]:
def soma(a, b):
  return a + b

soma()

TypeError: soma() missing 2 required positional arguments: 'a' and 'b'

![](https://s3.us-east-2.amazonaws.com/cbs.pg.repository/img/capitulo_00/erro_function_no_variables.PNG)

É importante também darmos as variáveis por ordem ou dizermos explicitamente o valor das variáveis. Vamos testar isso com uma função chamada divisão e ver o que acontece quando damos as variáveis em ordem errada ou as damos explicitamente. Nos desejamos uma divisão de 10 por 2, com resultado de 5.

In [15]:
def divisão(a, b):
  return a / b

In [16]:
divisão(10, 2)

5.0

In [17]:
divisão(2, 10)

0.2

Aqui o que aconteceu foi que dividimos 2 por 10 mas:

In [18]:
divisão(b=2, a=10)

5.0

Este tipo de informação explicita é bom quando temos muitas variáveis na função e se torna complicado saber a ordem em que se encontram na função.





### Tipos de dados

#### Float

São números que podem tomar qualquer valor, como 3.3 ou 5.545236

#### Integers

São os números inteiros como 0,1,2,3,50, -10 etc etc

#### Strings

Texto. Tem de ser entre aspas

In [19]:
"Hello World"

'Hello World'

Uma das características do texto é que se pode juntar e eventualmente escrever texto "dinâmico"

In [20]:
a = 3
b = 5

"a mais b é " + str(a+b)

'a mais b é 8'

Neste caso str(a+b) está a transformar o 8, que é o resultado de a + b em texto "8" que pode ser somado ao texto "a mais b"

#### Booleans

Verdadeiro ou Falso

In [21]:
# É 2 maior que 4?
2 > 4

False

### If else clause

Uma if clause é uma cláusula se. Do estilo. Se algo acontecer então faz isto, senão acontecer faz aquilo. É um tipo de ordem muito comum em programação e útil em termos lógicos.

Vamos testar construindo em cima do que já aprendemos até aqui:

In [22]:
if 2 == 2:
  print("É o mesmo número")

É o mesmo número


Aqui estamos simplesmente a dizer ao computador para escrever "É o mesmo número" caso a igualdade seja verdade. Naturalmente se colocarmos 3 == 2, como é falso ele não vai escrever nada, pois oignora o que é para fazer caso os números fossem o mesmo. Vamos evoluir a if clause para que o computador escreva "Os números são diferentes", caso eles não sejam iguais.


In [23]:
if 2 == 3:
  print("É o mesmo número")
else:
  print("São números diferentes")

São números diferentes


Aqui o que dissemos ao computador para dizer é "Se a igualdade for verdadeira escreve "É o mesmo número", senão escreve "São números diferentes".

Vamos criar uma função com esta funcionalidade, com o nome "igualdade" para vermos se duas variáveis são iguais ou não.

In [24]:
def igualdade(a, b):
  if a == b:
    return "É o mesmo número"
  else:
    return "São números diferentes"

In [25]:
igualdade(5, 4)

'São números diferentes'

In [26]:
igualdade(4, 4)

'É o mesmo número'

Reparem que os print passaram a return. Porquê? A verdade é que se eu tivesse mantido os print iria funcionar de forma aparentemente igual. A diferença é que o "print" apenas diz ao computador para escrever algo, ou seja não dá para assignar a uma variável. Um return vai fazer com que possamos assignar o resultado a uma variável, que é normalmente desejado numa função.

### Listas

In [27]:
numeros = igualdade(4, 4)
numeros

'É o mesmo número'

Listas são variáveis onde conseguimos colocar mais que um valor. Nas aulas usamos listas onde temos vários cash-flows. Uma lista tem parentises rectos e os valores são separados por vírgulas.

In [28]:
cfs = [1000, 2000, 3000, 4000, 5000]
cfs

[1000, 2000, 3000, 4000, 5000]

Se quisermos somar valores temos de as transformar em numpy arrays

In [29]:
import numpy as np

np.array(cfs) + np.array(cfs)

array([ 2000,  4000,  6000,  8000, 10000])

Neste caso importamos numpy (a biblioteca de python usada para matemática) e ao transformar as listas em numpy arrays se somarmos já conseguimos que os valores individuais sejam somados.



Podemos seleccionar qualquer valor na lista pelo seu índice (posição na lista)

In [30]:
# Seleccionar o primeiro valor da lista
cfs[0]

1000

In [31]:
# Seleccionar o último valor da lista
cfs[-1]

5000

### For loops

Em algumas funções usamos for loops. Com For loops estamos a  dizer ao computador para fazer o algo um número determinado de vezes.

Vamos experimentar, com a lista acima de cash flows.

In [32]:
for value in cfs:
  print(value * 5)

5000
10000
15000
20000
25000


Aqui o que estamos a dizer é por cada valor na lista cfs imprime o valor vezes 5. O que python está a fazer é pegar no 1000, 2000, ..., 5000 e por cada valor está a imprimir a multiplicação desse valor por 5.

Um for loop faz isso mesmo. Dizemos o número de vezes que queremos que python faça algo e depois temos de dizer o que é esse algo que queremos que o computador faça.

### Ler ficheiros excel e criar uma dataframe

In [33]:
import pandas as pd

url = "https://s3.us-east-2.amazonaws.com/cbs.pg.repository/data/example_4.xlsx"
df = pd.read_excel(url)[['Mercado', 'Retorno (%)']].dropna()
df

Unnamed: 0,Mercado,Retorno (%)
0,País A,7.7
1,País B,8.5
2,País C,9.1
3,País D,5.5
4,País E,7.1
5,País F,9.9
6,País G,6.2
7,País H,6.8
8,País I,7.5
9,País J,8.9


Tirando directamente do exercício 2.4.

### Seleccionar uma coluna da dataframe

In [34]:
df[['Mercado']]

Unnamed: 0,Mercado
0,País A
1,País B
2,País C
3,País D
4,País E
5,País F
6,País G
7,País H
8,País I
9,País J


Haver dois parênteses rectos é importante e podem aumentar com os nomes das colunas que quiserem seleccionar

In [35]:
df[['Mercado', 'Retorno (%)']]

Unnamed: 0,Mercado,Retorno (%)
0,País A,7.7
1,País B,8.5
2,País C,9.1
3,País D,5.5
4,País E,7.1
5,País F,9.9
6,País G,6.2
7,País H,6.8
8,País I,7.5
9,País J,8.9


### Instalar bibliotecas

Ocasionalmente é necessário instalar certas bibliotecas que não estão no sistema.

Um exemplo é o numpy_financial no exercício 1.20.

Ao tentarmos fazer o exercício dá um erro ModuleNotFoundError: No module named 'numpy_financial'

![](https://s3.us-east-2.amazonaws.com/cbs.pg.repository/img/capitulo_00/error_no_library.PNG)

O código que temos de executar para install a biblioteca é:

```
!pip install numpy-financial
```

Outra biblioteca que será necessária instalar para fazer download de cotações da yahoo finance é o yfinance:

```
!pip install yfinance
```

### Download das cotações do Yahoo Finance

In [54]:
#!pip install yfinance
import yfinance as yf

def merge_time_series(df_1, df_2, how='outer'):
    df = df_1.merge(df_2, how=how, left_index=True, right_index=True)
    return df

def normalize(df):
    df = df.dropna()
    return (df / df.iloc[0]) * 100
    
def download_yahoo_data(tickers, normalize_quotes=True,
                      start='1970-01-01', end='2030-12-31'):
    quotes=pd.DataFrame()
    for ticker in tickers:
        df = yf.download(ticker, start=start, end=end, progress=False)
        df = df[['Adj Close']]
        df.columns=[ticker]
        quotes = merge_time_series(quotes, df)
    
    quotes = quotes.ffill()
     
    if normalize_quotes:
        quotes = normalize(quotes)

    return quotes

In [55]:
quotes = download_yahoo_data(tickers=['SPY', 'DIA'], start='1999-12-31', end='2021-12-31')
quotes

Unnamed: 0_level_0,SPY,DIA
Date,Unnamed: 1_level_1,Unnamed: 2_level_1
1999-12-31,100.000000,100.000000
2000-01-03,99.021274,98.535040
2000-01-04,95.148923,95.293034
2000-01-05,95.319158,96.527406
2000-01-06,93.787200,97.015832
...,...,...
2021-12-23,481.125333,507.513098
2021-12-27,487.934287,512.540813
2021-12-28,487.535509,514.051959
2021-12-29,488.159194,515.252474


### Como transformar cotações diárias em mensais ou anuais

In [52]:
# Mensais
# Uma vez que o que queremos é o último dia do mês vamos fazer resample com last()
quotes = quotes.resample('M').last()
quotes

Unnamed: 0_level_0,SPY,DIA
Date,Unnamed: 1_level_1,Unnamed: 2_level_1
1999-12-31,100.000000,100.000000
2000-01-31,95.021303,95.125138
2000-02-29,93.574466,88.338436
2000-03-31,102.643186,95.329165
2000-04-30,99.038333,93.735341
...,...,...
2021-08-31,458.574287,496.717672
2021-09-30,437.202248,475.787108
2021-10-31,467.877856,504.000533
2021-11-30,464.118548,486.194740


In [57]:
# Anuais
# Uma vez que o que queremos é o último dia do ano vamos fazer resample com last()
quotes = quotes.resample('A').last()
quotes

Unnamed: 0_level_0,SPY,DIA
Date,Unnamed: 1_level_1,Unnamed: 2_level_1
1999-12-31,100.0,100.0
2000-12-29,90.258482,93.952781
2001-12-31,79.645397,89.281023
2002-12-31,62.454233,76.16083
2003-12-31,80.054819,97.411996
2004-12-31,88.619059,102.304645
2005-12-30,92.897841,103.950354
2006-12-29,107.617675,123.611809
2007-12-31,113.155953,134.484476
2008-12-31,71.520208,91.266953


O .last() que usamos no resample é muitas vezes também .sum() para somar os valores no intervalo ou o .mean() para fazer a média aritmética dos valores no intervalo.

Usamos "M" para mensal e "A" para anual e neste caso vai buscar o último dia do mês ou do ano mas podemos também usar o "BM" (Business month) ou o "BA" (business annum) que vai buscar o último dia útil.

Podem ver aqui uma tabela com a frequências aceites:

![](https://s3.us-east-2.amazonaws.com/cbs.pg.repository/img/capitulo_00/resample_frequencies.PNG)

A verdade é que não se limitam apenas a estes. É possível fazer combinações e fazer por exemplo um semanal às quartas.

## Onde aprender mais python?

Recomendo muito os cursos do Portilla na udemy mas podem começar por [Python for Data Science and Machine Learning Bootcamp](https://www.udemy.com/course/python-for-data-science-and-machine-learning-bootcamp/). 

Ele tem muitos outros cursos de python seja aplicado a finanças, estatística ou à criação de sites. Podem ver aqui: https://www.udemy.com/user/joseportilla/

O curso de python para finanças do 365 Careers também é bastante bom e um bom sítio para começarem se assim preferirem: [Python for Finance: Investment Fundamentals & Data Analytics](https://www.udemy.com/course/python-for-finance-investment-fundamentals-data-analytics/)

Os cursos da udemy encontram-se muitas vezes com descontos altos a valores entre os 12 e os 18 euros, o que torna um curso de 10 ou 20 euros bastante acessível.

Outro local para começarem a aprender pode ser o datacamp que tem muitos cursos. Sendo que 99% deles são a pagar podem encontrar os mais básicos de graça: [Datacamp: Introduction to Python](https://www.datacamp.com/courses/intro-to-python-for-data-science)

Outro local com renome e grátis onde podem aprender python é o freecodecamp, embora eu não seja fã da forma de ensino deles é provavelmente a melhor opção grátis: [Data Analysis with Python](https://www.freecodecamp.org/learn/data-analysis-with-python/)

Uma das melhores formas de aprenderem python é também pensarem num projecto e à medida que o vão fazendo pesquisem como resolver os passos no google (nomeadamente resultado do stackoverflow são bastante bons)

Incluo aqui este capítulo em versão Notebook para se ambientarem ao mesmo tempo que podem ver as potencialidades do uso dos mesmos: https://deepnote.com/@luisilva/Capitulo-0-Introducao-a-Python-a879b2f5-d1d1-47b3-b14a-259bd67392f6
