# Pratica 0 - Introdução ao Python

## Objetivo

O objetivo deste primeiro encontro é discutir aspectos básicos da linguagem python tais como:

1. Instalação e configuração do ambiente de programação
    - Console python;
    - IPython e Spyder;
    - Anaconda (Jupyter notebook).
2. Tipos de dados e estruturas
    - Tipos básicos de dados;
    - Operações e funções matemáticas básicas;
    - Estruturas básicas de dados;
    - Estruturas de controle;
    - Programação funcional;
    - Introdução ao NumPy;

## 1. Instalação e configuração do ambiente de programação  

**OBS**: não é necessário realizar esse procedimento nas máquinas do laboratório.

Todo sistema Linux já está equipado com uma ou geralmente duas versões da linguagem python. As versões mais comuns são a pyhton2.7 e a python3. Para iniciar o python no seu Linux basta abrir um terminal (CTRL + ALT + T) e digitar python. Caso queira verificar quais versões você tem instalado basta digitar python seguido da tecla TAB. Apesar de bastante simples esta forma de usar o python é pouco eficiente e uma série de ferramentas para auxiliar na produtividade e também no aprendizado da linguagem estão disponíveis.

Neste primeiro contato com a linguagem vamos discutir outras duas formas de começar a programar em python. 
O programa [IPython](https://ipython.org/) é um poderoso prompt de comando para computação interativa desenvolvido para a linguagem python. IPython oferece suporte para visualização de dados interativa, sintaxe shell, tab completion e permite arquivar o histórico de código. Atualmente o projeto IPython cresceu e tornou-se um sistema multi linguagens fornecendo suporte para linguagens como Julia, R entre outras.

Frequentemente o console IPython é usado em conjunto com o ambiente para desenvolvimento de computação ciêntífica [Spyder](https://pythonhosted.org/spyder/). O workflow é simples, o código python é escrito no editor Spyder e executado através do console IPython. O editor Spyder fornece recursos de edição avançados, testes interativos, debugging e introspection features. Este sistema parece mais adequado para o desenvolvimento de novos modulos e analises extensas.

Dentro do escopo de data science a ferramenta [Jupyter](http://jupyter.org/) é muito popular. Jupyter notebook é uma aplicação web open-source que permite criar e compartilhar documentos que contêm código, equações, visualização e textos explicativos. Aplicações em geral envolvem, data cleaning e transformation, simulações numéricas, modelagem estatística, visualização de dados, machine learning e muito mais.

Apesar de ser possível instalar cada uma das ferramentas mencionadas individualmente, uma forma mais simples de preparar o ambiente de programação python é instalar o pacote [Anaconda](https://anaconda.org/). Anaconda é uma distribuição open-source das linguagens python e R para processamento de dados em larga escala, predictive analytics e computação ciêntífica que objetiva simplificar o gerenciamento e desenvolvimento de pacotes. As versões dos pacotes são gerenciadas pelo sistema de gerenciamento de pacotes conda.

Instalar o pacote Anaconda em distribuições Linux é muito fácil atráves da linha de comando do Linux. Basta seguir os seguintes passos:

   - Faça o download da versão Anaconda que deseja instalar. Neste exemplo vou usar a última versão (12/01/2018) disponível no endereço https://repo.continuum.io/archive/. Você também deve escolher entre a versão 2 ou 3 do python.
   Neste exemplo eu vou instalar a versão 3 para um computador 64 bits. Para fazer o download direto da linha de comando Linux vou usar o comando `wget`. Recomendo que faça todas essas operações no seu diretório `\home`.
   
```
wget https://repo.continuum.io/archive/Anaconda3-5.0.1-Linux-x86_64.sh

```
   - Rode o script .sh para a instalação do Anaconda e siga as instruções. Na dúvida use a configuração default. Esse comando vai criar uma pasta chamada anaconda no diretório onde você está rodando a instalação.
   
```
bash Anaconda2-4.2.0-Linux-x86_64.sh -b -p ~/anaconda
```

   - Precisamos colocar o Anaconda no caminho de busca para fácil acesso via a linha de comando Linux. Para isso incluímos o diretório do Anaconda em nosso arquivo `.bashrc`.
   
```
echo 'export PATH="~/anaconda/bin:$PATH"' >> ~/.bashrc 

```

   - Finalmente, atualizamos o arquivo `.bashrc` e abrimos a aplicação Anaconda
   
```
source .bashrc
anaconda-navigator

```

   - Podemos atualizar todos os pacotes do Anaconda via o gerenciador de pacotes conda.

```
conda update conda

```

Assim, terminamos o processo de instalação do pacote Anaconda e estamos prontos para começar a programar em python. 
As instruções acima foram obtidas através do website (https://medium.com/@GalarnykMichael/install-python-on-ubuntu-anaconda-65623042cb5a).

### 1.1 Procedimento no Laboratório

Inicialmente, não se esqueça de ativar o ambiente que contém as bibliotecas e o Jupyter:

`aluno@dti:~$ conda info --env`

Ao listar os ambientes, selecione o ambiente apropriado **probS**:

````bash
aluno@dti:~$ source activate probS
(probS) aluno@dti:~$ conda info --envs
````

Veja que o ambiente **probS** foi ativado.


## 2. Tipos de dados e estruturas

### Tipos básicos de dados

A linguagem python é dinamicamente tipificada, isso significa que o interpretador do python vai reconhecer o tipo de objeto que o usuário esta declarando automaticamente. Os tipos de objetos fundamentais em python são: `integer`, `floats` e `string`.

Para identificar o tipo de objeto em python usamos a comando `type()` e para imprimir o resultado de uma linha de código usamos o comando `print()` veja a seguir.

In [1]:
a1 = 10 # Definimos a1 como o integer 10
print(type(a1))

a2 = 3 # Definimos a2 como o integer 3
print(type(a2))

a3 = 10.0 # Definimos a3 como o float 10.0
print(type(a3))

a4 = 3.0 # Definimos a4 como o float 3.0
print(type(a4))

<class 'int'>
<class 'int'>
<class 'float'>
<class 'float'>


No python 3 a divisão de integer por integer já é automaticamente tipificada para float. 
Entretando, em versões mais antigas (python 2.7) essa conversão não é automática e requer o uso de pacotes específicos.
Neste documento estamos usando a versão 3.6.2, então não precisamos nos preocupar com isso.

In [2]:
b1 = a1/a2 # Divisão integer por integer -> float
print(b1)
print(type(b1)) 

b2 = a3/a4 # Divisão float por float -> float
print(b2)
print(type(b2))

b3 = a1/a4 # Divisão integer por float -> float
print(b3)
print(type(b3))

3.3333333333333335
<class 'float'>
3.3333333333333335
<class 'float'>
3.3333333333333335
<class 'float'>


Um aspecto muito interessante da linguagem python é que todos os objetos tem uma classe e toda classe tem uma série de atributos associados. Por exemplo, podemos acessar o número de bits usados pelo integer 10.

In [3]:
a1.bit_length()

4

Entretanto, objetos do tipo float obviamente não tem esse atributo. Você pode obter informações sobre float objetos usando o modulo `sys`.

In [4]:
import sys 
sys.float_info

sys.float_info(max=1.7976931348623157e+308, max_exp=1024, max_10_exp=308, min=2.2250738585072014e-308, min_exp=-1021, min_10_exp=-307, dig=15, mant_dig=53, epsilon=2.220446049250313e-16, radix=2, rounds=1)

Internamente um float é representado como a razão entre dois integers. Para ver isso, objetos da class float tem um atributo.

In [5]:
print(a3.as_integer_ratio())
c1 = 0.35
print(c1.as_integer_ratio())

(10, 1)
(3152519739159347, 9007199254740992)


O último tipo básico de dado que veremos é o `strings`. `strings` em geral são usadas para representar textos os nomes e o python tem um rico ambiente para trabalhar com strings. Veja os exemplos abaixo

In [6]:
t = "isto é um objeto string"
print(type(t))

<class 'str'>


Objetos do tipo `str` tem um grande conjunto de atributos.

In [7]:
print(t.capitalize()) # capitaliza a primeira letra
print(t.split()) # corta por palavras
print(t.find('string')) # index da primeira letra onde a palavra string começa
print(t.replace(" ", "|")) # troca espaço em branco por |
print(t.strip('string')) # Remove uma palavra e/ou conjunto de strings
print(t.count('o')) # Conta a ocorrência de uma string
print(t.upper())
print(t.lower())
t2 = "minha segunda string"
"|".join(t2) # Concatena strings


Isto é um objeto string
['isto', 'é', 'um', 'objeto', 'string']
17
isto|é|um|objeto|string
o é um objeto 
3
ISTO É UM OBJETO STRING
isto é um objeto string


'm|i|n|h|a| |s|e|g|u|n|d|a| |s|t|r|i|n|g'

Uma ferramenta muito poderosa quando trabalhando com strings é expressões regulares. Python oferece tais funcionalidades no modulo `re`.

In [8]:
import re

Suponha que temos um grande conjunto de dados que contêm uma série temporal e a respectiva informação de data e hora. Em geral, a informação da data aparece em um formato que o python não reconhece naturalmente. Entretanto, a informação pode geralmente ser descrita por uma expressão regular. Considere o seguinte objeto string

In [9]:
series = """
'01/18/2014 13:00:00', 100, '1st';
'01/18/2014 13:30:00', 110, '2nd';
'01/18/2014 14:00:00', 120, '3rd';
"""
print(series)

dt = re.compile("'[0-9/:\s]+'")
result = dt.findall(series)
print(result)


'01/18/2014 13:00:00', 100, '1st';
'01/18/2014 13:30:00', 110, '2nd';
'01/18/2014 14:00:00', 120, '3rd';

["'01/18/2014 13:00:00'", "'01/18/2014 13:30:00'", "'01/18/2014 14:00:00'"]


A string resultante pode ser convertida para objetos do tipo `datetime`.

In [10]:
from datetime import datetime
pydt = datetime.strptime(result[0].replace("'",""), '%m/%d/%Y %H:%M:%S')
print(pydt)
print(type(pydt))

2014-01-18 13:00:00
<class 'datetime.datetime'>


Com isso terminamos nossa discusão sobre tipos básicos de dados em python.

### Operações e funções matemáticas básicas


Em termos de operações matemáticas simples (soma, subtração, multiplicação e divisão) o python funciona exatamente como uma simples calculadora.

In [11]:
c1 = 10 + 20 # Soma de integer
print(c1)
print(type(c1))

c2 = 10.0 + 20.0 # Soma de float
print(c2)
print(type(c2))

c3 = 10 - 20 # Subtração de integer
print(c3)
print(type(c3))

c4 = 10.0 - 20.0 # Subtração de float
print(c4)
print(type(c4))

c5 = 30*50 + 80/4 - 20*2 # python respeita as operações matemáticas naturais mesmo sem o uso de parenteses.
print(c5)

# apesar de sempre recomendar o uso dos parenteses para facilitar a leitura de grandes equações
c6 = (30*50) + (80/4) - (20*2) 
print(c6)

30
<class 'int'>
30.0
<class 'float'>
-10
<class 'int'>
-10.0
<class 'float'>
1480.0
1480.0


Funções matemáticas especiais como logaritmo, exponencial, potênciação, funções trigonométricas, radiciação entre outras estão disponíveis através do modulo `math`. Ao carregar um modulo em python recomenda-se que apenas as funções que serão usadas sejam carregadas. Por exemplo, no código abaixo queremos calcular o logaritmo, a raiz quadrada, a exponencial e a potência de um número. Desta forma, importamos apenas estas funções do modulo `math`. Uma lista com todas as funções matemáticas disponíveis no modulo `math` pode ser encontrada no endereço (https://www.programiz.com/python-programming/modules/math). 

In [12]:
from math import log, sqrt, exp, pow

print(log(10)) # Logaritmo de 10
print(sqrt(10)) # raiz quadrada de 10
print(exp(0)) # exponencial
print(pow(10, 2)) # 10^2
print(pow(10, 3)) # 10^3


2.302585092994046
3.1622776601683795
1.0
100.0
1000.0


### Estruturas básicas de dados

Como uma regra geral, estruturas de dados são objetos que contêm possívelmente um grande número de outros objetos. Entre outros o python oferece as seguintes estruturas de dados:

   - `tuple`: Coleção arbitrária de objetos com poucos métodos disponíveis.
   - `list`: Coleção arbitrária de objetos com muitos métodos disponíveis.
   - `dict`: Objeto que armazenam valores-chaves.
   - `set`: Coleção não enumerada de objetos para outros objetos únicos.

#### Tuples

`tuple` é uma estrutura muito simples e com poucos recursos. A `tuple` é definida através de um conjunto de objetos entre parêntenses.

In [13]:
t1 = (1, 2.5, 'tuple')
print(type(t1))

<class 'tuple'>


Podemos selecionar elementos de uma `tuple` através de seus indices. 
Um aspecto importante é que o python usa zero-based numbering, ou seja, os índices começam em zero.
Também podemos selecionar slices da `tuple` através de seus índices.

In [14]:
print(t1[1])
print(t1[0])
print(type(t1[2]))

print(t1[0:1]) # Seleciona apenas o elemento na posição 0
print(t1[0:2]) # Elemento da posição 0 e 1
print(t1[-1]) # Índices negativos tbm funcionam

2.5
1
<class 'str'>
(1,)
(1, 2.5)
tuple


Para objetos do tipo `tuple` existem apenas dois métodos disponíveis: `count` e `index`. O método `count` conta as ocorrências de um certo valor e o método `index` retorno o índice que o valor apareceu pela primeira vez.

In [15]:
t2 = (1,2,2,2,3,3,3,5,5,5,5, "tuple2")
print(t2.count(5))
print(t2.index(5))

4
7


#### Lists

Objetos do tipo `list` são muito mais flexíveis e poderosos do que `tuple`. Uma `list` é definida através de colchetes (brackets) e em termos de aplicações em estatística serão muito úteis. Entretando, a seleção de elementos e comportamentos básicas são similares aos de uma `tuple`.

In [16]:
l1 = [1, 2.5, 'lista']
print(type(l1))
print(l1[2]) # Elemento posição 3

<class 'list'>
lista


Podemos também converter objetos do tipo `tuple` para `list` usando a função `list()`.

In [17]:
t1 = (1, 2.5, 'tuple')
print(type(t1))
t1 = list(t1)
print(type(t1))

<class 'tuple'>
<class 'list'>


Objetos do tipo `list` podem ser expandidos e/ou reducidos. Em python essas propriedades definem um objeto `mutable`. Assim, temos que um `list` é `mutable` enquanto que um `tuple` é `immutable`. Vamos ver algumas operações com objetos `list`.

In [18]:
# Acrescenta valores ao fim da list
l1.append([4, 3])
print(l1)
# Extende a list ja existente
l1.extend([1.0, 1.5, 2.0])
print(l1)
# Insere objetos em uma posição especifica
l1.insert(1, 'insert')
print(l1)
# Remove a primeira occorência de um objeto
l1.remove('lista')
print(l1)
# Remove e retorna o objeto em um indice
p = l1.pop(3)
print(l1)
print(p)


[1, 2.5, 'lista', [4, 3]]
[1, 2.5, 'lista', [4, 3], 1.0, 1.5, 2.0]
[1, 'insert', 2.5, 'lista', [4, 3], 1.0, 1.5, 2.0]
[1, 'insert', 2.5, [4, 3], 1.0, 1.5, 2.0]
[1, 'insert', 2.5, 1.0, 1.5, 2.0]
[4, 3]


Slicing refere-se a operação de quebrar o conjunto de dados em pequenas partes de interesse.

In [19]:
l1[2:5] # Elementos da terceira a quinta posição

[2.5, 1.0, 1.5]

Mais alguns exemplos de operações com objetos `list`.

In [20]:
print(l1)
l1[2] = 5 # substitui o elemento 3 pelo valor 5
print(l1)
l1[3:5] = [2,1,3] # Interessante
print(l1)
l1.append(10) # Junta o 10 na list
print(l1.count(10)) # Conta o numero de ocorrência do 10
del l1[3:5] # Deleta
print(l1)
l1.extend([10,20,30])
print(l1)
l1.reverse() # Do maior para o menor
print(l1)
l1.sort() # Do menor para o maior
print(l1)

[1, 'insert', 2.5, 1.0, 1.5, 2.0]
[1, 'insert', 5, 1.0, 1.5, 2.0]
[1, 'insert', 5, 2, 1, 3, 2.0]
1
[1, 'insert', 5, 3, 2.0, 10]
[1, 'insert', 5, 3, 2.0, 10, 10, 20, 30]
[30, 20, 10, 10, 2.0, 3, 5, 'insert', 1]


TypeError: '<' not supported between instances of 'str' and 'int'

#### Dicts

Objetos do tipo `dict` são dicionários `mutable` e permitem o armazenamento de dados através de `keys` que podem ser por exemplo, `string`. `dict` objetos não são ordenáveis. Um exemplo ilustra melhor a diferença entre `list` e `dict`.

In [None]:
d = {
    'Nome' : 'Wagner Hugo Bonat',
    'País' : 'Brasil',
    'Profissão' : 'Professor',
    'Idade' : 32
}
print(type(d))
print( d['Nome'], d['Idade'] )

d.keys() # Acessa o nome das chaves

d.values() # Acessa os valores

Existem uma séries de métodos para iterar em objetos da classe `dict`. Veremos detalhes na seção de estruturas de controle e programação funcional.

#### Sets

A última estrutura de dados básica que vamos discutir é a estrutura `set`. A estrutura `set` implementa a teoria dos conjuntos atráves de simples objetos. Ela pode ser útil para explicar conceitos de probabilidade. Vamos ver alguns conceitos simples de probabilidade usando a estrutura `set`em python.

In [None]:
s = set(['A','B', 'AB', 'BA', 'B', 'BA']) # Note que objeto repetidas são automaticamente descartados
print(s)
t = set(['B', 'BB', 'AA', 'A'])
print(t)

print(s.union(t)) # União dos conjuntos
print(s.intersection(t)) # Intersecção
print(s.difference(t)) # Em s mas não em t
print(t.difference(s)) # Em t mas não em s
print(s.symmetric_difference(t)) # em s ou t mas não em ambos


### Estruturas de controle

Estruturas de controle são a forma que o programador tem de controlar o que e para quais objetos o código vai funcionar. Apesar de uso geral, nesta seção vou focar mais em objetos do tipo `list`. 
O exemplo a seguir define uma lista com 6 valores e imprime o quadrado os valores entre os índices 2 e 5. 
Em python a indentação é parte da linguagem, então observe com atenção os espaços em branco na segunda linha.
Note ainda que no segundo loop for o índice teve que ser apropriadamente restrito.
Esta estrutura de looping é muito útil e fácil de usar. 

In [None]:
l2 = [1,2,3,4,5,6]
print(l2[2:5])

for i in l2[2:5]:
    print(l2[i] ** 2)

for i in l2:
    print(l2[i-1])

Entretando, podemos usar o mais tradicional loop baseado em um contador (como usual em linguagens com C).

In [None]:
r = range(0, 6, 1)

for r in range(2, 5):
    print(l2[r] ** 2)

Python também oferece as típicas estruturas de controle condicional `if`, `elif` e `else`. O uso é similar a outras linguagens.

In [None]:
for i in range(1, 10):
    if i % 2 == 0: # % resto da divisão 
        print("%d é par" % i)
    elif i % 3 == 0:
        print("%d é múltiplo de 3" % i)
    else:
        print("%d é ímpar" % i)
        

O última estrutura de controle que vamos ver será o `while`.

In [None]:
total = 0
while total < 100:
    total += 1
print(total)

Uma especialidade do python é a chamada `list comprehensions`. Ao invés de rodar sobre objetos tipo `list` já existentes, esta abordagem gerá a `list` via loops em uma forma muito compacta.

In [None]:
m = [i ** 2 for i in range(5)]
print(m)

Em certo sentido a abordagem de `list comprehensions` já fornece algo como vetorização de código, que será discutida em detalhes na seção Vetorização de código.

### Programação funcional

Python oferece muitas ferramentas para programação funcional *functional programming*. Programação funcional refere-se ao processo de aplicar uma função a um conjunto de entradas, em geral em python a um objeto do tipo `list`. Entre estas ferramentas estão `filter`, `map` e `reduce`. Entretando, para começar precisamos definir uma função em python. 

Para começar vamos implementar a distribuição de probabilidade mais usada em estatística, ou seja, a distribuição Gaussiana. A função densidade probabilidade da distribuição Gaussiana é dada por

$$ f(y;\mu, \sigma^2) = \frac{1}{\sqrt{2 \pi \sigma^2}} \exp\left \{- \frac{1}{2\sigma^2} (y - \mu)^2 \right \}, $$
onde $ y, \mu \in \Re$ e $\sigma^2 > 0$. Nesta parametrização tem-se que $E(Y) = \mu$ e $Var(Y) = \sigma^2$.

Para implementar tal função em python, primeiro identificamos quais argumentos serão necessários. Neste caso são três $y$, $\mu$ e $\sigma^2$. Na sequência identificamos quais as funções matemática especiais envolvidas na função, no caso da distribuição Gaussiana temos, raiz quadrada, constant $\pi$, potência e exponencial (`sqrt`, `pi`, `pow` e `exp`) todas estão disponíveis através do módulo `math`. Vamos ver como fica a distribuição Gaussiana implementada em python.

In [None]:
from math import sqrt, pi, exp, pow

def dnorm(y, mu = 0, sigma2 = 1):
    output = (1/(sqrt(2 * pi * sigma2)))*exp( - (1/(2 * sigma2)) * pow(y - mu, 2)  )
    return output

print(dnorm(y = 0))
print(dnorm(y = 0, mu = 10, sigma2 = 2))

Suponha que queremos aplicar a função `dnorm` para uma `list` de objetos. Podemos fazer isso usando um loop for como na seção anterior. 

In [None]:
# Tradicional loop for
numbers = [-3, -2, -1, 0, 1, 2, 3]
for i in numbers:
    print(dnorm(y = i, mu = 0, sigma2 = 1))

De uma forma mais elegante podemos usar programação funcional através da função `map` em python. 

In [None]:
print(list(map(dnorm, numbers)))
print(list(map(dnorm, numbers, [10,10,10,10,10,10,10], [1,1,1,1,1,1,1]))) # Um pouco incoveniente mais funciona!

Para funções simples (em geral de uma linha) podemos usar funções anônimas ou como são chamadas em python `lambda functions`. 

In [None]:
list(map(lambda x: x ** 2, numbers))

Funções também podem ser usadas para filtrar valores de interesse. Suponha que queremos obter apenas os valores pares de uma grande `list` de números. Primeiro definimos a função que faz a seleção e depois aplicamos ela a cada elemento da nossa lista de valores filtrando os que temos interesse.

In [None]:
def even(x):
    return x % 2 == 0

list(filter(even, range(15)))

Finalmente, podemos reduzir o conjunto de dados aplicando alguma função em todos os elementos da `list`. Um exemplo é a soma cumulativa dos objetos em uma `list`. Importante ressaltar que a função `reduce` no python 3.0 é parte do modulo functools, e portante precisa ser importada explicitamente.

In [None]:
from functools import reduce

reduce(lambda x, y: x + y, range(10))

Podemos também usar as funções em conjunto ganhando ainda mais flexibilidade. Por exemplo, suponha que queremos somar apenas os números positivos de uma sequência de números em uma `list`.

In [None]:
reduce(lambda x, y: x + y, filter(even, range(20)))

É considerado uma boa prática evitar loop for em Python tanto quanto possível. `list comprehension` e `functional programming` atráves de funções como `map`, `filter`  e `reduce` oferecem um código mais compacto e em geral de fácil leitura. 

### Estrutura de dados NumPy

As seções anteriores mostraram que o python oferece algumas estruturas flexíveis para o armazenamento e manipulação de dados básicos. Em particular, `list` são muito úteis para trabalhar com dados e analises estatística. Entretando, quando trabalhando com analise de dados reais, tem-se a necessidade para operações de alta performance em dados com estruturas especiais. Uma das estruturas mais importantes é o `array`. `array` geralmente estruturam outros objetos em linhas e colunas. 

Assuma que estamos trabalhando com números (os conceitos funcionam também para `string`). No caso mais simples, um `array` unidimensional representa um vetor de números reais representados internamente como `float`. De forma mais geral um `array` representa uma matrix $i \times j$ de elementos. O mais interessantes sobre `array` é que estes conceitos generalizam para cubos $i \times j \times k$ de elementos, bem como, para n-dimensionais arrays de corpo $i \times j \times k \times l \times, \ldots$.

De forma geral, matrizes são de extrema importância em estatística, assim precisamos de uma forma simples e eficiente de trabalhar ao menos com `arrays` bidimensionais. É neste ponto que a biblioteca `NumPy` é de extrema importância dentro do ambiente python.

Antes de introduzir o modelo `NumPy` vamos discutir como `array` podem ser obtidos como uma `list` de `list`.

In [None]:
v = [0.5, 1, 1.5, 2, 2.5, 3] # vector of numbers
m = [v, v, v] # matriz
print(m)
m[1][0] # Segunda linha primeiro elemento

Podemos também ter um cubo de números, ou um `array` tridimensional.

In [None]:
v1 = [0.5, 1.5]
v2 = [1, 2]
m = [v1,v2]
c = [m, m]
print(c)
print(c[1])
print(c[1][0])
print(c[1][0][1])

É importante enfatizar que combinar elementos como feito anteriormente funciona como `reference pointers` para os objetos anteriores. Essa idéia fica clara através de um exemplo.

In [None]:
v = [0.5, 0.75, 1.0, 1.5, 2.0]
m = [v, v, v]
print(m)

v[0] = 'python'
print(m)

Para evitar este comportamento usamos a função `deepcopy` do modulo `copy`.

In [None]:
from copy import deepcopy
v = [0.5, 0.75, 1.0, 1.5, 2.0]
m = 3 * [deepcopy(v), ]
print(m)
v[0] = 'python'
print(m)

Apesar de flexível esta forma de criar `array` não é muito útil para aplicações em estatística, uma vez que, o ferramental de álgebra linear não está disponível para este tipo de objetos. Por exemplo, a simples multiplicação de um escalar por um vetor não é definida para objetos do tipo `list` em  python.

In [None]:
v = [0.5, 1, 1.5] # vetor
n = 2 # escalar
n*v # Repete a list duas vezes, ao invés da multiplicação de escalar por vetor

Isso mostra que precisamos de um tipo de objeto mais especializado que automaticamente entenda operações de álgebra linear e similares. A *library* `NumPy` traz este tipo de objeto que é chamada genericamente de `ndarray`.

In [None]:
import numpy as np
a = np.array([0, 0.5, 1.0, 1.5, 2.0])
print(a)
print(type(a))

A principal vantagem deste tipo de objeto é a grande quantidade de métodos disponíveis. Alguns exemplos,

In [None]:
print(a.sum()) # Soma todos os elementos
print(a.std()) # Erro padrão
print(a.cumsum()) # Soma acumulada
print(a.shape)
print(a.size)

Uma lista completa de todos os métodos disponíveis para `ndarray` objetos pode ser obtida [aqui](https://docs.scipy.org/doc/numpy-1.13.0/reference/generated/numpy.ndarray.html). 
Do ponto de vista de aplicações em estatística a grande vantagem de objetos do tipo `ndarray` é que operações matriciais são reconhecidas. Aqui vamos apresentar apenas o básico, no decorrer da discussão teremos um encontro dedicado especificamente a álgebra linear usando `NumPy`.

In [None]:
a = [1, 2] # Python basic
b = [3, 4]
print(a + b) # Concatena

a = np.array([1, 2]) # Usando NumPy
print(a*2) # Multiplicação por escalar

b = np.array([3, 4])
print(a + b) # Soma de vetores

# Matrix 2 x 2
c = np.matrix([ [1,2], [3,4] ])
print(c)
print(c.shape)

c2 = np.matrix([ [4,5], [6, 7]])
print(c2[0,:]) # Primeira linha
print(c2[:,0]) # Primeira coluna

# Multiplicacao de matrizes
np.dot(c,c2)

Uma outra especialidade da biblioteca `NumPy` são os `array` estruturados. Essa opção permite que em um mesmo `array` sejam armazenados diferentes tipos de dados por coluna. Porém, vamos deixar esta discussão para um encontro específico.