![alt text](FGV_logo_novo.jpg)

# Python básico para Data Science

#### Descrição e Características 

Python é uma linguagem de alto nível, poderosa com uma grande variedade de funcionalidades e fácil de aprender. E assim, é uma das linguagens preferidas por várias comunidades de interesse, incluindo a comunidade de cientistas de dados. Além disso, a sua simplicidade é ideal para prototipar modelos, diminuindo a distancia entre a idéia e o protótipo. Ao rol de vantagens adiciona-se a legibilidade, caracteristica importante sob vários aspectos, por exemplo a manutenção do código.

Conforme veremos ao longo do curso existem outras vantagens na utilização do Python, como por exemplo:


  * grande variedade de modulos  
  * open source mantido por uma ampla comunidade  

Quanto a rapidez da linguagem, podemos afirmar que é comparável ou melhor que outras linguagens interpretadas, como por exemplo as linguagens R e MATLAB. Note que muitas funções do Python são programadas numa linguagem mais eficiente tanto em memoria quanto em processamento, a linguagem C. Além disso, apresenta vantagens em relação a pacotes baseados em planilhas, com um *overhead* bem menor e capaz de lidar com datasets que explorem mais eficientemente a capacidade de memória e CPU disponíveis na máquina. 

#### Primeiros passos

Basicamente vamos encontrar dois tipos de arquivos:


* ```.py```: arquivos que contem código Python que roda como script ou seja tudo é executado
* ```.ipynb```: arquivos com fragmentos de codigos python a serem executados de maneira interativa.

Denominamos *notebook*, o arquivo gerado com extensão ```.ipynb```. 

Assim, vamos definir nesse *notebook* algumas variáveis e realizar operações.

In [1]:
a = 5

In [2]:
a

5

In [3]:
b = True

In [4]:
b

True

In [5]:
a

5

In [6]:
x = 5

Apenas com essas duas atribuições de valores e suas chamadas, podemos entender mais algumas características da linguagem:


* **interpretada**: As instruções são enviadas para o intepretador Python, sem que haja uma compilação prévia.
* **tipagem dinamica (dynamically typed)**: Não houve definição de varíavel antes do seu uso, e o interpretador "entende" o tipo conforme o valor atribuído.

Podemos checar os tipos com o comando ```type()```.

In [7]:
type(a)

int

In [8]:
c = 0.3
type(c)

float

Vejamos agora algumas operacões:

In [9]:
h = 'hello'
w = 'world'

In [10]:
a + a

10

In [11]:
h + w

'helloworld'

Mais uma característica:

* **sobrecarga de operador**: o operador ```+``` foi utilizado para dois tipos diferentes de operações, em função dos operandos.

Mais adiante, vamos ver que essa característica é bem conveniente quando estivermos manipulando objetos mais complexos como vetores e matrizes. Essa conveniencia permite produzir códigos bem compactos, legíveis e rápidos. 

Vamos chamar alguns métodos sobre as objetos.
Em Python, todas as variáveis são objetos, e portanto podemos chamar métodos sobre elas. <br>
Por exemplo sobre uma variável do tipo ```str```, podemos: 

In [12]:
h.upper()

'HELLO'

In [13]:
h.capitalize()

'Hello'

In [14]:
type(h)

str

Veja que nenhum desses métodos teve que ser importado. Mais adiante vamos importar modulos que contém definições de classes e funções. Mas nesse caso recorremos a esses métodos diretamente. O Python carrega automaticamente um conjunto de módulos, funções e tipos que compõe o denominado "Python Standard Library", e que estão sempre disponíveis.

* **mutáveis versus imutáveis**:
Alguns objetos são mutáveis(`bool, int, float, tuple, str, frozenset`), enquanto outros imutáveis: (```list, set, dict```)

In [15]:
def funcao_que_nao_altera_argumento(a):
    a = 100

b = 10
funcao_que_nao_altera_argumento(b)
print(b)

10


In [16]:
def funcao_que_altera_argumento(a):
    a[1] = 20

b = [1,2,3,4,5]
funcao_que_altera_argumento(b)
print(b)

[1, 20, 3, 4, 5]


Repare que na função não definimos explicitamente o começo e o fim da função. Implicitamente, o interpretador Python assume que o início do corpo função está definido pelo caractere dois pontos ```:``` 

E implicitamente, o corpo da função em si está definido pela identação de 4 caracteres a direita do ```def```. <br>
Se existissem outras atribuições, essas tambem estariam situadas com 4 caracteres de identação.

In [17]:
def funcao_que_altera_argumento(a):
    a[0] = 10
    a[1] = 20
    a[2] = 30
    a[3] = 40
    a[4] = 50
    

b = [1,2,3,4,5]
funcao_que_altera_argumento(b)
print(b)

[10, 20, 30, 40, 50]


* **identação** Forma como Python define os blocos de execução. Similar a ```{ ... }``` em outras linguagens

vamos ver funções Python em mais detalhes, mais adiante.

## listas, conjuntos e dicionarios

Alguns objetos que permitem armazenar mais de um elemento. Estes são:


* **listas**: objetos onde a ordenação dos elementos é relevante
* **conjuntos**: objetos onde a ordenação não é relevante e não há elementos duplicados
* **dicionários**: objetos onde a indexação é realizada por uma chave que pode ser não-numérica. Aqui a ordenação não é relevante e não pode haver chaves duplicadas

### listas e conjuntos

listas em Python são declaradas com um abre colchete, elementos separados por virgula e terminando com um fecha colchete (`[...]`)

In [18]:
l = [1,2,3,20,10]

In [19]:
l

[1, 2, 3, 20, 10]

In [20]:
l.append(40)

In [21]:
l

[1, 2, 3, 20, 10, 40]

conjuntos são declarados com abre  e fecha chaves (`{...}`).

In [22]:
s = {1,3,2,20,10}

In [23]:
s

{1, 2, 3, 10, 20}

In [24]:
s2 = {1,3,2,20,10,3,1}

In [25]:
s2

{1, 2, 3, 10, 20}

podemos fazer um 'cast' de conjuntos para lista. Os ítens na lista serão ordenados.

In [26]:
list(s2)

[1, 2, 3, 10, 20]

ou ao contrário, um cast de lista para conjuntos.

In [27]:
set(l)

{1, 2, 3, 10, 20, 40}

In [28]:
type(s2)

set

In [29]:
type(l)

list

In [30]:
l2 = [1,2,'a', 'b', 0.123]

In [31]:
l2

[1, 2, 'a', 'b', 0.123]

In [32]:
l

[1, 2, 3, 20, 10, 40]

a indexação de uma lista é feita via um número inteiro: `0, 1, 2, ... , n-1`, onde `n` é o numero de termos.<br>
ou seja, ao contrário da linguagem R, Python é *zero-indexed* (o primeiro elemento é o zero-ésimo).

In [33]:
l[0]

1

o índice `-1` significa ultimo, `-2` o penúltimo e assim por diante.

In [34]:
l[-1]

40

In [35]:
l[-2]

10

o *slicing* (fatiamento) de listas é realizado com `[a:b]`, onde `a` é primeiro resultado e `b` corresponde ao elemento subsquente ao ultimo resultado exibido. 

In [36]:
l[1:3]

[2, 3]

convenientemente, em Python, podemos omitir um dos limites, o que significa:


* `[a:]` slicing do elemento `a` até o fim da lista
* `[:b]` slicing do primeiro elemento da lista até o elemento anterior ao de indice `b`.

In [37]:
l[2:]

[3, 20, 10, 40]

In [38]:
l[-2:]

[10, 40]

um ponto interessante é que no slicing, não ocorre erros de indices fora da faixa, o popular *OOB* (*out of bounds error*), que ocorre quando chamamos um elemento da lista, cujo indice inexiste. <br>
Compare:

In [39]:
l[50]

IndexError: list index out of range

In [40]:
l[2:30]

[3, 20, 10, 40]

In [41]:
print(l)
print(l2)

[1, 2, 3, 20, 10, 40]
[1, 2, 'a', 'b', 0.123]


vejamos algumas operações. Aqui, mais um exemplo de sobrecarga de operador.

In [42]:
l + l2

[1, 2, 3, 20, 10, 40, 1, 2, 'a', 'b', 0.123]

dicionários são objetos que implementam formato de dados tipo *chave-valor*. sua implentacão em Python tambem utiliza abre e fecha colchetes, mas internamente um elemento é separado em chave-valor pelos dois pontos `:`.

Enquanto um único `:` significa um começo e um fim de uma sequencia, o numero após o segundo `:` significa o tamanho dos incrementos. Por exemplo, abaixo vemos todos os elementos da soma `l` com `l2` em "saltos" de 2 em 2.

In [43]:
(l + l2)[::2]

[1, 3, 10, 1, 'a', 0.123]

veja tambem isso, para inverter a sequencia:

In [44]:
(l + l2)[::-1]

[0.123, 'b', 'a', 2, 1, 40, 10, 20, 3, 2, 1]

já para fazer a união, interseção e diferença entre conjuntos, utilizamos:

In [54]:
s2 = {1, 2, 3, 10, 20}
s3 = {1, 2, 40, 50}

In [55]:
print('união:', s2 | s3)
print('interseção:', s2 & s3)
print('diferença:', s2 - s3)

união: {1, 2, 3, 20, 50, 40, 10}
interseção: {1, 2}
diferença: {10, 3, 20}


operadores "está contido em", e "contém" são implementados conforme a seguir:

In [67]:
s1 = {2, 3}
print(s1 < s2)  # s1 está contido em s2?
print((s2 | s3) > s3 )  # s2 U s3 contém s3?

True
True


### dicionários

In [47]:
d = {'a': 1, 'b': 0, 'c': 4}

In [48]:
d

{'a': 1, 'b': 0, 'c': 4}

In [49]:
d['a']

1

In [50]:
d2 = {'a': 1, 'c': 4, 'b': 0}

atribuições de novos elementos são realizados conforme a sintaxe a seguir. Dentro dos colchetes incluimos a chave.

In [51]:
d2['a'] = 2

In [52]:
# d2.iteritems()

uma outra representação de dicionarios é realizada por uma sequencia (não ordenada) de tuplas, conforme a seguir. Essa representação é usada quando queremos varrer a chave e o valor ao mesmo tempo.

In [53]:
d2.items()

dict_items([('a', 2), ('c', 4), ('b', 0)])

isoladamente, podemos recorrer as chaves ou aos valores. Aqui também não há o conceito de ordem.<br>
Por exemplo, podem tentar algo como `d.keys()[0]`, e irão obter uma mensagem de erro.

In [54]:
d.keys()

dict_keys(['a', 'b', 'c'])

In [55]:
d.values()

dict_values([1, 0, 4])

In [56]:
d['d'] = 'abc'

In [57]:
d

{'a': 1, 'b': 0, 'c': 4, 'd': 'abc'}

In [58]:
type(d)

dict

In [59]:
d

{'a': 1, 'b': 0, 'c': 4, 'd': 'abc'}

In [60]:
d2

{'a': 2, 'b': 0, 'c': 4}

In [61]:
d['z'] = d2

exemplo de um dicionario que é o valor de elemento interno a um dicionário.

In [62]:
d

{'a': 1, 'b': 0, 'c': 4, 'd': 'abc', 'z': {'a': 2, 'b': 0, 'c': 4}}

veja que ao chamar uma chave inexistente, ocorre um `KeyError`, um erro que chave inexistente.<br>
uma maneira de contornar isso, seria usando o método `get`, que permite designar um valor default.

In [63]:
d['m']

KeyError: 'm'

In [64]:
d.get('m', 0)

0

frequentemente, necessitamos juntar dois dicionarios. Essa operação pode ser realizada atraves de:

In [65]:
d2

{'a': 2, 'b': 0, 'c': 4}

In [66]:
d3 = {'a': 10, 'x': 20, 'y': 30}

d4 = {**d2, **d3}
d4

{'a': 10, 'b': 0, 'c': 4, 'x': 20, 'y': 30}

se houverem chaves sobrepostas, a definição do dicionário mais a direita prevalecerá.

### tuplas

finalmente, desse grupo inicial de objetos estruturados, temos as tuplas. <br>
A tupla é a *irmã* imutável da lista.

In [67]:
t = (1,2,3)

In [68]:
t

(1, 2, 3)

In [69]:
type(t)

tuple

para inicializar objetos vazios, vale a pena por questões de legibilidade escrever explicitamente:

In [70]:
lista_vazia = list()
dicionario_vazio = dict()
conjunto_vazio = set()

ao inves disso...

In [71]:
lista_vazia = []
dicionario_vazio = {}
# conjunto_vazio = {} ... não funciona, será inicializado como dict.

In [72]:
type(dicionario_vazio)

dict

### range() e enumerate()

duas funções uteis para criar listas para serem varridas

`range(n)` cria um iterador que fornece os numeros inteiros desde `0` até `n - 1` .<br>
iteradores são funções que fornecem os elementos em sequencia, ao invés de armazená-los em memória (in-memory). 

Por exemplo, compare:
* `range(5)`
* `list(range(5))`

In [73]:
range(5)

range(0, 5)

In [74]:
list(range(5))

[0, 1, 2, 3, 4]

ambos produzem resultados similares:

In [75]:
for i in range(5): 
    print(i)
    
print('-' * 10)

for i in list(range(5)): 
    print(i)

0
1
2
3
4
----------
0
1
2
3
4


mas, `range(5)` é uma função que fornece um elemento de cada vez a cada iteração do laço executado. <br>
Enquanto isso, `list(range(5))` monta `[0, 1, 2, 3, 4]` em memória primeiro, depois a percorre a cada laço executado. 
A economia pode vir a ser alta, se a lista for muito grande. Além disso, se na lógica do laço tiver uma saída antecipada (tipicamente nos laços tipo `while`) o gasto desnecessário de memória será ainda maior.

`enumerate()` tambem produz um iterator, mas de tuplas. Cada elemento da tupla é composto por um número e o elemento do objeto a ser varrido.
Veja exemplo a seguir.

In [76]:
list(enumerate('abcde'))

[(0, 'a'), (1, 'b'), (2, 'c'), (3, 'd'), (4, 'e')]

**iterable**

vimos acima os objetos serem sujeitos a uma varredura sequencial, por exemplo no caso dos loops com `for`. Chamamos essa propriedade desses objetos como: objeto iterável. Ou seja, *list* é um objeto iterável. Assim como *set, dict* e *tuple* também são objetos iteráveis.

Eles permitem uma sintaxe compacta sem a necessidade de indexador (ponteiro) para recorrer aos elementos. Além disso permitem varrer os elementos mesmo quando não há um indexador, exemplo conjuntos.

Veja abaixo como iteráveis são implementados. Existem métodos para criar iteráveis a partir desses objetos e chama-los em sequencia. Os loops utilizam-se desses métods para realizar as iterações.

In [77]:
r = range(10)

l = []
for i in r:
    if i % 3 == 0:
        l.append(i)
l

[0, 3, 6, 9]

In [78]:
i = l.__iter__()

i.__next__()

0

In [79]:
print(i.__next__())
print(i.__next__())
print(i.__next__())

3
6
9


repare que essa próxima chamada ao `__next__()` resulta em erro, já que o iterador já "esgotou" todos os valores, contidos em `l`.

In [80]:
i.__next__()

StopIteration: 

da mesma maneira, conjuntos e dicionarios (assim como tuplas) tambem operam de maneira similar.

In [81]:
s.__iter__()

<set_iterator at 0x108bf6a20>

In [82]:
d.__iter__()

<dict_keyiterator at 0x108bf8458>

#### list comprehension
List comprehension é como um canivete suiço do cientista de dados. A sintaxe bem compacta permite gerar listas a partir de outras listas ocupando somente uma linha no código. Por exemplo, se quisermos o quadrado dos elementos em ```r = range(10)```.

Antes de apresentarmos a sintaxe do *list comprehension*, vejamos como fazê-lo via o paradigma de loops conforme aprendemos nos cursos introdutórios em computação:

In [83]:
r = range(10)
res = []
for e in r:
    res.append(e**2)
print(res)

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]


Utilizando *list comprehension*, teremos

In [84]:
[e**2 for e in r]

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

Frequentemente, temos duas necessidades ao gerar listas:
* filtragem de elementos via ```if```
* substituição de termos via ```if/else```

Vejamos a sintaxe em cada um desses casos:

In [85]:
[e**2 for e in r if e%3 == 0]

[0, 9, 36, 81]

In [86]:
[e**2 if e%3 == 0 else 'n' for e in r]

[0, 'n', 'n', 9, 'n', 'n', 36, 'n', 'n', 81]

No primeiro caso, a posição da cláusula ```if``` aparece ao final. 
Já no segundo caso, a cláusula ```if/else``` situa-se no meio, entre o valor a ser gerado e o ```for```.

A substituição do ```[]``` pelo ```()``` produz um *generator comprehension*, ou seja um objeto gerador. Como vimos anteriormente, podemos transformá-lo em uma lista via ```list()```

In [87]:
(e**2 for e in r if e%3 == 0)

<generator object <genexpr> at 0x108bfb678>

In [88]:
list(e**2 for e in r if e%3 == 0)

[0, 9, 36, 81]

Uma alternativa a *list comprehension* é a utilização das funções *map, filter* e *lambda*. Embora utéis em alguns contextos, é preferível utilizar *list comprehension* por causa de sua legibilidade.

Finalmente, é importante ressaltar que *list comprehension* não pode ser utilizado quando o resultado de uma iteração depende de resultados de iterações passadas. Ou seja quando se tornar necessário que alguma memória seja mantida entre iterações do loop, na producão dos resultados. Nesse caso, utilizamos os paradigmas usuais para loops, conforme apresentado anteriormente.

se quisermos laços aninhados no mesmo *list comprehension* é importante observar a ordem com que esses são executados

In [89]:
[(valor, naipe) for valor in ['J', 'Q', 'K', 'A'] for naipe in ['♦️','♠️','♥️','♣️']]

[('J', '♦️'),
 ('J', '♠️'),
 ('J', '♥️'),
 ('J', '♣️'),
 ('Q', '♦️'),
 ('Q', '♠️'),
 ('Q', '♥️'),
 ('Q', '♣️'),
 ('K', '♦️'),
 ('K', '♠️'),
 ('K', '♥️'),
 ('K', '♣️'),
 ('A', '♦️'),
 ('A', '♠️'),
 ('A', '♥️'),
 ('A', '♣️')]

o primeiro laço `for valor in ['J', 'Q', 'K', 'A']` é o mais externo, enquanto `for naipe in ['♦️','♠️','♥️','♣️']` é o mais interno.
Notar que o resultado é o produto cartesiano entre as duas listas.

### Exercicios

gerar as seguintes listas:

In [90]:
[[0, 1, 2], [1, 2, 3], [2, 3, 4]]

[[0, 1, 2], [1, 2, 3], [2, 3, 4]]

In [91]:
[[1,0,0], [0,1,0], [0,0,1]]

[[1, 0, 0], [0, 1, 0], [0, 0, 1]]

In [92]:
# Respostas
[[i + j for i in range(3)] for j in range(3)]

[[0, 1, 2], [1, 2, 3], [2, 3, 4]]

### dict comprehension e set comprehension
dict comprehension seguem uma estrutura semelhante ao list comprehension

In [93]:
n_simb = ['♦️','♠️','♥️','♣️']
n_nome = ['ouros', 'espadas', 'copas', 'paus']

In [94]:
{s : n for s, n in zip(n_simb, n_nome)}

{'♠️': 'espadas', '♣️': 'paus', '♥️': 'copas', '♦️': 'ouros'}

### Medindo tempo

Existem algumas maneiras diferentes de se medir a execução de codigos. Primeiro, vejamos as funcionalidades existentes como comandos mágicos do jupyter notebook:

In [95]:
s = 0

In [96]:
%%time
for _ in range(10000000):
    s += 1

CPU times: user 902 ms, sys: 3.35 ms, total: 905 ms
Wall time: 905 ms


fora do ambiente jupyter, será necessário utilizar um módulo externo como por exemplo `time`.

In [97]:
from time import time

In [98]:
t0 = time()
for _ in range(10000000):
    s += 1
print(time() - t0)

1.0268800258636475


### Funções
a definição de funções em Python, segue uma sintaxe simples, apenas a nome da função seguida pelos argumentos.<br>
veja tres exemplos a seguir.

In [99]:
def media_aritmetica (a,b):
    return (a+b)/2

In [100]:
media_aritmetica (1,4)

2.5

In [101]:
def media_geometrica (a,b):
    return (a*b)**0.5

In [102]:
media_geometrica (1,4)

2.0

In [103]:
def media_harmonica (a,b):
    return (2/(1/a + 1/b))

In [104]:
media_harmonica (1,4)

1.6

### Classes

as classes são descrições que descrevem como objetos se comportam, como e o que armazenam e como interagem com objetos externos. Nesse exemplo, as tres funções acima são encapsuladas em uma única classe.

In [108]:
class media (object):
    def __init__(self):
        self.name = 'media'
        
    def  aritmetica(self, a, b):
        return (a+b)/2
    
    def  harmonica(self, a, b):
        return (2/(1/a + 1/b))
    
    def  geometrica(self, a, b):
        return (a*b)**0.5

a seguir instanciamos o objeto e chamamos uma função dessa classe. As funções também são denominadas *métodos*.

In [109]:
m = media()

In [110]:
m.aritmetica(1,2)

1.5

e as variáveis são também chamadas *atributos* no jargão de orientação a objetos.

In [111]:
m.name

'media'

### Exercicio

`media` contém um bug, no método `harmonica()`. Qual é esse erro?

### generator
generators são construções que se assemelham a funções, mas que na verdade se comportam como iterators (\*). Em sua construção assemelham-se as funções, inclusive sendo utilizada uma assinatura exatamente igual, `def funcao():`. 

(\*) iterators são classes com métodos dedicados para iteração, como `__iter__()` e `__next__()`, além de outros requisitos

veja inicialmente uma definição de função com retorno via `return`.

In [112]:
def remove_negativos_fun(l):
    lista_retorno = []
    for i in l:
        if i >= 0:
            lista_retorno.append(i)
    return lista_retorno

lst = [1, -2, 10, -12, 50]
remove_negativos_fun(lst)

[1, 10, 50]

no caso do generator, utilizamos `yield` ao inves de `return`. A mecanica do `yield`:
* um valor é retornado e generator fica suspenso nesse `yield`, até ...
* a próxima chamada ao objeto, onde generator recomeça do ponto onde parou, até... 
* encontrar novamente o `yield` quando gera mais um valor e fica suspenso novamente

O ciclo acima é feito até que o generator se esgote, ou seja, não exista mais elementos a fornecer.

In [113]:
def remove_negativos_gen(l):
    for i in l:
        if i >= 0 :
            yield i

In [114]:
remove_negativos_gen(lst)

<generator object remove_negativos_gen at 0x108c144c0>

In [115]:
list(remove_negativos_gen(lst))

[1, 10, 50]

In [116]:
i = remove_negativos_gen(lst)

In [117]:
next(i)

1

In [118]:
next(i)

10

In [119]:
next(i)

50

In [120]:
# next(i)

#### Exercicio: generator comprehensions

In [121]:
# como o objeto abaixo poderia ser utilizado?
i = ((i + j for i in range(3)) for j in range(3))

In [122]:
list(next(i))

[0, 1, 2]

In [123]:
list(next(i))

[1, 2, 3]

In [124]:
list(next(i))

[2, 3, 4]

### *args & **kwargs

`*args` e `**kwargs` são maneiras de se passar múltiplos argumentos para funções, em uma quantidade não definida na assinatura.

anteriormente, haviamos definido uma função com dois argumentos:

In [125]:
media_aritmetica(1,2)

1.5

como poderiamos modificá-la para aceitar um número não definido de argumentos?<br>
vejamos:

In [126]:
def media_aritmetica(*args):
    return sum(args)/len(args)

In [127]:
print(media_aritmetica(1,2))
print(media_aritmetica(1,2,3))
print(media_aritmetica(1,2,3,4))

1.5
2.0
2.5


`*args` permite passar múltiplos argumentos. Dentro da função, o objeto `args` é uma lista que encapsula todos os argumentos.

veja também as operações abaixo:

In [128]:
lst = [1,2,3]
media_aritmetica(*lst) # considera cada elemento como um argumento

2.0

In [129]:
media_aritmetica(lst) # considera que a lista inteira é um argumento... erro

TypeError: unsupported operand type(s) for +: 'int' and 'list'

`**kwargs` permite que sejam passados argumentos 'nomeados'. Dentro da função, o objeto `kwargs` é um dicionário que encapsula todos os argumentos, na forma chave-valor.

In [130]:
def media_aritmetica(**kwargs):
    # for item in kwargs.items(): print(item)
    # print(kwargs, type(kwargs))
    return sum(kwargs.values())/len(kwargs)

In [131]:
media_aritmetica(a = 3, b = 1, c = 2)  # os argumentos são passados como dicionario

2.0

se quisermos uma definição de função generica, que aceite argumentos não-nomeados, e nomeados, teremos:

In [132]:
def media_aritmetica(*args, **kwargs):
    tot_args = sum(args)
    len_args = len(args)
    tot_kwargs = sum(kwargs.values())
    len_kwargs = len(kwargs)
    return (tot_args + tot_kwargs) / (len_args + len_kwargs)

In [133]:
media_aritmetica(1,2, *[3,4], c = 5, d = 6)

3.5

In [134]:
assert sum(range(7))/6 == media_aritmetica(1,2, *[3,4], c = 5, d = 6)

In [135]:
# veja que isso implica em erro, os não-nomeados (posicionais) precisam vir antes
media_aritmetica(a = 1,2, *[3,4], c = 5, d = 6)

SyntaxError: positional argument follows keyword argument (<ipython-input-135-cfc693e03157>, line 2)

### lambda, map, reduce, filter,

In [10]:
# lambda function - funcao anonima
lambda_fun = lambda x, y: x + y

def normal_fun(x, y):
    return x + y

In [11]:
print(lambda_fun(2,4))
print(normal_fun(2,4))

6
6


In [13]:
lst = [1,2,3]

In [14]:
# map - mapeia uma funcao numa lista
list(map(lambda x: 2**x, lst))

[2, 4, 8]

In [15]:
# filter - filtra baseado em True/False de uma funcao
list(filter(lambda x: x % 2  , lst))

[1, 3]

In [16]:
from functools import reduce

# reduce - reduz a lista a um valor
reduce(lambda x, y: x * y, lst)

6

#### Exercicio: 
redefinir classe `média` para um numero arbitrario de argumentos posicionais (não nomeados)

In [20]:
class media (object):
    def __init__(self):
        self.name = 'media'
        
    def  aritmetica(self, *args):
        return sum(args) / len(args)
    
    def  harmonica(self, *args):
        if 0 in args:
            return 0
        else:
            return len(args) / sum(1/x for x in args)
    
    def  geometrica(self, *args):
        return reduce(lambda x, y: x * y, args, 1) ** (1/len(args))

m = media()

print(m.aritmetica(4,5,7))
print(m.geometrica(4,5,7))
print(m.harmonica(4,5,7))

5.333333333333333
5.1924941018511035
5.0602409638554215


### multiprocessamento

In [148]:
import multiprocessing as mp

In [149]:
from random import random

In [151]:
def aproxima_pi(n_iter):
    dentro = 0
    for _ in range(n_iter):
        if random() ** 2 + random() ** 2 < 1 : dentro += 1
    return 4 * dentro / n_iter

In [152]:
%%time
aproxima_pi(10000000)

CPU times: user 3.34 s, sys: 10.8 ms, total: 3.36 s
Wall time: 3.36 s


3.1414472

In [153]:
%%time
pool = mp.Pool(4)
n_iter = int(10000000/4)
res = pool.map(aproxima_pi, [n_iter] * 4)
pool.close()

print(res)
print(sum(res)/4)

[3.1419632, 3.1418, 3.142976, 3.1407152]
3.1418635999999998
CPU times: user 10.8 ms, sys: 14.9 ms, total: 25.7 ms
Wall time: 1.04 s


In [154]:
res

[3.1419632, 3.1418, 3.142976, 3.1407152]

#### O que é NaN, onde aparece e porque?
```NaN``` são valores especiais, que significam ausencia do dado que pode ser causada por alguns motivos, entre eles:
* indisponibilidade do dado, por exemplo na leitura de um arquivo
* resultados de funções, operações que preferem retornar NaN ao invés de um erro

A representação mais comum de ```NaN``` é via o tipo ```float```, por exemplo:

In [155]:
import numpy as np
print(np.nan, 'é da classe:', type(np.nan))

nan é da classe: <class 'float'>


Duas outras representações são ```None``` e ```pd.NaT```, a primeira corresponde a como o Python trata a indisponibilidade, enquanto a segunda refere-se a datas não disponíveis.

In [156]:
import pandas as pd
print(type(None))
print(type(pd.NaT))

<class 'NoneType'>
<class 'pandas._libs.tslib.NaTType'>


Veja que ```is``` é mais que apenas uma checagem de igualdade. Essa operação também checa...

In [157]:
print(np.nan == np.nan)
print(np.nan is np.nan)

False
True


Convenientemente, pandas possui uma função ```pd.isnull()``` capaz de detectar diversas maneiras como o NaN se manifesta.

In [158]:
for n in [np.nan, pd.NaT, None]:
    print(n, ':', type(n))
    print('\tis None?\t', n is None)
    print('\tpd.isnull()?\t', pd.isnull(n))

nan : <class 'float'>
	is None?	 False
	pd.isnull()?	 True
NaT : <class 'pandas._libs.tslib.NaTType'>
	is None?	 False
	pd.isnull()?	 True
None : <class 'NoneType'>
	is None?	 True
	pd.isnull()?	 True


Finalmente, é importante ressaltar que pandas considera automaticamente alguns strings como NaN de maneira default, a depender da versão e do Sistema Operacional. Por exemplo, na versão 0.22.0 para OSX, "NaN" é interpretado como NaN, diferentemente da mesma versão pandas para Linux.