# **Algumas coisas interessantes de Python**

Compreensões de lista são um recurso de linguagem Python conveniente e amplamente utilizado. Eles permitem que você forme de forma concisa uma nova lista filtrando os elementos de uma coleção, transformando os elementos que passam o filtro em uma expressão concisa. Eles assumem a forma básica:

``` [expr for value in collection if condition]```

Isso é equivalente ao seguinte `for` o laço:

```   
result = []
for value in collection:
    if condition:
        result.append(expr)
```
A condição do filtro pode ser omitida, deixando apenas a expressão. Por exemplo, dada uma lista de strings, podemos filtrar strings com comprimento 2ou menos e convertê-los em maiúsculas como esta:

In [2]:
strings = ["a", "as", "bat", "car", "dove", "python"]

In [3]:
[x.upper() for x in strings if len(x) > 2]

['BAT', 'CAR', 'DOVE', 'PYTHON']

As compreensões de conjunto e dicionário são uma extensão natural, produzindo conjuntos e dicionários de uma maneira idiomática semelhante em vez de listas.

``` 
dict_comp = {key-expr: value-expr for value in collection
             if condition}
```
Uma compreensão de conjunto parece a compreensão da lista equivalente, exceto com chaves encaracoladas em vez de colchetes:
``` 
set_comp = {expr for value in collection if condition}
```

Como as compreensões de lista, as compreensões de conjunto e dicionário são principalmente conveniências, mas da mesma forma podem tornar o código mais fácil de escrever e ler. Considere a lista de strings de antes. Suponha que quiséssemos um conjunto contendo apenas os comprimentos das cadeias contidas na coleção; poderíamos facilmente calcular isso usando uma compreensão de conjunto:

In [6]:
unique_lengths = {len(x) for x in strings}
unique_lengths

{1, 2, 3, 4, 6}

Também poderíamos expressar isso mais funcionalmente usando o mapFunção, introduzida em breve:

In [7]:
set(map(len, strings))

{1, 2, 3, 4, 6}

Como um simples exemplo de compreensão do dicionário, podemos criar um mapa de busca dessas strings para suas localizações na lista:

In [8]:
loc_mapping = {value: index for index, value in enumerate(strings)}
loc_mapping

{'a': 0, 'as': 1, 'bat': 2, 'car': 3, 'dove': 4, 'python': 5}

## **Compreensões de lista aninhadas**

Suponha que temos uma lista de listas contendo alguns nomes em inglês e espanhol:

In [10]:
all_data = [["John", "Emily", "Michael", "Mary", "Steven"],
           ["Maria", "Juan", "Javier", "Natalia", "Pilar"]]

In [11]:
names_of_interest = []

In [12]:
for names in all_data:
   enough_as = [name for name in names if name.count("a") >= 2]
   names_of_interest.extend(enough_as)

In [13]:
names_of_interest

['Maria', 'Natalia']

Você pode realmente envolver toda essa operação em uma única compreensão de lista aninhada, que será como:

In [14]:
result = [name for names in all_data for name in names
          if name.count("a") >= 2]

In [15]:
result

['Maria', 'Natalia']

No início, as compreensões aninhadas da lista são um pouco difíceis de envolver a cabeça. O que é `for` As partes da compreensão da lista são organizadas de acordo com a ordem de nidificação, e qualquer condição de filtro é colocada no final como antes. Aqui está outro exemplo em que “achata” uma lista de tuplas de inteiros em uma lista simples de inteiros:

In [16]:
some_tuples = [(1, 2, 3), (4, 5, 6), (7, 8, 9)]

In [17]:
flattened = [x for tup in some_tuples for x in tup]
flattened

[1, 2, 3, 4, 5, 6, 7, 8, 9]

Tenha em mente que a ordem do `for`As expressões seriam as mesmas se você escrevesse um aninhado `for`loop em vez de uma compreensão de lista:

In [18]:
flattened = []

for tup in some_tuples:
    for x in tup:
        flattened.append(x)

Você pode ter arbitrariamente muitos níveis de nidificação, embora se você tiver mais de dois ou três níveis de nidificação, você provavelmente deve começar a questionar se isso faz sentido do ponto de vista da legibilidade do código. É importante distinguir a sintaxe que acabou de ser mostrada a partir de uma compreensão de lista dentro de uma compreensão de lista, que também é perfeitamente válida:

In [19]:
[[x for x in tup] for tup in some_tuples]

[[1, 2, 3], [4, 5, 6], [7, 8, 9]]

Isso produz uma lista de listas, em vez de uma lista achatada de todos os elementos internos.

## **Tratemento de erros e exceções**

Lidar com erros ou exceções em Python graciosamente é uma parte importante da construção de programas robustos. Em aplicações de análise de dados, muitas funções funcionam apenas em certos tipos de entrada. Como exemplo, o Python’s `float`A função é capaz de lançar uma string para um número de ponto flutuante, mas falha com `ValueError`sobre entradas impróprias:
```
In [224]: float("1.2345")
Out[224]: 1.2345

In [225]: float("something")
---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
<ipython-input-225-5ccfe07933f4> in <module>
----> 1 float("something")
ValueError: could not convert string to float: 'something'
```
Suponha que nós queríamos uma versão de floatque falha graciosamente, retornando o argumento da entrada. Podemos fazer isso escrevendo uma função que encerra o chamado para floatem uma try/ / A informação a que aproumentar a sua. A.A. exceptbloco (executar este código em IPython):


In [1]:
def attempt_float(x):
    try:
        return float(x)
    except:
        return x

O código no exceptparte do bloco só será executada se `float(x)` Levanta uma exceção:

In [2]:
attempt_float("1.2345")

1.2345

In [3]:
attempt_float("something")

'something'

Você pode perceber que `float`pode levantar exceções além de `ValueError`:

```
In [229]: float((1, 2))
---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-229-82f777b0e564> in <module>
----> 1 float((1, 2))
TypeError: float() argument must be a string or a real number, not 'tuple'
```
Você pode querer suprimir apenas `ValueError`, desde que a `TypeError`(a entrada não era um valor de string ou numérico) pode indicar um bug legítimo em seu programa. Para fazer isso, escreva o tipo de exceção depois `except`:

In [4]:
def attempt_float(x):
    try:
        return float(x)
    except ValueError:
        return x

Temos então:

In [5]:
attempt_float((1, 2))

TypeError: float() argument must be a string or a real number, not 'tuple'

Você pode pegar vários tipos de exceção escrevendo uma tupla de tipos de exceção (os parênteses são necessários):

In [None]:
f = open(path, mode="w")

try:
    write_to_file(f)
finally:
    f.close()

Em alguns casos, você pode não querer suprimir uma exceção, mas quer que algum código seja executado independentemente de o código no `try`O bloco é bem sucedido. Para fazer isso, use `finally`:

In [None]:
f = open(path, mode="w")

try:
    write_to_file(f)
finally:
    f.close()

Aqui, o objeto de arquivo `f` Sempre será `always` fechado. Da mesma forma, você pode ter o código que é executado somente se o `try`:Bloco consegue usar `else`:

In [None]:
f = open(path, mode="w")

try:
    write_to_file(f)
except:
    print("Failed")
else:
    print("Succeeded")
finally:
    f.close()

## **Exceções em IPython**

Se uma exceção é levantada enquanto você está `%run` ing um script ou executando qualquer instrução, o IPython imprimirá por padrão um rastreamento de pilha de chamadas completa (traceback) com algumas linhas de contexto em torno da posição em cada ponto da pilha:

In [1]:
%run examples/ipython_bug.py

Exception: File `'examples/ipython_bug.py'` not found.

# **Noções básicas de NumPy: matrizes e computação vetorizada**

Numpy, abreviação de Numerical Python, é um dos pacotes fundamentais mais importantes para computação numérica em Python. Muitos pacotes computacionais que fornecem funcionalidade científica usam os objetos de matriz do NumPy como uma das interfaces padrão lingua francas para troca de dados. Grande parte do conhecimento sobre NumPy que eu cubro é transferível para pandas também.
Aqui estão algumas das coisas que você vai encontrar em NumPy:
* ndarray, uma matriz multidimensional eficiente que fornece operações aritméticas orientadas a matriz rápidas e recursos de transmissão flexíveis
* Funções matemáticas para operações rápidas em matrizes inteiras de dados sem ter que gravar loops
* Ferramentas para leitura / escrita de dados de matriz para disco e trabalhar com arquivos de memória
* Álgebra linear, geração de números aleatórios e capacidades de transformação de Fourier
* Uma API C para conectar o NumPy com bibliotecas escritas em C, C ++ ou FORTRAN

Como o NumPy fornece uma API C abrangente e bem documentada, é fácil passar dados para bibliotecas externas escritas em uma linguagem de baixo nível e para bibliotecas externas retornarem dados ao Python como matrizes NumPy. Esse recurso tornou o Python uma linguagem de escolha para envolver bases de código legadas C, C ++ ou FORTRAN e dar a elas uma interface dinâmica e acessível.
Embora o NumPy, por si só, não forneça modelagem ou funcionalidade científica, ter uma compreensão dos arrays NumPy e da computação orientada a matrizes ajudará você a usar ferramentas com semântica de computação de matriz, como pandas, de forma muito mais eficaz. Como o NumPy é um tópico grande, abordarei muitos recursos avançados do NumPy.
Muitos desses recursos avançados não são necessários para seguir o resto deste livro, mas eles podem ajudá-lo à medida que você se aprofunda na computação científica em Python.

Para a maioria dos aplicativos de análise de dados, as principais áreas de funcionalidade em que vou focar são:
* Operações rápidas baseadas em matrizes para munging e limpeza de dados, subconfiguração e filtragem, transformação e qualquer outro tipo de computação
* Algoritmos de array comuns, como classificação, operações exclusivas e definidas
* Estatística descritiva eficiente e dados de agregação/resumo
* Alinhamento de dados e manipulações de dados relacionais para mesclar e unir conjuntos de dados heterogêneos
* Expressar lógica condicional como expressões de matriz em vez de loops com `if-elif-else` ramos de ramos
* Manipulações de dados em grupo (agregação, transformação e aplicação de funções)

Embora o NumPy forneça uma base computacional para o processamento geral de dados numéricos, muitos leitores vão querer usar pandas como base para a maioria dos tipos de estatísticas ou análises, especialmente em dados tabulares. Além disso, os pandas fornecem algumas funcionalidades mais específicas de domínio, como a manipulação de séries temporais, que não está presente no NumPy.
Uma das razões pelas quais o NumPy é tão importante para cálculos numéricos em Python é porque ele é projetado para eficiência em grandes matrizes de dados. Há uma série de razões para isso:
* O NumPy armazena internamente dados em um bloco contíguo de memória, independente de outros objetos Python integrados. A biblioteca de algoritmos do NumPy escrita na linguagem C pode operar nesta memória sem qualquer tipo de verificação ou outra sobrecarga. Os arrays NumPy também usam muito menos memória do que as sequências Python incorporadas.
* As operações do NumPy realizam cálculos complexos em matrizes inteiras sem a necessidade de Python `for` loops, que podem ser lentos para grandes sequências. O NumPy é mais rápido que o código Python normal porque seus algoritmos baseados em C evitam o overhead presente com código Python interpretado regularmente.

In [2]:
import numpy as np

In [3]:
my_arr = np.arange(1_000_00)

In [5]:
my_list = list(range(1_000_000))

Agora vamos multiplicar cada sequência por 2:

In [6]:
%timeit my_arr2 = my_arr * 2

24.2 μs ± 159 ns per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


In [7]:
%timeit my_list2 = [x * 2 for x in my_list]

54 ms ± 4.78 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


Os algoritmos baseados no NumPy são geralmente 10 a 100 vezes mais rápidos (ou mais) do que seus contrapartes Python puros e usam significativamente menos memória.

## **O número: Um objeto de array multidimensional**

Uma das principais características do NumPy é seu objeto de matriz N-dimensional, ou ndarray, que é um contêiner rápido e flexível para grandes conjuntos de dados em Python. As matrizes permitem que você execute operações matemáticas em blocos inteiros de dados usando sintaxe semelhante às operações equivalentes entre elementos escalares.
Para dar um sabor de como o NumPy permite cálculos em lote com sintaxe semelhante a valores escalares em objetos Python integrados, eu primeiro importo NumPy e crio uma pequena matriz:

In [8]:
import numpy as np

In [9]:
data = np.array(
    [
        [1.5, -0.1, 3],
        [0, -3, 6.5]
    ]
)

In [10]:
data

array([[ 1.5, -0.1,  3. ],
       [ 0. , -3. ,  6.5]])

Então, escrevo operações matemática com `data`:

In [11]:
data * 10

array([[ 15.,  -1.,  30.],
       [  0., -30.,  65.]])

In [12]:
data + data

array([[ 3. , -0.2,  6. ],
       [ 0. , -6. , 13. ]])

No primeiro exemplo, todos os elementos foram multiplicados por  10. No segundo, os valores correspondentes em cada "célula" no array foram adicionados uns aos outros.

Um ndarray é um recipiente genérico multidimensional para dados homogêneos; ou seja, todos os elementos devem ser do mesmo tipo. Cada matriz tem um `shape`, uma tupla indicando o tamanho de cada dimensão, e um `dtype`, um objeto que descreve o tipo de dados do array:

In [13]:
data.shape

(2, 3)

In [14]:
data.dtype

dtype('float64')