# Análise e processamento de dados com Python 

## Introdução

A análise de dados é a transformação de números (i.e., os dados) desestruturados/desorganizados em informação útil. 

Esses dados são utilizados para encontrar padrões, tendências, etc. que ajudam a extrair informações úteis e que podem ajudar a solucionar problemas, tomar decisões, etc.

Analisar e processar dados é uma tarefa comum para engenheiros e cientistas. Normalmente, estes dados estão armazenados em arquivos texto, CSV, JSON, XML ou em bases de dados.

Utilizando Python, a análise e processamento de dados, como estatísticas, tendências, cálculos, etc., podem ser facilmente realizados para sintetizar as informações.

Para isso, o Python conta com técnicas e várias bibliotecas muito poderosas para o processamento de grandes quantidades de dados como:

+ **Programação Funcional**: preparação e exploração de dados.
+ **NumPy**: análise numérica e estatística.
+ **SciPy**: computação científica.
+ **Scikit-Learn**: aprendizado de máquina.
+ **Pandas**: manipulação, análise exploratória e visualização de dados.
+ **Matplotlib**: visualização de dados.
+ **Bokeh**: visualização de dados.

**IMPORTANTE**: As empresas tem percebido que analisar seus dados pode trazer grandes benefícios (redução de custos, aumento dos lucros, etc.) e sendo assim, o número de vagas para analistas e cientistas de dados só tem crescido.

Nesse tópico iremos estudar algumas ferramentas e bibliotecas utilizadas na análise e processamento de dados utilizando Python.

## Programação funcional

Como vimos na primeira aula, a linguagem Python suporta diversos paradigmas de programação. 

Dentre eles, um muito utilizado para o processamento de dados é o paradigma **Programação Funcional**.

Programação funcional é um paradigma que trata a computação como uma avaliação de funções matemáticas. Tais funções podem ser aplicadas em sequências de dados, que geralmente são listas.

As operações básicas do paradigma funcional são implementadas no Python pelas funções embutidas `lambda()`, `map()`, `filter()`, `reduce()` e `zip()`.

Essas operações são utilizadas para transformar, preparar e explorar estruturas de dados.

### Funções lambda

Em Python, `lambda` é uma função anônima composta apenas por expressões. As funções `lambda` podem ter apenas uma linha, e podem ser atribuídas a uma variável. Funções lambda são muito usadas em programação funcional.

Sintaxe:

```python
lambda <lista de variáveis>: <expressão>
```

**IMPORTANTE**: Uma função lambda pode receber qualquer número de argumentos, mas só pode ter uma expressão.

A sintaxe `lambda` permite que você crie definições de função de forma declarativa.

Exemplo #1:

In [9]:
resultado = (lambda a, b: a + b)(3, 4)

print(resultado)

7


Exemplo #2:

In [10]:
# Valor absoluto de um vetor 3D.
amp = lambda x, y, z: (x ** 2 + y ** 2 + z ** 2) ** 0.5

print(amp(1, 1, 1))
print(amp(3, 4, 5))

1.7320508075688772
7.0710678118654755


Exemplo #3:

Usando uma função anônima para criar uma função que sempre multiplica o parâmetro de entrada por um número definido previamente:

In [12]:
def myfunc(n):
    return lambda a : a * n

mydoubler = myfunc(2)
mytripler = myfunc(3)

print(mydoubler(11))
print(mytripler(11))

22
33


**IMPORTANTE**: Funções lambda consomem menos recursos computacionais que as funções convencionais, porém são mais limitados.

### Mapeamento

O mapeamento consiste em aplicar uma função a todos os itens de uma sequência, gerando outra lista contendo os resultados e com o mesmo tamanho da lista inicial.

<img src="../figures/map_function.png" width="300" height="300">

Em Python, o mapeamento é implementado pela função `map()`, a qual retorna um objeto iterável que pode ser convertido em uma lista com a função embutida `list()`.

Exemplo #1:

In [26]:
# Importa apenas o log na base 10.
from math import log10

nums = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]

iterable = map(log10, nums)

# Aplicando o logaritmo na base 10.
resultado = list(iterable)

print(resultado)

Exemplo #2: Usando laço de repetição.

In [29]:
nums = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]

iterable = map(log10, nums)

for elemento in iterable:
    print(elemento)

0.0
0.3010299956639812
0.47712125471966244
0.6020599913279624
0.6989700043360189
0.7781512503836436
0.8450980400142568
0.9030899869919435
0.9542425094393249
1.0
1.0413926851582251
1.0791812460476249


Exemplo #3: 

Usando uma função anônima.

In [30]:
nums = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]

# Dividindo por 3.
resultado = list(map(lambda x: x / 3, nums))

print(resultado)

[0.3333333333333333, 0.6666666666666666, 1.0, 1.3333333333333333, 1.6666666666666667, 2.0, 2.3333333333333335, 2.6666666666666665, 3.0, 3.3333333333333335, 3.6666666666666665, 4.0]


### Filtragem

Na filtragem, uma função é aplicada em todos os elemento de uma sequência, se a função retornar um valor que seja avaliado como verdadeiro, o elemento original fará parte da sequência resultante.

<img src="../figures/filter_function.png" width="300" height="300">

Em Python, a filtragem é implementada pela função `filter()` e retorna um objetivo iterável que pode ser convertido em uma lista com a função embutida `list()`..

A função `filter()` aceita também funções lambda, além de funções convencionais.

Exemplo #1: Selecionando apenas os ímpares da lista.

In [60]:
# Selecionando apenas os ímpares da lista.
nums = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]

iterable = filter(lambda x: x % 2, nums)

resultado = list(iterable)

print(resultado)

[1, 3, 5, 7, 9, 11]


Exemplo #2: Selecionando apenas vogais.

In [61]:
# Alfabeto.
alfabeto = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'x', 'z']

# função que filtra as vogais.
def filtraVogais(letra):
    vogais = ['a', 'e', 'i', 'o', 'u']

    if(letra in vogais):
        return True
    else:
        return False

vogaisFiltradas = filter(filtraVogais, alfabeto)

print('As vogais filtradas são:')
for vogal in vogaisFiltradas:
    print(vogal)

As vogais filtradas são:
a
e
i
o
u


### Redução

Redução significa aplicar uma função que recebe dois parâmetros, nos dois primeiros elementos de uma sequência, aplicar novamente a função usando como parâmetros o resultado do primeiro par e o terceiro elemento da sequência, seguindo assim até o último elemento da sequência. O resultado final da redução é apenas um elemento.

<img src="../figures/reduce_function.png" width="300" height="300">

Em Python 3.7, a redução não faz parte das funções embutidas e é implementada pela função `reduce()` do módulo `functools`. Ela retorna um escalar, ou seja, um único valor que representa o resultado da redução. 

Exemplo #1: Somando todos os valores de uma lista.

In [76]:
from functools import reduce

nums = [0, 1, 2, 3]

resultado = reduce(lambda x, y: x + y, nums)

# Soma com reduce.
print('Resultado da soma com reduce:', resultado)

Resultado da soma com reduce: 6


Exemplo #2: Contatenando todos os valores de uma lista.

In [77]:
from functools import reduce

nums = ['ab', 'cde', 'f']

resultado = reduce(lambda x, y: x + y, nums)

# Concatenando com reduce.
print('Resultado da concatenação com reduce:', resultado)

Resultado da concatenação com reduce: abcdef


Exemplo #3: Calculando o fatorial com reduce.

In [78]:
from functools import reduce

# Calcula o fatorial de n.
def fatorial(n):
    return reduce(lambda x, y: x * y, range(1, n))

print('Fatorial:', fatorial(6))

Fatorial: 120


### Transposição


A transposição constroi novas sequência a partir de uma série de sequências originais, onde a primeira nova sequência contém o primeiro elemento de cada sequência original, a segunda nova sequência contém o segundo elemento de cada sequência original, até que alguma das sequências originais acabe.

<img src="../figures/zip_function.png" width="300" height="300">

A transposição é implementada em Python pela função embutida `zip()`. A função `zip()` recebe objetos iteráveis (e.g., listas, tuplas, dicionários, conjuntos, etc.), os agrega em tuplas e as retorna através de um objeto iterável. A função `zip()` sempre retorna um objeto iterável que pode ser convertido em uma lista com a função embutida `list()`.

Exemplo #1:

In [74]:
iteravel = zip(['a', 'b', 'c'], (1, 2, 3))

resultado = list(iteravel)

print(resultado)

[('a', 1), ('b', 2), ('c', 3)]


Em teoria, a função `zip()` deve ser usada com sequências de mesmo comprimento. Se as sequências tiverem comprimentos diferentes, a transposição resultante terá o mesmo comprimento que a sequência mais curta.

In [75]:
iteravel = zip(['a', 'b'], (1, 2, 3, 4, 5), {66:'A', 99:'2'})

resultado = list(iteravel)

print(list(resultado))

[('a', 1, 66), ('b', 2, 99)]


## List Comprehensions

Em computação, **list comprehension** é uma construção que equivale a uma notação matemática do tipo:

$$S = x^2 \forall \in \mathbb{N}, x \ge 20$$

Ou seja, $S$ é o conjunto formado por todos os valores de $x$ ao quadrado para todo $x$ no conjunto dos números naturais, apenas se $x$ for maior ou igual a 20.

Em suma, **list comprehension** é uma ferramenta muito poderosa, que cria uma nova lista com base em outra lista, através de uma única linha de código.

Sintaxe:

```python
lista = [ <expressão> for <referência> in <sequência> if <condição> ]
```

Exemplo #1: Exemplo onde apenas os números pares são elevados ao quadrado.

In [81]:
nums = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]

# Eleve os ímpares ao quadrado
list_comprehension = [ x**2 for x in nums if x % 2 ]

print(list_comprehension)

[1, 9, 25, 49, 81, 121]


**IMPORTANTE**: A utilização de **list comprehension** é mais eficiente do que usar as funções `map()` e `filter()` tanto em termos de uso de processador quanto em consumo de memória.

## Tarefas

1. <span style="color:blue">**QUIZ - Programação funcional e list comprehension**</span>: respondam ao questionário sobre programação funcional e list comprehension no MS teams, por favor. 
2. <span style="color:blue">**Laboratório #10 - Programação funcional e list comprehension**</span>: cliquem em um dos links abaixo para accessar os exercícios do laboratório #10.

[![Binder](https://mybinder.org/badge_logo.svg)](https://mybinder.org/v2/gh/zz4fap/python-programming/master?filepath=labs%2FLaboratorio10_Programacao_Funcional_e_List_Comprehension.ipynb)

[![Google Colab](https://badgen.net/badge/Launch/on%20Google%20Colab/blue?icon=terminal)](https://colab.research.google.com/github/zz4fap/python-programming/blob/master/labs/Laboratorio10_Programacao_Funcional_e_List_Comprehension.ipynb)

## NumPy: Uma biblioteca Python para estatística

## Computação científica com SciPy

## Scikit-Learn: uma biblioteca para aprendizado de máquina

## Manipulação e análise exploratória de dados com Pandas

## Visualização de dados com Matplotlib

## Visualização de dados com Bokeh
