# Setup

Esse curso está disponível para download no [GitHub](https://github.com/Maronato/cursos_cetax).

![image](../static/images/repo.png)

# Introdução

Python é uma linguagem general purpose, open source, modular, interpretada, de tipagem dinâmica/forte e multiparadigma. Essas qualidades tornam Python uma linguagem fantástica para criar scripts e desenvolver rapidamente aplicações em diversas áreas e plataformas.

Python é uma das principais linguagens usadas para o desenvolvimento e aplicação de soluções que envolvem data science e pode ser usada para construir desde o núcleo dos algoritmos até as visualizações e plataformas finais de aplicativos.

Python também é muito usada na academia por sua flexibilidade e facilidade, além de possuir suporte para incorporar bibliotecas de C, permitindo explorar a velocidade de uma linguagem baixo nível com as conveniências de uma sintaxe alto nível.

Python atualmente está disponível em duas versões: 2 e 3. Como o suporte para versão 2 está diminuindo, iremos focar na versão mais atual, a 3.

# Executando código

Python, por ser interpretada, conta com um **shell** que te permite executar código em tempo real. Esse notebook usa uma versão desse shell chamado **IPython**, de Python Interativo. Essa versão permite algumas coisas interessantes como visualizações de gráficos e outras coisas que veremos ao longo do curso.

Para iniciar o shell em seu terminal, basta executar `python`. Você verá algo como isso:
![image](../static/images/shell.png)

Que indica a versão instalada (python 3.5.3), nos informa que estamos usando o interpretador do Anaconda e que nossa versão de Python é a cPython(usando GCC).

Também vemos `>>>` indicando que podemos digitar algo. Tudo que você digitar aí será executado como código python.

Vamos deixar o shell de lado por enquanto e focar nesse notebook. Da mesma forma que no shell, você também pode executar código python aqui. Basta procurar por uma linha como a que está abaixo e digitar o que querem executar. Para criar uma linha nova, clique no `+` que está no toolbox do notebook, logo acima.

Para executar o código que você digitou, aperte `shift+enter`:

In [None]:
3 + 5

O shell e notebooks não são muito uteis além do estágio de desenvolvimento. Para produzir código utilizável em produção, nós criamos `scripts` de Python, que nada mais são que arquivos de texto com a extenção `.py` que são executados pelo interpretador da mesma forma que seu código aqui ou no shell seria.

Na pasta dessa aula você encontrará uma pasta chamada `/arquivos` com alguns exemplos de scripts. Para executar esses scripts, navegue até a pasta do script em seu terminal e execute
```
python <script>.py
```
Substituindo `<script>` pelo nome do script que você quer executar.

Agora que já sabemos executar comandos, vamos aprender Python.

# Variáveis

Python, como comentado antes, é uma linguagem de tipagem dinâmica, ou seja, não é necessário declarar o tipo da variável antes de usá-la.

Para declarar uma variável, basta dizer o nome da varíavel que você quer criar ou alterar, seguida de um `=` e o valor desejado.

In [None]:
foo = 42
bar = "sou um texto"

Para acessar o valor da variável basta chamá-la pelo nome.

In [None]:
foo

In [None]:
bar

Uma melhor forma de visualizar os valores de variáveis é usando a função `print()`:

In [None]:
print(foo)
print(bar)

Podemos alterar os valores anteriores dessas variáveis e realizar operações com elas:

In [None]:
foo = 35
bar = 7.505
print(foo + bar)

Apesar de não termos que declarar, as variáveis em python continuam possuindo tipos.

Podemos verificar esses tipos usando a função `type()`

In [None]:
print(type(foo))
print(type(bar))
print(type("Um texto"))

Podemos ver que `foo` é um **objeto** de classe **int** (número inteiro) e que `bar` é um objeto de classe **float** (ponto flutuante).

Além disso, podemos ver que o texto "Um texto" é um objeto de classe **str** (uma *string* - texto)

Como veremos no futuro, tudo em python são **objetos**, mas isso raramente vai entrar em nosso caminho durante a programação.

Outros tipos de variáveis importantes são os **booleanos**, que representam **verdadeiro** e **falso**.

Existem apenas dois valores para um booleano: `True` e `False`. Notem que a primeira letra maiúscula **é essencial**.

In [None]:
baz = True
print(type(baz))

Além dessas variáveis, Python também tem suporte para outras estruturas de dados. Talvez a mais simples seja Lista

## Listas

Lista em Python são bem poderosas e fáceis de usar. Para criar uma lista, use `[` e `]` para abrir e fechar, separando elementos por vígulas:

In [None]:
qux = [1, 2, 3, 10]

Novamente, verificamos que o tipo é `list`

In [None]:
print(type(qux))

Listas em Python não são limitadas pelo tipo de objeto dentro dela. Podemos colocar qualquer coisa dentro de uma lista.

In [None]:
qux = [foo, bar, baz, 56, False, 123]

Podemos imprimir a lista usando `print()`

In [None]:
print(qux)

e podemos adicionar listas dentro de listas para formar matrizes

In [None]:
quux = [[1, 2, 5], [10, [False, 21], 30], baz]

print(quux)

Podemos reescrever a lista acima de outra forma para ser mais fácil de ler:

In [None]:
quux = [
    [1, 2, 5],
    [10, [False, 21], 30], 
    baz
]

print(quux)

Com a lista criada, nós também queremos poder acessar elementos dessa lista. Para fazer isso, usamos `[idx]`:

Por exemplo, abaixo nós selecionamos o segundo elemento da lista `quux`. Esse elemento é uma lista. Podemos então selecionar elementos do segundo elemento.

Selecionamos então o segundo elemento do segundo elemento e em seguida o segundo elemento deste!

Devemos lembrar que, em Python, **o primeiro elemento tem índice zero**

In [None]:
# Segundo elemento da lista (índice 1)
print(quux[1])

# Segundo elemento do segundo elemento
print(quux[1][1])

# Segundo elemento do segundo elemento do segundo elemento
print(quux[1][1][1])

Podemos também usar indices negativos para percorrer a lista no sentido contrário. Dessa forma, podemos pegar o **último** elemento da lista usando o índice **-1** e o penúltimo usando **-2**, etc:

In [None]:
# Criamos uma lista maior
quuz = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

# último e penúltimo elementos
print(quuz[-1])
print(quuz[-2])

Além de selecionar elementos, podemos também selecionar fatias da lista usando a notação `[início:fim:salto]`.

Onde início indica o início da fatia, fim o final e salto o salto representa a forma como percorreremos a lista.

Observe que o índice do *início* é **inclusivo** e o do *final* **exclusivo**

In [None]:
print("Do terceiro ao oitavo (não incluído pois é exclusivo)")
print(quuz[2:7])

print("\nTodos os elementos da lista")
print(quuz[:])

print("\nDo terceiro ao final")
print(quuz[2:])

print("\nAté o oitavo")
print(quuz[:7])

print("\nDo terceiro ao oitavo, de dois em dois")
print(quuz[2:7:2])

print("\nLista ao contrário (salto -1)")
print(quuz[::-1])

### Modificando listas
Agora que já sabemos criar e fatiar listas, vamos aprender a modificar elas.

Com modificação, temos 3 principais ações de interesse:
- Editar elementos
- Adicionar elementos
- Remover elementos

Para modificar, fazemos como faríamos com uma variável. Selecionamos o elemento pelo índice e alteramos seu valor:

In [None]:
# Alterando o quarto elemento para "sou um texto"
quuz[3] = "sou um texto"

print(quuz)

Podemos adicionar elementos ao final da lista usando o **método** `append()`.

Veremos que existem centenas de métodos prontos em Python que serão úteis para realizar operações como essas.

Para usar o append, digite o nome da lista seguido de um `.append(<elemento novo>)`:

In [None]:
# Adicionando "sou outro texto" ao fim da lista
quuz.append("sou outro texto")

print(quuz)

Por fim, podemos remover um elemento de uma lista usando o método `pop()`

In [None]:
# removendo o quinto elemento
quuz.pop(4)

print(quuz)

Tem muito mais coisas que você pode fazer com uma lista. Para detalhes, olhe a [documentação](https://docs.python.org/3/tutorial/datastructures.html#more-on-lists).

Outra estrutura extermamente importante são dicionários.

# Dicionários
Dicionários são nada menos que hash tables. Cada entrada no dicionário é representado por uma `key` e um `value`. Para acessar valores usamos essas `keys` ao invés dos índices como fazíamos com listas.

Dicionários, por serem hash tables, não são ordenados.

Para criar um dicionário, use a sintaxe abaixo:

In [None]:
dicio = {"chave 1": 10, "chave 2": "sou um valor", "chave 3": [1, 3, 10]}

# Acessamos os valores pelas chaves
print(dicio["chave 2"])
print(dicio["chave 3"][2])

Agora vamos sair um pouco de dicionários e passar por cima dos métodos de Python para operações booleanas.

# Lógica booleana

Operações lógicas são o coração das linguagens de programação. Em Python temos diversas formas de testar estruturas e conjuntos.

## Comparações de pares
As operações entre pares são:

`<, <=, >, >=, ==, !=`

Python avalia cada operação e um bool é atribuido para cada uma.

In [None]:
print(1 < 2)
print(2 < 1)

buq = 10
print(10 == buq)

# Também podemos adicionar várias condições em cadeia
print(1 < 2 < 10 == buq)

## Comparações de conjuntos

Python também permite checar pertencimento em conjuntos

Para isso, usamos o operador `in`

In [None]:
print(5 in [1, 2, 3, 4])

print(5 in [1, 2, 3, 4, 5])

# Também serve com strings e outras estruturas
print("bom" in "esse é um mau exemplo")

print("bom" in "esse é um bom exemplo")

## Operadores de lógica

Podemos realizar operações de lógica com `or`, `and` e `not`

In [None]:
print(True and False)

print(True or False)

print(not (True and False))

## Operadores de identidade

Python também permite outras operações mais alto nível

In [None]:
buuq = 19998989890
baaq = 19998989889 + 1
print(buuq is baaq)

# Mesmo que
print(buuq == baaq)

# Podemos também verificar tipos
print(isinstance(5, int))

## If - else

Em python podemos usar `if`, `else` e `elif`(else if) como em outras linguagens.

É importante notar que python **separa escopos por indentação**. Usaremos 4 espaços(1 tab) para nossas identações.

In [None]:
a = 1
b = 10
if a < b:
    print(str(a) + " < " + str(b))
elif a > b:
    print(str(a) + " > " + str(b))
else:
    print(str(a) + " == " + str(b))

# Loops

Python permite dois tipos de loop: `for` e `while`

## For loop

Em python, o `for loop` usa iteradores para caminhar pelas iterações:

In [None]:
for i in [1, 3, 10, 100]:
    print(i)

In [None]:
# Para iterar n vezes usamos o gerador range()

for valor in range(5):
    print(valor)

In [None]:
# Podemos também iterar por textos e outras coleções de dados:
for letra in "Sou um texto":
    print(letra)

In [None]:
# Loops também podem descompactar mais de um item por vez
# Aqui usamos o método .items() dos dicionários para pegar sua key e valor de uma vez
for key, value in dicio.items():
    print("chave: {}, valor: {}".format(key, value))

## While loop

Outro loop interessante é o while. Ele repete enquanto a condição for verdadeira

In [None]:
num = 0
while num < 5:
    print(num)
    num += 1

# Funções

Funções em Python são muito versáteis. Podemos passar argumentos sequenciais ou como dicionários. Podemos retornar e passar qualquer tipo de estrutura sem precisar definir antes

In [None]:
# Essa é uma funcao chamada funcao que não recebe argumentos
def funcao():
    return 1 + 10

# Para chamar a função, chame seu nome seguido de ()
print(funcao())

In [None]:
# Já essa função recebe alguns argumentos
def funcao2(a, b):
    return a ** b

print(funcao2(15, 2))

In [None]:
# Podemos também usar argumentos nomeados que podem ser passados em qualquer ordem
print(funcao2(b=3, a=10))

In [None]:
# E podemos também definir valores-padrão para os argumentos
def funcao3(a=10, b=2):
    # podemos chamar funções dentro de funções
    return funcao2(a, b)

# Nesse tipo de função, passarei apenas o b, deixando o a usar o valor padrão de 10
print(funcao3(b=10))

# Pacotes e módulos

A grande vantagem de python, que o coloca acima de diversas outras linguagens em praticidade é sua modularidade.

Raramente você vai precisar escrever algo complexo por conta própria, pois existem diversos pacotes grátis e disponíveis para qualquer um usar.

A biblioteca que instalamos, Anaconda, vem com vários desses pacotes já pré-instalados, mas você sempre pode adicionar mais usando comandos como o [pip](https://pypi.python.org/pypi/pip) que é um package manager que te dá acesso à [PyPi](https://pypi.python.org/pypi?%3Aaction=browse), um repositório com milhares de pacotes disponíveis e prontos para uso.

Abaixo nós aprenderemos a usar algumas ferramentas de 3 dos pacotes mais importantes para data science

# Numpy

Numpy é o maior pacote de análises numéricas de Python. É altamente eficiente e consegue fazer coisas bem legais.

Seu principal uso é manipulação de arrays e matrizes multidimensionais.

Primeiro vamos aprender a importar numpy para usarmos em nossos programas:

In [None]:
import numpy

Pronto, agora podemos usar numpy.

É convenção, porém, criar um apelido para numpy e chamá-lo de `np`. Fazemos isso assim:

In [None]:
import numpy as np

Vamos agora explorar algumas funções e métodos do numpy. Primeiro como criar um array de uma dimensão.

Podemos usar a função `np.arange()` para criar um `array` em um intervalo.

In [None]:
# Criamos um array de 15 items de 0 a 14
arr = np.arange(15)
print(arr)

podemos rearranjar esse array em uma matriz 3 x 5

In [None]:
arr = arr.reshape(3, 5)
print(arr)

E verificamos que o formato é 3 x 5 e tem 2 dimensões

In [None]:
print(arr.shape)

print(arr.ndim)

Podemos também criar arrays arbitrários usando `np.array()`

In [None]:
arr2 = np.array([2.4, 3.12, 5, 6])

print(arr2)

Podemos também criar arrays arbitrários de multiplas dimensões e com tipos variados

In [None]:
arr3 = np.array([[2.4 + 5.j, 3.12], [5, 6]], dtype=complex)

print(arr3)

Podemos também criar matrizes vazias ou com uns usando algumas funções especiais

In [None]:
print(np.zeros((2, 3)))
print()
print(np.ones((2, 3)))
print()
print(np.random.random((2,3)))

## Operações básicas

Podemos fazer algumas operações básicas usando numpy arrays 

In [None]:
# Operações em todos os elementos
a = np.array([1, 3, 5, 6])
b = np.array(4)

print(a - b)
print(a + b)
print(a * b)

In [None]:
# Operações entre matrizes
c = np.array([[5, 3], [2, 5]])
d = np.array([[10, 4], [1, 2]])

print(c + d)
# Note como essa multiplicação é um produto por elemento, não um
# produto interno
print(c * d)
print()
print("Para o produto interno, usamos o .dot")
print(c.dot(d))

Também podemos executar operações booleanas com arrays

In [None]:
print(c < 5)

## Índices e fatias

Numpy nos dá várias ferramentas para fatiar arrays:

In [None]:
a = np.random.random((5, 4)) * 10

print(a)
print()

# Como fazíamos em listas normais
print(a[1:4])

In [None]:
# Podemos também pegar colunas específicas
print(a[1:4, 1])

Em datascience vamos usar numpy o tempo todo para controlar nossas matrizes, mas e quando nós quisermos fazer gráficos?

Python tem um pacote para isso e ele se chama matplotlib

# Matplotlib

Matplotlib é enorme. Ele permite fazer qualquer coisa com gráficos. Para nossos exemplos, vamos aprender alguns dos gráficos mais importantes

Primeiramente, para importar:

In [None]:
import matplotlib.pyplot as plt

Matplotlib é capaz de inferir tipos de gráficos a partir dos dados. Dessa forma, muitas vezes ele consegue, sozinho, descobrir o melhor tipo de gráfico para os seus dados.

Para fazer um gráfico, seguimos 2 passos:

In [None]:
# Criamos uma instância do gráfico
plt.plot([1,2,5,4])

# Pedimos que matplotlib mostre o gráfico
plt.show()

In [None]:
# Podemos passar matrizes mais complexas para ter gráficos mais interessantes
# Podemos também definir o tipo de gráfico a mostrar. No caso, scatter
plt.scatter([1,2,3,4], [1,4,9,16])
plt.show()

In [None]:
# Podemos mostrar gráficos de barras também
plt.bar([1,2,3,4], [1,4,9,16])
plt.show()

In [None]:
# E juntar vários gráficos juntos
plt.plot([1,2,3,4], [1,4,9,16])
plt.bar([4,5,4,10], [3,4,2,16])
plt.show()

In [None]:
# E até exemplos mais complexos
def f(t):
    # Função que calcula o amortecimento de uma curva
    return np.exp(-t) * np.cos(2*np.pi*t)

# Criamos dois arrays para representarem nossos dados
t1 = np.arange(0.0, 5.0, 0.1)
t2 = np.arange(0.0, 5.0, 0.02)

# Criamos um sub-gráfico para separar em duas visões, definindo as dimensões
plt.subplot(211)
# Plotamos o gráfico passando os dados e as funções de amortecimento
plt.plot(t1, f(t1), 'bo', t2, f(t2), 'k')

# Esse segundo gráfico vai mostrar uma função não amortecida, para os mesmos dados
plt.subplot(212)
# plotamos o gráfico, usando cos 2*v como período
plt.plot(t2, np.cos(2*np.pi*t2), 'r--')

# Finalmente mostramos ambos os gráficos
plt.show()

Por enquanto é só em matplotlib. Essa é uma biblioteca enorme e cheia de detalhes. A melhor forma de aprender é tentar fazer coisas nela, ler a documentação e experimentar.

# Pandas

Vamos agora para a biblioteca que talvez seja a mais útil das 3. Pandas permite a manipulação e visualização de estruturas de dados mais complexas, chamadas DataFrames.

Vamos começar importando pandas

In [None]:
import pandas as pd

Agora nós podemos criar um dataframe usando um arquivo CSV

Vamos usar um arquivo que contém a média dos salários de todos os funcionários da Unicamp no ano de 2016

In [None]:
df = pd.read_csv("../static/data/salários.csv").iloc[:, 2:]

df

Como podemos ver, pandas é muito útil para mostrar tabelas de dados como essa.

Podemos fazer algumas coisas legais com ele.

Por exemplo, podemos pedir para ele descrever os dados e nos ajudar a entender melhor o que está dentro dessa tabela

In [None]:
df.describe()

Podemos também selecionar uma coluna específica

In [None]:
df['Nome']

Selecionar duas colunas

In [None]:
df[["Nome", "Remuneração Líquida"]]

Selecionar apenas as pessoas cujos salários são maiores que 20 mil

In [None]:
df[df["Remuneração Líquida"] > 20000]

E, claro, organizar as pessoas por salário pra saber quem ganha mais

In [None]:
df.sort_values('Remuneração Líquida', ascending=False).head(10)

Podemos também criar um gráfico dos valores

In [None]:
df[['Remuneração Bruta', 'Remuneração Líquida']].plot(figsize=(10,10))
plt.show()

E, por fim, podemos aplicar operações lineares nas colunas e criar colunas novas

In [None]:
df['Quadrado do salário'] = df['Remuneração Líquida'] ** 2

df.head(10)