# <center> Introdução ao Python e Pandas </center>
___

## Conteúdo
1. [Introdução](#intro)
2. [Python/Jupyter Básico](#basics)
3. [Python Datatypes](#datatypes)
4. [Funções](#funpac)
5. [Pacote Pandas](#pandas)<br>

<a id="intro"></a>
## 1. Introdução

Essa aula faz parte do programa de formação do NEO. Seu objetivo é introduzir o aluno a uma das ferramentas mais importantes em análise de dados: a linguagem de programação em Python com ênfase na biblioteca Pandas. 

Utilizaremos o Jupyter Notebook para o acompanhamento da aula. Para isso, é pré-requisito sua instalação, bem como o Python 3. Ambos são disponibilizados se você instalar o software Anaconda 3.

O formato da aula propõe que o aluno consiga acompanhar o material e fazer os exercícios ao mesmo tempo. Todo material necessário para a aula está presente neste notebook, porém, colocamos algumas sugestões de conteúdo caso o aluno tenha interesse em alguns assuntos mais específicos, explicitados através de links durante o material.

É a primeira vez que estamos testando as aulas neste formato e, portanto, é muito importante que os alunos participem da melhoria delas com feedbacks! Boa aula!

<a id="basics"></a>
## 2. Python/Jupyter Básico

### 2.1. O que é Python?
Python é uma das [mais populares linguagens de programação do mundo](https://www.businessinsider.com/the-10-most-popular-programming-languages-according-to-github-2018-10). Se você quiser fazer um website ou colocar um modelo de machine learning em produção, o Python pode te levar lá! Abaixo estão listados alguns highlights da linguagem:
- Linguagem de propósito geral (a linguagem pode ser utilizada para qualquer aplicação)
- Open-source (seu uso é gratuito!)
- Fácil de ler e escrever (Python possui uma sintaxe bem fácil! Além disso, sua comunidade é gigantesca, fazendo com que seja uma das linguagens mais fáceis de aprender!)
- Uma das linguagens mais populares para data science
- Uma das preferidas por cientistas da computação e desenvolvedores
- Comumente utilizada para colocar modelos em produção

### 2.2. O que é Jupyter?
"Jupyter" é um acrônimo que significa Julia, Python, and R. Essas linguagens de programação foram as primeiras utilizadas na aplicação Jupyter, mas, atualmente, o notebook também suporta  [muitas outras linguagens](https://github.com/jupyter/jupyter/wiki/Jupyter-kernels).

Por se tratar de uma aplicação server-client, o Jupyter Notebook App permite ao usuário fazer a edição e execução de seus notebooks via web browser (Chrome, por exemplo). A aplicação pode ser executada em um PC sem acesso a Internet. 

- É possível executar um documento notebook step-by-step (uma célula por vez) pressionando shift + enter.
- É possível executar todo o notebook em um único passo. Para isso, basta clicar no menu Cell -> Run All.
- Para reiniciar o kernel (i.e., o engine), clique no menu Kernel -> Restart. Isso pode ser útil quando você quer reinicializar o processamentos desde o começo (nesse caso, as variáveis são deletadas, arquivos abertos são fechados, etc...).

**Keyboard Navigation**

Essa interface do Jupyter Notebook foi **otimizada para eficiente uso com o teclado**. Isso é possível porque há dois modos diferentes de atalhos com o teclado: modo de edição (edition mode) e modo de comando (command mode).

Os atalhos mais importantes são "Enter", que entra no modo de edição, e "Esc", que entra no modo de comando.

No modo de edição, a maior parte do teclado está disponível para digitar nas células do notebook. Por conta disso, no modo de edição não há muitos atalhos disponíveis. Já no modo de comando, o teclado inteiro pode ser utilizado para atalhos, portanto, existem muito mais atalhos. Se você clicar em *Help->Keyboard Shortcuts*, será possível ver toda a lista de atalhos disponível.

Recomenda-se aprender os atalhos do modo de comando na seguinte ordem:

- Navegação básica: enter, shift-enter, up/k, down/j
- Salvar o notebook: s
- Mudar o tipo da célula (code, markdown, etc...): y, m, 1-6, t
- Criação de célula: a, b
- Edição de célula: x, c, v, d, z
- Kernel operations: i, 0 (pressionar duas vezes)

Apesar de esses atalhos representarem o que você mais utilizará no cotidiano, existem algumas [dicas e macetes](https://www.dataquest.io/blog/jupyter-notebook-tips-tricks-shortcuts) que podem melhorar sua experiência com a aplicação Jupyter Notebook.

### 2.3. Hello ~~World~~ Python!
Não poderíamos começar a aprender Python sem utilizar o exemplo clássico [Hello World](https://en.wikipedia.org/wiki/%22Hello,_World!%22_program), né?

Pressione ctrl+Enter para executar o código abaixo.

In [None]:
print("Hello World!") #Lembre-se que shift+enter vai executar a célula atual e selecionar a próxima célula

Parabéns!!! Você acabou de executar sua primeira linha de código em Python. Foi bem fácil, né?

Agora, para a linguagem Python, esse exemplo é, de fato, fácil, mas é bem importante, já que [muitas coisas mudaram do Python2 para o Python3](https://docs.python.org/3/whatsnew/index.html) e o comando *print* é uma delas.

No **Python3**, que é a versão que estamos utilizando nessa aula, o comando *print* é uma função:

In [None]:
print ("print is a function")

No **Python2**, entretanto, o comando *print* é um statement (então um erro é sinalizado):

In [None]:
print "print is a statement"

#### Exercício 2.1

In [None]:
# Tente Printar seu nome


### 2.4 Comentários
Na maioria das linguagens de programação, se não todas, é possível adicionar comentaŕios ao seu código. Comentários são muito importantes para garantir que outras pessoas (e, algumas vezes, até você mesmo) possam entender seu código sem, necessariamente, ter que interpretá-lo linha a linha. Comentários são peças chave na hora de debugar erros em códigos e não devem ser subestimados.

Em Python, você pode usar o sinal "#" para adicionar códigos ao seu script. Esses comentários não serão executados e interpretados pelo Pythons, então, eles não irão influenciar no resultado do script!

In [None]:
print("Isso será printado.")  # print("Isso não será printado")

#### Exercício 2.2

In [None]:
#No código abaixo, comente o print que diz "Eu NÃO quero printar isso!"
print("Eu quero printar isso!")
print("Eu NÃO quero printar isso!")

### 2.5 Python como calculadora  - Operações básicas

#### 2.5.1 Operações Matemáticas
Python é perfeitamente utilizável para fazer cálculos básicos. Além das operações de adição, subtração, multiplicação e divisão, também é possível fazer operações matemáticas muito mais avançadas, como por exemplo:

- **Exponenciação** (\*\*): Esse operador eleva o número da esquerda (base) ao número da direita (expoente). Por exemplo, 4\*\*2 resultará 16.
- **Módulo** (%): Esse operador retorna o resto da divisão do número da esquerda pelo número da direita. Por exemplo, 18 % 7 é igual a 4.


In [None]:
# Adição
print(7 + 5)

# Subtração
print(7 - 5)

# Multiplicação
print(7 * 5)

# Divisão
print(7 / 5)

# Módulo
print(7 % 5)

# Exponenciação
print(7 ** 5)

#### Exercício 2.3
Suponha que você tenha \$100 e que você queira investir esse montante com uma taxa de retorno de 10\% ao ano. Após um ano, você vai ter 100×1.1=110 reais. Após dois anos, você vai ter 100×1.1×1.1=121 reais. Escreva um código na célula abaixo, que printe quanto de capital você terá com esse investimento **após 25 anos**.

In [None]:
#Escreva sua resposta aqui


#Dica: você pode resolver o problema utilizando apenas multiplicações, ou utilizando multiplicação e 
# exponenciação. Qual deles você considera mais fácil?

#### 2.5.2 Operações lógicas (booleana)
Python também suporta operadores lógicos e eles são realmente úteis quando esamos lidando com testes condicionais no código (não se preocupe, iremos explicar esse tópico mais pra frente). Essas operações lógicas retornam apenas resultados lógicos (booleanos) e elas podem ser classificadas nas seguintes categorias:

**Comparações**

Como o próprio nome sugere, essas operações comparam dois objetos e são muito úteis para determinar o comportamento do seu código em vários cenários (são muito úteis para executar o código bloco a bloco e entender se ele está fazendo o que é esperado).

In [None]:
#Igual [==]. O operador == compara os VALORES dos operandos e checa a igualdade de VALORES
print(10 == 10)
print("Hi" == "Hello")
print (10.0 == 10)#Por que essa operação retorna verdadeiro? Porque o operador == compara VALORES e não TIPOS

#Maior [>] (ou igual [>=]) que
print(5 > 3)
print(5.0 > 5) 

#Menor [<] (ou igual [<=]) que
print(5 < 3)
print("bcdefghyjklmnopqrstuvwxyz" < "a") #Por que essa operação retorna falso? Porque o Python compara strings char por char! 

#Diferente de [!=]
print("Hi" != "Bye")
print ("CASE SENSITIVE" != "Case Sensitive")

#### Exercício 2.4
Tente adivinhar o output das seguintes comparações. Comente seus palpites e execute o código para ver se você estava certo! *Lembre-se que essas operações retornam apenas valore lógicos, i.e., True ou False*

In [None]:
print(5 <= 5) #Seu palpite é: 

print("HI" == "Hi") #Seu palpite é: 

print(5 == (10/2.0)) #Seu palpite é:  

print(5.0 != 5) #Seu palpite é: 

print("Hello" > "Hi") #Seu palpite é: 

print("5.0" > "5") #Seu palpite é: 

**Bitwise**

Para simplificar, essas operações funcionam similarmente aos clássicos AND, OR, NOT, etc. Elas são chamadas de bitwise porque são executam a operação bit a bit!

In [None]:
#AND (&)
print(False & False)
print(True & True)
print(True & True & True & True & False & True & True & True  & True)

#OR (|)
print(True | False)
print(False | False)
print(False | False & False | True | False | False | False | False | False)

#NOT (~)
print(bool(~False)) #bool() converte o tipo de um dado objeto em booleano. Nós iremos falar sobre isso mais tarde!

#### Exercício 2.5
Tente adivinhar o output das seguintes comparações. Comente seus palpites e execute o código para ver se você estava certo! *Lembre-se que essas operações retornam apenas valore lógicos, i.e., True ou False*

In [None]:
print(False | False) #Seu palpite é: 

print(True & False) #Seu palpite é: 

#Dica: Python trata zero como False and todos os outros número são True (positivos ou negativos)
print(bool(5 & 0)) #Seu palpite é: 

print(bool(5 & 1)) #Seu palpite é: 

print(bool(5 | -1)) #Seu palpite é:  

**Pertence a**

Essa operação checa se um objeto está dentro/contido de algum outro objeto. Para fazer isso, você deve usar os operadores **in** e **not in**. Veja:

In [None]:
#Pertence a
print("The force is with" in "me")
print("The force is" not in "with me")

#### Exercício 2.6
Tente adivinhar o output das seguintes comparações. Comente seus palpites e execute o código para ver se você estava certo! *Lembre-se que essas operações retornam apenas valore lógicos, i.e., True ou False*

In [None]:
print("Hello" in "Hello") #Seu palpite é:  

print("HELLO" in "Hello") #Seu palpite é: 

print("Hello" not in "darkness my old friend") #Seu palpite é: 

print("5" in "25") #Seu palpite é: 

print("5.0" in "5") #Seu palpite é: 

print ("This is a test" not in "This is not a test") #Seu palpite é: 

### 2.6 Variáveis e Tipos

Em Python, uma variável nada mais é que um **label**. Considere que uma variável seja um nome atrelado a um objeto, mas **não é o próprio objeto!** No Python, não é necessário realizar declaração de variáveis (como é necessário em muitas outras linguagens de programação). A variável é criada no momento que você atribui um valor a ela. **Assignment (atribuição de valor)** é feita com sinal de igual simples (=):

In [None]:
#Criando uma variável x ao atribuir um valor

x = 5 #Lê-se como algo do tipo “a x é atribuído o valor 5".


#Uma vez que a atribuição é feita, a variável poderá ser usada em qualquer expressão, e seu valor poderá ser substituído
print(x)

![Imgur](https://i.imgur.com/I3KOq2E.jpg).

#### Nomes de variáveis
Uma variável pode ter um nome curto (como x ou y) ou um nome mais descritivo (idade, nome_carro, volume_total). [Regras para nomes de variáveis](https://www.python.org/dev/peps/pep-0008/#function-and-variable-names) no Python podem ser sintetizadas da seguinte forma:
- Um nome de variável deve começar com uma letra ou o caractere underscore
- Um nome de variável não pode começar com um algarismo numérico
- Um nome de variável deve conter apenas caracteres alfanuméricos e underscores (A-z, 0-9, and _ )
- Nomes de variáveis são case-sensitives (age, Age e AGE são três variáveis distintas)

In [None]:
#Criando três variáveis utilizando as convenções de nomes
name = "Felipe Goncalves"
age  = 27
likes_python = True

#Printando as variáveis
print ("Name: ", name)
print ("Age:  ", age)
print ("Likes Python? ", likes_python)

#### Cálculos com variáveis
Agora que já sabemos como criar variáveis com "bons nomes", nós podemos usá-las para fazer alguns cálculos. Vamos resolver o exercício 2.3, mas, agora, utilizando variáveis em vez de printar o resultado diretamente.

In [None]:
# Crie a variável que represente o capital inicial
savings = 100

# Crie a variável growth_multiplier
growth_multiplier = 1.1

# Cria a variável que contenha o período de investimento (em anos)
time_investing = 25

# Calcule o resultado
result = savings * growth_multiplier ** time_investing

# Printe o resultado
print("O montante acumulado por ", name, ", ao longo de", time_investing, "anos, foi de ", result, "reais!")

#### Outros Tipos de Variáveis
Nas seções anteriores, nós lidamos com números inteiros, números não-inteiros e strings (textos). Esses são alguns de muitos [tipos de dados do Python](https://docs.python.org/3/library/datatypes.html), mas existem quatro principais tipos de dados:

- **int**: números inteiros. Ex: 0, 100, -3, etc;
- **float**: um número que possui tanto uma parte inteira quanto uma parte fracionária, separada por uma casa decimal (.). Ex: 0.5, 0.33, -0.1, etc;
- **str**: a.k.a string, é um tipo que representa texto. Você pode utilizar tanto aspas simples quantos aspas duplas para construir uma string. Ex: "Hi", 'Hello'
- **bool**: representa valores lógicos a só pode assumir dois valores, *True* ou *False*.

In [None]:
#Integer (int)
integer_number = 1

#Floating point (float)
float_number = 1.0

#String (str)
text = "Hello"

#Boolean (bool)
python_is_fun = True

Para descobrir o tipo de um valor ou da variável que se refere àquele valor, você pode usar a função type()!

In [None]:
#Variable types
print(type(integer_number))
print(type(float_number))
print(type(text))
print(type(python_is_fun))

Mas como o Python assimila o tipo de uma variável? Bem, ele infere a partir to valor atribuído àquela variável. Essas linguagens de programação são conhecidas como [loosely typed programming languages](https://en.wikipedia.org/wiki/Strong_and_weak_typing).

#### Operações com outros Tipos
Como nós já falamos, existem vários tipos de operação que você pode fazer. Em Python, o tipo do operando afeta os outputs das operações e suas viabilidades! Vamos tentar algumas combinações diferentes!

In [None]:
# Adição
print(True + False)
print ("O nome dela é " + "Jennifer")
print(True + 100)
print(100 + 9.9)

In [None]:
# Multiplicação
print(True * True)
print(101 * False)
print("Tuntz " * 10)
print("Hi" * (True+True))

In [None]:
# Exponenciação
print(True**9999)
print(100 ** False)

#### Exercício 2.7

Responda as questões no código abaixo

In [None]:
#Printe o resultado de uma adição que não utiliza nenhum integer ou float, porém retorne um número

#Printe o resultado de uma exponenciação que não utiliza nenhum integer ou float, porém retorne um número


#### Conversão de Tipo
Se você tentou fazer diferentes combinações no exercício anterior, você deve ter visto alguns erros e isso está ok!
Vamos observar o código abaixo (apenas tenha certeza que você já atribuiu os valores dessas variáveis neste notebook)!

In [None]:
#Printe com erro
print("Eu comecei com $" + savings + " e agora eu tenho $" + result + ". Ótimo!!")

No exemplo acima, se você olhar para a mensagem de erro, verá que foi um *TypeError*. Nós não vamos entrar nesses detalhes agora, mas você pode assumir que esse erro é causado pelo tipo de uma ou mais variáveis/valores que tentamos printar. Neste caso, nós tentamos adicionar uma string a um número e isso não é permitido nas regras da sintaxe do Python. Seria maneiro se fosse possível fazer isso, não seria? 

Para consertar esse erro, nós precisamos explicitamente converter os tipos das variáveis. Mais especificamente, nós precisaremos da função [str()](https://docs.python.org/3/library/functions.html#func-str) para converter um valor para uma string. *str(savings)*, por exemplo, vai converter o float *savings* para uma string.

![str](https://pics.me.me/me-print-num-x-x-python-hey-m8-you-cant-add-a-41960345.png)

In [None]:
# print correto
print("Eu comecei com $" + str(savings) + " e agora eu tenho $" + str(result) + ". Ótimo!!")

Outras funções de conversão de tipo:
[int()](https://docs.python.org/3/library/functions.html#int), [float()](https://docs.python.org/3/library/functions.html#float) e [bool()](https://docs.python.org/3/library/functions.html#bool) vão ajudar você a converter valores para qualquer tipo!

In [None]:
#Atribuição de variáveis
integer = 1
float_number = 3.1415
string = "3"
boolean = True

#str
print("--------str()---------")
print("The integer is now a string! Look: " + str(integer))
print("The float is now a string! Look: " + str(float_number))
print("The boolean is now a string! Look: " + str(boolean))

print("--------int()---------")
#int
print("The float is now an integer! Look: ", int(float_number)) #Você pode dizer por que não podemos usar "+" aqui?
print("The boolean is now an integer! Look: ", int(boolean))    #Isso será explicado na seção de funções
print("The string is now an integer! Look: ", int(string))

print("--------float()---------")
#float
print("The integer is now a float! Look: ", float(integer))
print("The string is now a float! Look: ", float(string))
print("The boolean is now a float! Look: ", float(boolean))

print("--------bool()---------")
#bool
print("The integer is now a boolean! Look: ", bool(integer))
print("The float is now a boolean! Look: ", bool(float_number))
print("The string is now a boolean! Look: ", bool(string))

### 2.8 Estruturas de decisão (Decision structures)
Até agora, todos os exemplos seguiram um fluxo contínuo, onde todas as linhas de código de uma mesma célula foram executadas. Entretanto, em aplicações reais, isso raramente é o que acontece e, nesses casos, nós temos que usar o que chamamos de **decision structures** para redirecionar o fluxo de execução baseado em critérios condicionais que guiam o programa. Para fazer isso no Python, nós usamos **if**, **else** e **elif** statements, que possuem a seguinte estrutura genérica:

In [None]:
#if(logical condition 1 ):
#    executes this block of code if logical conditional 1 is true
#    block of code
#    block of code
#elif(logical condition 2):
#    executes this block of code if logical conditional 2 is true
#    block of code
#    block of code
#elif(logical condition 3):
#    executes this block of code if logical conditional 3 is true
#    block of code
#    block of code
#         .
#         .
#         .
#else:
#    executes this block of code if none of the previous logical conditions was True
#    block of code
#    block of code

Antes que continuemos, é importante observar que, no Python, não existe nenhum caractere que indique um bloco de código, como há em muitas outras linguagens de programação (comumente o ;). Na verdade, o que o Python considera como o início de um novo bloco de código está baseado apenas na **indentação/tabulação** do código!!! **Isso é muito importante para o Python! Prestem atenção na indentação dos seus scripts, pois um tab a mais (ou a menos) pode mudar toda a lógica do seu código!!!!** Vamos observar a seguinte imagem e exemplo:
![Identation](https://www.python-course.eu/images/blocks.png)

In [None]:
#Programa que diz se um aluno vai passar na disciplina, dada a sua nota final
grade = 6 # Nota final do aluno

#Estrutura de decisão/lógica
if (grade >= 7):
    print("Aprovado!")
elif ((grade < 7) & (grade >= 5)):
    print("Recuperação")
else:
    print("Reprovado!")


#### Exercício 2.8

Baseado no exemplo acima e sabendo que a nota final deva ser maior que 7 E a presença nas aulas deva ser maior que 70% para um aluno ser aprovado diretamente, e que para um aluno ter direito a recuperação, é necessário que sua nota seja maior ou igual a 5 E sua presença seja ao menos 50%, modifique o código abaixo para que ele leve em conta a condição de presença de aulas do aluno. Printe o resultado!

In [None]:
#Programa que diz se um aluno vai passar na disciplina, dada a sua nota final
grade = 6 # Nota final do aluno
attendance = 51

#Estrutura de decisão/lógica
if (grade >= 7) & (__):
    print("Aprovado!")
elif (__) & (__):
    print("Recuperação")
else:
    print("Reprovado!")



### 2.8 Estruturas de laço (Looping structures)

Na seção anterior, introduzimos o conceito que o usuário pode determinas quais blocos de código serão executados baseado em critérios condicionais. Entretanto, em muitas ocasiões, queremos continuar fazendo esses testes condicionais para ver se o sistema está mudando com o tempo. Existe, então, dois tipos de estruturas de laço:

#### **While**

O comando while continua em loop enquanto a condição de teste cotinua retornando True.

In [None]:
#Counter variable
counter = 1

#While loop
while counter <= 3: #Testa se counter <= 3. Se True, executa o bloco de código. Caso contrário, sai do loop
    print(counter)
    counter = counter + 1

#### For
Esse comando executa o loop por um determinado número de vezes. Normalmente, utiliza-se a função **range** para determinar quantos loops serão executados.

In [None]:
#range(start, stop)
selected_range = range(1,4)
print("Selected range = ", *selected_range) #O operador * "desempacota" a sequência previamente definida

#For loop
for counter in selected_range:
    print(counter)

#### Interruptions
É possível interromper a execução de um loop com os seguintes comandos:
- **break**: cancela o loop
- **continue** : recomeça o loop a partir do próximo contador

In [None]:
#For loop
for counter in range(1,11):
    if counter == 7:
        break; #Para o looping quando counter == 7
    print(counter)

In [None]:
#For loop
for counter in range(1,11):
    if counter == 7:
        continue; #Pula o loop quando counter == 7
    print(counter)

#### Exercício 2.9

Baseado no que você acabou de aprender, printe apenas os números múltiplos de 100, iterando o contador num range de 1 a 1000.

In [None]:
#Sua resposta a seguir



<a name="datatypes"></a>
## 3. Python Datatypes
Um datatype, ou estrutura de dados (data structure), é uma forma de **organizar e guardar seus dados**. Existes várias estruturas de dados diferentes e algumas delas já vêm disponíveis no Python. Vamos apresentar algumas bem importantes, como strings, dicionários, tuplas e listas. <br>
**Dica**: você pode checar o tipo de variável utilizando o comando: ```type(var)```

### 3.1. Strings
Strings são simplesmente uma **sequência de caracteres**. Para declará-los, você apenas deve colocá-los entre aspas simples ou duplas (e.g. ```"Hello world!"```).<br>
Já existem algumas **operações e métodos built-in** que você pode realizar em strings (inclusive, você já aprendeu como concatenar duas strings com o operador +). Você aprenderá mais sobre o que são métodos e funções nas próximas seções.

#### Exercício 3.1
1. Tente utilizar o operador '*' entre uma string e um integer
2. Existe alguma forma fácil de **checar se uma palavra está contida** numa string? Claro! Tente o seguinte comando: ```'world' in 'Hello world!'```

In [None]:
# Tente você mesmo

text = "Hello world!"
print(text)
print(type(text)) # str stands for "string"

Já que strings são uma sequência de caracteres, é possível **acessá-los** individualmente pelos seus **índices (index)** (que, em Python, **começam a partir de 0**.). Digamos que você queira acessar o terceiro valor. Você precisaria, então, digitar ```text[2]```. <br>
**Agora, tente acessar a letra r na string ```text``` pelo seu índice.**

In [None]:
# Sua resposta a seguir


Os **métodos built-in implementam operações muit úteis** como mudar letras maiúsculas/minúsculas, dividir palavras, etx... Explore a documentação padrão de [built-in types in Python](https://docs.python.org/3/library/stdtypes.html) para mais informações.

#### Exercício 3.2
Tente entender os exemplos abaixo e, com a documentação já especificada (no [link acima](https://docs.python.org/3/library/stdtypes.html)), procure por uma função built-in que seja capar de substituir os espaços em branco por underscores ( _ ) e faça essa operação no último exemplo.

In [None]:
# Capitalize text
text = "eXaMpLE tExT."
print(text.capitalize())

# Formatação de strings com variáveis como texto
mult = 2*1
text = "The sum of 1 + 2 is {0} and 1 * 2 is {1}".format(1+2, mult)
print(text)

# Split de string
print(text.split())

text = "The white spaces in this string must be replaced by underscores."
# Output esperado: "The_white_spaces_must_be_replaced_by_underscores"
# Sua resposta a seguir


### 3.2. Dicionários
Um dicionário é uma estrutura **realmente importante e útil** que é:
1. **não ordenada**: a ordem em que você declara os valores não é necessariamente a ordem na qual os valores são gravados
2. **mutável**: você pode mudar seus valores
3. **indexada**: você pode acessar diretamente o valor de cada elemento do dicionário

Em Python, dictionários são escrito com chaves {}, e eles possuem **chaves (keys)** e **valores (values)**. <br>
**Exemplo**:
```
population = {'SP': 45538936, 'RJ': 17159960, 'MG': 21040662, 'BA': 2}
```
Aqui, cada **UF** representa uma **chave** e sua **população** é associada ao **valor**. <br>
Agora, digamos que você queira saber a população de SP, então ```population['SP']``` lhe retornaria o resultado.

Obs.: Você pode, facilmente, **listar todas as chaves e valores** com os seguintes métodos built-in: **```population.keys()``` e ```population.values()```**

Parece-nos que Bahia possua mais de 2 habitantes, né?

#### Exercício 3.3
Tente corrigir o valor da Bahia, cuja população é 14812617.

In [None]:
population = {'SP': 45538936, 'RJ': 17159960, 'MG': 21040662, 'BA': 2}

# Sua resposta a seguir


Se você utilizar a mesma sintaxe para acessar uma **chave não existente** e atribuir um valor a ela, você **adicionará** outro par chave-valor ao seu dicionário.

#### Exercício 3.4
Agora, tente adicionar Paraná ao nosso dicionário. Use as seguintes variáveis para fazer isso.

In [None]:
state = 'PR'
pop = 11348937

# Sua resposta a seguir


In [None]:
# Verifique o resultado do dicionário
# Os elementos estão na mesma ordem que você previamente os declarou?
population

#### Exercício 3.5
Usando um loop **for** e o método built-in **keys()**, printe todas as chaves do dicionário ```population``` e seus respectivos valores.

In [None]:
# Sua resposta a seguir


### 3.3. Tuplas (Tuples)
Uma tupla é uma estrutura não ordenada e imutável. Também é possível guardar **diferentes tipos de dados (data types)** na mesma tupla. <br>
Além disso, elas têm funções built-in e sua indexação é feita da mesma forma como nas strings.

**Qual é a diferença entre a e b no código a seguir?**<br>
Depois de pensar sobre a resposta, remova os comentários e execute a célula. Não é necessário escrever a resposta neste exercício.

In [None]:
a = (1, 'One', True)
a = (a, 2)

b = (1, 'One', True, 2)

#print(a)
#print(b)

#### Prática:
Lembra-se do **operador ```in``` ** que usamos na seção de strings? Veja a utilização dele aqui coms as tuplas ```a``` e ```b```!

In [None]:
print(a in b)

**Exercício 3.6**

Por que ```'One'``` não é um elemento de ```a```?

**Resposta:** Sua resposta aqui

### 3.4. Listas (Lists)
Listas também são uma estrutura **realmente importante e útil** em Python. Elas são criadas da mesma forma que tuplas, mas com colchetes, []. <br>
Listas também são indexadas e têm funções built-in similares a strings e tuplas. Elas se diferem das tuplas porque são **mutáveis (valores ou tamanho)**.

Aqui, iremos aprender sobre **negative indexing** e **slicing**, mas esses conceitos também podem ser aplicados a strings e tuplas. Além disso, vamos ver uma forma muito elegante de se criar listas, através do que chamamos de **List Comprehension**.

#### 3.4.1. Básico

In [None]:
# Criando uma lista
my_list = [5,1,7]
print(my_list)

# Adicionando elementos (método append)
my_list.append(2)
print(my_list)

# Removendo elementos
del(my_list[1])
print(my_list)

# Concatenação
my_list = my_list + [-1, -2, -5]
print(my_list)

# in clause
print(2 in my_list)

In [None]:
# Execute esta célula antes de continuar a aula
my_list = [5,1,7,1,8,4,2,0,1,3]

#### 3.4.2. Negative indexing
Python permite fazer negative indexing, o que irá acessar os elementos da lista (ou tuplas, ou strings) partindo do último elemento para o primeiro. <br>

In [None]:
print("Último elemento da lista: ", my_list[-1])
print("Penúltimo elemento da lista: ", my_list[-2])

#### Exercício 3.7
Acesse o sétimo valor da lista (i.e. o valor 2) utilizando indexação negativa.

In [None]:
# Sua resposta a seguir


#### 3.4.3. Slicing
Slicing é um **conceito muito importante** e nós vamos utilizá-lo bastante a partir de agora. É muito útil quando você quer fatiar sua sequência para **extrair elementos de certo intervalo** especificado pela seguinte sintaxe: <br>
<center>*(start index)* : *(end index)* : *(step)*</center> <br>
onde **start index está incluído** e **end index está excluído**. Todos esses argumentos são opcionais e possuem valores default.

Execute a célula seguinte e veja os resultados:

In [None]:
print("Lista original: ", my_list)

top5 = my_list[0:5] # O step default é 1
print("Primeiros 5 elementos da lista: ", top5)

odd_idx = my_list[1::2] # end index default é o último
print("Elementos em índices ímpares: ", odd_idx)

all_elements = my_list[::] 
print("Todos os elementos: ", all_elements)

#### Exercício 3.8
Agora, tente utilizar um step negativo e cheque seus resultados!

In [None]:
# Sua resposta aqui


#### Exercício 3.9
Tente utilizar slicing com indexação negativa para pegar todos os elementos na ordem contrária da lista  ```my_list```, excluindo os elementos das pontas (i.e. 5 e 3). <br>
Seu output deve ficar parecido com isso: ```[1, 0, 2, 4, 8, 1, 7, 1]```

In [None]:
# Your answer here


#### 3.4.4. List comprehension
Uma forma bastante útil e elefante de construir uma lista é apresentada a seguir. Pode ser muito útil quando você quer **criar uma lista a partir de uma lista já existente**. <br>
Veja o exemplo abaixo e repare que **```range(10)```** cria uma lista de inteiros de 0 (incluído) e 10 (excluído).

In [None]:
# Para cada elemento x no intervalo [0,10), tome 2^x
pow2 = [2**x for x in range(10)]
print(type(pow2))
print(pow2)

ou **a partir de**, digamos, **um dicionário**:

In [None]:
population = {'SP': 45538936, 'RJ': 17159960, 'MG': 21040662, 'BA': 14812617}

pop_list = [population[key] for key in population.keys()]
print(pop_list)

Existe também, o que chamamos de **dictionary comprehension**. Veja o exemplo a seguir.

In [None]:
# Para cada elemento x no intervalo [0,10), tome a x associada ao valor 2^x
pow2_dict = {x: 2**x for x in range(10)}
pow2_dict

Muito massa, né!?

<a name="funpac"></a>
## 4. Funções

### 4.1. O que é uma função?
Uma função é um pedaço reutilizável de código com o objetivo de resolver uma tarefa específica. Podemos pensar em uma função como se fosse uma caixinha preta que recebe um input, faz alguma coisa com isso e retorna um output.

No começo dessa aula, foi dito a você que "print" é uma função. Voĉe também já utilizou várias outras funções até aqui. Vamos recapitular algumas dessas funções e explicitar seus inputs e outputs:

- print, recebe uma lista de strings, escreve todas elas como output e retorna None
- type, recebe um objeto e retorna o tipo deste objeto
- str, recebe um objeto e retorna a versão string dele

Através desses exemplos, podemos observar que os diferentes inputs e outputs das funções (chamados de *arguments* e *returns*) possuem diferentes números e tipos.

No código a seguir, introduzimos novas funções: max, round e help. Tente entender o uso dessas funções olhando o código e os outputs dados por elas.


In [None]:
ages = [22, 29, 26, 32, 26]
oldest = max(ages)
print("A idade máxima é:", oldest)

decimal_number = 1.57365167
print("Primeiro arredondamento:", round(decimal_number, 3))
print("Segundo arredondamento:", round(decimal_number))

help(max)
help(round)

Aposto que você conseguiu entender o funcionamento dessas funções!

- Max retorna o maior item de um iterável (por agora, entenda isso como uma lista).
- Round retornar o número passado arredondado por um certo número de casas decimais. Você percebiu que omitimos o número de casas decimais no segundo caso? Se você olhar o help para a função round, você perceberá que o valor default do argumento ndigits é None ('ndigits=None'). Isso significa que se você não passar explicitamente um valor para este argumento, a função irá perfomar como se você não quisesse arredondar para nenhuma casa decimal,
- Help te dá informação de uma dada função.

#### Exercício 4.1
Use a célula abaixo para ver o help das funções 'pow' e 'open'. Tente entender o que faz cada função, quais são seus argumentos e quais são os valores default para esses argumentos. Não é necessário escrever nenhuma reposta para este exercício.

In [None]:
help(pow)
help(open)

### 4.2. Métodos

Métodos são funções que pertencem a um objeto Python. Você deve estar se perguntando 'O que é um objeto Python?'. Por agora, tudo que você precisa saber é que no Python, quase tudo é um objeto. Cada objeto pode ter um nome, um tipo, um valor, algumas proprierdades e alguns métodos. Nós não vamos nos desbravar neste tópico, mas você pode aprender mais, caso queira explorar o assunto, nesses dois vídeos ([part 1](https://www.youtube.com/watch?v=wfcWRAxRVBA) and [part 2](https://www.youtube.com/watch?v=WOwi0h_-dfA)).

Agora, iremos focar na utilização dos métodos. Você já viu alguns métodos na última seção, como *capitalize* e *split* para strings e *append* para listas. Veja estes outros métodos para listas na célula a seguir.

In [None]:
print("Index:", ages.index(29)) # método 'index' retorna o índice da lista referente ao objeto passado
print("Quantidade:", ages.count(26)) # método 'count' retorna a quantidade de vezes que o objeto passado aparece na lista

Como podemos ver, métodos são chamados com um ponto seguido pelo nome do método e os argumentos são passados dentro de parenteses, após o objeto.

Diferentes tipos de objetos estão associados com diferentés métodos. Vamos ver alguns métodos para strins e ver o que acontecer quando tentamos utilizá-los em listas.

In [None]:
country = "brazil"

print("Capitalize:", country.capitalize())
print("Replace:", country.replace("z", "s"))
print("Index:", country.index("i"))

print(ages.capitalize())

Como visto anteriormente, *capitalize* retorna uma cópia da string que está sendo chamada, onde a primeira letra da string é maiúscula e todas as outras são minúsculas.
*Replace* retorna uma cópia da string que está sendo chamada com todas as ocorrências da primeira string passada subsituídas pela segunda string passada.
*Index* funciona da mesma forma como vimos para listas.

Mas tome cuidado! Isso não significa que todos os métodos possam ser aplicados para todos objetos. Veja como podemos obter um erro quando tentamos utilizar *capitalize* no objeto ```ages```.

Tome cuidado \[2\]! Alguns métodos podem mudar o objeto chamado. Veja os métodos append e reverse usados na lista ```ages``` abaixo.

In [None]:
print("ages", ages)

ages.append(23)
print("Appended ages", ages)

ages.reverse()
print("Reversed ages", ages)

help(list.append)

Como visto, 'append' adiciona outro elemento ao final da lista, enquanto 'reverse' inverte a ordem de seus elementos. Você também pode usar o comando "help" para um método, para isso, você apenas precisa incluir o tipo e o ponto antes do metódo, como por exemplo, help(type.method).

#### Exercício 4.2
Qual é o resultado do código seguinte? Tente adivinhá-lo. Utilize a célula a seguir para te ajudar, não para obter a resposta.

ex_list = \[9, 2, 5, 0, 2\] <br>
ex_list.sort() <br>
ex_list.append(7) <br>
ex_list.reverse() <br>
ex_list.remove(2) <br>
print(ex_list) <br>

In [None]:
# Utilize esta célula para testar os métodos (sem aplicá-lo ao mesmo objeto do exercício)

**Resposta:** Sua resposta aqui

### 4.3. Pacotes (Packages)

Um package é um diretório de scripts Python, também chamados de modules, com um objetivo em comum. Isso significa que cada script é um módulo que define funções, métodos e tipos. E esse módulos estão organizados em packages.

Quando você inicializa o Python, apenas o package built-in é carregado. Para usar qualquer função, método ou objeto definido em outro módulo, você deve, primeiramente, importá-lo.

Vamos tentar fazer isso com NumPy, um pacote que lida eficientemente com arrays, que você certamente utilizará bastante em sua vida com o Python.

In [None]:
# Primeiramente, o que você acha que aconteceria se tentássemos utilizar algumas coisa de um pacote que ainda não foi carregado?
# Nós podemos testar isso com a função array, do módulo numpy, que retorna um array para uma lista dada
array([1, 2, 3])

Como esperado, tivemos um erro. Nós deveríamos carregar o pacote, então.
Para fazer isso, utilizamos a keyword 'import' seguida do nome do package.

In [None]:
import numpy
numpy.array([1, 2, 3])

Repare como precisamos especificar qual é o pacote ao qual a função ```array``` pertence. Poderia ficar muito chato se você tivesse que digitar os nomes dos pacotes todas as vezes que quisesse utilizar alguma coisa deles.

Para te ajudar com isso, o Python permite que você utilize um alias para o nome do pacote, através da keyword 'as', tornando seu uso um pouco mais prático, como mostrado a seguir.

In [None]:
import numpy as np
np.array([1, 2, 3])

Por último, é possível carregar apenas uma parte de um pacote com a expressão  ```from ... import ...```. Fazendo isso, você estará permitido a utilizar apenas a parte que você carregou do pacote, sem a necessidade de especificar o nome do pacote posteriormente. Veja.

In [None]:
from numpy import array
array([1, 2, 3])

#### Exercício 4.3
Complete o import statement no código abaixo para que ele funcione corretamente.

In [None]:
import math as __
print(mt.exp(3))

from math import __
print(pi)

### 4.4. User-defined Functions

Ok, então nós já sabemos como utilizar funções built-in e até mesmo importar pacotes para usar mais funções! Mas e se não existir uma função implementada para o que você quer fazer? Aí entram as user-defined functions!

Python permite que você escreva suas próprias funções e as use da mesma forma que você usa as funções built-in. A definição dessas funções começa com a keyword 'def' e é seguida pelo da função definida, com seus parâmetros dentro de parenteses separados por vírgulas, formando o que chamamos de cabeçalho da função. Depois disso, vem o corpo da função com o código que faz o que nós queremos fazer com ela, possivelmente terminando com a keyword 'return' para retornar o resultado dela.

Vamos ver na prática escrevendo uma função que eleva um número ao quadrado.

In [None]:
def square(value):            # cabeçalho da função com a keyword 'def', o nome da função 'square' e o parâmetro 'value' 
    new_value = value ** 2    # bloco de código (corpo) da função
    print(new_value)
    
square(3)                     # função sendo chamada - tente mudar o número passado como argumento para ver que isso realmente funciona
square(4)
square(5)

Então, temos uma função que printa o quadrado de um valor.

E se nós precisarmos salvar esse valor ao quadrado? Neste caso, precisamos utilizar a keyword 'return'. Vamos adaptar nossa função para fazer isso.

In [None]:
def square(value):            # cabeçalho da função com a keyword 'def', o nome da função 'square' e o parâmetro 'value' 
    new_value = value ** 2    # bloco de código (corpo) da função
    return(new_value)         # return statement para retornar o resultado o caller
    
squared_num = square(4)       # função sendo chamada e atribuindo o resultado à variável squared_num
print(squared_num)
squared_num2 = square(5)
print(squared_num2)

Uau, essa foi rápida! Você já sabe como definir suas funções mais simples!

Existem mais duas coisas que precisamos saber antes de ir para funções mais complexas: docstrings e default arguments.

Docstrings descreve o que a função faz e serve como documentação desta. Elas são colocadas bem abaixo do cabeçalho da função dentro de aspas triplas.

Default arguments são aqueles parâmetros que possuem um valor default, que será usado caso não seja preenchido quando a função é chamada. Nós já falamos deles quando discutimos sobre a função round nas seções passadas.

Vamos, agora, escrever outra função, raise_to_power, que retorna o resultado do primeiro valor passado elevado ao segundo valor passado. E, claro, iremos adicionar a docstring e um valor default de 2 para o segundo parâmetro. Para finalizar, utilizaremos a função help para ver o resultado.

In [None]:
def raise_to_power(value1, value2=2):             # cabeçalho da função com o valor default de 2 para o segundo parâmetro
    """Raise value1 to the power of value2."""    # docstring
    new_value = value1 ** value2                  # corpo da função
    return new_value                              # return statement

two_cubed = raise_to_power(2, 3)                  # chamada da função
print("Result 1:", two_cubed)                     # print do resultado

two_squared = raise_to_power(2)                   # chamada da função
print("Result 2:", two_squared)                   # print do resultado

help(raise_to_power)                              # Help da função. Repare na docstring!

Viu como funciona? A função help mostra exatamente a docstring que escrevemos na função. Isso é muito útil na documentação dos pacotes que utilizaremos. Uma das grandes vantagens do Python, como já dissemos, é sua incrível comunidade colaborando todo dia com milhares de funções que facilitam nossas vidas. Imagine se essas funções não fossem bem documentadas? Não haveria utilidade!!! **Não subestime a importância da documentação e uso da docstring**.

#### Exercício 4.4
Substitua o \____ para escrever uma função na célula abaixo que faça o print retornar "True".

In [None]:
def shout(string, n_times=1):
    """Add an exclamation to a string and repeats it n_times"""
    upper = ____.upper()
    upper_exclamation = ____ + "!!!"
    repeated_upper_exclamation = upper_exclamation * ____
    return repeated_upper_exclamation

print(shout("i did it") == "I DID IT!!!")
print(shout("i did it", 3) == "I DID IT!!!I DID IT!!!I DID IT!!!")

### 4.5. Lambda functions

A última coisa que trataremos sobre funções são as funções Lambda. Esta é apenas uma outra forma de definir funções, porém isso é feito de uma forma bem rápida e concisa. Existe, contudo, o contraponto de se utilizar Lambda functions, pois seu código pode ficar mais feio e difícil de se compreender, então, use com moderação.

Lambda functions são definidas com a keyword 'lambda' (de onde se deriva o nome), seguida pela lista de argumanto, uma vírgula e o código que deve ser executado.

Vamos redefinir nossa função raise_to_power usando lambda.

In [None]:
raise_to_power = lambda x, y=2: x ** y

print(raise_to_power(3, 2))
print(raise_to_power(2))

Veja a nova definição da função raise_to_power. Muito menor, né? E nós também podemos adicionar valores default para seus argumentos, da mesma forma que fizemos anteriormente.

Uma ótima aplicação de lambda functions é quando nós precisamos passar uma função como um argumento para outras funções. Existem 3 funções como essa que são bem utilizadas em Data Science:

- Map: recebe uma função e uma lista, e aplica a função a todos elementos da lista/
- Filter: recebe uma função e uma lista, e retorna apenas os elementos para os quais a função recebida retorna True;
- Reduce: recebe uma função e uma lista, aplica a função nos primeiros dois elementos da lista, então aplica a função ao próximo elemento utilizando o resultado anterior, assim por diante, até o fim da lista.

Vamos ver alguns exemplos para entender melhor!

In [None]:
# Define a lista
small_list = [1, 2, 3, 4]

# Usa map para elevar todos os elementos da lista ao quadrado
squared_all = map((lambda x: x ** 2), small_list)
print("map object:", squared_all)
print("squared_all:", list(squared_all))

# Usa filter para pegar apenas os números ímpares
odd_only = filter((lambda x: x % 2 == 0), small_list)
print("filter object:", odd_only)
print("odd_only:", list(odd_only))

# Usa reduce para multiplicar todos os elementos da lista
from functools import reduce
mult_all = reduce((lambda x, y: x * y), small_list)
print("mult_all:", mult_all)

É realmente muito conciso fazer tudo isso com lambda e map/filter/reduce, né?

Algumas coisas interessantes de observar:

- map e filter retornam um objeto com seu tipo próprio, então, é necessário passar pela função list() para usá-los como uma lista.
- reduce é uma função do package functools, então é necessário importá-la antes de utilizá-la.

#### Exercício 4.5
Preencha os campos \____ ao seguir as instruções na célula abaixo.

In [None]:
# lista de pesos em libras dos jogadores do Golden State Warriors
weights = [224, 260, 179, 270, 190, 249, 240, 210, 230, 215, 231, 245, 210, 192, 220, 215, 215]

# Primeiramente, importamos os pacotes necessários
from functools import reduce

# Você precisa normalizar os pesos, i.e., fazer todos os pesos irem de 0 até 1 de acordo com max e min
# Então, você precisa calcular max and min
max_weight = max(___)
min_weight = min(___)
print("max_weight:", ___)
print("min_weight:", ___)

# Nosso peso normalizado deveria ser: normalized_weight = (weight - min) / (max - min)
# Use map com uma lambda function para normalizar todos os pesos da lista
# Lembre-se que map não retorna uma lista, então você deve transformar o output em uma lista
normalized_weights = map((lambda x: (x-min_weight)/(___-min_weight)), ___)
normalized_weights_list = list(___)

# Você precisa, agora, filtrar apenas os valores normalizados maiores que a média
# Para fazer isso, você precisa calcular a média
avg_normalized_weight = sum(normalized_weights_list)/len(normalized_weights_list)
print("avg_normalized_weight:", ___)

# Então, use filter com outra lambda function para pegar apenas os valores acima da média
# Mais uma vez, filter não retorna uma lista. Você precisa fazer o cast (transformação)
above_avg_weights = filter((lambda x: x > ___), normalized_weights_list)
above_avg_weights_list = list(___)

# Para finalizar, você quer a coma de normalized_weights acima da média, mas você quer fazer isso utilizando reduce com uma lambda function
above_avg_sum = reduce(lambda x, y: x + y, ___)

# Printe o resultado
print("above_avg_sum:", above_avg_sum)

Isso é tudo sobre funções! Num primeiro momento, pode parecer bastante informação, de fato, mas com um pouco de prática você pode aprender isso de maneira rápida! Vamos, agora, acompanhar uma seção sobre um dos pacotes mais utilizados para análise de dados em Python: o Pandas!

<a name="pandas"></a>
## 5. Pacote Pandas

### 5.1 O que é o Pandas?

Esses são pandas! Tãããããão fofinhos!

![Giant Pandas](https://institute.sandiegozoo.org/sites/default/files/heros-giant-panda.jpg)

Mas não, não estamos falando deles!

Pandas é uma biblioteca *open source*, que proporciona estruturas de dados e ferramentas de análise de dados de alta performânce e fáceis de usar para Python. Vamos entender melhor o que alguns termos significam:
 - *open source*: software cujo código original é disponibilizado livremente e pode ser distribuido e modificado. Isso significa que qualquer um pode contribuir para a evolução do Pandas!
 - alta performânce: Pandas é escrito em Python, Cython e C. Isso permite que os cientistas de dados consigam o utilizar para lidar com conjuntos de dados muito grandes (daqueles que o excel não conseguiria nem abrir) e fazer operações sobre esses dados com facilidade. Dessa forma, Pandas torna nosso trabalho melhor e mais fácil provendo ótima performânce.
 - estruturas de dados e análises de dados: o motivo pelo qual Pandas existe. Muitas vezes precisamos obter algo com significado de dados crus como documentos de textos, tabelas e etc. Pandas é capaz de lidar com esses tipos de dados para que possamos analisá-los.
Em resumo, **Pandas fornece estrutura de dados especializadas e ferramentas para manipulação de dados**. Sua ótima performânce, facilidade de uso e comunidade dedicada são as principais razões de sua vasta adoção entre cientistas de dados. Vamos utilizá-lo!
Se você está utilizando o Anaconda, já deve ter ele instalado. Senão, é possível achar os passos de intalação [neste link](https://pandas.pydata.org/). <br>


### 5.2 Começando com Pandas

#### 5.2.1 Como importá-lo

Por algum motivo, todo mundo importa o Pandas da mesma forma, como mostramos abaixo. Aproveitamos também para importar o Numpy, outra biblioteca muito utilizada mas que não será abordada em detalhes nessa aula.

In [None]:
import pandas as pd
import numpy as np

#### 5.2.2 Objetos do Pandas

Existem 2 principais tipos de objetos no Pandas: as [*Series*](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html#pandas.Series) e os *DataFrames*. As *Series* são sequências de uma dimensão  de elementos (pra ser mais específicos *ndarray*), todos do mesmo tipo de dados, com rótulos/índices (*labels*). São o objeto primário do Pandas, tudo vai funcionar baseado nelas. Pra criar um objeto do tipo *Series*, podemos fazer o seguinte:

In [None]:
s = pd.Series([1, 3, 5, np.nan, 6, 8])
s

Podemos ver acima que cada elemento da *Series* tem um rótulo relacionado. Esses rótulos podem ser tanto numéricos quanto de texto! Ao final do objeto temos a informação sobre o tipo de dados da *Series*: nesse caso, números *float64*. <br>
O outro objeto principal do Pandas é o [*DataFrame*](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html#pandas.DataFrame), que é basicamente uma coleção de *Series* com rótulos em comum. O *DataFrame* é bem parecido com uma tabela de Excel, com seus índices e colunas. Tanto suas linhas quanto suas colunas tem rótulos, nos permitindo acessar qualquer célula pela sua coordenada. Há diversas formas de criar um *DataFrame*, vamos começar com o mais simples:

In [None]:
dates = pd.date_range('20130101', periods=6) #estamos criando uma lista de datas entre 01/01/2013 e 06/01/2013. Note que estamos usando uma função do Pandas
df = pd.DataFrame(
    np.random.randn(6, 4), #apenas números aleatórios nas células
    index=dates,  #especificando quais são os índices. Eles aceitam até datas como índice! Isso é muito bom para lidar com dados seriados no tempo
    columns=list('ABCD')) #especificando como quero que sejam os nomes das colunas passando uma lista de letras
df

Isso é um *DataFrame*! Uma coisa boa do Pandas com o Jupyter Notebook é que eles mostram o *DataFrame* de uma forma bastante amigável. Agora que sabemos sobre as duas principais estruturas de dados do Pandas, podemos aprender sobre os principais métodos e funcionalidades dessa biblioteca, e para isso vamos utilizar dados reais sobre um das marcas mais conhecidas dos desenhos e videogames :)

Observação: um *DataFrame* pode ser visto como um dicionário de listas.

#### 5.2.3 Carregando o conjunto de dados

Um dos tipos de dados mais comuns para se guardar arquivos são os CSVs. O Pandas tem diversas funções para trnasformar os mais variados tipos de arquivos em *DataFrames*, como csv, excel, json e etc. Nesse exemplo, vamos usar o [leitor de csv](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html).

In [None]:
pkmn = pd.read_csv(
    './data/01_aulas_pokemon.csv', #o caminho para o arquivo que se quer ler
    sep=',') #o caracter utilizado para separar os valores

#### 5.2.4 Visualizações iniciais
Ótimo! Acabamos de criar um *DataFrame* a partir de um arquivo csv. Mas como gostamos de verificar as coisas, seria interessante saber algumas coisas como o que os dados contêm, como é, se tem valores nulos e etc. O Pandas tem 4 métodos principais para isso:

In [None]:
pkmn.info()

A primeira coisa que gosto de fazer após ler um conjunto de dados em um *DataFrame* é utilizar o método *info()*. Ele mostra informações como:
 - a classe do objeto criado
 - o intervalo do índice e quantas linhas de dados se tem
 - as colunas, seus nomes e tipos de dado
 - quais os tipos de dados presentes no *DataFrame* e quantas colunas de cada
 - a quantidade de memória utilizada pelo computador para guardar esses dados

Podemos ver que temos uma base sobre Pokémon, com 800 linhas com índices númericos de 0 a 799, 13 colunas de três tipos de dados diferentes, usando cerca de ~76kB de memória RAM. As informações presentes sobre os Pokémons são o número, o nome, o tipo (alguns tem subtipo, mas não todos, por isso dos dados faltantes na coluna *Type 2*), estatísticas de ataque, defesa e velocidade, a geração e a indicação se ele é lendário (como uma espécie mística). <br> Todas essas informações a gente conseguiu descobrir com apenas uma linha de código! Vamos então ver como o *DataFrame* realmente é. Temos dois métodos para isso:

In [None]:
pkmn.head()

In [None]:
pkmn.tail()

O método *.head()* e *.tail()* mostram, respectivamente, as primeiras e últimas n linhas do *DataFrame* (por padrão, n=5, mas você pode passar qualquer número como parâmetro) mostrando os índices e os nomes das colunas como numa tabela.

In [None]:
pkmn.describe()

Por fim, o método *.describe()* mostra um resumo estatístico de todas as colunas numéricas. É um método bom para ter uma ideia inicial sobre o que ocorre nas colunas de uma perspectiva estatística.

#### Exercício 5.1
Use o arquivo de jogadores do FIFA Ultimate Team para os exercícios de Pandas. Caso você não conheça, o Ultimate Team (FUT) é um modo de jogo do FIFA onde você monta seu próprio time comprando jogadores do jogo. <br>
Substitua os \____ abaixo para ler o arquivo e siga as instruções para ter as visualizações iniciais.

In [None]:
# leia o arquivo (tente abrir num editor de texto antes para verificar o separador)
fut_players = pd.read_csv(____, sep=____)

# mostre as primeiras 10 linhas de dadoa
fut_players.____

In [None]:
# mostre as últimas 10 linhas de dados
fut_players.____

In [None]:
# use o método .info() no DataFrame
fut_players.____

In [None]:
# mostre o resumo estatístico das colunas numericas
fut_players.____

### 5.3 Filtrando (*Filtering*) e fatiando (*slicing*) os dados

*Filtering* e *slicing* são técnicas utilizadas para isolar partes específicas do *DataFrame*, sejam linhas, colunas ou células. Isso é muito útil pois diversas vezes queremos analisar alguns dados ao invés da base inteira. O Pandas tem ferramentas próprias para isso. <br>

#### 5.3.1 *Slicing*

No Pandas existem duas principais formas de fatiar os dados, isto é, selecionar apenas uma parte de acordo com as linhas e colunas do *DataFrame*: utilizando o nome das partes ou com os métodos *.loc()* e *.iloc()*. Vamos começar pelo primeiro. Para fazer isso, imagine que queremos apenas os nomes e o poder de ataque dos Pokémons e veja o exemplo:

In [None]:
pkmn[['Name','Attack']].head(7)

Duas coisas importantes aqui:
 - Juntamos o *slicing* com o método *.head()* na mesma linha, para que fosse possível ver o resultado do fatiamento. Ao usar o Pandas é possível e comum fazer esse tipo de agrupamento de operações.
 - Foram utilizadas chaves duplas [[]] no fatiamento. Ao fazer isso, estou explicitando que quero um objeto do tipo *DataFrame*. Se eu quisesse objetos do tipo *Series* usaria chaves simples. Podemos ver um exemplo disso abaixo:

In [None]:
type(pkmn[['Name']])

In [None]:
type(pkmn['Name'])

Outra forma de se obter um objeto do tipo *Series* é passando a coluna como se fosse um atributo do *DataFrame*:

In [None]:
pkmn.Name

O único problema desse formato é que colunas cujo nome contém espaços não funcionarão, como é o caso das colunas *Type 1*, *Type 2*, *Sp. Atk* e *Sp. Def*. Para resolver isso, vamos renomeá-las com o método *.rename()*.

In [None]:
pkmn.rename(
    columns={'Type 1':'Type_1', 'Type 2':'Type_2', 'Sp. Atk':'Sp_Atk','Sp. Def':'Sp_Def'}, #passando o nome antigo e novo como um dicionário
    inplace = True #algumas operações com Pandas criam uma cópia do DataFrame e não alteram o objeto em si, alteramos isso mudando o parâmetro inplace para verdadeiro
)

In [None]:
pkmn.info()

Agora que os nomes foram trocados, podemos obter um objeto *Series* do tipo do Pokémon como a seguir:

In [None]:
pkmn.Type_1

Outra forma de selecionar partes dos dados é usando os métodos *.loc()* e *.iloc()*.<br>
Para usar a localização númerica utilizamos o *iloc*. Como você pode imaginar, a linhas e colunas são ordenadas por números inteiros sequenciais, começando do 0, como nas listas. Dessa forma, se você sabe o número da linha e da coluna, você pode usar o *iloc*. Por exemplo, se quisermos a coluna HP, que é a 6ª, poderíamos fazer o seguinte:

In [None]:
pkmn.iloc[:,5].head()

A sintaxe do *iloc* é como [x,y], que significa que queremos a (x+1)ª linha e (y+1)ª coluna. Se utilizarmos ':' no lugar de x ou y significa que queremos a coluna ou linha completa, respectivamente. Vamos pegar o HP do Bulbasaur, o primeiro Pokémon do nosso *DataFrame*:

In [None]:
print("O HP do Bulbasaur é "+str(pkmn.iloc[0,5]))

O método *.loc()* usa o rótulo para acessar os valores. Dessa forma, ao invés de passarmos as coordenadas numéricas, passamos o nome da linha e da coluna, como a seguir:

In [None]:
pkmn.loc[0, :]

No caso, os rótulos das linhas são iguais às suas coordenadas, por isso ficou parecido com o *iloc*. Vamos fazer o teste com as colunas também para ver a diferença. Abaixo pegaremos novamente o HP do Bulbasaur:

In [None]:
print("O HP do Bulbasaur é "+str(pkmn.loc[0,'HP']))

#### 5.3.2 Filtros (*Filtering*)

Uma vez sabendo isolar partes do *DataFrame* de acordo com a localização dos dados, podemos partir para isolar de acordo com condições, ou seja, filtrar os dados.
Para conseguir fazer isso no Pandas, fazemos o seguinte: passamos uma expressão condicional e o Pandas retorna apenas as partes que teriam a condição como verdade. Para testar isso, vamos ver a defesa média de todas os Pokémons e depois ver se os tipos 'Rock' e 'Steel' tem defesas maiores:

In [None]:
pkmn.Defense.mean() #note que operações comuns como média (mean), mediana (median) e soma (sum) são métodos do Pandas

In [None]:
pkmn.loc[pkmn.Type_1=='Rock'].Defense.mean()

In [None]:
pkmn[pkmn.Type_1=='Steel'].Defense.mean()

De fato, parece que os tipos selecionados tem média acima dos demais Pokémons. Para verificar isso, passamos a condição pkmn.Type_1=='Steel' entre chaves, o que retorna apenas as linhas de tal tipo. Com isso, selecionamos apenas a coluna de defesa e calculamos a média. <br>
Vamos ver agora os Pokémons com defesa maior que 150, cujo tipo principal não é 'Rock' nem 'Steel':

In [None]:
pkmn[(pkmn.Defense > 150)&(pkmn.Type_1!='Rock')&(pkmn.Type_1!='Steel')]

Podemos ver acima que é possível juntar condições com os operadores E (&) e OU (|), como vimos no inicio da aula.<br>
Vamos dizer agora que você quer apenas alguns Pokémons em específico, por exemplo Venusaur, Charizard e Blastoise. Criar uma condição para cada e uní-las com o operador & pode ser difícil, ainda mais se for uma quantidade grande de opções. Podemos facilitar isso passando uma tupla ao método *.isin()*, como abaixo:

In [None]:
aux = ('Venusaur', 'Charizard', 'Blastoise')
pkmn[pkmn.Name.isin(aux)]

Finalmente, podemos criar novos *DataFrames* de um já existente selecionando apenas algumas linhas ou colunas dele:

In [None]:
offensive_stats = pkmn[['#','Name','Attack','Sp_Atk','Speed']] #selecionando apenas estatísticas ofensivas
defensive_stats = pkmn[['#','Name', 'HP','Defense','Sp_Def']] #selecionando apenas estatísticas defensivas

In [None]:
offensive_stats.head()

In [None]:
defensive_stats.head()

In [None]:
fire_pkmn = pkmn[(pkmn.Type_1=='Fire')|(pkmn.Type_2=='Fire')] #filtrando apenas linhas com algumas condições
fire_pkmn.head()

In [None]:
water_pkmn = pkmn[(pkmn.Type_1=='Water')|(pkmn.Type_2=='Water')] #filtrando apenas linhas com algumas condições
water_pkmn.head()

#### Exercício 5.2
Siga as instruções e substituas os \____ para exercitar o que aprendemos.

In [None]:
# mostre as 5 primeiras linhas das colunas player_name, position and nationality
fut_players[[____]]._____

In [None]:
#renomeie as colunas player_id, player_name and player_extended_name para id, name and extended_name, respectivamente
fut_players.____(
    columns={____},
    inplace = True
)

fut_players.info()

In [None]:
#imprima a coluna player_extended_name do 4534º jogador usando loc e iloc
print(fut_players.iloc[____])
print(fut_players.loc[____])

In [None]:
#nosso DataFrame tem muitas colunas
#crie outro DataFrame (fut_players_2) apenas com as colunas na lista abaixo
selected_columns = ['id', 'name', 'overall', 'nationality', 'position', 'pref_foot', 'base_id']

fut_players_2 = ____

fut_players_2.info()

In [None]:
#queremos ver os melhores jogadores nascidos no Brasil (Brazil), isto é, aqueles com médio (overall) acima de 90
#mostre os 15 primeiros
aux_1 = fut_players_2[____]
aux_1.____

In [None]:
#vários jogadores bons!
#agora mostre os jogadores brasileiros que sejam canhotos (pref_foot é Left) ou que sejam goleiros (position é GK)
aux_2 = fut_players_2[____]
aux_2.head(20)

### 5.4 Juntando DataFrames

É muito comum ter a necessidade de juntar *DataFrames* diferentes. Se você já utilizou SQL ou qualquer outro banco de dados relacional, deve conhecer isso como *join*. O Pandas também tem a mesma função utilizando o método *.merge()*. Antes do exemplo, vamos relembrar os tipos de *joins* mais comuns:<br>
![Joining Methods](https://arquivo.devmedia.com.br/artigos/Fernanda_sallai/sql_join/image001.jpg) <br>
Agora, vamos testar os *merge* nos *DataFrames* filtrados que criamos anteriormente:

In [None]:
all_stats = pd.merge(
    offensive_stats, #o DataDrame da esquerda
    defensive_stats, #o DataDrame da direita
    how='inner', #o tipo de join que queremos fazer
    on=['#','Name']) #baseado em quais valores em comum
all_stats.info()

Ótimo! Conseguimos fazer o *merge* (termo mais utilizado no Pandas) de dois *DataDrames*. Lembre-se que *inner*, *left*, *right* e *outer* terão resultados diferentes:

In [None]:
fire_pkmn.info()

In [None]:
water_pkmn.info()

In [None]:
left_fire_water = pd.merge(fire_pkmn, water_pkmn, how='left', on=['#','Name'])
left_fire_water.info()

In [None]:
right_fire_water = pd.merge(fire_pkmn, water_pkmn, how='right', on=['#','Name'])
right_fire_water.info()

In [None]:
inner_fire_water = pd.merge(fire_pkmn, water_pkmn, how='inner', on=['#','Name'])
inner_fire_water.info()

Como podemos ver, os resultados são de fato bem diferentes.<br>
Podemos também querer apenas concatenar dois *DataDrames*, isto é, juntá-los colocando um abaixo ou ao lado do outro. Para isso, utilizamos o método *.concat()*:

In [None]:
fire_and_water = pd.concat([fire_pkmn, water_pkmn], ignore_index=True)
fire_and_water.info()

Acima fizemos a concatenação vertical. Vamos fazer a horizontal abaixo:

In [None]:
atk_and_defense = pd.concat([offensive_stats, defensive_stats], axis=1)
atk_and_defense.head()

#### Exercício 5.3
Mais uma vez, substitua os \____ de acordo com as instruções

In [None]:
#the_best é um DataDrame dos melhores jogadores em drible (dribbling) e chute (shooting)
the_best = fut_players[(fut_players.dribbling > 90) & (fut_players.shooting > 90)][['id', 'name', 'position', 'dribbling', 'shooting', 'overall']]

#nationalities é um DataDrame da nacionalidade dos jogadores
nationalities = fut_players[['id', 'name', 'nationality']]

#faça um merge dos dois DataDrames para obter a nacionalidade dos melhores jogadores (dica: chave é o id)
the_best_nationality = pd.merge(____)
the_best_nationality.head()

### 5.5 Operações em grupo

Com Pandas nós podemos aplicar operações em grupos usando o método *.groupby()*. Ele é muito útil por ser uma forma bem simples de extrair informação de dados agregados. Para utilizá-lo, passamos as colunas nas quais queremos agrupar os dados e a operação que queremos fazer. Para exemplificar, vamos ver quantos Pokémons lendários cada geração tem:

In [None]:
pkmn.groupby('Generation').Legendary.sum() #fazendo uma soma pois a coluna Legendary é boolean

Podemos obter um relatório da média de diversas colunas para cada tipo de Pokémon:

In [None]:
pkmn.groupby('Type_1')[['HP','Attack','Defense','Sp_Atk','Sp_Def','Speed']].mean()

Isso é realmente muito importante e extremamente utilizado com pandas pois conseguimos fazer análises dos grupos com apenas uma linha de código. Podemos perceber, por exemplo, que Pokémons do tipo *Flying* são especialistas em velocidade enquanto *Dragon* e *Fighting* são especialistas em ataque.

#### Exercício 5.4
Use o método *.groupby()* para descobrir qual país tem o melhor *overall* médio.

In [None]:
#cria o DataDrame country_avg_overall, que tem o overall médio de cada país, usando groupby
country_avg_overall = fut_players.groupby(____).____

#usamos o método idxmax() para encontrar o maior overall médio
print("Melhor overall médio: ", country_avg_overall.loc[country_avg_overall.idxmax()])
print("Overall médio do Brasil: ", country_avg_overall.loc["Brazil"])

### 5.6 Aplicando funções no Pandas

Com Pandas, nós temos um grande nível de controle de nossos dados, e somos capazes de transformá-los conforme queiramos. Nós podemos, até mesmo, executar funções em DataFrames e manipulá-lo como quisermos. Vamos revisitar o método info()
With Pandas, we have a deep level of control of our data, and are able to transform it as we like. We can even perform functions over the DataFrame and manipulate it as we like. Let's revisit the head() method:

In [None]:
pkmn.head(13)

Existem algumas mega evoluções misturadas no dataset. Não seria legal se nós tivéssemos alguma flag que nos diria se um pokémon é mega ou não? E, por um acaso, será que os pokémons mega são mais poderosos?

Você deve ter percebido que evoluções mega têm um padrão em nosso DataFrame, algo como 'PokemonMega Pokemon'. Se nós tivermos esse padrão, podemos construir uma função que retorna True is este padrão for detectado:

In [None]:
def is_it_mega(pokemon_name):
    """
    Recebe um nome de pokemon e diz se é uma mega evolução ou não
    I: string pokemon_name
    O: boolean para Mega evos
    """
    if 'Mega ' in pokemon_name: #é importante usar 'Mega ' e não 'mega', pois há um pokemon chamado called Yanmega e outro chamado Meganium que não são uma mega evolução
        return True
    else:
        return False

Vamos ver se funciona:

In [None]:
is_it_mega('VenusaurMega Venusaur')

In [None]:
is_it_mega('Squirtle')

Excelente! Seria ótimo se conseguíssemos aplicar essa função em todo nosso DataFrame. Para fazer isso, usaremos o método .apply(). Também criaremos uma coluna que é uma flag se o pokémon é mega:

In [None]:
pkmn['Mega'] = pkmn.apply(
    lambda row: is_it_mega(row['Name']), #chamando uma função lambda que acabamos de construir
    axis=1 #qual direção queremos executar a função. 0 para horizontal, 1 para vertical
)

In [None]:
pkmn.head()

Agora, vamos verificar quão poderosos são os pokémons mega:

In [None]:
pkmn.groupby('Mega').Total.mean()

Uau! Eles têm quase 200 stat points a mais que pokémons normais! Evoluções mega são, sim, muito poderosos! Uma boa prática é sempre tentar manter nosso DataFrame organizado. A forma como os pokémons mega estão nomeados não é muito ótima, e nós já temos uma coluna com a flag para pokémons Mega, então, vamos atacar isso! A estrutura do nome de um pokémon mega é da seguinte forma: 'NomeMega Nome'. Portanto, se nós pegarmos o qeu vem após o caractere ' ', teremos o nome original do pokémon!

In [None]:
pkmn.Name.nunique() #counts unique elements in a given column

In [None]:
def get_original_name(s):
    """
    Receibe um nome de pokemon e retornar seu nome original
    I: s string
    O: string
    """
    return s.split(' ')[-1]

pkmn['Name'] = pkmn.Name.apply(lambda s: get_original_name(s)) #sobreescrevendo a coluna Name
pkmn.Name.nunique()

In [None]:
pkmn.head()

Parece que conseguimos limpar o nome deles! Agora nós cobrimos todas a parte básica de Pandas! Vamos praticar essa última parte!

#### Exercício 5.5
Crie uma função que retorna a classificação para o jogador de acordo com as instruções abaixo, então aplique isso para o dataframe fut_players.

In [None]:
def get_classification(overall):
    """
    Recebe um overall de algum jogador e retorna a classificação conforme a seguir:
    Overall -> classification
    -50     -> "Amador"
    50-60   -> "Ruim"
    60-70   -> "Ok"
    70-80   -> "Bom"
    80-90   -> "Ótimo"
    90+     -> "Lenda"
    
    I: int overall
    O: string
    """
    ____
    
fut_players["classification"] = ____
fut_players.head()