## Conceitos básicos de Python para Ciência de Dados
### *Basic concepts of python for data science*

### 1. Strings

In [5]:
single_quoted_string = 'ciencia de dados'
double_quoted_string = "ciencia de dados"

#barra invertida codifica caraceres especiais
tab_string="\t"
len(tab_string) #1

#para exibir barra invertida
not_tab_string = r"\t"
len(not_tab_string) #2

#strings mútliplas com aspas triplas ou duplas
mult_line_string = """esta é a primeira linha
e esta é a segunda
e esta é a terceira linha"""


### 2. Exceções
 *Exceptions*

Manipulando exceções com *try* and *except*

In [8]:
try:
    print (0/0)
except ZeroDivisionError:
    print ("cannot divide by zero")

cannot divide by zero


### 3. Listas
*List*

In [31]:
# estrutura de dados mais básica em python

integer_list = [1, 2, 3]

heterogeneous_list = ["string", 0.1, True]

list_of_lists = [integer_list, heterogeneous_list, []]


list_length = len(integer_list) #igual a 3
list_sum = sum(integer_list) #igual a 6

# possível acessar ou modificar um n-ésimo elemento de uma lista com [ ]

x = list(range(10)) #cria lista [0, 1, ...,9]

zero = x[0] #zero recebe o primeiro elemento da lista x
one = x[1] #igual a 1
nine = x[-1] # igual a 9
x[0] = -1 #modifica o dado na posição 0 de x, agora será -1

# possível repartir listas

first_three = x[:3]
three_to_end = x[3:]
one_to_four = x[1:5]
last_three = x[-3:]

# operador IN para verificar associação à lista:

1 in [1,2,3] #True
0 in [1,2,3] #False

# concatenar listas

x = [1, 2, 3]
x.extend([4, 5, 6]) #x é [1,2,3,4,5,6]

x = [1, 2, 3]
y = x + [4, 5, 6] #x continua [1,2,3] e y [1,2,3,4,5,6]

x.append(0) # x é [1,2,3,0]

# desfazendo lista

x, y = [1, 2] #x = 1 e y = 2

# caso os dois lados não tenham o mesmo número de elementos, ValueError ocorrre. 

# Você pode descartar um lado com _

_, y = [[1,2],[3,4,5]]


### 4. Tuplas
*Tuple*

Similares as listas, mas não podem ser modificadas!

In [8]:
my_list = [1, 2]
my_tuple = (1, 2)

other_thuple = 3, 4

my_list[1] = 3 #my_list agora é [1, 3]

try:
    my_tuple[1] = 3
except TypeError:
    print ("cannot modify a tuple")
    
# forma eficaz de retornas múltiplos valores a partir de funções

#Ex
def sum_and_prod(x,y):
    return (x+y),(x*y)

sp = sum_and_prod(2,3) #igual a (5, 6)
s, p = sum_and_prod(5,10) #s é 15 e p 50

#atribuições múltiplas

x, y = 1, 2
x, y = y, x

cannot modify a tuple


### Dicionários
*Dictionaries*

Outra estrutura fundamental do Python. Associa valores com chaves, permitindo a recuperação de um valor correspondente a uma chave rapidamente.

In [22]:
empty_dict = {} 
empty_dict2 = dict()

# Ex: {chave: valor}
grades = {"Joel": 80, "Tim": 95}
joels_grade = grades["Joel"] #é igual 80

# KeyError caso procure uma chave que não pertence ao dicionário

try:
    kates_grade = grades["Kate"]
except KeyError:
    print ("no grade for Kate!")
    
# verificando a existência de uma chave
joel_has_grade = "Joel" in grades #Verdadeiro
kate_has_grade = "Kate" in grades #Falso

# possuem método get 
joels_grade = grades.get("Joel",0)
kates_grade = grades.get("Kate",0)

# atribuindo pares valor-chave
grades["Tim"] = 90 # substitui valor antigo
grades["Kate"] = 100 #adiciona mais uma entrada no Dic

num_students = len(grades) #igual a 3

# simples maneira de representar dados estruturados

tweet = {
    "user": "jeanlima",
    "text": "Data Science is Awesome!",
    "retweet_count": 100,
    "hashtags": ["#data", "#science", "#datascience", "#awesome", "#yolo"]
}

tweet_keys = tweet.keys() # lista de chaves
tweet_values = tweet.values() # lista de valores-chave
tweet_items = tweet.items() # lista de (chave, valor) tuplas

"user" in tweet
"jeanlima" in tweet_values

no grade for Kate!


True

### Exemplo 1
*Example 1*

Contando as palavras de um documento. Criar dicionário no qual as chaves são as palavras e os valores são as contagens de cada palavra.

Soluções 1 e 2 com o que aprendemos até agora. Solução 3 usa **defaultdict** e a Solção 4 utiliza **Counter**

#### defaultdict

Funciona com um dicionario comum, mas quando se tenta procurar uma chave que ele não possui, ele primeiro adiciona um valor para ela usando a função de argumento zero que é fornecida ao criá-lo.

In [5]:
document = open('document.txt', 'r')

# solução 1

word_counts = {}
for word in document:
    try:
        word_counts[word] += 1 #palavra já está no dic
    except KeyError:
        word_counts[word] = 1 #palavra ainda nao foi adicionada ao dic
# solução 2

document = open('document.txt', 'r')
word_counts = {}
for word in document:
    previous_count = word_counts.get(word,0) #0 se a palavra não está no dic
    word_counts[word] = previous_count + 1   # implementa a contagem

# solução 3

from collections import defaultdict

document = open('document.txt', 'r')

word_counts = defaultdict(int) #int() produz 0, adicionará zero quando não encontra a palavra
for word in document:
    word_counts[word] += 1 # se a palavra existe, conta +1; caso não exista, adiciona 0 e depois conta +1

### defaultdicts podem ser úteis com LIST e DICT

dd_list = defaultdict(list) #list() produz uma lista vazia

#para chave 2 associe o lista [1]
dd_list[2].append(1) # dd_list {2 : [1]}

dd_dict = defaultdict(dict) # dict() produz dict vazio
dd_dict["Joel"]["City"] = "Seattle" # {"Joel":{"City": "Seattle"}}

#### Contador
*Counter*

O contador transforma uma sequência de valores em algo parecido com o objeto *defaultdic(int)*, mapeando as chaves para as contages.

In [17]:
from collections import Counter

c = Counter([0,1,2,0]) # c é {0: 2, 1: 1, 2: 1} contou 2 zeros, 1 um e 1 dois.

#Solução 4
document = open('document.txt', 'r')
word_counts = Counter(document)

# Utilizando método most_commum da instância Counter
# imprime as tres palavras mais comuns e suas contas

for word,count in word_counts.most_common(3):
    print (count, word)

3 nice

2 hi

2 hello



### Conjuntos
*Sets*

Estrutura de dados que representa uma coleção de elementos **DISTINTOS**.

Dois principais motivos para utilizar conjuntos:

1. Operação *in* é rápida. Útil para testar uma coleção de itens muito grande.
2. Encontrar itens distintos em uma coleção

In [21]:
s = set()
s.add(1) # s agora é {1}
s.add(2) # s agora é {1, 2}
s.add(2) # s AINDA é {1, 2} porque em conjuntos os valores DEVEM SER DISTINTOS

x = len(s) # igual a 2
y = 2 in s # Verdadeiro

# 1. operação in

hundreds_of_other_words = [""]
stopwords_list = ["a", "an", "at"] + hundreds_of_other_words + ["yet", "you"]

"zip" in stopwords_list #Falso, mas verifica TODOS os elementos

stopwords_set = set(stopwords_list) # transforma list em set
"zip" in stopwords_set # rápido de verificar

# 2. itens distintos

item_list = [1,2,3,1,2,3]
num_items = len(item_list) #6

item_set = set(item_list) # {1,2,3}
num_distinct_items = len(item_set) # 3

distinct_item_list = list(item_set) # [1,2,3]




### Controle de Fluxo
*Control Flow*

Python tem as estruturas usuais de controle de fluxo conhecidas em outras linguagens.