# 01. introdução

## encontrando conectores chave

In [None]:
users = [
    { "id": 0, "name": "Hero" },
    { "id": 1, "name": "Dunn" },
    { "id": 2, "name": "Sue" },
    { "id": 3, "name": "Chi" },
    { "id": 4, "name": "Thor" },
    { "id": 5, "name": "Clive" },
    { "id": 6, "name": "Hicks" },
    { "id": 7, "name": "Devin" },
    { "id": 8, "name": "Kate" },
    { "id": 9, "name": "Klein" }
]

friendships = [(0, 1), (0, 2), (1, 2), (1, 3), (2, 3), (3, 4),
(4, 5), (5, 6), (5, 7), (6, 8), (7, 8), (8, 9)]

for user in users:
    user["friends"] = []

for i,j in friendships:
    users[i]["friends"].append(users[j])
    users[j]["friends"].append(users[i])

def number_of_friends(user):
    """quantos amigos o usuário tem?"""
    return len(user["friends"])

total_connections = sum(number_of_friends(user) for user in users)

num_users = len(users)
avg_connections = total_connections // num_users

# cria uma lista (user_id, number_of_friends)
num_friends_by_id = [(user["id"],number_of_friends(user)) for user in users]

sorted(num_friends_by_id, key=lambda user_tuple: user_tuple[1], reverse=True)

print("total_connections: " + str(total_connections))
print("num_users: " + str(num_users))
print("avg_connections: " + str(avg_connections))
print("num_friends_by_id: " + str(num_friends_by_id))

## cientistas de dados que você talvez conheça

In [None]:
def friends_of_friend_ids_bad(user):
    # "foaf" é abreviação de "friend of a friend"
    return [foaf["id"]
            for friend in user["friends"]
            for foaf in friend["friends"]]

print(friends_of_friend_ids_bad(users[0]))

print([friend["id"] for friend in users[0]["friends"]])
print([friend["id"] for friend in users[1]["friends"]])
print([friend["id"] for friend in users[2]["friends"]])

from collections import Counter
def not_the_same(user,other_user):
    """dois usuários não são os mesmo se possuem ids diferentes"""
    return user["id"] != other_user["id"]

def not_friends(user,other_user):
    """other_user não é um amigo se não está em user["friends];
    isso é, se é not_the_same com todas as pessoas em user["friends"]"""
    return all(not_the_same(friend,other_user)
               for friend in user["friends"])

def friends_of_friends_ids(user):
    """encontra o id para cada um dos meus amigos que contam
    *their* amigos que não sejam eu e que não são meus amigos"""
    return Counter(foaf["id"]
                   for friend in user["friends"]
                   for foaf in friend["friends"]
                   if not_the_same(user,foaf)
                   and not_friends(user,foaf))

print(friends_of_friends_ids(users[3]))

interests = [
    (0, "Hadoop"), (0, "Big Data"), (0, "HBase"), (0, "Java"),
    (0, "Spark"), (0, "Storm"), (0, "Cassandra"),
    (1, "NoSQL"), (1, "MongoDB"), (1, "Cassandra"), (1, "HBase"),
    (1, "Postgres"), (2, "Python"), (2, "scikit-learn"), (2, "scipy"),
    (2, "numpy"), (2, "statsmodels"), (2, "pandas"), (3, "R"), (3, "Python"),
    (3, "statistics"), (3, "regression"), (3, "probability"),
    (4, "machine learning"), (4, "regression"), (4, "decision trees"),
    (4, "libsvm"), (5, "Python"), (5, "R"), (5, "Java"), (5, "C++"),
    (5, "Haskell"), (5, "programming languages"), (6, "statistics"),
    (6, "probability"), (6, "mathematics"), (6, "theory"),
    (7, "machine learning"), (7, "scikit-learn"), (7, "Mahout"),
    (7, "neural networks"), (8, "neural networks"), (8, "deep learning"),
    (8, "Big Data"), (8, "artificial intelligence"), (9, "Hadoop"),
    (9, "Java"), (9, "MapReduce"), (9, "Big Data")
]

def data_scientists_who_like(target_interest):
    return [user_id for user_id,user_interest in interests
            if user_interest == target_interest]

print(data_scientists_who_like("machine learning"))

from collections import defaultdict

# as chave são interesses, os valores são listas de user_ids com interests
user_ids_by_interest = defaultdict(list)
for user_id,interest in interests:
    user_ids_by_interest[interest].append(user_id)

# as chaves são user_ids, os valores são as listas de interest para aquele user_id
interests_by_user_id = defaultdict(list)
for user_id,interest in interests:
    interests_by_user_id[user_id].append(interest)

def most_commom_interest_with(user):
    """itera sobre os interesses do usuário;
    para cada interesse, itera sobre os outros usuários com aquele interesse;
    mantém a cotagem de quantas vezes vemos cada outro usuário"""
    return Counter(interested_user_id
                   for interest in interests_by_user_id[user["id"]]
                   for interested_user_id in user_ids_by_interest[interest]
                   if interested_user_id != user["id"])

print(most_commom_interest_with(users[3]))

## salários e experiência

In [None]:
salaries_and_tenures = [(83000, 8.7), (88000, 8.1),
    (48000, 0.7), (76000, 6),
    (69000, 6.5), (76000, 7.5),
    (60000, 2.5), (83000, 10),
    (48000, 1.9), (63000, 4.2)]

# as chaves são os anos, os valores são as listas dos salários para cada ano
salary_by_tenure = defaultdict(list)
for salary,tenure in salaries_and_tenures:
    salary_by_tenure[tenure].append(salary)

# as chaves são os anos, cada valor é a média salarial para aquele ano
average_salary_by_tenure = {
    tenure : sum(salaries) / len(salaries)
    for tenure,salaries in salary_by_tenure.items()
}

print(average_salary_by_tenure)

def tenure_bucket(tenure):
    """salários agrupados em grupos"""
    if tenure < 2:
        return "less than two"
    elif tenure < 5:
        return "between two and five"
    else:
        return "more than five"
    
# as chaves são agrupamentos dos casos, os valores são as listas
# dos salários para aquele agrupamento
salary_by_tenure_bucket = defaultdict(list)
for salary,tenure in salaries_and_tenures:
    bucket = tenure_bucket(tenure)
    salary_by_tenure_bucket[bucket].append(salary)

# as chaves são agrupamentos dos casos, os valores são
# a média salarial para aquele agrupamento
average_salary_by_bucket = {
    tenure_bucket : sum(salaries) / len(salaries)
    for tenure_bucket,salaries in salary_by_tenure_bucket.items()
}

print(average_salary_by_bucket)

## contas pagas

In [None]:
# 0.7 paid
# 1.9 unpaid
# 2.5 paid
# 4.2 unpaid
# 6 unpaid
# 6.5 unpaid
# 7.5 unpaid
# 8.1 unpaid
# 8.7 paid
# 10 paid

def predict_paid_or_unpaid(years_experience):
    if years_experience < 3.0:
        return "paid"
    elif years_experience < 8.5:
        return "unpaid"
    else:
        return "paid"
    
print(predict_paid_or_unpaid(0.7))
print(predict_paid_or_unpaid(5))
print(predict_paid_or_unpaid(9))

## tópicos de interesse

In [None]:
words_and_counts = Counter(word
                           for user, interest in interests
                           for word in interest.lower().split())

for word, count in words_and_counts.most_common():
    if count > 1:
        print(word,count)

# 03. visualização de dados



## matplotlib


In [None]:
from matplotlib import pyplot as plt

years = [1950, 1960, 1970, 1980, 1990, 2000, 2010]
gdp = [300.2, 543.3, 1075.9, 2862.5, 5979.6, 10289.7, 14958.3]

# cria um gráfico de linha, anos no eixo x, gdp no eixo y
plt.plot(years,gdp,color='green',marker='o',linestyle='solid')

# adiciona um título
plt.title("GDP Nominal")

# adiciona um selo no eixo y
plt.ylabel("Bilhões de $")

plt.show()



## gráfico de barras


In [None]:
movies = ["Annie Hall", "Ben-Hur", "Casablanca", "Gandhi", "West Side Story"]
num_oscars = [5, 11, 3, 8, 10]

# barras possuem o tamanho padrão de 0.8, então adicionaremos 0.1 às
# coordenadas à esquerda para que cada barra seja centralizada
xs = [i for i,_ in enumerate(movies)]

# as barras do gráfico com as coordenadas x à esquerda [xs], alturas [num_oscars]
plt.bar(xs,num_oscars)

plt.ylabel("# de premiações")
plt.title("Meus filmes favoritos")

# nomeia o eixo x com nomes de filmes na barra central
plt.xticks([i for i,_ in enumerate(movies)],movies)

plt.show()


In [None]:
grades = [83,95,91,87,70,0,85,82,100,67,73,77,0]
decile = lambda grade: grade // 10*10
histogram = Counter(decile(grade) for grade in grades)

plt.bar([x for x in histogram.keys()], # move cada barra para a esquerda em 4
        histogram.values(), # dá para cada barra sua altura correta
        8) # dá para cada barra a largura de 8

plt.axis([-5, 105, 0, 5]) # eixo x de -5 até 105,eixo y de 0 até 5

plt.xticks([10 * i for i in range(11)]) # rótulos do eixo x em 0,10,...,100
plt.xlabel("Decil")
plt.ylabel("# de alunos")
plt.title("Distribuição de notas do teste 1")
plt.show()


In [None]:
mentions = [500, 505]
years = [2013, 2014]

plt.bar(years, mentions, 0.8)
plt.xticks(years)

plt.ylabel("# de vezes que ouvimos alguém dizer 'data science'")

# se você não fizer isso, matplotlib nomeará o eixo x de 0, 1
# e então adiciona a +2.013e3 para fora do canto (matplotlib feio!)
plt.ticklabel_format(useOffset=False)

# enganar o eixo y mostra apenas a parte acima de 500
plt.axis([2012.5,2014.5,499,506])
plt.title('Olhe o "Grande" Aumento!')
plt.show()


In [None]:
plt.bar(years, mentions, 0.8)
plt.xticks(years)

plt.ylabel("# de vezes que ouvimos alguém dizer 'data science'")

# se você não fizer isso, matplotlib nomeará o eixo x de 0, 1
# e então adiciona a +2.013e3 para fora do canto (matplotlib feio!)
plt.ticklabel_format(useOffset=False)
plt.axis([2012.5,2014.5,0,550])
plt.title("Não Tão Grande Agora")
plt.show()


## gráfico de linhas


In [None]:
variance = [1, 2, 4, 8, 16, 32, 64, 128, 256]
bias_squared = [256, 128, 64, 32, 16, 8, 4, 2, 1]
total_error = [x + y for x,y in zip(variance,bias_squared)]
xs = [i for i,_ in enumerate(variance)]

# podemos fazer múltiplas chamadas plt.plot
# para mostrar múltiplas séries no mesmo gráfico
plt.plot(xs,variance,'g-',label='variance') # linha verde sólida
plt.plot(xs,bias_squared,'r-.',label='bias^2') # linha com linha de ponto tracejado vermelho
plt.plot(xs,total_error,'b:',label='total error') # linha com pontilhado azul

# porque atribuímos rótulos para cada série
# podemos obter uma legenda gratuita
# loc=9 significa "top center"
plt.legend(loc=9)
plt.xlabel("complexidade do modelo")
plt.title("compromisso entre polarização e variância")
plt.show()



## gráfico de dispersão


In [None]:
friends = [ 70, 65, 72, 63, 71, 64, 60, 64, 67]
minutes = [175, 170, 205, 120, 220, 130, 105, 145, 190]
labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i']

plt.scatter(friends,minutes)

#nomeia cada posição
for label,friend_count,minute_count in zip(labels,friends,minutes):
    plt.annotate(label,
                 xy=(friend_count,minute_count), # coloca o rótulo com sua posição
                 xytext=(5,-5), # mas compensa um pouco
                 textcoords='offset points')
    
plt.title("Minutos diários vs. número de amigos")
plt.xlabel('# de amigos')
plt.ylabel('minutos diários passados no site')
plt.show()


In [None]:
test_1_grades = [ 99, 90, 85, 97, 80]
test_2_grades = [100, 85, 60, 90, 70]
plt.scatter(test_1_grades, test_2_grades)
plt.title("Os eixos não são compatíveis")
plt.xlabel("nota do teste 2") 
plt.ylabel("nota do teste 1")
plt.show()


In [None]:
test_1_grades = [ 99, 90, 85, 97, 80]
test_2_grades = [100, 85, 60, 90, 70]
plt.scatter(test_1_grades, test_2_grades)
plt.title("Os eixos são compatíveis")
plt.xlabel("nota do teste 2")
plt.ylabel("nota do teste 1")
plt.axis('equal')
plt.show()


# 04. algebra linear


## vetores


In [None]:

def vector_add(v,w):
    """soma elementos correspondentes"""
    return [v_i + w_i for v_i,w_i in zip(v,w)]

def vector_subtract(v,w):
    """subtrai elementos correspondentes"""
    return [v_i - w_i for v_i,w_i in zip(v,w)]

def vector_sum(vectors):
    """soma elementos correspondentes"""
    result = vectors[0]
    for vector in vectors[1:]:
        result = vector_add(result,vector)
    return result

from functools import reduce,partial
def vector_sum(vectors):
    return reduce(vector_add,vectors)

# vector_sum = partial(reduce,vector_add)

def scalar_multiply(c,v):
    """c é um número, v é um vetor"""
    return [c * v_i for v_i in v]

def vector_mean(vectors):
    """computar o vetor cujo i-ésimo elemento seja a média dos
    i-ésimos elementos dos vetores inclusos"""
    n = len(vectors)
    return scalar_multiply(1/n,vector_sum(vectors))

def dot(v,w):
    """v_1 * w_1 + ... + v_n * w_n"""
    return sum(v_i * w_i for v_i,w_i in zip(v,w))

def sum_of_squares(v):
    """v_1 * v_1 + ... + v_n * v_n"""
    return dot(v,v)

import math
def magnitude(v):
    return math.sqrt(sum_of_squares(v))

def squared_distance(v,w):
    """(v_1 - w_1)**2 + ... + (v_n - w_n)**2"""
    return sum_of_squares(vector_subtract(v,w))

def distance(v,w):
    return math.sqrt(squared_distance(v,w))

def distance(v,w):
    return magnitude(vector_subtract(v,w))




## matrizes


In [None]:

# A possui duas linhas e três colunas
A = [[1, 2, 3],
     [4, 5, 6]]

# B possui três linhas e duas colunas
B = [[1, 2],
     [3, 4],
     [5, 6]]

def shape(A):
    num_rows = len(A)
    num_cols = len(A[0]) if A else 0
    return num_rows,num_cols

def get_row(A,i):
    return A[i]

def get_column(A,j):
    return [A_i[j] for A_i in A]

def make_matrix(num_rows,num_cols,entry_fn):
    """retorna a matriz num_rows X num_cols
    cuja entrada (i,j)th é entry_fn(i,j)"""
    return [[entry_fn(i,j)
             for j in range(num_cols)]
             for i in range(num_rows)]

def is_diagonal(i,j):
    """1's na diagonal, 0's no demais lugares"""
    return 1 if i == j else 0


# 05. estatística

## descrevendo um conjunto único de dados

In [None]:
import random

num_friends = [random.randint(1,100) for _ in range(204)]

friend_counts = Counter(num_friends)
xs = range(101) # o valor maior é 100
ys = [friend_counts[x] for x in xs] # a altura é somente # de amigos
plt.bar(xs,ys)
plt.axis([0,101,0,25])
plt.title('Histograma da contagem de amigos')
plt.xlabel('# de amigos')
plt.ylabel('# de pessoas')
plt.show()

In [None]:
# número de pontos nos dados
num_points = len(num_friends)
print(num_points)

# maiores e menos valores
largest_value = max(num_friends)
print(largest_value)
smallest_value = min(num_friends)
print(smallest_value)

sorted_values = sorted(num_friends)
smallest_value = sorted_values[0]
print(smallest_value)
second_smallest_value = sorted_values[1]
print(second_smallest_value)
second_largest_value = sorted_values[-2]
print(second_largest_value)


## tendências centrais

In [None]:
def mean(x):
    return sum(x)/len(x)

mean(num_friends)

In [None]:
def median(v):
    """encontra o valor mais ao meio de v"""
    n = len(v)
    sorted_v = sorted(v)
    midpoint = n // 2
    if n % 2 == 1:
        # se for ímpar, retorna o valor do meio
        return sorted_v[midpoint]
    else:
        # se for par, retorna a média dos valores do meio
        lo = midpoint -1
        hi = midpoint
        return (sorted_v[lo]+sorted_v[hi])/2
    
median(num_friends)

In [None]:
def quantile(x,p):
    """retorna o valor percentual p-ésimo em x"""
    p_index = int(p * len(x))
    return sorted(x)[p_index]

print(quantile(num_friends,0.10))
print(quantile(num_friends,0.25))
print(quantile(num_friends,0.75))
print(quantile(num_friends,0.95))

In [None]:
def mode(x):
    """retorna uma lista, pode haver mais de uma moda"""
    counts = Counter(x)
    max_count = max(counts.values())
    return [x_i for x_i, count in counts.items()
            if count == max_count]

mode(num_friends)

## dispersão

In [None]:
# "amplitude" já possui significado em Python, então usaremos um nome diferente
def data_range(x):
    return max(x) - min(x)

data_range(num_friends)

In [None]:
def de_mean(x):
    """desloca x ao subtrair sua média (então o resultado tem a média 0)"""
    x_bar = mean(x)
    return [x_i - x_bar for x_i in x]

def variance(x):
    """presume que x tem ao menos dois elemetos"""
    n = len(x)
    deviations = de_mean(x)
    return sum_of_squares(deviations)/(n-1)

variance(num_friends)

In [None]:
def standard_deviation(x):
    return math.sqrt(variance(x))

standard_deviation(num_friends)

In [None]:
def interquantile_range(x):
    return quantile(x,0.75) - quantile(x,0.25)

interquantile_range(num_friends)

## correlação

In [None]:
daily_minutes = [random.randint(1,60*24) for _ in range(204)]

def covariance(x,y):
    n = len(x)
    return dot(de_mean(x),de_mean(y))/(n-1)

def correlation(x,y):
    stdev_x = standard_deviation(x)
    stdev_y = standard_deviation(y)
    if stdev_x > 0 and stdev_y > 0:
        return covariance(x,y)/stdev_x/stdev_y
    else:
        return 0 # se não houver amplitude a correlação é zero
    
outlier = num_friends.index(100) # índice do valor discrepante

num_friends_good = [x
                    for i,x in enumerate(num_friends)
                    if i != outlier]

daily_minutes_good = [x
                    for i,x in enumerate(daily_minutes)
                    if i != outlier]

correlation(num_friends_good,daily_minutes_good)


# 06. probabilidade

In [None]:
def random_kid():
    return random.choice(["boy","girl"])

both_girls = 0
older_girl = 0
either_girl = 0

random.seed(0)

for _ in range(10000):
    younger = random_kid()
    older = random_kid()
    if older == 'girl':
        older_girl += 1
    if older == 'girl' and younger == 'girl':
        both_girls += 1
    if older == 'girl' or younger == 'girl':
        either_girl += 1

print('P(both|older): ', both_girls / older_girl)
print('P(both|either): ', both_girls / either_girl)

## distribuições contínuas

In [None]:
def uniform_pdf(x):
    return 1 if x >= 0 and x < 1 else 0

def uniform_cdf(x):
    """retorna a probabilidade de uma variável aleatória uniforme ser <= x"""
    if x < 0: return 0 # a aleatória uniforme nunca é menor do que 0
    elif x < 1: return x # por exemplo P(x <= 0,4) = 0,4
    else: return 1 # a aleatória uniforme sempre é menor do que 1

## a distribuição normal

In [None]:
def normal_pdf(x,mu=0,sigma=1):
    sqrt_two_pi = math.sqrt(2*math.pi)
    return (math.exp(-(x-mu)**2/2/sigma**2)/(sqrt_two_pi*sigma))

xs = [x/10.0 for x in range(-50,50)]
plt.plot(xs,[normal_pdf(x,sigma=1) for x in xs],'-',label='mu=0, sigma=1')
plt.plot(xs,[normal_pdf(x,sigma=2) for x in xs],'--',label='mu=0, sigma=2')
plt.plot(xs,[normal_pdf(x,sigma=0.5) for x in xs],':',label='mu=0, sigma=0.5')
plt.plot(xs,[normal_pdf(x,mu=-1) for x in xs],'-.',label='mu=-1, sigma=1')
plt.legend()
plt.title('Diversas funções de densidade de probabilidade normais')
plt.show()

In [None]:
def normal_cdf(x,mu=0,sigma=1):
    return (1 + math.erf((x-mu)/math.sqrt(2)/sigma))/2

xs = [x/10.0 for x in range(-50,50)]
plt.plot(xs,[normal_cdf(x,sigma=1) for x in xs],'-',label='mu=0, sigma=1')
plt.plot(xs,[normal_cdf(x,sigma=2) for x in xs],'--',label='mu=0, sigma=2')
plt.plot(xs,[normal_cdf(x,sigma=0.5) for x in xs],':',label='mu=0, sigma=0.5')
plt.plot(xs,[normal_cdf(x,mu=-1) for x in xs],'-.',label='mu=-1, sigma=1')
plt.legend(loc=4) # bottom tight
plt.title('Diversas funções de densidade de distribuição cumulativa')
plt.show()

In [None]:
def inverse_normal_cdf(p,mu=0,sigma=1,tolerance=0.00001):
    """encontra o inverso mais próximo usando a busca binária"""
    # se não for padrão, computa o padrão e redimensiona
    if mu != 0 or sigma != 1:
        return mu + sigma * inverse_normal_cdf(p,tolerance=tolerance)
    low_z,low_p = -10.0,0 # normal_cdf(-10) está (muito perto de) 0
    hi_z,ho_p = 10.0,1 # normal_cdf(10) está (muito perto de ) 1
    while hi_z - low_z > tolerance:
        mid_z = (low_z + hi_z)/2 # considera o ponto do meio o valor
        mid_p = normal_cdf(mid_z) # função de distribuição cumulativa lá
        if mid_p < p:
            # o ponto do meio ainda está baixo, procura acima
            low_z,low_p = mid_z,mid_p
        elif mid_p > p:
            # o ponto do meio ainda está alto, procura abaixo
            hi_z,hi_p = mid_z,mid_p
        else:
            break
    return mid_z

## o teorema do limite central

In [None]:
def bernoulli_trial(p):
    return 1 if random.random() < p else 0

def binomial(n,p):
    return sum(bernoulli_trial(p) for _ in range(n))

def make_hist(p,n,num_points):
    data = [binomial(n,p) for _ in range(num_points)]
    # usa um gráfico de barras para exibir as amostras binomiais atuais
    histogram = Counter(data)
    plt.bar([x -0.4 for x in histogram.keys()],
            [v/num_points for v in histogram.values()],
            0.8,
            color='0.75')
    mu = p * n
    sigma = math.sqrt(n*p*(1-p))
    # usa um gráfico de linhas para exibir uma aproximação do normal
    xs = range(min(data),max(data)+1)
    ys = [normal_cdf(1 + 0.5,mu,sigma) - normal_cdf(1-0.5,mu,sigma)
           for i in xs]
    plt.plot(xs,ys)
    plt.title('Distribuição binomial vs. Aproximação normal')
    plt.show()

make_hist(0.75,100,10000)

# 07. hipótese e inferência

## teste estatístico de hipótese

### exemplo: lançar uma moeda

In [None]:
def normal_approximation_to_binomial(n,p):
    """encontra mi e sigma correspondendo ao Binomial(n,p)"""
    mu = p * n
    sigma = math.sqrt(p * (1-p) * n)
    return mu, sigma

# o cdf normal é a probabilidade que a variável esteja abaixo de um limite
normal_probability_below = normal_cdf

# está acima do limite se não estiver abaixo
def normal_probability_above(lo,mu=0,sigma=1):
    return 1 - normal_cdf(lo,mu,sigma)

# está entre se for menos do que hi, mas não menor do que lo
def normal_probability_between(lo,hi,mu=0,sigma=1):
    return normal_cdf(hi,mu,sigma)-normal_cdf(lo,mu,sigma)

# está fora se não estiver entre
def normal_probability_outside(lo,hi,mu=0,sigma=1):
    return 1 - normal_probability_between(lo,hi,mu,sigma)

def normal_upper_bound(probability,mu=0,sigma=1):
    """retorna z para que p(Z <= z) = probability"""
    return inverse_normal_cdf(probability,mu,sigma)

def normal_lower_bound(probability,mu=0,sigma=1):
    """retorna z para que p(Z >= z) = probability"""
    return inverse_normal_cdf(1-probability,mu,sigma)

def normal_two_sided_bounds(probability,mu=0,sigma=1):
    """retorna os limites simétricos (sobre a média)
    que contêm a probabilidade específica"""
    tail_probability = (1-probability)/2
    # limite superior deveria ter tail_probability acima
    upper_bound = normal_lower_bound(tail_probability,mu,sigma)
    # limite inferior deveria ter tail_probability abaixo
    lower_bound = normal_upper_bound(tail_probability,mu,sigma)
    return lower_bound,upper_bound

mu_0,sigma_0 = normal_approximation_to_binomial(1000,0.5)
print(mu_0,sigma_0)

In [None]:
normal_two_sided_bounds(0.95,mu_0,sigma_0)

In [None]:
# 95% dos limites baseados na premissa p é 0,5
lo,hi = normal_two_sided_bounds(0.95,mu_0,sigma_0)

# mi e sigma reais baseadas em p=0,55
mu_1,sigma_1 = normal_approximation_to_binomial(1000,0.55)

# um erro tipo 2 significa que falhamos ao rejeitar a hipótese nula
# que acontecerá quando X ainda estiver em nosso intervalo original
type_2_probability = normal_probability_between(lo,hi,mu_1,sigma_1)
power = 1 - type_2_probability
print(power)

In [None]:
hi = normal_upper_bound(0.95,mu_0,sigma_0)
print(hi)

type_2_probability = normal_probability_below(hi,mu_1,sigma_1)
power = 1 - type_2_probability
print(power)

## p-values

In [None]:
def two_sided_p_value(x,mu=0,sigma=1):
    if x >= mu:
        # se x for maior do que a média, a coroa será o que for maior do que x
        return 2 * normal_probability_above(x,mu,sigma)
    else:
        # se x for menor do que a média, a coroa será o que for menor do que x
        return 2 * normal_probability_below(x,mu,sigma)
    
two_sided_p_value(529.5,mu_0,sigma_0)

In [None]:
extreme_value_count = 0
for _ in range(100000):
    num_heads = sum(1 if random.random() < 0.5 else 0 # contagem do # de caras
                    for _ in range(1000)) # em 1000 lançamentos
    if num_heads >= 530 or num_heads <= 470: # e contagem da frequência
        extreme_value_count += 1 # que # é 'extrema'

print(extreme_value_count/100000)

In [None]:
two_sided_p_value(531.5,mu_0,sigma_0)

In [None]:
upper_p_value = normal_probability_above
lower_p_value = normal_probability_below

print(upper_p_value(524.5,mu_0,sigma_0))
print(upper_p_value(526.5,mu_0,sigma_0))

## intervalos de confiança

In [None]:
p_hat = 525 / 1000
mu = p_hat
sigma = math.sqrt(p_hat * (1-p_hat)/1000)
print(sigma)

In [None]:
normal_two_sided_bounds(0.95,mu,sigma)

In [None]:
p_hat = 540/1000
mu = p_hat
sigma = math.sqrt(p_hat * (1 - p_hat) / 1000)
print(sigma)
print(normal_two_sided_bounds(0.95,mu,sigma))


## p-hacking

In [None]:
def run_experiment():
    """lança uma moeda 1000 vezes, True = cara, False = coroa"""
    return [random.random() < 0.5 for _ in range(1000)]

def reject_fairness(experiment):
    """usando 5% dos níveis de significância"""
    num_heads = len([flip for flip in experiment if flip])
    return num_heads < 469 or num_heads > 531

random.seed(0)
experiments = [run_experiment() for _ in range(1000)]
num_rejections = len([experiment
                      for experiment in experiments
                      if reject_fairness(experiment)])

print(num_rejections)

## exemplo: executando um teste a/b

In [None]:
def estimated_parameters(N,n):
    p = n/N
    sigma = math.sqrt(p * (1-p)/N)
    return p,sigma

def a_b_test_statistic(N_A,n_A,N_B,n_B):
    p_A,sigma_A = estimated_parameters(N_A,n_A)
    p_B,sigma_B = estimated_parameters(N_B,n_B)
    return (p_B - p_A) / math.sqrt(sigma_A ** 2 + sigma_B ** 2)

z = a_b_test_statistic(1000,200,1000,180)
print(z)

In [None]:
two_sided_p_value(z)

In [None]:
z = a_b_test_statistic(1000,200,1000,150)
print(z)
two_sided_p_value(z)

## inferência bayesiana

In [None]:
def B(alpha,beta):
    """uma constante normalizada para que a probabilidade total seja 1"""
    return math.gamma(alpha) * math.gamma(beta) / math.gamma(alpha + beta)

def beta_pdf(x,alpha,beta):
    if x < 0 or x > 1: # sem peso fora de [0,1]
        return 0
    return x**(alpha-1)*(1-x)**(beta-1)/B(alpha,beta)


# 08. gradiente descendente

## a ideia por trás do gradiente descendente

In [None]:
def sum_of_squares(v):
    """computa a soma dos elementos ao quadrado em v"""
    return sum(v_i ** 2 for v_i in v)


## estimando o gradiente

In [None]:
def difference_quotient(f,x,h):
    return (f(x+h)-f(x))/h

def square(x):
    return x * x

def derivative(x):
    return 2 * x

derivative_estimate = partial(difference_quotient,square,h=0.00001)
# planeja mostrar que são basicamente o mesmo
x = range(-10,10)
plt.title("Derivada real vs. estimativa")
plt.plot(x, [derivative(x_i) for x_i in x], 'rx', label='Real')       # vermelho 'x'
plt.plot(x, [derivative_estimate(x_i) for x_i in x], 'b+', label='Estimativa')  # azul '+'
plt.legend(loc=9)
plt.show()

In [None]:
def partial_difference_quotient(f,v,i,h):
    """computa o i-ésimo quociente diferencial partical de f em v"""
    w = [v_j + (h if j == i else 0) # adiciona h ao elemento i-ésimo de v
         for j, v_j in enumerate(v)]
    return (f(w)-f(v))/h

def estimate_gradient(f,v,h=0.00001):
    return [partial_difference_quotient(f,v,i,h) for i,_ in enumerate(v)]

## usando o gradiente

In [None]:
def step(v,direction,step_size):
    """move step_size na direção a partir de v"""
    return [v_i + step_size * direction_i
            for v_i,direction_i in zip(v,direction)]

def sum_of_squares_gradient(v):
    return [2 * v_i for v_i in v]

# escolhe um ponto inicial aleatório
v = [random.randint(-10,10) for i in range(3)]

tolerance = 0.0000001

while True:
    gradient = sum_of_squares_gradient(v) # computa o gradient em v
    next_v = step(v,gradient,-0.01) # pega um passo gradiente negativo
    if distance(next_v,v) < tolerance: # para se estivermos convergindo
        break
    v = next_v # continua se não estivermos


## escolhendo o tamanho do próximo passo

In [None]:
step_sizes = [100, 10, 1, 0.1, 0.01, 0.001, 0.0001, 0.00001]

def safe(f):
    """retorna um nova função que é igual a f,
    exceto que ele exibe infinito como saída
    toda vez que f produz um erro"""
    def safe_f(*args,**kwargs):
        try:
            return f(*args,**kwargs)
        except:
            return float('inf')
    return safe_f

## juntando tudo

In [None]:
def minimize_batch(target_fn,gradient_fn,theta_0,tolerance=0.000001):
    """usa o gradiente descendente para encontrar theta
    que minimize a função alvo"""
    step_sizes = [100,10,1,0.1,0.01,0.001,0.0001,0.00001]
    theta = theta_0 # ajusta theta para o valor inicial
    target_fn = safe(target_fn) # versão segura de target_fn
    value = target_fn(theta) # valor que estamos minimizando
    while True:
        gradient = gradient_fn(theta)
        next_thetas = [step(theta,gradient,-step_size)
                       for step_size in step_sizes]
        # escolhe aquele que minimiza a função de erro
        next_theta = min(next_thetas,key=target_fn)
        next_value = target_fn(next_theta)

        # para se estivermos "convergindo"
        if abs(value - next_value) < tolerance:
            return theta
        else:
            theta,value = next_theta,next_value

def negate(f):
    """retorna uma função que, para qualquer entrada, x retorna -f(x)"""
    return lambda *args,**kwargs: -f(*args,**kwargs)

def negate_all(f):
    """o mesmo quando f retorna uma lista de números"""
    return lambda *args,**kwargs: [-y for y in f(*args,**kwargs)]

def maximize_batch(target_fn,gradient_fn,theta_0,tolerance=0.000001):
    return minimize_batch(negate(target_fn),
                          negate_all(gradient_fn),
                          theta_0,
                          tolerance)

## gradiente descendente estocástico

In [None]:
def in_random_order(data):
    """gerador retorna os elementos do dado em ordem aleatória"""
    indexes = [i for i,_ in enumerate(data)] # cria uma lista de índices
    random.shuffle(indexes) # os embaralha
    for i in indexes: # retorna os dados naquela ordem
        yield data[i]

def minimize_stochastic(target_fn,gradient_fn,x,y,theta_0,alpha_0=0.01):
    data = zip(x,y)
    theta = theta_0
    alpha = alpha_0
    min_theta,min_value = None,float('inf')
    iterations_with_no_improvement = 0
    # se formos até 100 iterações sem melhorias, paramos
    while iterations_with_no_improvement < 100:
        value = sum(target_fn(x_i,y_i,theta) for x_i,y_i in data)
    if value < min_value:
        # se achou um novo mínimo, lembre-se
        # e volte para o tamanho do passo original
        min_theta,min_value = theta,value
        iterations_with_no_improvement = 0
        alpha = alpha_0
    else:
        # do contrário, não estamos melhorando, portanto tente
        # diminuir o tamanho do passo
        iterations_with_no_improvement += 1
        alpha *= 0.9
    # e ande um passo gradiente para todos os pontos de dados
    for x_i,y_i in in_random_order(data):
        gradient_i = gradient_fn(x_i,y_i,theta)
        theta = vector_subtract(theta,scalar_multiply(alpha,gradient_i))
    return min_theta

def maximize_stochastic(target_fn,gradient_fn,x,y,theta_0,alpha_0=0.01):
    return minimize_stochastic(negate(target_fn),
                               negate_all(gradient_fn),
                               x,y,theta_0,alpha_0)

# 09. obtendo dados

## stdin e stdout

In [None]:
# egrep.py
import sys,re

# sys.argv é a lista dos argumentos da linha de comando
# sys.argv[0] é o nome do programa em si
# sys.argv[1] será o regex especificado na linhas de comando
regex = sys.argv[1]

# para cada linha passada pelo script
for line in sys.stdin:
    # se combinar com o regex, escreva-o para o stdout
    if re.search(regex,line):
        sys.stdout.write(line)


In [None]:
# line_count.py
import sys

count = 0
for line in sys.stdin:
    count += 1

# print vai para o sys.stdout
print(count)


In [None]:
# most_common_words.py
import sys
from collections import Counter

# passa o número de palavras como primeiro argumento
try:
    num_words = int(sys.argv[1])
except:
    print("usage: most_common_words.py num_words")
    sys.exit(1) # código de saída não-zero indica erro

counter = Counter(word.lower() # palavras em minúsculas
                  for line in sys.stdin
                  for word in line.strip().split() # se separam por espaços
                  if word) # pula as palavras vazias

for word,count in counter.most_common(num_words):
    sys.stdout.write(str(count))
    sys.stdout.write("\t")
    sys.stdout.write(word)
    sys.stdout.write('\n')

## lendo arquivos

### o básico de arquivos texto

In [None]:
# 'r' significa somente leitura
file_for_reading = open('reading_file.txt','r')

# 'W' é escrever -- destruirá o arquivo se ele já existir!
file_for_writing = open('writing_file.txt','w')

# 'a' é anexar -- para adicionar ao final do arquivo
file_for_appending = open('appending_file.txt','a')

# não se esqueça de fechar os arquivos ao terminar
file_for_writing.close()

starts_with_hash = 0

with open('input.txt','r') as file:
    for line in file: # observa cada linha do arquivo
        if re.match("^#",line): # use um regex para ver se começa com '#'
            starts_with_hash += 1 # se começar, adicione 1 à contagem

def get_domain(email_address):
    """separa no '@' e retorna na última parte"""
    return email_address.lower().split('@')[-1]

with open('email_address.txt','r') as f:
    doamin_counts = Counter(get_domain(line.strip())
                            for line in f
                            if '@' in line)

### arquivos delimitados

In [None]:
import csv
with open('tab_delimited_stock_prices.txt', 'r') as f:
    reader = csv.reader(f, delimiter='\t')
    for row in reader:
        date = row[0]
        symbol = row[1]
        closing_price = float(row[2])
        # process(date, symbol, closing_price)


In [None]:
with open('colon_delimited_stock_prices.txt','r') as f:
    reader = csv.DictReader(f,delimiter=':')
    for row in reader:
        date = row['date']
        symbol = row['symbol']
        closing_price = float(row['closing_price'])
        # process(date,symbol,closing_price)

In [None]:
today_prices = { 'AAPL' : 90.91, 'MSFT' : 41.68, 'FB' : 64.5 }

with open('comma_delimited_stock_prices.txt','w') as f:
    writer = csv.writer(f,delimiter=',')
    for stock,price in today_prices.items():
        writer.writerow([stock,price])

## Extraindo dados da internet

### html e sua subsequente pesquisa

In [None]:
from bs4 import BeautifulSoup
import requests


In [None]:
html = requests.get('http://www.exemple.com').text
soup = BeautifulSoup(html,'html5lib')

first_paragraph = soup.find('p') # ou somente soup.p

first_paragraph_text = soup.p.text
first_paragraph_words = soup.p.text.split()

first_paragraph_id = soup.p['id'] # surge um KeyError se não tiver 'id'
first_paragraph_id2 = soup.p.get('id') # surge None se não tiver 'id'

all_paragraphs = soup.find_all('p') # ou apenas soup('p')
paragraphs_with_ids = [p for p in soup('p') if p.get('id')]

important_paragraphs = soup('p',{'class':'important'})
important_paragraphs2 = soup('p','important')
important_paragraphs3 = [p for p in soup('p') if 'important' in p.get('class',[])]

# atenção, vai retornar o mesmo span múltiplas vezes
# se ele ficar dentro de múltiplos divs
# seja mais esperto se esse for o caso
spans_inside_divs = [span
                     for div in soup('div') # para cada <div> na página
                     for span in div('span')] # encontra cada <span> dentro


### exemplo: livros o'reilly sobre dados

In [None]:
# infelizmente o site da o'reilly tem dificultado este tipo de exercício

url = "https://www.oreilly.com/search/?q=data&rows=100"
response = requests.get(url)
response.raise_for_status()

soup = BeautifulSoup(response.text, 'html.parser')

books = soup('article')
tds = len(books)
print(f"Número de livros encontrados: {tds}")

In [None]:
def is_video(td):
    """é um vídeo se tiver exatamente um pricelabel, e se
    o texto corrido dentro do pricelabel começar com 'Video"""
    pricelabels = td('span', 'pricelabel')
    return (len(pricelabels) == 1 and
pricelabels[0].text.strip().startswith("Video"))
print(len([td for td in tds if not is_video(td)]))

In [None]:
def book_info(td):
    """dado uma marcação BeautifulSoup <td> representando um livro,
    extrai os detalhes do livro e retorna um dict"""
    title = td.find("div", "thumbheader").a.text
    by_author = td.find('div', 'AuthorName').text
    authors = [x.strip() for x in re.sub("^By ", "", by_author).split(",")]
    isbn_link = td.find("div", "thumbheader").a.get("href")
    isbn = re.match("/product/(.*)\.do", isbn_link).groups()[0]
    date = td.find("span", "directorydate").text.strip()
    return {
        "title" : title,
        "authors" : authors,
        "isbn" : isbn,
        "date" : date
    }

In [None]:
from bs4 import BeautifulSoup
import requests
from time import sleep
base_url = "http://shop.oreilly.com/category/browse-subjects/" + \
    "data.do?sortby=publicationDate&page="
books = []
NUM_PAGES = 31 # na época da escrita deste livro, provavelmente mais agora
for page_num in range(1, NUM_PAGES + 1):
    print("souping page", page_num, ",", len(books), " found so far")
    url = base_url + str(page_num)
    soup = BeautifulSoup(requests.get(url).text, 'html5lib')
    for td in soup('td', 'thumbtext'):
        if not is_video(td):
            books.append(book_info(td))
    # agora seja um bom cidadão e respeite os robots.txt!
    sleep(30)

In [None]:
def get_year(book):
    """book['date'] se parece com 'November 2014' então precisamos
    dividir o espaço e então pegar o segundo pedaço"""
    return int(book['date'].split()[1])

year_counts = Counter(get_year(book) for book in books if get_year(book) <= 2024)

import matplotlib.pyplot as plt
year = sorted(year_counts)
book_counts = [year_counts[year] for year in years]
plt.plot(years,book_counts)
plt.ylabel('# de livros de dados')
plt.title('A áre de dados é grande')
plt.show()

## usando apis

### json e xml

In [None]:
import json
serialized = """{ "title" : "Data Science Book",
"author" : "Joel Grus",
"publicationYear" : 2014,
"topics" : [ "data", "science", "data science"] }"""

deserialized = json.loads(serialized)
if "data science" in deserialized["topics"]:
    print(deserialized)

In [None]:
xml = """<Book>
    <Title>Data Science Book</Title>
    <Author>Joel Grus</Author>
    <PublicationYear>2014</PublicationYear>
    <Topics>
        <Topic>data</Topic>
        <Topic>science</Topic>
        <Topic>data science</Topic>
    </Topics>
</Book>"""

deserialized = BeautifulSoup(xml, 'html.parser')
topics = [topic.text for topic in deserialized.find_all('Topic')]
print(deserialized.find_all('Topic'))
if "data science" in topics:
    print(deserialized)

### usando uma api não autenticada

In [None]:
import requests, json
endpoint = "https://api.github.com/users/joelgrus/repos"
repos = json.loads(requests.get(endpoint).text)

from dateutil.parser import parse

dates = [parse(repo['created_at']) for repo in repos]
month_counts = Counter(date.month for date in dates)
weekday_counts = Counter(date.weekday() for date in dates)

last_5_repositories = sorted(repos,
                             key=lambda r:r['created_at'],
                             reverse=True)[:5]

last_5_languages = [repo["language"]
                    for repo in last_5_repositories]

print(dates)
print(month_counts)
print(weekday_counts)
print(last_5_repositories)
print(last_5_languages)

# 10. trabalhando com dados

## explorando seus dados

### explorando dados unidimensionais

In [None]:
def bucketize(point,bucket_size):
    """reduza o ponto para o próximo múltiplo mais baixo de buckte_size"""
    return bucket_size * math.floor(point/bucket_size)

def make_histogram(points,bucket_size):
    """agrupa os pontos e conta quantos em cada bucket"""
    return Counter(bucketize(point,bucket_size) for point in points)

def plot_histogram(points,bucket_size,title=''):
    histogram = make_histogram(points,bucket_size)
    plt.bar(histogram.keys(),histogram.values(),width=bucket_size)
    plt.title(title)
    plt.show()

random.seed(0)

# uniforme entre -100 e 100
uniform = [200 * random.random() - 100 for _ in range(10000)]

# distribuição normal com média 0, desvio padrão 57
normal = [57 * inverse_normal_cdf(random.random()) for _ in range(10000)]

plot_histogram(uniform,10,'histograma de uniform')

In [None]:
plot_histogram(normal,10,'histograma normal')

### duas dimensões

In [None]:
def random_normal():
    """retorna um desenho aleatório de uma distribiução normal padrão"""
    return inverse_normal_cdf(random.random())

xs = [random_normal() for _ in range(1000)]
ys1 = [x + random_normal()/2 for x in xs]
ys2 = [-x + random_normal()/2 for x in xs]

plt.scatter(xs,ys1,marker='.',color='black',label='ys1')
plt.scatter(xs,ys2,marker='.',color='gray',label='ys2')
plt.xlabel('xs')
plt.ylabel('ys')
plt.legend(loc=9)
plt.title('Distribuições conjuntas muito diferentes')
plt.show()

In [None]:
print(correlation(xs,ys1))
print(correlation(xs,ys2))

### muitas dimensões

In [None]:
def correlation_matrix(data):
    """retorna o num_columns x num_columns matrix cuja entrada 
    (i,j)-ésima é a correlação entre as colunas de dados i e j"""
    _,num_columns = shape(data)
    def matrix_entry(i,j):
        return correlation(get_column(data,i),get_column(data,j))
    return make_matrix(num_columns,num_columns,matrix_entry)

_,num_columns = shape(data)
fig,ax = plt.subplot(num_columns,num_columns)

for i in range(num_columns):
    for j in range(num_columns):
        # dispersa a column_j no eixo x versus column_i no eixo y
        if i != j: ax[i][j].scatter(get_column(data,j),get_column(data,i))
        # a menos que i == j, em cujo caso mostra o nome da série
        else: ax[i][j].annotate('série' + str(i),(0.5,0.5),
                                xycoords='axes fraction',
                                ha='center',va='center')
        # então esconde as etiquetas dos eixos exceto
        # os gráficos inferiores e da esquerda
        if i < num_columns - 1: ax[i][j].xaxis.set_visible(False)
        if j > 0: ax[i][j].yaxis.set_visible(False)

# conserta as etiquetas inferiores à direita e superiores à esquerda
# dos eixos, que está errado pois seus gráficos somenete possuem textos
ax[-1][-1].set_xlim(ax[0][-1].get_xlim())
ax[0][0].set_ylim(ax[0][1].get_ylim())
plt.show()


## limpando e transformando

In [None]:
def parse_row(input_row,parsers):
    """dada uma lista de interpretadores (alguns podem ser None)
    aplique o apropriado a cada elemento de input_row"""
    return [parser(value) if parser is not None else value
            for value,parser in zip(input_row,parsers)]

def parse_rows_with(reader,parsers):
    """envolve um reader para aplicar os interpretadores em
    cada uma de suas linhas"""
    for row in reader:
        yield parse_row(row,parsers)

def try_or_none(f):
    """envolve f para retornar None se f levantar um exceção
    presume que f leve apenas uma entrada"""
    def f_or_none(x):
        try: return f(x)
        except: return None
    return f_or_none

def parse_row(input_row,parsers):
    return [try_or_none(parser)(value) if parser is not None else value
            for value,parser in zip(input_row,parsers)]

import dateutil.parser
import csv
data = []
with open('comma_delimited_stock_prices.csv','r') as f:
    reader = csv.reader(f)
    for line in parse_rows_with(reader,[dateutil.parser.parse,None,float]):
        data.append(line)

for row in data:
    if any(x is None for x in row):
        print(row)

In [None]:
def try_parse_field(field_name,value,parser_dict):
    """tenta analisar o valor usando a função adequada 
    a partir de parser_dict"""
    parser = parser_dict.get(field_name) # None se não tiver tal entrada
    if parser is not None:
        return try_or_none(parser)(value)
    else:
        return value
    
def parse_dict(input_dict,parser_dict):
    return {field_name: try_parse_field(field_name,value,parser_dict)
            for field_name,value in input_dict.iteritems()}

## manipulando dados

In [None]:
max_aapl_price = max(row['closing_price'] 
                     for row in data
                     if row['symbol'] == 'AAPL')

# agrupa linhas por símbolo
by_symbol = defaultdict(list)
for row in data:
    by_symbol[row['symbol']].append(row)

# usa a compreensão do dict para encontrar o max para cada símbolo
max_price_by_symbol = {symbol : max(row['closing_price']
                                    for row in grouped_rows)
                                    for symbol,grouped_rows in by_symbol.items()}

def picker(field_name):
    """retorna uma função que recolhe um campo de um dict"""
    return lambda row:row[field_name]

def pluck(field_name,rows):
    """transforma uma lista de dicts em um alista de valores field_name"""
    return map(picker(field_name),rows)

def group_by(grouper,rows,value_transform=None):
    # a chave é a saída de grouper, o valor é uma lista de linhas
    grouped = defaultdict(list)
    for row in rows:
        grouped[grouper(row)].append(row)
    if value_transform in None:
        return grouped
    else:
        return {key : value_transform(rows)
                for key,rows in grouped.items()}
    
max_price_by_symbol = group_by(picker('symbol'),
                               data,
                               lambda rows:max(pluck('closing_price',rows)))

def percent_price_chage(yesterday,today):
    return today['closing_price'] / yesterday['closing_price'] - 1

def day_over_day_changes(grouped_rows):
    # organiza as linhas por data
    ordered = sorted(grouped_rows,key=picker('date'))
    
    # compacta com uma compensação para ter pares de dias consecutivos
    return [{'symbol':today['symbol'],
             'date':today['date'],
             'change':percent_price_chage(yesterday,today)}
             for yesterday,today in zip(ordered,ordered[1:])]

# a chave é symbol, o valor é uma change de dicts
changes_by_symbol = group_by(picker('symbol'),data,day_over_day_changes)

# coleta todas as changes de dicts para uma lista grande
all_changes = [change
               for changes in changes_by_symbol.values()
               for change in changes]

max(all_changes,key=picker('change'))
min(all_changes,key=picker('change'))

# para combinar as mudanças percentuais, adicionamos 1 a cada um,
# os multiplicamos e subtraímos 1 por exemplo,se combinarmos +10%
# e -20%, a mudança geral é (1+10%)*(1-20%)-1 = 1.1*.8 - 1 = -12%
def combine_pct_changes(pct_change1,pct_change2):
    return (1 + pct_change1) * (1 + pct_change2) - 1

def overall_change(changes):
    return reduce(combine_pct_changes,pluck('change',changes))

overall_change_by_month = group_by(lambda row: row['date'].month,
                                   all_changes,overall_change)

## redimensionamento

## redução da dimensionalidade

# 11. aprendizado de máquina