<a href="https://colab.research.google.com/github/vitormiro/DataSciencedoZero/blob/master/DSfromScratch_cap1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Data Science do zero**

*Data Science from Scratch: First Principles with Python* de Joel Grus 

O autor, Joel Grus, utiliza uma motivação hipotética para apesentar os conceitos e exemplos do livro. É uma abordagem muito didática e prática.
Ele estabelece uma situação em que o leitor foi contratado para liderar os esforços de data science na empresa DataSciencester.
O primeiro capítulo retrata o primeiro dia de trabalho na empresa.



## Encontrando Conectores-Chave

O vice-presidente de Rede (networking) está cheio de perguntas sobre seus usuários.

Particularmente, ele quer que você identifique quem são os “conectores-chave” entre os cientistas de dados. Para isso, ele lhe dá uma parte de toda a rede da DataSciencester.

Os dados estão na lista abaixo:


In [0]:
# Usuários da Rede DataSciencester - A lista de usuários é apresentada na forma de uma lista de dicionários.
users = [
    { "id": 0, "name": "Hero" },
    { "id": 1, "name": "Dunn" },
    { "id": 2, "name": "Sue" },
    { "id": 3, "name": "Chi" },
    { "id": 4, "name": "Thor" },
    { "id": 5, "name": "Clive" },
    { "id": 6, "name": "Hicks" },
    { "id": 7, "name": "Devin" },
    { "id": 8, "name": "Kate" },
    { "id": 9, "name": "Klein" }
]

Ele também fornece dados em uma lista de pares de IDs:

In [0]:
# Relacionamentos entre os usuários - uma lista de tuplas
friendships = [(0, 1), (0, 2), (1, 2), (1, 3), (2, 3), (3, 4), (4, 5), (5, 6), (5, 7), (6, 8), (7, 8), (8, 9)]

Por exemplo, a tupla (0,1) indica que o cientista de dados com a `id` 0 (Hero) e o cientista de dados com a `id` 1 (Dunn) são amigos.

Como os dados são representados por dicionários (`dicts`), é fácil adicionar dados extras.

Para adicionar uma lista de amigos para cada usuário, primeiro configuramos a propriedade friends de cada usuário em uma lista vazia:

In [0]:
# configurando um atributo "friends" no dict de users adicionando listas vazias para cada um
for user in users:
    user["friends"] = []

In [0]:
print(users)

[{'id': 0, 'name': 'Hero', 'friends': []}, {'id': 1, 'name': 'Dunn', 'friends': []}, {'id': 2, 'name': 'Sue', 'friends': []}, {'id': 3, 'name': 'Chi', 'friends': []}, {'id': 4, 'name': 'Thor', 'friends': []}, {'id': 5, 'name': 'Clive', 'friends': []}, {'id': 6, 'name': 'Hicks', 'friends': []}, {'id': 7, 'name': 'Devin', 'friends': []}, {'id': 8, 'name': 'Kate', 'friends': []}, {'id': 9, 'name': 'Klein', 'friends': []}]


Então povoamos a lista com dados de `friendships`

In [0]:
# Povoando a lista de relacionamentos
for i, j in friendships: # Percorre a lista de tuplas de relação, pegando os ids dos usuários.
    users[i]["friends"].append(users[j]) # Atribui j aos amigos de i
    users[j]["friends"].append(users[i]) # Atribui i aos amigos de j

In [0]:
print(users)

[{'id': 0, 'name': 'Hero', 'friends': [{'id': 1, 'name': 'Dunn', 'friends': [{...}, {'id': 2, 'name': 'Sue', 'friends': [{...}, {...}, {'id': 3, 'name': 'Chi', 'friends': [{...}, {...}, {'id': 4, 'name': 'Thor', 'friends': [{...}, {'id': 5, 'name': 'Clive', 'friends': [{...}, {'id': 6, 'name': 'Hicks', 'friends': [{...}, {'id': 8, 'name': 'Kate', 'friends': [{...}, {'id': 7, 'name': 'Devin', 'friends': [{...}, {...}]}, {'id': 9, 'name': 'Klein', 'friends': [{...}]}]}]}, {'id': 7, 'name': 'Devin', 'friends': [{...}, {'id': 8, 'name': 'Kate', 'friends': [{'id': 6, 'name': 'Hicks', 'friends': [{...}, {...}]}, {...}, {'id': 9, 'name': 'Klein', 'friends': [{...}]}]}]}]}]}]}]}, {'id': 3, 'name': 'Chi', 'friends': [{...}, {'id': 2, 'name': 'Sue', 'friends': [{...}, {...}, {...}]}, {'id': 4, 'name': 'Thor', 'friends': [{...}, {'id': 5, 'name': 'Clive', 'friends': [{...}, {'id': 6, 'name': 'Hicks', 'friends': [{...}, {'id': 8, 'name': 'Kate', 'friends': [{...}, {'id': 7, 'name': 'Devin', 'frien

“Qual é o número médio de conexões?”

Primeiro encontramos o número total de conexões e em seguida, dividimos pelo número de usuários:

In [0]:
# Função para encontrar o número de amigos de cada usuário.
def number_of_friends(user):
    """ quantos amigos o usuário tem?"""
    return len(user['friends']) # Retorna o tamanho da lista de amigos de um usuário

total_connections = sum(number_of_friends(user) for user in users) # Somatório do número de amigos de cada usuário da rede

In [0]:
print(total_connections)

24


In [0]:
# Dividindo pelo número de usuários para obter o número médio de conexões
from __future__ import division
num_users = len(users) # Número de usuários da rede
avg_connections = total_connections/num_users # Média de Conexões por usuário

In [0]:
print(avg_connections)

2.4


Como não há muitos usuários, podemos ordená-los

In [9]:
# Ordenando os usuários pela quantidade de amigos (em ordem decrescente)
num_friends_by_id = [(user["id"], number_of_friends(user)) for user in users]
sorted(num_friends_by_id, key=lambda num_friends: num_friends, reverse=True)


[(9, 1),
 (8, 3),
 (7, 2),
 (6, 2),
 (5, 3),
 (4, 2),
 (3, 3),
 (2, 3),
 (1, 3),
 (0, 2)]

## Cientistas de Dados Que Você Talvez Conheça

A vice-presidente da Fraternidade quer estimular mais conexões entre os seus membros, e pede que você desenvolva sugestões de “Cientistas de Dados Que Você Talvez Conheça”.

Seu primeiro instinto é sugerir um usuário que possa conhecer amigos de amigos. São fáceis de computar: para cada amigo de um usuário, itera sobre os amigos daquela pessoa, e coleta todos os resultados:

In [0]:
def friends_of_friend_ids_bad(user):
    # foaf é a abreviação de "friend of a friend"
    return [foaf["id"] 
            for friend in user["friends"] 
            for foaf in friend["friends"]]

In [11]:
friends_of_friend_ids_bad(users[0]) # Amigos em Comum de Hero

[0, 2, 3, 0, 1, 3]

Note que o código acima não é uma boa opção pois duplica os ids uma vez que pega todos os amigos dos seus amigos, incluindo ele mesmo.


In [12]:
print([friend["id"] for friend in users[0]["friends"]]) 
print([friend["id"] for friend in users[1]["friends"]]) 
print([friend["id"] for friend in users[2]["friends"]])

[1, 2]
[0, 2, 3]
[0, 1, 3]


As funções abaixo eliminam duplicatas e os que já são amigos.
Além disso, faz uma contagem de amigos em comum.

In [13]:
from collections import Counter      # Função de contagem não carregada por padrão

# Verifica se dois usuários não são os mesmos, retorna True ou False
def not_the_same(user, other_user):
    """Dois usuários não são os mesmos se possuem ids diferentes"""
    return user["id"] != other_user["id"]

# Verifica se dois usuários não são amigos
def not_friends(user, other_user):
    """other_user não é um amigo se não está em user["friends"]; isso é, se é not_the_same com todas as pessoas em user["friends"]"""
    return all(not_the_same(friend, other_user) 
               for friend in user["friends"])

# Função para encontrar amigos em comum
def friends_of_friend_ids(user):
    return Counter(foaf["id"]
                  for friend in user["friends"] 
                  for foaf in friend["friends"] 
                  if not_the_same(user, foaf)   
                   and not_friends(user, foaf))

print(friends_of_friend_ids(users[3]))

Counter({0: 2, 5: 1})


Como um cientista de dados, você sabe que você pode gostar de encontrar usuários com interesses similares. Depois de perguntar por aí, você consegue pôr as mãos nesse dado, como uma lista de pares `(user_id, interest)` :


In [0]:
# lista de pares (user_id, interest)
interests = [
(0, "Hadoop"), (0, "Big Data"), (0, "HBase"), (0, "Java"), (0, "Spark"), (0, "Storm"), 
(0, "Cassandra"),
(1, "NoSQL"), (1, "MongoDB"), (1, "Cassandra"), (1, "HBase"), (1, "Postgres"), 
(2, "Python"), (2, "scikit-learn"), (2, "scipy"), (2, "numpy"), (2, "statsmodels"), (2, "pandas"), 
(3, "R"), (3, "Python"), (3, "statistics"), (3, "regression"), (3, "probability"),
(4, "machine learning"), (4, "regression"), (4, "decision trees"), (4, "libsvm"), 
(5, "Python"), (5, "R"), (5, "Java"), (5, "C++"), (5, "Haskell"), (5, "programming languages"), 
(6, "statistics"), (6, "probability"), (6, "mathematics"), (6, "theory"),
(7, "machine learning"), (7, "scikit-learn"), (7, "Mahout"), (7, "neural networks"), 
(8, "neural networks"), (8, "deep learning"),(8, "Big Data"), (8, "artificial intelligence"), 
(9, "Hadoop"), (9, "Java"), (9, "MapReduce"), (9, "Big Data")
]

Vamos construir uma função que encontre usuários com o mesmo interesse.

In [0]:
# Função que retorna os ids de pessoas com interesse em determinado tema
def data_scientists_who_like(target_interest):
    return [user_id
            for user_id, user_interest in interests
            if user_interest == target_interest]

In [16]:
print(data_scientists_who_like("R"))

[3, 5]


Para listas com muitos usuários e interesses, é melhor contruir um indice de interesses:

In [0]:
from collections import defaultdict

# As chaves são interesses, e os valores são listas de user_ids com interests
user_ids_by_interest = defaultdict(list)

for user_id, interest in interests:
    user_ids_by_interest[interest].append(user_id)

# As chaves são user_ids, os valores são as listas de interests para aquele user_id 
interests_by_user_id = defaultdict(list)

for user_id, interest in interests:
    interests_by_user_id[user_id].append(interest)

In [18]:
user_ids_by_interest

defaultdict(list,
            {'Big Data': [0, 8, 9],
             'C++': [5],
             'Cassandra': [0, 1],
             'HBase': [0, 1],
             'Hadoop': [0, 9],
             'Haskell': [5],
             'Java': [0, 5, 9],
             'Mahout': [7],
             'MapReduce': [9],
             'MongoDB': [1],
             'NoSQL': [1],
             'Postgres': [1],
             'Python': [2, 3, 5],
             'R': [3, 5],
             'Spark': [0],
             'Storm': [0],
             'artificial intelligence': [8],
             'decision trees': [4],
             'deep learning': [8],
             'libsvm': [4],
             'machine learning': [4, 7],
             'mathematics': [6],
             'neural networks': [7, 8],
             'numpy': [2],
             'pandas': [2],
             'probability': [3, 6],
             'programming languages': [5],
             'regression': [3, 4],
             'scikit-learn': [2, 7],
             'scipy': [2],
             's

In [19]:
interests_by_user_id

defaultdict(list,
            {0: ['Hadoop',
              'Big Data',
              'HBase',
              'Java',
              'Spark',
              'Storm',
              'Cassandra'],
             1: ['NoSQL', 'MongoDB', 'Cassandra', 'HBase', 'Postgres'],
             2: ['Python',
              'scikit-learn',
              'scipy',
              'numpy',
              'statsmodels',
              'pandas'],
             3: ['R', 'Python', 'statistics', 'regression', 'probability'],
             4: ['machine learning', 'regression', 'decision trees', 'libsvm'],
             5: ['Python',
              'R',
              'Java',
              'C++',
              'Haskell',
              'programming languages'],
             6: ['statistics', 'probability', 'mathematics', 'theory'],
             7: ['machine learning',
              'scikit-learn',
              'Mahout',
              'neural networks'],
             8: ['neural networks',
              'deep learning',
       

Agora fica fácil descobrir quem possui os maiores interesses em comum com um certo usuário:

- Itera sobre os interesses do usuário.
- Para cada interesse, itera sobre os outros usuários com aquele interesse.
- Mantém a contagem de quantas vezes vemos cada outro usuário.

In [20]:
# Retorna os usuários com interesses em comum com um determinado usuário
def most_common_interests_with(user):
    return Counter(interested_user_id
                    for interest in interests_by_user_id[user["id"]]
                    for interested_user_id in user_ids_by_interest[interest]
                    if interested_user_id != user["id"])

most_common_interests_with(users[0])

Counter({1: 2, 5: 1, 8: 1, 9: 3})

## Salários e Experiência

O vice-presidente de Relações Públicas pergunta se você pode fornecer alguns fatos curiosos sobre quanto os cientistas de dados recebem.

Ele consegue fornecer um conjunto de dados anônimos contendo o salary (salário) de cada usuário (em dólares) e tenure (experiência) como um cientista de dados (em anos):

In [0]:
salaries_and_tenures = [
    (83000, 8.7), (88000, 8.1),
    (48000, 0.7), (76000, 6),
    (69000, 6.5), (76000, 7.5),
    (60000, 2.5), (83000, 10),
    (48000, 1.9), (63000, 4.2)
]

A primeira ideia é analisar a média salarial para cada ano:

In [0]:
# As chaves são os anos, os valores são as listas dos salários para cada ano
salary_by_tenure = defaultdict(list)

for salary, tenure in salaries_and_tenures:
    salary_by_tenure[tenure].append(salary)
    
# as chaves são os anos, cada valor é a média salarial para aquele ano
average_salary_by_tenure = {
    tenure : sum(salaries) / len(salaries)
    for tenure, salaries in salary_by_tenure.items()
}

In [24]:
average_salary_by_tenure

{0.7: 48000.0,
 1.9: 48000.0,
 2.5: 60000.0,
 4.2: 63000.0,
 6: 76000.0,
 6.5: 69000.0,
 7.5: 76000.0,
 8.1: 88000.0,
 8.7: 83000.0,
 10: 83000.0}

Não é muito útil, já que nenhum dos usuários possui o mesmo caso, o que significa que estamos reportando apenas os salários individuais dos usuários.

Talvez fosse mais proveitoso agrupar os casos:

In [0]:
def tenure_bucket(tenure): # O agrupamento é feito segundo essas condições
    if tenure < 2:
        return "less than two"
    elif tenure < 5:
        return "between two and five"
    else:
        return "more than five"

Juntando os salários correspondentes para cada agrupamento

In [0]:
# as chaves são agrupamentos dos casos, os valores são as listas dos salários para aquele agrupamento
salary_by_tenure_bucket = defaultdict(list)

for salary, tenure in salaries_and_tenures:
    bucket = tenure_bucket(tenure)
    salary_by_tenure_bucket[bucket].append(salary)

Calculando a média salarial para cada grupo

In [0]:
# as chaves são agrupamentos dos casos, os valores são a média salarial para aquele agrupamento
average_salary_by_bucket = {
    tenure_bucket : sum(salaries) / len(salaries)
    for tenure_bucket, salaries in salary_by_tenure_bucket.items()
}

In [29]:
average_salary_by_bucket

{'between two and five': 61500.0,
 'less than two': 48000.0,
 'more than five': 79166.66666666667}

## Contas Pagas

A vice-presidente da Receita quer entender melhor quais são os usuários que pagam por contas e quais que não pagam.

In [0]:
dados = [
    (0.7, "paid"),
    (1.9, "unpaid"),
    (2.5, "paid"),
    (4.2, "unpaid"),
    (6, "unpaid"),
    (6.5, "unpaid"),
    (7.5, "unpaid"),
    (8.1, "unpaid"),
    (8.7, "paid"),
    (10, "paid")
]

Os usuários com poucos e muitos anos de experiência tendem a pagar; os usuários com uma quantidade mediana de experiência não.

Apesar de não haver dados o suficiente para servir de base para um modelo de previsão de pagamento, você tenta prever “paid” para os usuários com poucos e muitos anos de experiência, e “unpaid” para os usuários com quantidade mediana de experiência.

In [0]:
def predict_paid_or_unpaid(years_experience):
    if years_experience < 3.0:
        return "paid"
    elif years_experience < 8.5:
        return "unpaid"
    else:
        return "paid"


In [33]:
predict_paid_or_unpaid(5)

'unpaid'

## Tópicos de Interesse

A vice-presidente da Estratégia de Conteúdo pede dados sobre em quais tópicos os usuários estão mais interessados, para que ela possa planejar o calendário do seu blog de acordo.

Os dados brutos são os mesmos da lista `interest`.

In [36]:
print(interests)

[(0, 'Hadoop'), (0, 'Big Data'), (0, 'HBase'), (0, 'Java'), (0, 'Spark'), (0, 'Storm'), (0, 'Cassandra'), (1, 'NoSQL'), (1, 'MongoDB'), (1, 'Cassandra'), (1, 'HBase'), (1, 'Postgres'), (2, 'Python'), (2, 'scikit-learn'), (2, 'scipy'), (2, 'numpy'), (2, 'statsmodels'), (2, 'pandas'), (3, 'R'), (3, 'Python'), (3, 'statistics'), (3, 'regression'), (3, 'probability'), (4, 'machine learning'), (4, 'regression'), (4, 'decision trees'), (4, 'libsvm'), (5, 'Python'), (5, 'R'), (5, 'Java'), (5, 'C++'), (5, 'Haskell'), (5, 'programming languages'), (6, 'statistics'), (6, 'probability'), (6, 'mathematics'), (6, 'theory'), (7, 'machine learning'), (7, 'scikit-learn'), (7, 'Mahout'), (7, 'neural networks'), (8, 'neural networks'), (8, 'deep learning'), (8, 'Big Data'), (8, 'artificial intelligence'), (9, 'Hadoop'), (9, 'Java'), (9, 'MapReduce'), (9, 'Big Data')]


Uma simples forma (e também fascinante) de encontrar os interesses mais populares é fazer uma simples contagem de palavras:

- Coloque cada um em letras minúsculas (já que usuários diferentes podem ou não escrever seus interesses em letras maiúsculas).
- Divida em palavras.
- Conte os resultados.

In [0]:
words_and_counts = Counter(word 
                           for user, interest in interests 
                           for word in interest.lower().split())

In [38]:
for word, count in words_and_counts.most_common():
    if count > 1:
        print (word, count)

big 3
data 3
java 3
python 3
learning 3
hadoop 2
hbase 2
cassandra 2
scikit-learn 2
r 2
statistics 2
regression 2
probability 2
machine 2
neural 2
networks 2


Fim do primeiro dia de trabalho!