# Capítulo 01 - Introdução

> O cientista de dados é aquele que extrai conhecimento de dados desorganizados.

## Motivação hipotética: *DataSciencester*

> página 3

**Objetivo**: Identificar os "conectores-chave" entre os cientistas de dados e, para isso, lhe dá um `data dump` da rede DataSciencester

**data dump:** Lista em que cada usuário é representado por um `dict` que contém o seu `id` e seu `name`


In [23]:
users = [
    {'id': 0, 'name': 'Hero'},
    {'id': 1, 'name': 'Dunn'},
    {'id': 2, 'name': 'Sue'},
    {'id': 3, 'name': 'Chi'},
    {'id': 4, 'name': 'Thor'},
    {'id': 5, 'name': 'Clive'},
    {'id': 6, 'name': 'Hicks'},
    {'id': 7, 'name': 'Devin'},
    {'id': 8, 'name': 'Kate'},
    {'id': 9, 'name': 'Klein'},
]

Os dados de amizades estão reunidos em uma lista de pares de ID:

In [24]:
friendship_pairs = [(0,1),(0,2), # Hero é amigo de Dunn e Sue
                    (1,2),(1,3), # Dunn é amigo de Sue e Chi
                    (2,3),       # Sue é amiga de Chi
                    (3,4),       # ... e assim por diante
                    (4,5),
                    (5,6),(5,7),
                    (6,8),
                    (7,8),
                    (8,9)
                    ]

In [25]:
friendship_pairs

[(0, 1),
 (0, 2),
 (1, 2),
 (1, 3),
 (2, 3),
 (3, 4),
 (4, 5),
 (5, 6),
 (5, 7),
 (6, 8),
 (7, 8),
 (8, 9)]

Representar  as amizades por lista de pares não é muito eficiente. Para encontrar todas as amizades do usuário 1, você precisa iterar todos os pares em busca dos que contém o 1.

É melhor usar um `dict`.

In [26]:
# inicialize o dict com uma lista vazia para cada id de usuário:

friendships = {user['id']: [] for user in users}

# em seguida, execute um loop pelos pares de amigos para preenchê-la:

for i, j in friendship_pairs:
    friendships[i].append(j) # adicione j como amigo do usuário i
    friendships[j].append(i) # adicione i como amigo do usuário j

- Total de conexão:

In [27]:
def number_of_friends(user):
    """calcula quantos amigos tem o _user_

    Args:
        user (dict): dicionário do usuário
    """
    user_id = user['id']
    friend_ids = friendship[user_id]
    return len(friend_ids)

In [28]:
total_connections = sum(number_of_friends(user)
                        for user in users)

In [29]:
print(f'Total de conexões: {total_connections}.')

Total de conexões: 24.


- media de conexões

In [30]:
num_users = len(users)
avg_connection = total_connections / num_users

In [31]:
print(f'Média de conexões: {avg_connection}.')

Média de conexões: 2.4.


- as pessoas mais conectadas (as que possuem o maior número de amigos):

Como o número de usuários não é muito grande, podemos colocá-los em ordem decrescente, dos que têm 'mais amigos' para os que têm 'menos amigos':

In [32]:
# crie uma lista (user_id, number_of_friends).
num_friends_by_id = [(user['id'], number_of_friends(user))
                     for user in users]

In [33]:
num_friends_by_id.sort(
    key = lambda id_and_friends: id_and_friends[1],
    reverse = True)

In [34]:
print('id, qtd amigos')
num_friends_by_id

id, qtd amigos


[(1, 3),
 (2, 3),
 (3, 3),
 (5, 3),
 (8, 3),
 (0, 2),
 (4, 2),
 (6, 2),
 (7, 2),
 (9, 1)]

### Cientistas de dados que você talvez conheça

In [35]:
def foaf_ids_bad(user):
    """foaf significa 'friend of a friend'

    Args:
        user (_type_): Usuário da rede social de data science
    """
    return [foaf_id 
            for friend_id in friendships[user['id']]
            for foaf_id in friendships[friend_id]]

In [37]:
print('Amigos de Hero')
foaf_ids_bad(users[0])


Amigos de Hero


[0, 2, 3, 0, 1, 3]

Contagem de amigos em comum, excluindo as pessoas que o usuário já conhece

In [2]:
# ! pip install Counter
from collections import Counter

In [45]:
def friends_of_friends(user):
    """Contagem de amigos em comum

    Args:
        user (_type_): usuário da rede social
    """
    user_id = user['id']
    return Counter(
        foaf_id
        for friend_id in friendships[user_id]   # para cada amigo meu,
        for foaf_id in  friendships[friend_id]  # encontre os amigos deles
        if foaf_id != user_id                   # que não sejam eu
        and foaf_id not in friendships[user_id] # e não sejam meus amigos
    )

In [47]:
print(friends_of_friends(users[3]))

Counter({0: 2, 5: 1})


Chi possui dois amigos em comum com Hero e um amigo em comum com Clive

In [50]:
interests =[
    (0,'Hadoop'), (0,'Big Data'),(0,'HBase'),(0,'Java'),
    (0,'Spark'), (0,'Storm'),(0,'Cassandra'), 
    (1,'NoSQL'), (1,'MongoDB'),(1, 'Cassandra'),(1, 'HBase'),
    (1,'Postgres'), (2, 'Python'), (1, 'Cassandra'), (1, 'HBase'),
    (1, 'Postgres'), (2, 'Python'), (2, 'scikit-learn'), (2, 'scipy'),
    (2,'numpy'),(2,'statsmodels'),(2,'pandas'),(3, 'R'), (3, 'Python'),
    (3,'statistics'),(3, 'regression'), (3, 'probability'),
    (4, 'machine learning'), (4, 'regression'), (4, 'decision trees'),
    (4,'libsvn'),(5, 'Python'),(5, 'R'), (5,'Java'),(5, 'C++'),
    (5,'Haskell'),(5,'programming languages'),(6,'statistics'),
    (6, 'probability'), (6, 'mathematics'), (6,'theory'),
    (7,'machine learning'),(7,'scikit-learn'),(7,'Mahout'),
    (7, 'neural networks'),(8,'neural networks'), (8, 'deep learning'),
    (8, 'Big Data'), (8, 'artificial intelligence'), (9, 'Hadoop'),
    (9,'Java'), (9,'MapReduce'), (9, 'Big Data')]

função para encontrar amigos por interesse em comum

In [3]:
def data_scientists_who_like(target_interest):
    """
    encontre os ids dos usuários com interesse em comum
    Args:
        target_interest (_type_): interesse do usuário
    """
    return [user_id 
            for user_id, user_interest in interests
            if user_interest == target_interest]

a função precisa examinar a lista de interesses inteira a cada busca, o que não é otimizado

Salários e Experiências

In [4]:
from collections import defaultdict

In [11]:
salaries_and_tenures  = [(83000, 8.7), (88000, 8.1),
                         (48000, 0.7), (76000, 6),
                         (69000, 6.5), (83000, 7.5),
                         (60000, 2.5), (83000, 10),
                         (48000, 1.9), (63000, 4.2)]

In [12]:
# as chaves são anos, os valores são listas de salários por anos de experiência

salary_by_tenure = defaultdict(list)

for salary, tenure in salaries_and_tenures:
    salary_by_tenure[tenure].append(salary)

In [13]:
# as chaves são anos, cada valor é o salário médio associado ao numero de anos de exp

average_salary_by_tenure = {
    tenure: sum(salaries)/len(salaries)

    for tenure, salaries in salary_by_tenure.items()
}

In [14]:
def tenure_bucket(ternure):
    if tenure < 2:
        return "less than two"
    elif tenure < 5:
        return "between two and five"
    else:
        return "more than five"

In [15]:
# agrupando os salarios nos grupos
# As chaves são buckets de anos de experiência, os valores são as listas de salários associadas ao bucket em questão.
salary_by_tenure_bucket = defaultdict(list)

for salary, tenure in salaries_and_ternures:
    bucket = tenure_bucket(tenure)
    salary_by_tenure_bucket[bucket].append(salary)


In [17]:
# E, finalmente, computamos a média salarial de cada grupo:
# As chaves são buckets de anos de experiência, os valores são a média salarial do bucket em questão.
average_salary_by_bucket = {
    tenure_bucket: sum(salaries) / len(salaries)
    for tenure_bucket, salaries in salary_by_tenure_bucket.items()
}

In [18]:
average_salary_by_bucket

{'more than five': 80333.33333333333,
 'less than two': 48000.0,
 'between two and five': 61500.0}

### tópicos de interesse