In [32]:
#Ex2: Cientistas de dados que você talvez conheça
#1 Criando o dict de usuários
users = [{'id': 0, 'name': 'Hero'},
        {'id': 1, 'name': 'Dunn'},
        {'id': 2, 'name': 'Sue'},
        {'id': 3, 'name': 'Chi'},
        {'id': 4, 'name': 'Thor'},
        {'id': 5, 'name': 'Clive'},
        {'id': 6, 'name': 'Hicks'},
        {'id': 7, 'name': 'Devin'},
        {'id': 8, 'name': 'Kate'},
        {'id': 9, 'name': 'Klein'}]

In [33]:
#2 Criando o grafo que representa os links de amizades
friendship_pairs = [(0,1), (0,2), (1,2), (1,3), (2,3), (3,4),
                   (4,5), (5,6), (5,7), (6,8), (7,8), (8,9)]

In [34]:
#3 Inicialize o dict com uma lista vazia para cada id de usuário:
friendships = {user['id']: [] for user in users}

#Em seguida, execute um loop pelos pares de amigos para preenche-a:
for i,j in friendship_pairs:
    friendships[i].append(j) #adicione j como amigo do usário i
    friendships[j].append(i) #adicione i como amigo do usuário j

In [35]:
#4 Agora que colocamos as amizades em um dict, podemos facilmente fazer perguntas
#ao nosso grafo, como "qual o numero médio de conexões?"

#Primeiro, determinamos o numero total de conexões, somando os tamanos de todas as 
#listas de friends:
def number_of_friends(user):
    """Quantos amigos tem o _user_?"""
    user_id = user['id']
    friends_ids = friendships[user_id]
    return(len(friends_ids))

total_connections = sum(number_of_friends(user) for user in users)

total_connections

24

In [36]:
#5 Em seguida, basta dividir pelo numero de usuários
num_users = len(users)
avg_connections = total_connections/num_users

avg_connections

2.4

In [37]:
#6 Também é fácil encontrar as pessoas mais conectadas, ou seja, aquelas que possuem
#o maior numero de amigos
#começamos por criar uma lista (user_id, number_of_friends)
num_friends_by_id = [(user['id'], number_of_friends(user)) for user in users]

num_friends_by_id.sort(key=lambda id_and_friends: id_and_friends[1],
                      reverse=True)

num_friends_by_id

[(1, 3),
 (2, 3),
 (3, 3),
 (5, 3),
 (8, 3),
 (0, 2),
 (4, 2),
 (6, 2),
 (7, 2),
 (9, 1)]

In [38]:
#7 Código para iterar os amigos e coletar os amigos dos amigos
def foaf_ids_bad(user):
    """foaf significa friend of a friend"""
    return [foaf_id for friend_id in friendships[user['id']]
           for foaf_id in friendships[friend_id]]

print(friendships[0])
print(friendships[1])
print(friendships[2])

[1, 2]
[0, 2, 3]
[0, 1, 3]


In [39]:
#8 Vamos gerar uma contagem de amigos em comum, porém excluindo as pessoas que o usuário já conhece
from collections import Counter

def friends_of_friends(user):
    user_id = user['id']
    return Counter(
            foaf_id
            for friend_id in friendships[user_id]         #para cada amigo meu
            for foaf_id in friendships[friend_id]         #encontre os amigos dele
            if foaf_id != user_id                         #que não sejam eu
            and foaf_id not in friendships[user_id]       #e não sejam meus amigos
    )

print(friends_of_friends(users[3]))

Counter({0: 2, 5: 1})


In [40]:
#9 Como cientista de dados, talvez você queira encontra usuários como interesses em comum
#  com efeito, para medir isso, você recebe os seguintes dados:
interests = [(0, 'Hadoop'), (0, 'Big Data'), (0, 'HBase'), (0, 'Java'),
             (0, 'Spark'), (0, 'Storm'), (0, 'Cassandra'),
             (1, 'NoSQL'), (1, 'MongoDB'), (1, 'Cassandra'), (1, 'HBase'),
              (1, 'Postgres'), (2, 'Python'), (2, 'scikit-learn'), (2, 'scipy'),
              (2, 'numpy'), (2, 'statsmodels'), (2, 'pandas'), (3, 'R'), (3, 'Python'),
              (3, 'statistics'), (3, 'regression'), (3, 'probability'),
              (4, 'machine learning'), (4, 'regression'), (4, 'decision trees'),
              (4, 'libsvm'), (5, 'Python'), (5, 'R'), (5, 'Java'), (5, 'C++'),
              (5, 'Haskell'), (5, 'programming languages'), (6, 'statistics'),
              (6, 'probability'), (6, 'mathematics'), (6, 'theory'),
              (7, 'machine learning'), (7, 'scikit-learn'), (7, 'Mahout'),
              (7, 'neural networks'), (8, 'neural networks'), (8, 'deep learning'),
              (8, 'Big Data'), (8, 'artifical intelligence'), (9, 'Hadoop'),
              (9, 'Java'), (9, 'MapReduce'), (9, 'Big Data')]

In [41]:
#10 Construindo a função que dá os usuários com o mesmo interesse
def data_scientists_who_like(target_interest):
    """encontre os ids dos usuários com os mesmos gostos"""
    return[user_id
          for user_id, user_interest in interests
          if user_interest == target_interest]

data_scientists_who_like('Big Data')

[0, 8, 9]

In [42]:
#11 Quando há muitos usuários e interesses, é melhor construir um índice de interesses para os
#   usuários
from collections import defaultdict

#As chaves são interesses, os valroes são listas de user_ids com interesse em questão

user_ids_by_interest = defaultdict(list)

for user_id, interest in interests:
    user_ids_by_interest[interest].append(user_id)
    
#Temos que criar outro índice também, pros interesses

interests_by_user_id = defaultdict(list)

for user_id, interest in interests:
    interests_by_user_id[user_id].append(interest)
    
    

In [46]:
#12 Agora é fácil determinar quem tem mais interesses em comum, com um usuário específico
#Basta rodar o código, a seguir:
def most_common_interests_with(user):
    return Counter(
        interested_user_id
        for interest in interests_by_user_id[user['id']]
        for interested_user_id in user_ids_by_interest[interest]
        if interested_user_id != user['id'])

In [52]:
user_ids_by_interest

defaultdict(list,
            {'Hadoop': [0, 9],
             'Big Data': [0, 8, 9],
             'HBase': [0, 1],
             'Java': [0, 5, 9],
             'Spark': [0],
             'Storm': [0],
             'Cassandra': [0, 1],
             'NoSQL': [1],
             'MongoDB': [1],
             'Postgres': [1],
             'Python': [2, 3, 5],
             'scikit-learn': [2, 7],
             'scipy': [2],
             'numpy': [2],
             'statsmodels': [2],
             'pandas': [2],
             'R': [3, 5],
             'statistics': [3, 6],
             'regression': [3, 4],
             'probability': [3, 6],
             'machine learning': [4, 7],
             'decision trees': [4],
             'libsvm': [4],
             'C++': [5],
             'Haskell': [5],
             'programming languages': [5],
             'mathematics': [6],
             'theory': [6],
             'Mahout': [7],
             'neural networks': [7, 8],
             'deep learning': 

In [53]:
interests_by_user_id

defaultdict(list,
            {0: ['Hadoop',
              'Big Data',
              'HBase',
              'Java',
              'Spark',
              'Storm',
              'Cassandra'],
             1: ['NoSQL', 'MongoDB', 'Cassandra', 'HBase', 'Postgres'],
             2: ['Python',
              'scikit-learn',
              'scipy',
              'numpy',
              'statsmodels',
              'pandas'],
             3: ['R', 'Python', 'statistics', 'regression', 'probability'],
             4: ['machine learning', 'regression', 'decision trees', 'libsvm'],
             5: ['Python',
              'R',
              'Java',
              'C++',
              'Haskell',
              'programming languages'],
             6: ['statistics', 'probability', 'mathematics', 'theory'],
             7: ['machine learning',
              'scikit-learn',
              'Mahout',
              'neural networks'],
             8: ['neural networks',
              'deep learning',
       

TypeError: most_common_interests_with() takes 1 positional argument but 2 were given