# Recomendando amigos

### Construindo database

In [123]:
"""
Informações de usuários

Representação: id, nome


"""

users = [
    {"id": 0, "name": "João"},
    {"id": 1, "name": "Pedro"},
    {"id": 2, "name": "Arthur"},
    {"id": 3, "name": "Clara"},
    {"id": 4, "name": "Roberto"},
    {"id": 5, "name": "Júlia"},
    {"id": 6, "name": "Amanda"},
    {"id": 7, "name": "André"},
    {"id": 8, "name": "Eduardo"},
    {"id": 9, "name": "Rafael"},
]

"""
Rede de relacionamentos

Aqui cada par é um relacionamento entre dois usuários representados através de ids

(0, 1) -> João é amigo de Pedro [Relacionamento bi-direcional]

"""

friendship = [(0, 1), (0, 2), (1, 2), (1, 3), (2, 3), (3, 4),
              (4, 5), (5, 6), (5, 7), (6, 8), (7, 8), (8, 9)]


"""
Rede de interesse

Representação: id, interesse

"""

interests = [
    (0, "Hadoop"), (0, "Big Data"), (0, "HBase"), (0, "Java"),
    (0, "Spark"), (0, "Storm"), (0, "Cassandra"),
    (1, "NoSQL"), (1, "MongoDB"), (1, "Cassandra"), (1, "HBase"),
    (1, "Postgres"), (2, "Python"), (2, "scikit-learn"), (2, "scipy"),
    (2, "numpy"), (2, "statsmodels"), (2, "pandas"), (3, "R"), (3, "Python"),
    (3, "statistics"), (3, "regression"), (3, "probability"),
    (4, "machine learning"), (4, "regression"), (4, "decision trees"),
    (4, "libsvm"), (5, "Python"), (5, "R"), (5, "Java"), (5, "C++"),
    (5, "Haskell"), (5, "programming languages"), (6, "statistics"),
    (6, "probability"), (6, "mathematics"), (6, "theory"),
    (7, "machine learning"), (7, "scikit-learn"), (7, "Mahout"),
    (7, "neural networks"), (8, "neural networks"), (8, "deep learning"),
    (8, "Big Data"), (8, "artificial intelligence"), (9, "Hadoop"),
    (9, "Java"), (9, "MapReduce"), (9, "Big Data")
]

"""
Salário anual por tempo trabalhado

Representação: salário, tempo trabalhado (anos)

"""

salaries_and_tenures = [
    (83000, 8.7), (88000, 8.1),
    (48000, 0.7), (76000, 6),
    (69000, 6.5), (76000, 7.5),
    (60000, 2.5), (83000, 10),
    (48000, 1.9), (63000, 4.2)
                        ]

"""
Situação financeira (Contas em dias)

Representação: tempo trabalhado, situação das contas

"""

paid_bills = {
    0.7: "paid",
    1.9: "unpaid",
    2.5: "paid",
    4.2: "unpaid",
    6: "unpaid",
    6.5: "unpaid",
    7.5: "unpaid",
    8.1: "unpaid",
    8.7: "paid",
    10: "paid"
              }

### Adicionar rede de amigos na estrutura de usuários (user)

In [124]:
# Criar chave amigos na estrutura de usuários
for user in users:
    user['friends'] = []

In [125]:
# Preencher amigos de cada usuário (Relação bi-direcional)
for i, j in friendship:
    
    users[i]['friends'].append(users[j]['id'])
    users[j]['friends'].append(users[i]['id'])

### Descobrir número médio de amizades da base

In [126]:
import numpy as np

# Função para contar quantos amigos
def number_of_friends(user):
    # Retornar o comprimento da lista de amigos
    return len(user["friends"])

count_connections = [number_of_friends(user) for user in users]
total_connections = sum(count_connections)
print("Total de conexões:: %d" % total_connections)

num_users = len(users)
avg_connections = total_connections / num_users

"""
Média e Desvio Padrão

Em estatística, média é definida como o valor que mostra para onde se concentram os dados de 
uma distribuição como o ponto de equilíbrio das frequências em um histograma. Média também é 
interpretada como um valor significativo de uma lista de números.

Em probabilidade, o desvio padrão ou desvio padrão populacional
é uma medida de dispersão em torno da média populacional de uma variável aleatória.

Quanto menor o desvio padrão mais homogênea é a amostra

"""

print("Média de conexões:: %.2f" % avg_connections)
print("Desvio Padrão das conexões:: %f" % np.std(count_connections))

Total de conexões:: 24
Média de conexões:: 2.40
Desvio Padrão das conexões:: 0.663325


### Quem tem mais amigos na base

In [127]:
print(users[0])

{'id': 0, 'name': 'João', 'friends': [1, 2]}


In [128]:
# Utiliza função da cell anterior
num_friends_by_id = [(user["id"], number_of_friends(user)) for user in users]
# Saida -> par (usuário, numero de amigos)
print("Mais amigos sorteados:: ", sorted(num_friends_by_id, key=lambda num_friends: num_friends[1], reverse=True))


Mais amigos sorteados::  [(1, 3), (2, 3), (3, 3), (5, 3), (8, 3), (0, 2), (4, 2), (6, 2), (7, 2), (9, 1)]


### Amigos de amigos (Pessoas que você deve conhecer)

In [129]:
def friends_of_friend_ids_bad(user):
    # foaf = friend of a friend
    return [foaf for friend in user['friends'] for foaf in users[friend]['friends']]


print("Amigos de Amigos:: ")
print("Resultado para %s:: %s " % (users[0]['name'], friends_of_friend_ids_bad(users[0])))

Amigos de Amigos:: 
Resultado para João:: [0, 2, 3, 0, 1, 3] 


# Problema?

In [130]:
from collections import Counter
import numpy as np

def not_the_same(user, other_user):
    return user['id'] != other_user['id']


def not_friends(user, other_user):
    return all(not_the_same(users[friend], other_user) for friend in user['friends'])


def friends_of_friend_ids(user):
    return [foaf for friend in user['friends'] for foaf in users[friend]['friends']
                   if not_the_same(user, users[foaf]) and not_friends(user, users[foaf])]
#     return Counter(foaf for friend in user['friends'] for foaf in users[friend]['friends']
#                    if not_the_same(user, users[foaf]) and not_friends(user, users[foaf]))


# Recommend 3 because they have 2 friends in common
print("Resultado para %s:: %s " % (users[0]['name'], np.unique(friends_of_friend_ids(users[0]))))

Resultado para João:: [3] 


### Dois usuários com o mesmo interesse

In [131]:
from collections import defaultdict

def data_scientists_who_like(target_interest):
    return [user_id for user_id, user_interest in interests if user_interest == target_interest]


user_ids_by_interest = defaultdict(list)
interest_by_user_id = defaultdict(list)
unique_interest = set()

for user_id, interest in interests:
    user_ids_by_interest[interest].append(user_id)
    interest_by_user_id[user_id].append(interest)
    unique_interest.add(interest)

# Ordena em ordem alfabética
unique_interest = sorted(list(unique_interest))

### Recomendar o que é popular

In [135]:
from collections import Counter

popular_interests = Counter(interest for user in users for interest in interest_by_user_id[user['id']]) 

def most_popular_new_interests(user_interests, max_results=5):
    recommendations = [
        (interest, frequency)
        for interest, frquency in popular_interests
        for interest not in user_interests
                      ]

most_popular_new_interests()

Counter({'Big Data': 3, 'Java': 3, 'Python': 3, 'Hadoop': 2, 'HBase': 2, 'Cassandra': 2, 'scikit-learn': 2, 'R': 2, 'statistics': 2, 'regression': 2, 'probability': 2, 'machine learning': 2, 'neural networks': 2, 'Spark': 1, 'Storm': 1, 'NoSQL': 1, 'MongoDB': 1, 'Postgres': 1, 'scipy': 1, 'numpy': 1, 'statsmodels': 1, 'pandas': 1, 'decision trees': 1, 'libsvm': 1, 'C++': 1, 'Haskell': 1, 'programming languages': 1, 'mathematics': 1, 'theory': 1, 'Mahout': 1, 'deep learning': 1, 'artificial intelligence': 1, 'MapReduce': 1})
