# Encontrando Conectores-Chave

### Task:
* Identificar "Conectores-Chave" entre os usuários.
  
"Recebi um Data Dump (nesse caso será uma lista), composto por uma lista onde cada usuário é representado por um ```dict```, que contém o seu ```id``` (um número) e seu ```name``` (nomes gerados aleatoriamente). Além disso, também recebi dados de ```"amizades"``` que estão dispostos em uma lista de pares de ID's."

In [2]:
usuarios = [

    {"id": 0, "name": "Felipe"},
    {"id": 1, "name": "Bruno"},
    {"id": 2, "name": "Ana"},
    {"id": 3, "name": "Daniel"},
    {"id": 4, "name": "Henrique"},
    {"id": 5, "name": "Eliana"},
    {"id": 6, "name": "Isabel"},
    {"id": 7, "name": "Gabriela"},
    {"id": 8, "name": "Carla"},
    {"id": 9, "name": "Jorge"},

]

pares_de_amizades = [

    (0, 1), (0, 2), (1, 2), (1, 3), (2, 3), (3, 4),
    (4, 5), (5, 6), (5, 7), (6, 8), (7, 8), (8, 9)

]


In [3]:
amizades = {usuario["id"]: [] for usuario in usuarios}
for i,j in pares_de_amizades:
    
    amizades[i].append(j)

    amizades[j].append(i)
    

In [4]:
def numero_de_amigos(usuario):

    """Quantos amigos tem o _usuario_?"""

    id_usuario = usuario["id"]

    id_amigos = amizades[id_usuario]

    return len(id_amigos)

conexoes_totais = sum(numero_de_amigos(usuario) for usuario in usuarios)

numero_de_usuarios = len(usuarios)

media_de_conexoes = conexoes_totais / numero_de_usuarios

print(conexoes_totais, numero_de_usuarios, media_de_conexoes)


24 10 2.4


In [5]:
numero_amigos_por_id = [
    
    (usuario["id"], numero_de_amigos(usuario)) for usuario in usuarios
    
]

numero_amigos_por_id.sort(key = lambda id_amigos: id_amigos[1], reverse = True)


In [6]:
def amigo_de_amigo_ids(usuario):

    return [amigo_de_amigo_id 
            
            for id_amigos in amizades[usuario["id"]]

            for amigo_de_amigo_id in amizades[id_amigos]
            
]

print(amigo_de_amigo_ids(usuarios[0]))


[0, 2, 3, 0, 1, 3]


In [7]:
from collections import Counter

def amigos_de_amigos(usuario):

    id_usuario = usuario["id"]

    return Counter(

        amigo_de_amigo_id 

        for id_amigos in amizades[id_usuario]

            for amigo_de_amigo_id in amizades[id_amigos]
            
                if amigo_de_amigo_id != id_usuario and amigo_de_amigo_id not in amizades[id_usuario]

    )

print(amigos_de_amigos(usuarios[3]))

Counter({0: 2, 5: 1})


### E se tentarmos encontrar os cientistas de dados com os mesmos interesses?

In [8]:
interesses = [

    (0, "Hadoop"), (0, "Big Data"), (0, "HBase"), (0, "Java"),
    (0, "Spark"), (0, "Storm"), (0, "Cassandra"),
    (1, "NoSQL"), (1, "MongoDB"), (1, "Cassandra"), (1, "HBase"),
    (1, "Postgres"), (2, "Python"), (2, "scikit-learn"), (2, "scipy"),
    (2, "numpy"), (2, "statsmodels"), (2, "pandas"), (3, "R"), (3, "Python"),
    (3, "statistics"), (3, "regression"), (3, "probability"),
    (4, "machine learning"), (4, "regression"), (4, "decision trees"),
    (4, "libsvm"), (5, "Python"), (5, "R"), (5, "Java"), (5, "C++"),
    (5, "Haskell"), (5, "programming languages"), (6, "statistics"),
    (6, "probability"), (6, "mathematics"), (6, "theory"),
    (7, "machine learning"), (7, "scikit-learn"), (7, "Mahout"),
    (7, "neural networks"), (8, "neural networks"), (8, "deep learning"),
    (8, "Big Data"), (8, "artificial intelligence"), (9, "Hadoop"),
    (9, "Java"), (9, "MapReduce"), (9, "Big Data")
    
]


In [9]:
def mesmos_interesses (target_interesse):

    """Encontre os ids dos usuários com o mesmo interesse"""

    return [id_usuario for id_usuario, interesse_usuario in interesses
            if interesse_usuario == target_interesse]

print(mesmos_interesses("Big Data"))

[0, 8, 9]


### A maneira acima até consegue satisfazer a comanda de "encontrar os cientistas de dados com os mesmos interesses", mas o fato de ela ter que examinar a lista inteira toda vez que for executada não é muito performático. Então para melhorar esse quesito podemos construir um índice de interesses dos usuários.

In [10]:
from collections import defaultdict

ids_usuario_por_interesse = defaultdict(list)

for id_usuario, interesse in interesses:

    ids_usuario_por_interesse[interesse].append(id_usuario)


In [11]:
from collections import defaultdict

interesses_por_id_usuario = defaultdict(list)

for id_usuario, interesse in interesses:

    interesses_por_id_usuario[id_usuario].append(interesse)


In [12]:
def interesse_em_comum(usuario):

    return Counter(
        id_usuario_interessado
        for interesse in interesses_por_id_usuario[usuario["id"]]
            for id_usuario_interessado in ids_usuario_por_interesse[interesse]
                if id_usuario_interessado != usuario["id"]
    )

print(interesse_em_comum(usuarios[5]))

Counter({3: 2, 2: 1, 0: 1, 9: 1})


### Vamos imaginar uma situação hipotética onde nos é oferecido um conjunto de dados anônimos contendo o `salary` (salário de cada usuário, em doláres, anual) e o `tenure` (a experiência como cientista de dados, em anos):

In [13]:
salarios_e_exps = [(83000, 8.7), (88000, 8.1),
                (48000, 0.7), (76000, 6),
                (69000, 6.5), (76000, 7.5),
                (60000, 2.5), (83000, 10),
                (48000, 1.9), (63000, 4.2)]


In [17]:
salario_por_exp = defaultdict(list)

for salario, exp in salarios_e_exps:
    salario_por_exp[exp].append(salario)

print(salario_por_exp)

defaultdict(<class 'list'>, {8.7: [83000], 8.1: [88000], 0.7: [48000], 6: [76000], 6.5: [69000], 7.5: [76000], 2.5: [60000], 10: [83000], 1.9: [48000], 4.2: [63000]})


In [24]:
media_salario_por_exp = {

 exp : sum(salarios) / len(salarios)

 for exp, salarios in salario_por_exp.items()

}
print(media_salario_por_exp)


{8.7: 83000.0, 8.1: 88000.0, 0.7: 48000.0, 6: 76000.0, 6.5: 69000.0, 7.5: 76000.0, 2.5: 60000.0, 10: 83000.0, 1.9: 48000.0, 4.2: 63000.0}
