# 데이텀 주식회사

## 1. 핵심인물찾기

In [1]:
# dict 형태로 구성된 사용자 명단
users = [
    { "id": 0, "name": "Hero" },
    { "id": 1, "name": "Dunn" },
    { "id": 2, "name": "Sue" },
    { "id": 3, "name": "Chi" },
    { "id": 4, "name": "Thor" },
    { "id": 5, "name": "Clive" },
    { "id": 6, "name": "Hicks" },
    { "id": 7, "name": "Devin" },
    { "id": 8, "name": "Kate" },
    { "id": 0, "name": "Klein" }
]

In [2]:
# id쌍으로 구성된 친구 관계 데이터 friendship
friendships = [(0,1), (0,2), (1,2), (1,3), (2,3), (3,4), (4,5), (5,6), (5,7), (6,8), (7,8), (8,9)]

In [3]:
# 각 사용자 데이터에 해당 사용자의 친구목록을 추가
# 각 사용자의 friends 속성에 빈 list 할당
for user in users:
    user["friends"] = []

In [4]:
# friendships 데이터를 이용해 각 list에 값을채워넣는다
for i, j in friendships:
    users[i]["friends"].append(users[j])
    users[j]["friends"].append(users[i])

In [5]:
# 네트워크 상에서 각 사용자의 평균 연결 수는 몇인가? 와 같은 질문에 답할수 있게됨
# friends list 의 길이를 더해서 총 연결수를 구해보자

def number_of_friends(user):
    return len(user["friends"])

total_connections = sum(number_of_friends(user) for user in users)

In [6]:
total_connections

24

In [7]:
from __future__ import division
num_users = len(users)
avg_connections = total_connections/ num_users
avg_connections

2.4

In [8]:
# 연결 수가 가장 많은 사람 -> 제일 적은사람 순으로 정렬

# (user_id, number_of_friends)로 구성된 list 생성
num_friends_by_id = [(user["id"], number_of_friends(user)) for user in users]
num_friends_by_id

[(0, 2),
 (1, 3),
 (2, 3),
 (3, 3),
 (4, 2),
 (5, 3),
 (6, 2),
 (7, 2),
 (8, 3),
 (0, 1)]

In [14]:
sorted(num_friends_by_id, key=lambda (user_id, num_friends):num_friends, reverse=True)

[(1, 3),
 (2, 3),
 (3, 3),
 (5, 3),
 (8, 3),
 (0, 2),
 (4, 2),
 (6, 2),
 (7, 2),
 (0, 1)]

## 2. 데이터 과학자 추천하기

In [15]:
def friends_of_friend_ids_bad(user):
    return [foaf["id"] for friend in user["friends"] for foaf in friend["friends"]]

In [16]:
friends_of_friend_ids_bad(users[0])
# 사용자 자신(0)과 사용자0과 친구인 사용자1과 사용자2도 포함되어있는걸 볼 수 있음

[0, 2, 3, 0, 1, 3]

In [17]:
# mutual friend 세알려보자
from collections import Counter

def not_the_same(user, other_user):
    return user["id"] != other_user["id"]

def not_friends(user, other_user):
    return all(not_the_same(friend, other_user) for friend in user["friends"])

def frineds_of_friend_ids(user):
    return Counter(foaf["id"] 
                    for friend in user["friends"]
                   for foaf in friend["friends"]
                   if not_the_same(user, foaf)  #사용자 자신제외
                   and not_friends(user, foaf)) # 사용자의 친구는 제외

In [18]:
print frineds_of_friend_ids(users[3])

Counter({0: 2, 5: 1})


## 비슷한 관심사를 가진 사람을 소개 받으면 더 좋을것 같다!

In [19]:
interests = [
    (0, "Hadoop"), (0, "Big Data"), (0, "HBase"), (0, "Java"),
    (0, "Spark"), (0, "Storm"), (0, "Cassandra"),
    (1, "NoSQL"), (1, "MongoDB"), (1, "Cassandra"), (1, "HBase"),
    (1, "Postgres"), (2, "Python"), (2, "scikit-learn"), (2, "scipy"),
    (2, "numpy"), (2, "statsmodels"), (2, "pandas"), (3, "R"), (3, "Python"),
    (3, "statistics"), (3, "regression"), (3, "probability"),
    (4, "machine learning"), (4, "regression"), (4, "decision trees"),
    (4, "libsvm"), (5, "Python"), (5, "R"), (5, "Java"), (5, "C++"),
    (5, "Haskell"), (5, "programming languages"), (6, "statistics"),
    (6, "probability"), (6, "mathematics"), (6, "theory"),
    (7, "machine learning"), (7, "scikit-learn"), (7, "Mahout"),
    (7, "neural networks"), (8, "neural networks"), (8, "deep learning"),
    (8, "Big Data"), (8, "artificial intelligence"), (9, "Hadoop"),
    (9, "Java"), (9, "MapReduce"), (9, "Big Data")
]

In [42]:
# 특정 관심사를 공유하는 사용자들을 찾아 주는 함수를 만들자
def data_scientists_who_like(target_interest):
    return [user_id
            for user_id, user_interest in interests
            if user_interest == target_interest]

In [43]:
# 위 코드는 호출할때마다 관심사 데이터를 매번 처음부터 끝까지 훑어야 한다는 단점이 있음
# 사용자 수가 많고 그들의 관ㄴ심사가 만으면 각 관심사에 대한 사용자 인덱스를 만드는것이 나음

from collections import defaultdict

user_ids_by_interest = defaultdict(list)

for user_id, interest in interests:
    user_ids_by_interest[interest].append(user_id)

In [44]:
# 더불어 각 사용자에 대한 관심사 인덱스도 만들자
user_ids_by_interest = defaultdict(list)

for user_id, interest in interests:
    user_ids_by_interest[interest].append(user_id)

In [45]:
# 유사한 관심사를 가진 사람 알아보기
# 해당 사용자들의 관심사를 훑는다 -> 각 관심사를 가진 다른 사용자들이 누군지 찾는다 -> 다른 사용자들이 몇번이나 등장했는지 센다

def most_common_interests_with(user):
    return Counter(
        interested_user_id
        for interest in interests_by_user_id[user["id"]]
        for interested_user_id in user_ids_by_interest[interest]
        if interested_user_id != user["id"]
    )

In [46]:
most_common_interests_with(users[0])

Counter({1: 2, 5: 1, 8: 1, 9: 3})

## 연봉과 경력

In [47]:
# 연봉과 근속기간이 연단위로 표기되어있는 데이터가 주워짐

salaries_and_tenures = [(83000, 8.7), (88000, 8.1),
                        (48000, 0.7), (76000, 6),
                        (69000, 6.5), (76000, 7.5),
                        (60000, 2.5), (83000, 10),
                        (48000, 1.9), (63000, 4.2)]

In [48]:
#  근속 연수에 따라 평균 연봉이 어떻게 달라지는지 보자

salary_by_tenure = defaultdict(list)

for salary, tenure in salaries_and_tenures:
    salary_by_tenure[tenure].append(salary)
    
average_salary_by_tenure = {
    tenure : sum(salaries) / len(salaries)
    for tenure, salaries in salary_by_tenure.items()
}

In [50]:
average_salary_by_tenure

{0.7: 48000.0,
 1.9: 48000.0,
 2.5: 60000.0,
 4.2: 63000.0,
 6: 76000.0,
 6.5: 69000.0,
 7.5: 76000.0,
 8.1: 88000.0,
 8.7: 83000.0,
 10: 83000.0}

In [52]:
def tenure_bucket(tenure):
    if tenure < 2:
        return "less than two"
    elif tenure < 5:
        return "between two and five"
    else:
        return "more than five"

In [55]:
salary_by_tenure_bucket = defaultdict(list)

for salary, tenure in salaries_and_tenures:
    bucket = tenure_bucket(tenure)
    salary_by_tenure_bucket[bucket].append(salary)

In [57]:
average_salary_by_buckect = {
    tenure_bucket: sum(salaries) / len(salaries)
    for tenure_bucket, salaries in salary_by_tenure_bucket.iteritems()
}

In [60]:
average_salary_by_buckect

{'between two and five': 61500.0,
 'less than two': 48000.0,
 'more than five': 79166.66666666667}

## 관심 주제

In [63]:
# 모든 관심사를 소문자로 변환후 단어 기준으로 쪼개어 각 단어의 수를센다

words_and_counts = Counter(word for user, interest in interests for word in interest.lower().split())

In [64]:
# 이 중 두번이상 등장하는 단어들만 출력
for word, count in words_and_counts.most_common():
    if count > 1:
        print word, count

learning 3
java 3
python 3
big 3
data 3
hbase 2
regression 2
cassandra 2
statistics 2
probability 2
hadoop 2
networks 2
machine 2
neural 2
scikit-learn 2
r 2
