In [14]:
from collections import Counter
from collections import defaultdict

# 유저 정의
users = [
    { "id": 0, "name": "Hero" },
    { "id": 1, "name": "Dunn" },
    { "id": 2, "name": "Sue" },
    { "id": 3, "name": "Chi" },
    { "id": 4, "name": "Thor" },
    { "id": 5, "name": "Clive" },
    { "id": 6, "name": "Hicks" },
    { "id": 7, "name": "Devin" },
    { "id": 8, "name": "Kate" },
    { "id": 9, "name": "Klein" }
]

# 유저의 친구 관계
friendships = [(0, 1), (0, 2), (1, 2), (1, 3), (2, 3), (3, 4),
               (4, 5), (5, 6), (5, 7), (6, 8), (7, 8), (8, 9)]

# 유저들의 friends 속성을 빈 배열로 초기화
for user in users:
    user["friends"] = []

In [5]:
# friendships 를 바탕으로 친구 관계 설정
for i,j in friendships:
    users[i]["friends"].append(users[j])
    users[j]["friends"].append(users[i])

In [6]:
# 유저의 친구가 몇명인지
def number_of_friends(user):
    return len(user["friends"])

# 전체 총 연결 수
total_connections = sum(number_of_friends(user) for user in users)

In [7]:
# (user_id, number_of_friends) 로 구성된 list 생성
num_friends_by_id = [(user["id"], number_of_friends(user)) for user in users]

# 내림차순으로 정렬
sorted(num_friends_by_id, key=lambda(user_id, num_friends): num_friends, reverse=True)

[(1, 3),
 (2, 3),
 (3, 3),
 (5, 3),
 (8, 3),
 (0, 2),
 (4, 2),
 (6, 2),
 (7, 2),
 (9, 1)]

In [8]:
# 친구의 친구 id 를 보여주기
def friends_of_friend_ids_bad(user):
    return [foaf["id"] 
            for friend in user["friends"]
            for foaf in friend["friends"]]

print friends_of_friend_ids_bad(users[0])

print [friend["id"] for friend in users[0]["friends"]]
print [friend["id"] for friend in users[1]["friends"]]
print [friend["id"] for friend in users[2]["friends"]]

[0, 2, 3, 0, 1, 3]
[1, 2]
[0, 2, 3]
[0, 1, 3]


In [9]:
# Mutual Friends 숫자를 구해보자

# 만약 두 사용자의 id가 다르면 다른 사용자로 인식
def not_the_same(user, other_user):
    return user["id"] != other_user["id"]

# 만약 other_user가 user["friends"]에 포함되지 않으면 친구가 아닌 것으로 간주함.
# 즉, other_user를 not_the_same 함수를 사용해서 user["friends"]에 포함된 사람과 다르다고 인식
def not_friends(user, other_user):
    return all(not_the_same(friend, other_user)
               for friend in user["friends"])

# 사용자 친구 개개인에 대해 그들의 친구들을 세어보고 그중에서 자신과 사용자의 친구가 아닌 사람은 제외
def friends_of_friend_ids(user):
    return Counter(foaf["id"]
                   for friend in user["friends"]
                   for foaf in friend["friends"]
                   if not_the_same(user, foaf)
                   and not_friends(user, foaf))

print friends_of_friend_ids(users[3])

Counter({0: 2, 5: 1})


In [10]:
interests = [
    (0, "Hadoop"), (0, "Big Data"), (0, "HBase"), (0, "Java"),
    (0, "Spark"), (0, "Storm"), (0, "Cassandra"),
    (1, "NoSQL"), (1, "MongoDB"), (1, "Cassandra"), (1, "HBase"),
    (1, "Postgres"), (2, "Python"), (2, "scikit-learn"), (2, "scipy"),
    (2, "numpy"), (2, "statsmodels"), (2, "pandas"), (3, "R"), (3, "Python"),
    (3, "statistics"), (3, "regression"), (3, "probability"),
    (4, "machine learning"), (4, "regression"), (4, "decision trees"),
    (4, "libsvm"), (5, "Python"), (5, "R"), (5, "Java"), (5, "C++"),
    (5, "Haskell"), (5, "programming languages"), (6, "statistics"),
    (6, "probability"), (6, "mathematics"), (6, "theory"),
    (7, "machine learning"), (7, "scikit-learn"), (7, "Mahout"),
    (7, "neural networks"), (8, "neural networks"), (8, "deep learning"),
    (8, "Big Data"), (8, "artificial intelligence"), (9, "Hadoop"),
    (9, "Java"), (9, "MapReduce"), (9, "Big Data")
]

In [13]:
def data_scientists_who_like(target_interest):
    return [user_id
            for user_id, user_interest in interests
            if user_interest == target_interest]

print data_scientists_who_like("Big Data")
print data_scientists_who_like("HBase")

[0, 8, 9]
[0, 1]


In [19]:
# 인덱스를 만들어주자
# 관심사에 대한 사용자 인덱스
# => key가 관심사, value가 사용자 id
user_ids_by_interest = defaultdict(list)

for user_id, interest in interests:
    user_ids_by_interest[interest].append(user_id)
    
# 사용자에 대한 관심사 인덱스
# => key가 사용자 id, value가 관심사
interests_by_user_id = defaultdict(list)
for user_id, interest in interests:
    interests_by_user_id[user_id].append(interest)
    
print user_ids_by_interest
print interests_by_user_id

defaultdict(<type 'list'>, {'Java': [0, 5, 9], 'neural networks': [7, 8], 'NoSQL': [1], 'Hadoop': [0, 9], 'Mahout': [7], 'Storm': [0], 'regression': [3, 4], 'statistics': [3, 6], 'probability': [3, 6], 'programming languages': [5], 'Python': [2, 3, 5], 'deep learning': [8], 'Haskell': [5], 'mathematics': [6], 'Spark': [0], 'numpy': [2], 'pandas': [2], 'artificial intelligence': [8], 'theory': [6], 'libsvm': [4], 'C++': [5], 'R': [3, 5], 'HBase': [0, 1], 'Postgres': [1], 'decision trees': [4], 'Big Data': [0, 8, 9], 'MongoDB': [1], 'scikit-learn': [2, 7], 'MapReduce': [9], 'machine learning': [4, 7], 'scipy': [2], 'statsmodels': [2], 'Cassandra': [0, 1]})
defaultdict(<type 'list'>, {0: ['Hadoop', 'Big Data', 'HBase', 'Java', 'Spark', 'Storm', 'Cassandra'], 1: ['NoSQL', 'MongoDB', 'Cassandra', 'HBase', 'Postgres'], 2: ['Python', 'scikit-learn', 'scipy', 'numpy', 'statsmodels', 'pandas'], 3: ['R', 'Python', 'statistics', 'regression', 'probability'], 4: ['machine learning', 'regression', 

In [22]:
# 해당 사용자의 관심사들을 훑는다.
# 각 관심사를 가진 다른 사용자들이 누구인지 찾아본다.
# 다른 사용자들이 몇 번이나 등장하는지 샌다.
def most_common_interests_with(user):
    return Counter(interested_user_id
                  for interest in interests_by_user_id[user["id"]]
                  for interested_user_id in user_ids_by_interest[interest]
                  if interested_user_id != user["id"])

print most_common_interests_with(users[0])


Counter({9: 3, 1: 2, 8: 1, 5: 1})


In [23]:
###########################
#                         #
# SALARIES AND EXPERIENCE #
#                         #
###########################

salaries_and_tenures = [(83000, 8.7), (88000, 8.1),
                        (48000, 0.7), (76000, 6),
                        (69000, 6.5), (76000, 7.5),
                        (60000, 2.5), (83000, 10),
                        (48000, 1.9), (63000, 4.2)]

In [33]:
# 근속 연수에 따라 평균 연봉이 어떻게 달라지는가?
# key는 근속 연수, value는 해당 근속 연수에 대한 연봉 목록
salary_by_tenure = defaultdict(list)

for salary, tenure in salaries_and_tenures:
    salary_by_tenure[tenure].append(salary)
    
# 근속 연수에 대한 평균 연봉
# key는 근속 연수, value는 해당 근속 연수의 평균 연봉
average_salary_by_tenure = {
    tenure : sum(salaries) / len(salaries)
    for tenure, salaries in salary_by_tenure.items()
}

# 경력 구간을 나눠서 구해야 된다.
def tenure_bucket(tenure):
    if tenure < 2:
        return "less than two"
    elif tenure < 5:
        return "between two and five"
    else:
        return "more than five"
    
# 각 연봉 구간에 대응
# key는 근속 연수 구간, value는 해당 구간에 속하는 사용자들의 연봉
salary_by_tenure_bucket = defaultdict(list)
for salary, tenure in salaries_and_tenures:
    bucket = tenure_bucket(tenure)
    salary_by_tenure_bucket[bucket].append(salary)
    
# 근속 연수 구간에 대한 평균 연봉
# key는 근속 연수, value는 해당 근속 연수의 평균 연봉
average_salary_by_tenure = {
    tenure_bucket : sum(salaries) / len(salaries)
    for tenure_bucket, salaries in salary_by_tenure_bucket.items()
}

# 5년 이상 경력을 가진 데이터 과학자들은 경력이 없거나 적은 데이터 과학자들보다 65% 더 번다!
print average_salary_by_tenure

{'more than five': 79166, 'between two and five': 61500, 'less than two': 48000}


In [34]:
#################
#               #
# PAID_ACCOUNTS #
#               #
#################

def predict_paid_or_unpaid(years_experience):
  if years_experience < 3.0: return "paid"
  elif years_experience < 8.5: return "unpaid"
  else: return "paid"

In [35]:
# 관심 주제
# 1. 모든 관심사를 소문자로 변환한다.
# 2. 모든 관심사를 단어 기준으로 쪼갠다.
# 3. 각 단어의 수를 센다.

words_and_counts = Counter(word
                           for user, interest in interests
                           for word in interest.lower().split())

for word, count in words_and_counts.most_common():
    if count > 1:
        print word, count

[('learning', 3), ('java', 3), ('python', 3), ('big', 3), ('data', 3), ('hbase', 2), ('regression', 2), ('cassandra', 2), ('statistics', 2), ('probability', 2), ('hadoop', 2), ('networks', 2), ('machine', 2), ('neural', 2), ('scikit-learn', 2), ('r', 2), ('nosql', 1), ('programming', 1), ('deep', 1), ('haskell', 1), ('languages', 1), ('decision', 1), ('artificial', 1), ('storm', 1), ('mongodb', 1), ('intelligence', 1), ('mathematics', 1), ('numpy', 1), ('pandas', 1), ('postgres', 1), ('libsvm', 1), ('trees', 1), ('scipy', 1), ('spark', 1), ('mapreduce', 1), ('c++', 1), ('theory', 1), ('statsmodels', 1), ('mahout', 1)]
