# 개요
+ 몇 가지 데이터 분석 사례 맛보기
+ 원본 데이터 확보, 전처리, 적절한 자료형 만들기, 원하는 지표 구하기(단순계산) 과정을 훑어본다
+ 머신러닝 기법은 사용하지 않음
  - 파이썬 언어와 몇 가지 데이터 처리 도구만 사용

# 분석 1 - 사용자 사이의 친구관계 분석하기

## User 데이터 - 원시 데이터

In [2]:
users = [
    { "id": 0, "name": "Hero" },
    { "id": 1, "name": "Dunn" },
    { "id": 2, "name": "Sue" },
    { "id": 3, "name": "Chi" },
    { "id": 4, "name": "Thor" },
    { "id": 5, "name": "Clive" },
    { "id": 6, "name": "Hicks" },
    { "id": 7, "name": "Devin" },
    { "id": 8, "name": "Kate" },
    { "id": 9, "name": "Klein" }
]

## 친구관계(Frendship) 데이터 - 원시 데이터
+ (0, 1) : 0번 사용자와 1번 사용자는 서로 친구
+ (0, 1) 이면 (1,0)도 성립

In [3]:
friendship_pairs = [(0, 1), (0, 2), (1, 2), (1, 3), (2, 3), (3, 4),
                    (4, 5), (5, 6), (5, 7), (6, 8), (7, 8), (8, 9)]

## 친구관계 색인 만들기
+ 사용자들의 친구관계를 분석하기에... 원시 데이터는 좀 다루기 불편하다
+ 사용자 ID가 주어졌을 때, 손쉽게 그 사용자의 친구 목록을 검색할 수 있는 자료구조를 만들어 놓자
+ 사용자 ID를 Index Key로 사용하는 딕셔너리(Dictionary) 자료형이 편리하다
  - key : 사용자 ID
  - value : 주어진 사용자의 친구 목록(list)
+ 예) friendships[0]
  - 0번 사용자의 친구들은 사용자 1번, 사용자 2번

In [4]:
# Initialize the dict with an empty list for each user id:
friendships = {user["id"]: [] for user in users}

# And loop over the friendship pairs to populate it:
for i, j in friendship_pairs:
    friendships[i].append(j)  # Add j as a friend of user i
    friendships[j].append(i)  # Add i as a friend of user j

### (확인) 색인이 잘 만들어 졌을까...
+ 0번 사용자의 친구들은?

In [5]:
friendships[0]

[1, 2]

## 특정 사용자의 친구 수 세기
+ 함수로 구현
    - 입력 : 사용자 (주의: 사용자 ID가 아님!)
    - 출력 : 입력으로 주어진 사용자의 친구 수
+ len() 함수 이용

In [6]:
def number_of_friends(user):
    """How many friends does _user_ have?"""
    user_id = user["id"]
    friend_ids = friendships[user_id]
    return len(friend_ids)

### (확인) 친구가 몇 명인가?
+ 0번 사용자의 친구는 몇 명?

In [8]:
number_of_friends(users[0])

2

## Total number of connections
+ 각 사용자의 친구 수의 합
+ "친구관계" 네트워크의 크기를 의미

In [9]:
total_connections = sum(number_of_friends(user)
                        for user in users)        # 24

In [11]:
assert total_connections == 24

In [19]:
[number_of_friends(user) for user in users]

[2, 3, 3, 3, 2, 3, 2, 2, 3, 1]

## 평균 친구수 구하기
+ 평균 친구수 = (각 사용자의 친구 수의 합) / 사용자수

In [12]:
num_users = len(users)                            # length of the users list
avg_connections = total_connections / num_users   # 24 / 10 == 2.4

In [13]:
assert num_users == 10
assert avg_connections == 2.4

## 사용자들의 친구수 탐색하기
+ 친구가 가장 많은 사용자는 누구? (가장 적은 사용자는?)
+ 친구가 많은 순서로 정렬해 볼까?
+ 사용자별 친구 수를 미리 구해놓자
  - (사용자 ID, 친구수)의 목록

In [20]:
# Create a list (user_id, number_of_friends).
num_friends_by_id = [(user["id"], number_of_friends(user))
                     for user in users]

In [21]:
num_friends_by_id

[(0, 2),
 (1, 3),
 (2, 3),
 (3, 3),
 (4, 2),
 (5, 3),
 (6, 2),
 (7, 2),
 (8, 3),
 (9, 1)]

### 정렬하기 (친구 많은 사용자 &rarr; 적은 사용자)
+ list 자료형의 sort() method
  - key : lambda 함수(익명함수) 사용하면 편리
+ 내림차 정렬하려면 : reverse=True

In [23]:
num_friends_by_id.sort(                                # Sort the list
       key=lambda id_and_friends: id_and_friends[1],   # by num_friends
       reverse=True)                                   # largest to smallest

In [24]:
num_friends_by_id

[(1, 3),
 (2, 3),
 (3, 3),
 (5, 3),
 (8, 3),
 (0, 2),
 (4, 2),
 (6, 2),
 (7, 2),
 (9, 1)]

### [비교] list 자료형의 sort() method vs. sorted() 함수
- list 자료형의 sort() method를 사용하면 list가 변경됨
- sorted() 함수는 list를 변경하지 않음 (정렬된 결과만 출력)

In [25]:
sorted(num_friends_by_id)

[(0, 2),
 (1, 3),
 (2, 3),
 (3, 3),
 (4, 2),
 (5, 3),
 (6, 2),
 (7, 2),
 (8, 3),
 (9, 1)]

In [26]:
assert num_friends_by_id[0][1] == 3     # several people have 3 friends
assert num_friends_by_id[-1] == (9, 1)  # user 9 has only 1 friend

## 친구의 친구 구하기 - 2촌 친구
+ 예) 0번 사용자의 친구 : [1, 2] &rarr; 1번 사용자의 친구와 2번 사용자의 친구가 2촌 친구 &rarr; [3]

In [32]:
print(friendships[0])  # [1, 2]
print(friendships[1])  # [0, 2, 3]
print(friendships[2])  # [0, 1, 3]

# list를 더하면
print(friendships[1] + friendships[2])

[1, 2]
[0, 2, 3]
[0, 1, 3]
[0, 2, 3, 0, 1, 3]


In [33]:
assert friendships[0] == [1, 2]
assert friendships[1] == [0, 2, 3]
assert friendships[2] == [0, 1, 3]

In [27]:
def foaf_ids_bad(user):
    """foaf is short for "friend of a friend" """
    return [foaf_id
            for friend_id in friendships[user["id"]]
            for foaf_id in friendships[friend_id]]

In [29]:
foaf_ids_bad(users[0])

[0, 2, 3, 0, 1, 3]

In [30]:
assert foaf_ids_bad(users[0]) == [0, 2, 3, 0, 1, 3]

### 좀 문제가 있다
+ 자기 자신과 1촌 친구도 포함 (0)
+ 결과에 중복이 보임 (3)
+ 2촌 친구의 ID, 그 2촌 친구가 몇 번 등장하는지도 알고싶다
  - Counter를 사용하면 편리

In [34]:
from collections import Counter                   # not loaded by default

def friends_of_friends(user):
    user_id = user["id"]
    return Counter(
        foaf_id
        for friend_id in friendships[user_id]     # For each of my friends,
        for foaf_id in friendships[friend_id]     # find their friends
        if foaf_id != user_id                     # who aren't me
        and foaf_id not in friendships[user_id]   # and aren't my friends.
    )

In [35]:
friends_of_friends(users[0])

Counter({3: 2})

In [36]:
print(friends_of_friends(users[3]))               # Counter({0: 2, 5: 1})

Counter({0: 2, 5: 1})


In [37]:
assert friends_of_friends(users[3]) == Counter({0: 2, 5: 1})

# 분석 2 - 사용자 관심사 분석

## 사용자별 관심사 - 원시 데이터
- (사용자 ID, 관심 키워드)의 목록
- 예) (0, "Hadoop") : 0번 사용자는 "Hadoop"에 관심이 많다

In [38]:
interests = [
    (0, "Hadoop"), (0, "Big Data"), (0, "HBase"), (0, "Java"),
    (0, "Spark"), (0, "Storm"), (0, "Cassandra"),
    (1, "NoSQL"), (1, "MongoDB"), (1, "Cassandra"), (1, "HBase"),
    (1, "Postgres"), (2, "Python"), (2, "scikit-learn"), (2, "scipy"),
    (2, "numpy"), (2, "statsmodels"), (2, "pandas"), (3, "R"), (3, "Python"),
    (3, "statistics"), (3, "regression"), (3, "probability"),
    (4, "machine learning"), (4, "regression"), (4, "decision trees"),
    (4, "libsvm"), (5, "Python"), (5, "R"), (5, "Java"), (5, "C++"),
    (5, "Haskell"), (5, "programming languages"), (6, "statistics"),
    (6, "probability"), (6, "mathematics"), (6, "theory"),
    (7, "machine learning"), (7, "scikit-learn"), (7, "Mahout"),
    (7, "neural networks"), (8, "neural networks"), (8, "deep learning"),
    (8, "Big Data"), (8, "artificial intelligence"), (9, "Hadoop"),
    (9, "Java"), (9, "MapReduce"), (9, "Big Data")
]

## 주어진 주제어(키워드)에 관심이 많은 사용자들은?

### 원시 데이터에서 무식하게 뒤지기
+ 원시 데이터를 훑으면서 주어진 주제어에 관심있는 사용자 검색

In [39]:
def data_scientists_who_like(target_interest):
    """Find the ids of all users who like the target interest."""
    return [user_id
            for user_id, user_interest in interests
            if user_interest == target_interest]

In [40]:
data_scientists_who_like("Hadoop")

[0, 9]

### 사전 만들기 - 키워드별 사용자 목록
+ 키워드별 관심 사용자 색인을 만들어 놓으면 빠르게 검색할 수 있다
  - key : 키워드
  - 값 : 사용자 목록
  - defaultdict 사용하면 편리
+ 딕셔너리 구조 : 검색이 빠르다
+ 데이터가 매우 많다면?
  - 처음 사전을 만들때는 오래 걸리지만, 일단 사전을 만들고나면 빠르게 검색할 수 있다

In [41]:
from collections import defaultdict

In [42]:
# Keys are interests, values are lists of user_ids with that interest
user_ids_by_interest = defaultdict(list)

for user_id, interest in interests:
    user_ids_by_interest[interest].append(user_id)

In [43]:
user_ids_by_interest["Hadoop"]

[0, 9]

### 사전 만들기 - 사용자별 키워드 목록
+ 사용자가 주어졌을 때, 그 사용자의 관심 주제를 검색하는데 편리
  - key : 사용자 ID
  - 값 : 키워드 목록

In [44]:
# Keys are user_ids, values are lists of interests for that user_id.
interests_by_user_id = defaultdict(list)

for user_id, interest in interests:
    interests_by_user_id[user_id].append(interest)

In [45]:
interests_by_user_id[0]

['Hadoop', 'Big Data', 'HBase', 'Java', 'Spark', 'Storm', 'Cassandra']

## 관심사가 비슷한 사용자 찾기
+ 주어진 사용자의 관심사(키워드) 검색 &rarr; 그 키워드에 관심있는 사용자 검색
  - interests_by_user_id &rarr; user_ids_by_interest
+ 공통 관심사(키워드) 갯수도 함께

In [46]:
def most_common_interests_with(user):
    return Counter(
        interested_user_id
        for interest in interests_by_user_id[user["id"]]
        for interested_user_id in user_ids_by_interest[interest]
        if interested_user_id != user["id"]
    )

In [47]:
most_common_interests_with(users[0])

Counter({1: 2, 5: 1, 8: 1, 9: 3})

# 분석 3 - 연봉과 경력의 관계 분석

### 연봉과 경력 - 원시 데이터
+ 직원별(익명) 연봉, 경력 데이터

In [48]:
salaries_and_tenures = [(83000, 8.7), (88000, 8.1),
                        (48000, 0.7), (76000, 6),
                        (69000, 6.5), (76000, 7.5),
                        (60000, 2.5), (83000, 10),
                        (48000, 1.9), (63000, 4.2)]

### 사전 만들기 - 경력별 연봉
+ 경력이 주어졌을 때, 해당 경력의 연봉을 찾기위한 자료구조
  - key : 경력
  - 값 : 연봉

In [49]:
# Keys are years, values are lists of the salaries for each tenure.
salary_by_tenure = defaultdict(list)

for salary, tenure in salaries_and_tenures:
    salary_by_tenure[tenure].append(salary)

In [50]:
salary_by_tenure[6]

[76000]

### 사전 만들기 -  경력별 평균연봉
+ 경력이 주어졌을 때, 해당 경력의 평균연봉을 찾기위한 자료구조
  - key : 경력
  - 값 : 평균연봉
+ 평균연봉 = (해당 경력의 연봉 총합) / (해당 경력자수)

In [51]:
# Keys are years, each value is average salary for that tenure.
average_salary_by_tenure = {
    tenure: sum(salaries) / len(salaries)
    for tenure, salaries in salary_by_tenure.items()
}


In [52]:
average_salary_by_tenure[2.5]

60000.0

In [53]:
assert average_salary_by_tenure == {
    0.7: 48000.0,
    1.9: 48000.0,
    2.5: 60000.0,
    4.2: 63000.0,
    6: 76000.0,
    6.5: 69000.0,
    7.5: 76000.0,
    8.1: 88000.0,
    8.7: 83000.0,
    10: 83000.0
}

In [54]:
average_salary_by_tenure

{0.7: 48000.0,
 1.9: 48000.0,
 2.5: 60000.0,
 4.2: 63000.0,
 6: 76000.0,
 6.5: 69000.0,
 7.5: 76000.0,
 8.1: 88000.0,
 8.7: 83000.0,
 10: 83000.0}

## 좀 더 의미있는 분석을 위해 - 경력구간 나누기
+ 경력이 정수가 아닌 소수라서 의미있는 정보를 주지 못한다
+ 원시 데이터에 검색 가능한 모든 경력이 포함될 수 없다
  - 예) 0.5, 0.6, 1.1, 1.2, .... 등 무수히 많은 경력이 가능
+ 경력 구간별 평균을 구하자
+ 경력 구간
  - 2년 미만
  - 2년 ~ 5년
  - 5년 이상

In [55]:
def tenure_bucket(tenure):
    if tenure < 2:
        return "less than two"
    elif tenure < 5:
        return "between two and five"
    else:
        return "more than five"

In [56]:
tenure_bucket(5.1)

'more than five'

### 사전 만들기 - 경력 구간별 연봉 목록
+ 경력 구간이 주어졌을 때, 해당 구간에 속하는 직원들의 연봉액 목록을 찾기 위한 자료구조
  - key : 경력 구간
  - 값 : 해당 구간 직원들의 연봉액

In [57]:
# Keys are tenure buckets, values are lists of salaries for that bucket.
salary_by_tenure_bucket = defaultdict(list)

for salary, tenure in salaries_and_tenures:
    bucket = tenure_bucket(tenure)
    salary_by_tenure_bucket[bucket].append(salary)

In [58]:
salary_by_tenure_bucket['less than two']

[48000, 48000]

## 구간별 평균연봉
+ 이게 좀 더 의미있는 정보를 제공한다

In [60]:
# Keys are tenure buckets, values are average salary for that bucket
average_salary_by_bucket = {
  tenure_bucket: sum(salaries) / len(salaries)
  for tenure_bucket, salaries in salary_by_tenure_bucket.items()
}

In [61]:
average_salary_by_bucket

{'between two and five': 61500.0,
 'less than two': 48000.0,
 'more than five': 79166.66666666667}

In [62]:
assert average_salary_by_bucket == {
    'between two and five': 61500.0,
    'less than two': 48000.0,
    'more than five': 79166.66666666667
}

In [65]:
%%html
<style>
table {float:left}
</style>

# 분석 4 - 유료계정 업그레이드 예측하기

## 무식한 방법
+ 아직 머신러닝을 배우지 않았으니까...
+ 눈으로 값을 훑어보고 대략 유료/무료 구분 기준을 찾아본다
  - 머신러닝을 이용하여 이러한 판단을 처리할 수 있을 것이다.

|가입기간 | 유료/무료 |
|---------|-----------|
|0.7 |paid |
|1.9 |unpaid |
|2.5 |paid |
|4.2 |unpaid |
|6   |unpaid |
|6.5 |unpaid |
|7.5 |unpaid |
|8.1 |unpaid |
|8.7 |paid |
|10  |paid |


In [63]:
def predict_paid_or_unpaid(years_experience):
  if years_experience < 3.0:
    return "paid"
  elif years_experience < 8.5:
    return "unpaid"
  else:
    return "paid"

In [64]:
predict_paid_or_unpaid(8)

'unpaid'

# 분석 5 - 인기 키워드 분석하기


+ 앞에서 사용했던 사용자별 관심 키워드 데이터 사용
  - interests 원본 데이터
+ 전체 사용자들의 관심 키워드 &rarr; 등장 횟수가 많을수록 여러 사용자들의 관심사
+ Counter이용하면 편리

In [66]:
interests

[(0, 'Hadoop'),
 (0, 'Big Data'),
 (0, 'HBase'),
 (0, 'Java'),
 (0, 'Spark'),
 (0, 'Storm'),
 (0, 'Cassandra'),
 (1, 'NoSQL'),
 (1, 'MongoDB'),
 (1, 'Cassandra'),
 (1, 'HBase'),
 (1, 'Postgres'),
 (2, 'Python'),
 (2, 'scikit-learn'),
 (2, 'scipy'),
 (2, 'numpy'),
 (2, 'statsmodels'),
 (2, 'pandas'),
 (3, 'R'),
 (3, 'Python'),
 (3, 'statistics'),
 (3, 'regression'),
 (3, 'probability'),
 (4, 'machine learning'),
 (4, 'regression'),
 (4, 'decision trees'),
 (4, 'libsvm'),
 (5, 'Python'),
 (5, 'R'),
 (5, 'Java'),
 (5, 'C++'),
 (5, 'Haskell'),
 (5, 'programming languages'),
 (6, 'statistics'),
 (6, 'probability'),
 (6, 'mathematics'),
 (6, 'theory'),
 (7, 'machine learning'),
 (7, 'scikit-learn'),
 (7, 'Mahout'),
 (7, 'neural networks'),
 (8, 'neural networks'),
 (8, 'deep learning'),
 (8, 'Big Data'),
 (8, 'artificial intelligence'),
 (9, 'Hadoop'),
 (9, 'Java'),
 (9, 'MapReduce'),
 (9, 'Big Data')]

## 전처리(Preprocessing) 필요
  - 예) 어떤 키워드는 대문자로 시작, 어떤 키워드는 소문자로 시작 &rarr; 소문자로 통일
  - 예) 2개 이상의 단어로 이루어진 키워드 &rarr; 단어별 분리

In [69]:
words_and_counts = Counter(word
                           for user, interest in interests
                           for word in interest.lower().split())


In [70]:
for word, count in words_and_counts.most_common():
    if count > 1:
        print(word, count)

big 3
data 3
java 3
python 3
learning 3
hadoop 2
hbase 2
cassandra 2
scikit-learn 2
r 2
statistics 2
regression 2
probability 2
machine 2
neural 2
networks 2
