# 밑바닥부터 시작하는 데이터 과학 
데이터 분석을 위한 파이썬 프로그래밍과 수학·통계 기초
- - -
*직접 타이핑을 진행하면서 기초부터 차근차근 쌓아가자!*

## 1장 들어가기
### 1.3 동기부여를 위한 상상: 데이터 주식회사

In [1]:
# 딕셔너리를 품은 사용자 리스트
users = [
    {'id': 0, 'name': 'Hero'},
    {'id': 1, 'name': 'Dunn'},
    {'id': 2, 'name': 'Sue'},
    {'id': 3, 'name': 'Chi'},
    {'id': 4, 'name': 'Thor'},
    {'id': 5, 'name': 'Clive'},
    {'id': 6, 'name': 'Hicks'},
    {'id': 7, 'name': 'Devin'},
    {'id': 8, 'name': 'Kate'},
    {'id': 9, 'name': 'Klein'}
]

In [2]:
# 친구관계
friendships = [(0, 1), (0, 2), (1, 2), (1, 3), (2, 3), (3, 4),
               (4, 5), (5, 6), (5, 7), (6, 8), (7, 8), (8, 9)]

In [3]:
# 사용자의 친구목록(빈 리스트) 추가
for user in users:
    user['friends'] = []

users

[{'id': 0, 'name': 'Hero', 'friends': []},
 {'id': 1, 'name': 'Dunn', 'friends': []},
 {'id': 2, 'name': 'Sue', 'friends': []},
 {'id': 3, 'name': 'Chi', 'friends': []},
 {'id': 4, 'name': 'Thor', 'friends': []},
 {'id': 5, 'name': 'Clive', 'friends': []},
 {'id': 6, 'name': 'Hicks', 'friends': []},
 {'id': 7, 'name': 'Devin', 'friends': []},
 {'id': 8, 'name': 'Kate', 'friends': []},
 {'id': 9, 'name': 'Klein', 'friends': []}]

In [4]:
# 친구목록에 친구 추가
for i, j in friendships:
    users[i]['friends'].append(users[j])
    users[j]['friends'].append(users[i])

* 질문: 네트워크 상에서 각 사용자의 평균 연결 수는 몇일까?
    1. 전체 연결 수 구하기
    2. 사용자 수로 나누기

In [5]:
# 1. 먼저 전체 연결 수를 구하자

# 친구목록의 길이를 반환해주는 함수 작성
def number_of_friends(user):
    return len(user['friends'])

# 친구 목록의 길이 = 연결 수
# 각 사용자별 친구 목록의 길이의 합 구하기 = 전체 연결 수
total_connections = sum(number_of_friends(user) for user in users)
total_connections

24

In [6]:
# 2. 사용자 수로 나누기(평균)
avg_connections = total_connections / len(users)
avg_connections

2.4

* 질문: 친구가 가장 많은 사람은 누구인가?(연결 수가 많은 사람)

In [7]:
# (user_id, number_of_friends)로 구성된 list 생성
num_friends_by_id = [(user['id'], number_of_friends(user)) for user in users]
num_friends_by_id

[(0, 2),
 (1, 3),
 (2, 3),
 (3, 3),
 (4, 2),
 (5, 3),
 (6, 2),
 (7, 2),
 (8, 3),
 (9, 1)]

In [8]:
#친구의 숫자에 따라 내림차순으로 정렬하기
sorted(num_friends_by_id,
       key=lambda x: x[1],
       reverse=True)

[(1, 3),
 (2, 3),
 (3, 3),
 (5, 3),
 (8, 3),
 (0, 2),
 (4, 2),
 (6, 2),
 (7, 2),
 (9, 1)]

### 1.3.2 데이터 과학자 추천하기

- 친구 추천 기능 구현하기

In [9]:
# 사용자 친구의 친구를 반환하는 함수
def friends_of_friend_ids_bad(user):
    return [foaf['id']
            for friend in user['friends']
                for foaf in friend['friends']]

In [10]:
friends_of_friend_ids_bad(users[0])

[0, 2, 3, 0, 1, 3]

In [13]:
# 서로가 함께 아는 친구 수를 구하는 함수(사용자가 이미 아는 사람은 제외)
from collections import Counter

def not_the_same(user, other_user):
    """ 만약 두 사용자의 id가 다르면 다른 사용자로 인식 """
    return user['id'] != other_user['id']

def not_friends(user, other_user):
    """ 만약 other_user가 user['friends']에 포함되지 않으면
    친구가 아닌 것으로 간주함.
    즉, other_user를 not_the_same 함수를 사용해서
    user['friends']에 포함된 사람과 다르다고 인식 """
    return all(not_the_same(friend, other_user)
               for friend in user['friends'])

def friends_of_friend_ids(user):
    return Counter(foaf['id']
                   for friend in user['friends']
                       for foaf in friend['friends']
                           if not_the_same(user, foaf)
                               and not_friends(user, foaf))

print(friends_of_friend_ids(users[3]))

Counter({0: 2, 5: 1})


In [15]:
# 사용자 id와 관심사가 담긴 리스트
interests = [
    (0, 'Hadoop'), (0, 'Big Data'), (0, 'HBase'), (0, 'Java'),
    (0, 'Spark'), (0, 'Storm'), (0, 'Cassandra'), (1, 'NoSQL'),
    (1, 'MongoDB'), (1, 'Cassandra'), (1, 'HBase'),
    (1, 'Postgres'), (2, 'Python'), (2, 'scikit-learn'),
    (2, 'scipy'), (2, 'numpy'), (2, 'statsmodels'),
    (2, 'pandas'), (3, 'R'), (3, 'Python'), (3, 'statistics'),
    (3, 'regression'), (3, 'probability'), (4, 'machine learning'),
    (4, 'regression'), (4, 'decision trees'), (4, 'libsvm'),
    (5, 'Python'), (5, 'R'), (5, 'Java'), (5, 'C++'),
    (5, 'Haskell'), (5, 'programming languages'),
    (6, 'statistics'), (6, 'probability'), (6, 'mathematics'),
    (6, 'theory'), (7, 'machine learning'), (7, 'scikit-learn'),
    (7, 'Mahout'), (7, 'neural networks'), (8, 'neural networks'),
    (8, 'deep learning'), (8, 'Big Data'),
    (8, 'artificial intelligence'), (9, 'Hadoop'), (9, 'Java'),
    (9, 'MapReduce'), (9, 'Big Data')]

In [16]:
# 특정 관심사를 공유하는 사람들 찾는 함수
def data_scientists_who_like(target_interest):
    return [user_id
            for user_id, user_interest in interests
                if user_interest == target_interest]

data_scientists_who_like('Big Data')

[0, 8, 9]

In [17]:
# 앞서 만든 코드는 처음부터 끝까지 모든 데이터를 훑기 때문에 비효율적

# 각 관심사에 대한 인덱스 만들기
from collections import defaultdict

# key가 관심사, value가 id
user_ids_by_interest = defaultdict(list)

for user_id, user_interest in interests:
    user_ids_by_interest[user_interest].append(user_id)
    
print(user_ids_by_interest)

defaultdict(<class 'list'>, {'Hadoop': [0, 9], 'Big Data': [0, 8, 9], 'HBase': [0, 1], 'Java': [0, 5, 9], 'Spark': [0], 'Storm': [0], 'Cassandra': [0, 1], 'NoSQL': [1], 'MongoDB': [1], 'Postgres': [1], 'Python': [2, 3, 5], 'scikit-learn': [2, 7], 'scipy': [2], 'numpy': [2], 'statsmodels': [2], 'pandas': [2], 'R': [3, 5], 'statistics': [3, 6], 'regression': [3, 4], 'probability': [3, 6], 'machine learning': [4, 7], 'decision trees': [4], 'libsvm': [4], 'C++': [5], 'Haskell': [5], 'programming languages': [5], 'mathematics': [6], 'theory': [6], 'Mahout': [7], 'neural networks': [7, 8], 'deep learning': [8], 'artificial intelligence': [8], 'MapReduce': [9]})


In [19]:
# 각 사용자에 대한 관심사 만들기
interest_ids_by_user = defaultdict(list)

for user_id, user_interest in interests:
    interest_ids_by_user[user_id].append(user_interest)
    
print(interest_ids_by_user)

defaultdict(<class 'list'>, {0: ['Hadoop', 'Big Data', 'HBase', 'Java', 'Spark', 'Storm', 'Cassandra'], 1: ['NoSQL', 'MongoDB', 'Cassandra', 'HBase', 'Postgres'], 2: ['Python', 'scikit-learn', 'scipy', 'numpy', 'statsmodels', 'pandas'], 3: ['R', 'Python', 'statistics', 'regression', 'probability'], 4: ['machine learning', 'regression', 'decision trees', 'libsvm'], 5: ['Python', 'R', 'Java', 'C++', 'Haskell', 'programming languages'], 6: ['statistics', 'probability', 'mathematics', 'theory'], 7: ['machine learning', 'scikit-learn', 'Mahout', 'neural networks'], 8: ['neural networks', 'deep learning', 'Big Data', 'artificial intelligence'], 9: ['Hadoop', 'Java', 'MapReduce', 'Big Data']})


In [21]:
# 사용자가 주어졌을 때, 유사한 관심사를 가진 사용자를 찾는 함수
def most_common_interests_with(user_id):
    return Counter(interested_user_id
                   for interest in interest_ids_by_user[user_id]
                       for interested_user_id in user_ids_by_interest[interest]
                           if interested_user_id != user['id'])

most_common_interests_with(2)

Counter({2: 6, 3: 1, 5: 1, 7: 1})

### 1.3.3 연봉과 경력

In [34]:
# 사용자의 연봉과 근속기간 데이터
salaries_and_tenures = [(83000, 8.7), (88000, 8.1),
                        (48000, 0.7), (76000, 6),
                        (69000, 6.5), (76000, 7.5),
                        (60000, 2.5), (83000, 10),
                        (48000, 1.9), (63000, 4.2)]

In [35]:
# key는 근속 연수, value는 근속 연수에 대한 연봉 목록
salary_by_tenure = defaultdict(list)

for salary, tenure in salaries_and_tenures:
    salary_by_tenure[tenure].append(salary)

salary_by_tenure

defaultdict(list,
            {8.7: [83000],
             8.1: [88000],
             0.7: [48000],
             6: [76000],
             6.5: [69000],
             7.5: [76000],
             2.5: [60000],
             10: [83000],
             1.9: [48000],
             4.2: [63000]})

In [36]:
# key는 근속연수, value는 근속 연수의 평균 연봉
average_salary_by_tenure = {
    tenure : sum(salaries) / len(salaries)
        for tenure, salaries in salary_by_tenure.items()
}

average_salary_by_tenure

{8.7: 83000.0,
 8.1: 88000.0,
 0.7: 48000.0,
 6: 76000.0,
 6.5: 69000.0,
 7.5: 76000.0,
 2.5: 60000.0,
 10: 83000.0,
 1.9: 48000.0,
 4.2: 63000.0}

In [37]:
# 근속 연수를 구간으로 나누어 구하자
def tenure_bucket(tenure):
    if tenure < 2:
        return 'less than two'
    elif tenure < 5:
        return 'between two and five'
    else:
        return 'more than five'

In [38]:
salary_by_tenure_bucket = defaultdict(list)

for salary, tenure in salaries_and_tenures:
    bucket = tenure_bucket(tenure)
    salary_by_tenure_bucket[bucket].append(salary)

salary_by_tenure_bucket

defaultdict(list,
            {'more than five': [83000, 88000, 76000, 69000, 76000, 83000],
             'less than two': [48000, 48000],
             'between two and five': [60000, 63000]})

In [39]:
# 각 구간의 평균 연봉
average_salary_by_bucket = {
    tenure_bucket : sum(salaries) / len(salaries)
        for tenure_bucket, salaries in salary_by_tenure_bucket.items()
}

average_salary_by_bucket

{'more than five': 79166.66666666667,
 'less than two': 48000.0,
 'between two and five': 61500.0}

### 1.3.5 관심 주제
- 사용자들이 주로 어떤 관심사를 가지고 있는지 확인하기(기존 interests 활용)
    1. 모든 관심사를 소문자로 변환한다(대문자, 소문자가 섞여 있을 때)
    2. 모든 관심사를 단어 기준으로 쪼갠다.
    3. 각 단어의 수를 센다

In [40]:
words_and_counts = Counter(word
                           for user, interest in interests
                               for word in interest.lower().split()
                          )

words_and_counts

Counter({'hadoop': 2,
         'big': 3,
         'data': 3,
         'hbase': 2,
         'java': 3,
         'spark': 1,
         'storm': 1,
         'cassandra': 2,
         'nosql': 1,
         'mongodb': 1,
         'postgres': 1,
         'python': 3,
         'scikit-learn': 2,
         'scipy': 1,
         'numpy': 1,
         'statsmodels': 1,
         'pandas': 1,
         'r': 2,
         'statistics': 2,
         'regression': 2,
         'probability': 2,
         'machine': 2,
         'learning': 3,
         'decision': 1,
         'trees': 1,
         'libsvm': 1,
         'c++': 1,
         'haskell': 1,
         'programming': 1,
         'languages': 1,
         'mathematics': 1,
         'theory': 1,
         'mahout': 1,
         'neural': 2,
         'networks': 2,
         'deep': 1,
         'artificial': 1,
         'intelligence': 1,
         'mapreduce': 1})

In [41]:
# 두 번이상 등장하는 단어
for word, count in words_and_counts.most_common():
    if count > 1:
        print(word, count)

big 3
data 3
java 3
python 3
learning 3
hadoop 2
hbase 2
cassandra 2
scikit-learn 2
r 2
statistics 2
regression 2
probability 2
machine 2
neural 2
networks 2
