# Rozdział 1 Wprowadzenie

#### Określanie najważniejszych węzłów 

In [1]:
# Zrzut sieci użytkowników serwisu DataSciencester

# lista użytkowników
users = [
    { "id": 0, "name": "Hero" },
    { "id": 1, "name": "Dunn" },
    { "id": 2, "name": "Sue" },
    { "id": 3, "name": "Chi" },
    { "id": 4, "name": "Thor" },
    { "id": 5, "name": "Clive" },
    { "id": 6, "name": "Hicks" },
    { "id": 7, "name": "Devin" },
    { "id": 8, "name": "Kate" },
    { "id": 9, "name": "Klein" }
]

In [2]:
# dane znajomości - zbiór połączonych w pary identyfikatorów osób, które się nawzajem znają
friendship_pairs = [(0, 1), (0, 2), (1, 2), (1, 3), (2, 3), (3, 4),
                    (4, 5), (5, 6), (5, 7), (6, 8), (7, 8), (8, 9)]

In [3]:
# Utworzenie słownika, którego kluczami bęfą identyfikatory użytkowników, a wartościami listy identyfikatorów ich znajomych

# Inicjalizowanie słownika pustymi listami dla każdego użytkownika:
friendships = {user["id"]: [] for user in users}

In [4]:
# Zapełnienie słownika danymi z wszystkich par znajomości
for i, j in friendship_pairs:
    friendships[i].append(j)  # dodaje j do listy przyjaciół i
    friendships[j].append(i)  # dodaje i do listy przyjaciół j

In [5]:
friendships

{0: [1, 2],
 1: [0, 2, 3],
 2: [0, 1, 3],
 3: [1, 2, 4],
 4: [3, 5],
 5: [4, 6, 7],
 6: [5, 8],
 7: [5, 8],
 8: [6, 7, 9],
 9: [8]}

In [6]:
# Określenie sumy wszystkich znajomości - zsumowanie wszystkich list friends
def number_of_friends(user):
    """Ilu znajomych ma użytkownik?"""
    user_id = user["id"]
    friend_ids = friendships[user_id]
    return len(friend_ids)

In [7]:
total_connections = sum(number_of_friends(user)
                        for user in users)        # 24

In [8]:
total_connections

24

In [9]:
num_users = len(users)

In [10]:
num_users

10

In [11]:
avg_connections = total_connections / num_users   # 24 / 10 == 2.4

In [12]:
avg_connections

2.4

In [13]:
# Posortowanie użytkowników, od największej do najmniejszej liczby znajomych:

# Utwórz listę (user_id, number_of_friends).
num_friends_by_id = [(user["id"], number_of_friends(user)) for user in users]

In [14]:
num_friends_by_id

[(0, 2),
 (1, 3),
 (2, 3),
 (3, 3),
 (4, 2),
 (5, 3),
 (6, 2),
 (7, 2),
 (8, 3),
 (9, 1)]

In [15]:
num_friends_by_id.sort(                                # Sortuj
       key=lambda id_and_friends: id_and_friends[1],   # według number_of_friends
       reverse=True)                                   # w kolejności malejącej.

In [16]:
num_friends_by_id

[(1, 3),
 (2, 3),
 (3, 3),
 (5, 3),
 (8, 3),
 (0, 2),
 (4, 2),
 (6, 2),
 (7, 2),
 (9, 1)]

#### Analitycy, których możesz znać

In [17]:
def foaf_ids_bad(user):
    """Przyjaciół znajomych oznaczamy akronimem foaf. """
    return [foaf_id
            for friend_id in friendships[user["id"]]
            for foaf_id in friendships[friend_id]]

In [18]:
foaf_ids_bad(users[0])

[0, 2, 3, 0, 1, 3]

In [19]:
print(friendships[0])

[1, 2]


In [20]:
print(friendships[1])

[0, 2, 3]


In [21]:
print(friendships[2])

[0, 1, 3]


In [22]:
from collections import Counter                   # Pakiet ten nie jest ładowany domyślnie.

In [23]:
def friends_of_friends(user):
    user_id = user["id"]
    return Counter(
        foaf_id
        for friend_id in friendships[user_id]     # Dla każdego z moich przyjaciół
        for foaf_id in friendships[friend_id]     # wybierz ich znajomych,
        if foaf_id != user_id                     # którzy nie są mną
        and foaf_id not in friendships[user_id]   # i nie są moimi znajomymi.
    )

In [24]:
print(friends_of_friends(users[3])) 

Counter({0: 2, 5: 1})


In [25]:
# Użytkownicy i ich zainteresowania
interests = [
    (0, "Hadoop"), (0, "Big Data"), (0, "HBase"), (0, "Java"),
    (0, "Spark"), (0, "Storm"), (0, "Cassandra"),
    (1, "NoSQL"), (1, "MongoDB"), (1, "Cassandra"), (1, "HBase"),
    (1, "Postgres"), (2, "Python"), (2, "scikit-learn"), (2, "scipy"),
    (2, "numpy"), (2, "statsmodels"), (2, "pandas"), (3, "R"), (3, "Python"),
    (3, "statistics"), (3, "regression"), (3, "probability"),
    (4, "machine learning"), (4, "regression"), (4, "decision trees"),
    (4, "libsvm"), (5, "Python"), (5, "R"), (5, "Java"), (5, "C++"),
    (5, "Haskell"), (5, "programming languages"), (6, "statistics"),
    (6, "probability"), (6, "mathematics"), (6, "theory"),
    (7, "machine learning"), (7, "scikit-learn"), (7, "Mahout"),
    (7, "neural networks"), (8, "neural networks"), (8, "deep learning"),
    (8, "Big Data"), (8, "artificial intelligence"), (9, "Hadoop"),
    (9, "Java"), (9, "MapReduce"), (9, "Big Data")
]

In [26]:
# Użytkownicy o tych samych zainteresowaniach
def data_scientists_who_like(target_interest):
    """znajduje użytkowników, którzy wśród zainteresowań mają target_interest """
    return [user_id
            for user_id, user_interest in interests
            if user_interest == target_interest]

In [27]:
data_scientists_who_like('Java')

[0, 5, 9]

In [28]:
from collections import defaultdict

# Klucze są zainteresowaniami, wartości są listami identyfikatorów użytkowników interesujących się danym tematem.
user_ids_by_interest = defaultdict(list)

for user_id, interest in interests:
    user_ids_by_interest[interest].append(user_id)
    
user_ids_by_interest['Java']

[0, 5, 9]

In [29]:
# Klucze są identyfikatorami użytkowników, wartości są listami zainteresowań danego użytkownika.
interests_by_user_id = defaultdict(list)

for user_id, interest in interests:
    interests_by_user_id[user_id].append(interest)

In [30]:
interests_by_user_id[1]

['NoSQL', 'MongoDB', 'Cassandra', 'HBase', 'Postgres']

In [31]:
# Ustalenie osoby, która ma najwięcej wspólnych zainteresowań z wybranym użytkownikiem
def most_common_interests_with(user):
    return Counter(
        interested_user_id
        for interest in interests_by_user_id[user["id"]]
        for interested_user_id in user_ids_by_interest[interest]
        if interested_user_id != user["id"]
    )

#### Wynagrodzenie i doświadczenie

In [33]:
salaries_and_tenures = [(83000, 8.7), (88000, 8.1),
                        (48000, 0.7), (76000, 6),
                        (69000, 6.5), (76000, 7.5),
                        (60000, 2.5), (83000, 10),
                        (48000, 1.9), (63000, 4.2)]

In [34]:
# Klucze są latami, wartości są listami wynagrodzeń dla danego stażu pracy.
salary_by_tenure = defaultdict(list)

for salary, tenure in salaries_and_tenures:
    salary_by_tenure[tenure].append(salary)

In [35]:
# Klucze są latami, każda wartość jest średnim wynagrodzeniem dla danego stażu pracy.
average_salary_by_tenure = {
    tenure: sum(salaries) / len(salaries)
    for tenure, salaries in salary_by_tenure.items()
}

In [36]:
average_salary_by_tenure

{8.7: 83000.0,
 8.1: 88000.0,
 0.7: 48000.0,
 6: 76000.0,
 6.5: 69000.0,
 7.5: 76000.0,
 2.5: 60000.0,
 10: 83000.0,
 1.9: 48000.0,
 4.2: 63000.0}

In [37]:
# Podział użytkowników na zbiory o podobnym stażu pracy
def tenure_bucket(tenure):
    if tenure < 2:
        return "mniej niż dwa"
    elif tenure < 5:
        return "pomiędzy dwoma i pięcioma"
    else:
        return "powyżej pięciu"

In [38]:
# Przypisanie wynagrodzeń

# Klucze są zakresami wynagrodzeń, wartości są listami wynagrodzeń należących do danego zakresu.
salary_by_tenure_bucket = defaultdict(list)

for salary, tenure in salaries_and_tenures:
    bucket = tenure_bucket(tenure)
    salary_by_tenure_bucket[bucket].append(salary)

In [39]:
# Średnie wynagrodzenie dla każdego zakresu

# Klucze są zakresami wynagrodzeń, wartości określają średnie wynagrodzenie w danym zakresie
average_salary_by_bucket = {
  tenure_bucket: sum(salaries) / len(salaries)
  for tenure_bucket, salaries in salary_by_tenure_bucket.items()
}

In [40]:
average_salary_by_bucket

{'powyżej pięciu': 79166.66666666667,
 'mniej niż dwa': 48000.0,
 'pomiędzy dwoma i pięcioma': 61500.0}

#### Płatne konta

In [41]:
def predict_paid_or_unpaid(years_experience):
  if years_experience < 3.0:
    return "paid"
  elif years_experience < 8.5:
    return "unpaid"
  else:
    return "paid"

#### Tematy interesujące użytkowników

In [43]:
interests = [
    (0, "Hadoop"), (0, "Big Data"), (0, "HBase"), (0, "Java"),
    (0, "Spark"), (0, "Storm"), (0, "Cassandra"),
    (1, "NoSQL"), (1, "MongoDB"), (1, "Cassandra"), (1, "HBase"),
    (1, "Postgres"), (2, "Python"), (2, "scikit-learn"), (2, "scipy"),
    (2, "numpy"), (2, "statsmodels"), (2, "pandas"), (3, "R"), (3, "Python"),
    (3, "statistics"), (3, "regression"), (3, "probability"),
    (4, "machine learning"), (4, "regression"), (4, "decision trees"),
    (4, "libsvm"), (5, "Python"), (5, "R"), (5, "Java"), (5, "C++"),
    (5, "Haskell"), (5, "programming languages"), (6, "statistics"),
    (6, "probability"), (6, "mathematics"), (6, "theory"),
    (7, "machine learning"), (7, "scikit-learn"), (7, "Mahout"),
    (7, "neural networks"), (8, "neural networks"), (8, "deep learning"),
    (8, "Big Data"), (8, "artificial intelligence"), (9, "Hadoop"),
    (9, "Java"), (9, "MapReduce"), (9, "Big Data")
]

In [44]:
words_and_counts = Counter(word
                           for user, interest in interests
                           for word in interest.lower().split())

In [45]:
for word, count in words_and_counts.most_common():
    if count > 1:
        print(word, count)

big 3
data 3
java 3
python 3
learning 3
hadoop 2
hbase 2
cassandra 2
scikit-learn 2
r 2
statistics 2
regression 2
probability 2
machine 2
neural 2
networks 2
