In [1]:
import numpy as np

1. NumPy 배열(어레이) 생성   
리스트로부터 NumPy 배열을 생성하거나, shape을 지정하여 배열을 생성할 수 있음  
NumPy 배열은 대량의 데이터를 효율적으로 저장하고 조작할 수 있게 해줌  

In [2]:
# 리스트에서 배열 생성
arr_from_list = np.array([1, 2, 3, 4, 5])
print("Array from list:", arr_from_list)

Array from list: [1 2 3 4 5]


In [3]:
# 0으로 채워진 지정된 shape의 (여기서는 3*3) 배열 생성
arr_zeros = np.zeros((3, 3))
print("Array of zeros:\n", arr_zeros)

Array of zeros:
 [[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]


2. NumPy 배열의 인덱싱 및 슬라이싱  
인덱싱 및 슬라이싱은 배열 내에서 원하는 원소에 접근하는 데 사용됨    

In [4]:
arr = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print("Original array:\n", arr)

Original array:
 [[1 2 3]
 [4 5 6]
 [7 8 9]]


In [5]:
# 단일 원소에 접근
print("Element at index (0, 1):", arr[0, 1])

Element at index (0, 1): 2


In [6]:
# 원소들로 구성된 슬라이스에 접근
print("Slice of elements:\n", arr[1:, :2])

Slice of elements:
 [[4 5]
 [7 8]]


3. np.where  
np.where는 주어진 조건을 충족하는 배열 내의 원소들의 인덱스를 찾는 데 사용됨.  
이 함수는 특정 기준에 따라 데이터를 필터링하는 데 유용  

In [7]:
arr

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [8]:
# 원소가 4보다 큰 인덱스 찾기
indices = np.where(arr > 4)
print("Indices of elements greater than 4:", indices)

Indices of elements greater than 4: (array([1, 1, 2, 2, 2]), array([1, 2, 0, 1, 2]))


4. np.argmax  
np.argmax는 배열에서 최대값의 인덱스를 찾는 데 사용됨  
이 함수는 목록에서 최대의 값을 갖는 아이템(예: 최고 평점 또는 가장 유사한)을 찾고자 할 때 유용함  

In [9]:
ratings = np.array([3.2, 4.5, 2.8, 4.7, 3.9])
max_index = np.argmax(ratings)
print("Index of maximum rating:", max_index)

Index of maximum rating: 3


5. np.nonzero  
np.nonzero는 배열에서 0이 아닌 요소의 인덱스를 찾는 데 사용됨   
이 함수는 sparse한 데이터를 처리할 때 유용하며, 0이 아닌 원소에만 집중할 수 있음  

In [10]:
sparse_data = np.array([0, 0, 1, 0, 2, 0, 3])
nonzero_indices = np.nonzero(sparse_data)
print("Indices of non-zero elements:", nonzero_indices)

Indices of non-zero elements: (array([2, 4, 6]),)


6. np.isnan  
np.isnan은 배열의 원소가 NaN(숫자가 아님)인지 확인하는 데 사용됨  
즉, 결측값 확인에 사용됨

In [11]:
data_with_nan = np.array([1.0, np.nan, 3.0, np.nan, 5.0])
isnan_mask = np.isnan(data_with_nan)
print("Boolean mask of NaN elements:", isnan_mask)

Boolean mask of NaN elements: [False  True False  True False]


7. Reshaping arrays  
배열 reshape 연산은 배열의 차원을 변경할 때 필요하며,  
가령 1차원 배열을 2차원 배열로 변환하는 경우를 들 수 있음.  

In [12]:
arr = np.array([1, 2, 3, 4, 5, 6])
print("Original array:", arr)

Original array: [1 2 3 4 5 6]


In [13]:
arr.shape

(6,)

In [14]:
# 배열을 2행 3열의 2차원 배열로 변경
reshaped_arr = arr.reshape((2, 3))
print("Reshaped array:\n", reshaped_arr)

Reshaped array:
 [[1 2 3]
 [4 5 6]]


In [15]:
# 배열을 2행 3열의 2차원 배열로 변경
reshaped_arr = arr.reshape((3, 2))
print("Reshaped array:\n", reshaped_arr)

Reshaped array:
 [[1 2]
 [3 4]
 [5 6]]


In [16]:
# 배열을 2행 3열의 2차원 배열로 변경
reshaped_arr = arr.reshape((1, -1))
print("Reshaped array:\n", reshaped_arr)
reshaped_arr.shape

Reshaped array:
 [[1 2 3 4 5 6]]


(1, 6)

8. Array broadcasting  
브로드캐스팅을 사용하여 다양한 shape의 배열을 대상으로 연산을 수행할 수 있음.  
numpy broadcasting이란, 모양과 크기가 다른 배열에 대해 유연하고 효율적인 방식으로 연산을 수행할 수 있게 도와주는 기능임.  
연산 과정에서 큰 배열의 모양에 작은 배열을 자동으로 확장시켜 요소별 연산을 수행함.  

In [17]:
arr1 = np.array([[1, 2, 3], [1, 2, 3], [1, 2, 3]])
arr2 = np.array([[1, 1, 1], [2, 2, 2], [3, 3, 3]])

# 브로드캐스팅을 사용하여 배열의 합 연산 수행

broadcasted_sum = arr1 + arr2
print("Broadcasted sum:\n", broadcasted_sum)

Broadcasted sum:
 [[2 3 4]
 [3 4 5]
 [4 5 6]]


In [18]:
arr1 = np.array([1, 2, 3])
arr2 = np.array([[1, 1, 1], [2, 2, 2], [3, 3, 3]])

# 브로드캐스팅을 사용하여 배열의 합 연산 수행

broadcasted_sum = arr1 + arr2
print("Broadcasted sum:\n", broadcasted_sum)

Broadcasted sum:
 [[2 3 4]
 [3 4 5]
 [4 5 6]]


9. np.dot  
np.dot은 행렬 곱셈 연산이나 내적을 수행하는 데 사용됨    
이는 추천 시스템에서 아이템/유저 간 유사도를 계산하거나 행렬을 이용해 데이터를 변환하는 데 유용함  

In [19]:
arr1 = np.array([[1, 2, 3], [4, 5, 6]])
arr2 = np.array([[1, 2], [3, 4], [5, 6]])

In [20]:
display(arr1)
display(arr2)

array([[1, 2, 3],
       [4, 5, 6]])

array([[1, 2],
       [3, 4],
       [5, 6]])

In [21]:
# np.dot을 사용하여 배열 곱하기

dot_product = np.dot(arr1, arr2)
print("Dot product:\n", dot_product)

Dot product:
 [[22 28]
 [49 64]]


10. np.sort and np.argsort  
np.sort 및 np.argsort는 배열을 정렬하거나 정렬된 원소의 인덱스를 얻는 데 사용됨  
추천 시스템에서 아이템의 랭킹을 얻거나, 상위 N개의 아이템을 얻는 데 유용한 함수

In [22]:
ratings = np.array([3.2, 4.5, 2.8, 4.7, 3.9])

In [23]:
# 배열 정렬

sorted_ratings = np.sort(ratings)
print("Sorted ratings:", sorted_ratings)

Sorted ratings: [2.8 3.2 3.9 4.5 4.7]


In [24]:
# 정렬된 원소들의 인덱스 얻기

sorted_indices = np.argsort(ratings)
print("Indices of sorted ratings:", sorted_indices)

Indices of sorted ratings: [2 0 4 1 3]


In [25]:
sorted_indices[::-1]

array([3, 1, 4, 0, 2])

11. np.sum and np.mean  
np.sum 및 np.mean은 배열 원소들의 합계와 평균을 계산하는 데 사용됨    
데이터를 집계하거나 평균 값을 계산하는 데 유용한 함수    

In [26]:
ratings = np.array([3.2, 4.5, 2.8, 4.7, 3.9])

In [27]:
# sum 계산

total_ratings = np.sum(ratings)
print("Total ratings:", total_ratings)

Total ratings: 19.099999999999998


In [28]:
# 평균 계산

mean_rating = np.mean(ratings)
print("Mean rating:", mean_rating)

Mean rating: 3.8199999999999994


12. np.unique  
np.unique는 배열에서 유니크한 원소들을 찾는 데 사용됨  
데이터셋에서 고유한 아이템 또는 유저 수를 확인하는 데 유용한 함수임  

In [29]:
user_ids = np.array([1, 2, 2, 3, 4, 4, 5, 5, 5])
unique_users = np.unique(user_ids)
print("Num of unique users:", unique_users)

Num of unique users: [1 2 3 4 5]


In [30]:
import pandas as pd

1. Creating a DataFrame  

데이터프레임은 딕셔너리, 리스트에서 생성하거나 파일 데이터를 읽어 생성할 수 있음    
데이터프레임은 테이블 형식 데이터를 저장하고 조작하는 데 사용됨  

In [31]:
# 딕셔너리로 데이터프레임 생성
data = {"A": [1, 2, 3], "B": [4, 5, 6], "C": [7, 8, 9]}
df = pd.DataFrame(data)
display("DataFrame from a dictionary:\n", df)

'DataFrame from a dictionary:\n'

Unnamed: 0,A,B,C
0,1,4,7
1,2,5,8
2,3,6,9


2. Renaming columns  
더 나은 가독성이나 일관성을 위해 열 이름을 변경해야 할 때 유용함  

In [33]:
df = df.rename(columns={"A": "Column_A", "B": "Column_B", "C": "Column_C"})
display("Renamed columns:\n", df)

'Renamed columns:\n'

Unnamed: 0,Column_A,Column_B,Column_C
0,1,4,7
1,2,5,8
2,3,6,9


3. Selecting columns  
데이터셋의 특정 열을 대상으로만 작업해야 할 때 유용한 기능  

In [34]:
selected_columns = df[["Column_A", "Column_C"]]
display("Selected columns:\n", selected_columns)

'Selected columns:\n'

Unnamed: 0,Column_A,Column_C
0,1,7
1,2,8
2,3,9


4. Filtering rows  
특정 기준에 따라 행을 선택해야 할 때 유용   

In [35]:
df["Column_A"] > 1

0    False
1     True
2     True
Name: Column_A, dtype: bool

In [36]:
filtered_rows = df[df["Column_A"] > 1]
display("Filtered rows:\n", filtered_rows)

'Filtered rows:\n'

Unnamed: 0,Column_A,Column_B,Column_C
1,2,5,8
2,3,6,9


In [37]:
# Using the loc[] function with a boolean condition
filtered_rows = df.loc[df["Column_A"] > 1]
display("Filtered rows:\n", filtered_rows)

'Filtered rows:\n'

Unnamed: 0,Column_A,Column_B,Column_C
1,2,5,8
2,3,6,9


5. Reindexing  
데이터프레임의 행이나 열을 재배열해야 할 때 사용  

In [38]:
new_index = [2, 0, 1]
reindexed_df = df.reindex(new_index)
display("Reindexed DataFrame:\n", reindexed_df)

'Reindexed DataFrame:\n'

Unnamed: 0,Column_A,Column_B,Column_C
2,3,6,9
0,1,4,7
1,2,5,8


6. Handling missing values  
데이터를 전처리할 때, 결측 값을 처리해 주어야 함  

In [39]:
# 결측값이 있는 있는 행 추가

df.loc[3] = {"Column_A": None, "Column_B": 10, "Column_C": None}
display("DataFrame with missing values:\n", df)

'DataFrame with missing values:\n'

Unnamed: 0,Column_A,Column_B,Column_C
0,1.0,4,7.0
1,2.0,5,8.0
2,3.0,6,9.0
3,,10,


In [40]:
# 결측치가 있는 행 삭제

df_no_missing = df.dropna()
display("DataFrame without missing values:\n", df_no_missing)

'DataFrame without missing values:\n'

Unnamed: 0,Column_A,Column_B,Column_C
0,1,4,7
1,2,5,8
2,3,6,9


In [41]:
# 결측 값을 기본값으로 채우기

df_filled = df.fillna(0)
display("DataFrame with filled missing values:\n", df_filled)

'DataFrame with filled missing values:\n'

Unnamed: 0,Column_A,Column_B,Column_C
0,1,4,7
1,2,5,8
2,3,6,9
3,0,10,0


7. Grouping data  
데이터셋 내 특정 그룹 별로 작업을 수행해야 할 때 사용   
한 유저가 다양한 로그를 남기거나, 한 아이템이 다양한 유저에 의해 클릭/소비되므로 자주 사용되는 기능  

In [42]:
# 'Category' 열 추가

df["Category"] = ["A", "B", "A", "B"]
display("DataFrame with category column:\n", df)

# 'Category'별로 그룹화하고(groupby친다고 표현하기도 함) 각 그룹의 평균을 계산
grouped = df.groupby("Category").mean()
display("Grouped data:\n", grouped)

'DataFrame with category column:\n'

Unnamed: 0,Column_A,Column_B,Column_C,Category
0,1.0,4,7.0,A
1,2.0,5,8.0,B
2,3.0,6,9.0,A
3,,10,,B


'Grouped data:\n'

Unnamed: 0_level_0,Column_A,Column_B,Column_C
Category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,2.0,5.0,8.0
B,2.0,7.5,8.0


8. Merging DataFrames  
데이터프레임을 병합하는 것은 여러 테이블에서 데이터를 결합해야 할 때 사용  
DB 내 다수의 테이블에서 호출해 join 걸어 사용하므로, merge의 개념을 이해하는 것이 필요함

In [43]:
data1 = {"ID": [1, 2, 3], "Value1": [4, 5, 6]}
data2 = {"ID": [1, 2, 3], "Value2": [7, 8, 9]}

df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)

merged_df = df1.merge(df2, on="ID")
display("Merged DataFrame:\n", merged_df)

'Merged DataFrame:\n'

Unnamed: 0,ID,Value1,Value2
0,1,4,7
1,2,5,8
2,3,6,9


9. Sorting data  
특정 열별로 데이터를 정렬해야 할 때 유용  

In [44]:
data = {"A": [4, 2, 1, 3], "B": [8, 5, 6, 7]}
df = pd.DataFrame(data)
display("Original DataFrame:\n", df)

'Original DataFrame:\n'

Unnamed: 0,A,B
0,4,8
1,2,5
2,1,6
3,3,7


In [45]:
# 'A' 열로 데이터프레임 정렬
sorted_df = df.sort_values(by="A")
display("Sorted DataFrame:\n", sorted_df)

'Sorted DataFrame:\n'

Unnamed: 0,A,B
2,1,6
1,2,5
3,3,7
0,4,8


10. Applying functions to columns  
열에 apply 함수를 적용하면 반복 작업을 쉽고 빠르게 처리할 수 있음.  

In [46]:
data = {"A": [1, 2, 3], "B": [4, 5, 6]}
df = pd.DataFrame(data)

# 'A' 열에 제곱 함수 적용
df["A_squared"] = df["A"].apply(lambda x: x**2)
display("DataFrame with squared 'A' column:\n", df)

"DataFrame with squared 'A' column:\n"

Unnamed: 0,A,B,A_squared
0,1,4,1
1,2,5,4
2,3,6,9


11. Concatenating DataFrames  
데이터프레임 concat은 여러 데이터프레임을 수직으로 병합할 때 사용  

In [47]:
data1 = {"A": [1, 2, 3], "B": [4, 5, 6]}
data2 = {"A": [4, 5, 6], "B": [7, 8, 9]}
df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)

In [48]:
concatenated_df = pd.concat([df1, df2], ignore_index=True)
display("Concatenated DataFrame:\n", concatenated_df)

'Concatenated DataFrame:\n'

Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6
3,4,7
4,5,8
5,6,9


12. Pivot tables  
피벗 테이블은 여러 차원에 따라 데이터를 요약하거나 집계해야 할 때 유용   
추천 시스템에서는, 아이템/유저 수가 그렇게 많지 않은 경우 interaction matrix를 만드는 데 사용됨

In [49]:
# 유저-아이템의 샘플 로그 데이터
data = {
    "user_id": [1, 1, 1, 2, 2, 2, 3, 3, 4, 4],
    "item_id": [1, 2, 3, 1, 4, 5, 3, 4, 2, 5],
    "rating": [4, 5, 3, 2, 4, 5, 3, 2, 4, 5],
}

rating_log = pd.DataFrame(data)
display("Rating log DataFrame:\n", rating_log)

# 평점 데이터프레임을 pivot으로 만듦
pivot_table = rating_log.pivot_table(
    index="user_id", columns="item_id", values="rating", fill_value=0
)
display("\nPivot table:\n", pivot_table)

'Rating log DataFrame:\n'

Unnamed: 0,user_id,item_id,rating
0,1,1,4
1,1,2,5
2,1,3,3
3,2,1,2
4,2,4,4
5,2,5,5
6,3,3,3
7,3,4,2
8,4,2,4
9,4,5,5


'\nPivot table:\n'

item_id,1,2,3,4,5
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,4,5,3,0,0
2,2,0,0,4,5
3,0,0,3,2,0
4,0,4,0,0,5


13. Adding and dropping columns    
칼럼 추가/삭제는 데이터프레임의 구조를 수정해야 할 때 유용  

In [50]:
data = {"A": [1, 2, 3], "B": [4, 5, 6]}
df = pd.DataFrame(data)

# 'A'와 'B' 열의 합인 새로운 열 'C' 추가
df["C"] = df["A"] + df["B"]
display("DataFrame with added column 'C':\n", df)

# 'C' 열 삭제
df = df.drop(columns=["C"])
display("DataFrame with dropped column 'C':\n", df)

"DataFrame with added column 'C':\n"

Unnamed: 0,A,B,C
0,1,4,5
1,2,5,7
2,3,6,9


"DataFrame with dropped column 'C':\n"

Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6


아래의 예제는 다음 내용을 포함함.  

1) 데이터 세트 다운로드 및 압축 풀기  
2) 판다스로 사용하여 데이터 로드하기  
3) 데이터를 단일 데이터 프레임으로 병합하기  
4) 평점이 50개 이상인 책과 10개 이상의 책에 평점을 매긴 사용자 필터링하기  
5) user-item interaction matrix 생성하기  
6) 각 책의 평균 평점 계산하기   
7) 가장 높은 평점을 받은 상위 10개 책 표시  

In [51]:
import os
import pandas as pd
import zipfile
import io
import requests

In [57]:
# Download and unzip the dataset
data_path = "./data/"

In [54]:
# if not all(
#     os.path.exists(data_path + file)
#     for file in ["BX-Books.csv", "BX-Users.csv", "BX-Book-Ratings.csv"]
# ):
#     url = "http://www2.informatik.uni-freiburg.de/~cziegler/BX/BX-CSV-Dump.zip"
#     response = requests.get(url)
#     zip_file = zipfile.ZipFile(io.BytesIO(response.content))
#     zip_file.extractall(data_path)

In [75]:
# Load the data
books = pd.read_csv(
    data_path + "BX-Books.csv", sep=",", header=0, index_col=0, on_bad_lines="skip", encoding="latin-1"
)
users = pd.read_csv(
    data_path + "BX-Users.csv",
    sep=",",
    header=0,
    index_col=0,
    on_bad_lines="skip",
    encoding="latin-1",
)
ratings = pd.read_csv(
    data_path + "BX-Book-Ratings.csv",
    sep=",",
    header=0,
    index_col=0,
    on_bad_lines="skip",
    encoding="latin-1",
)

# Print the column names to check for 'ISBN'
print("Books columns:", books.columns)
print("Users columns:", users.columns)
print("Ratings columns:", ratings.columns)

  books = pd.read_csv(


Books columns: Index(['ISBN', 'Book-Title', 'Book-Author', 'Year-Of-Publication', 'Publisher',
       'Image-URL-S', 'Image-URL-M', 'Image-URL-L'],
      dtype='object')
Users columns: Index(['User-ID', 'Location', 'Age'], dtype='object')
Ratings columns: Index(['User-ID', 'ISBN', 'Book-Rating'], dtype='object')


In [64]:
# Merge the data
data = pd.merge(pd.merge(ratings, books, on="ISBN"), users, on="User-ID")

# Filter books with more than 50 ratings
book_rating_counts = data["ISBN"].value_counts()
popular_books = book_rating_counts[book_rating_counts > 50].index
filtered_data = data[data["ISBN"].isin(popular_books)]

In [65]:
# Filter users who have rated more than 10 books
user_rating_counts = filtered_data["User-ID"].value_counts()
active_users = user_rating_counts[user_rating_counts > 10].index
filtered_data = filtered_data[filtered_data["User-ID"].isin(active_users)]

In [66]:
# Create a user-item matrix
user_item_matrix = filtered_data.pivot_table(
    index="User-ID", columns="ISBN", values="Book-Rating"
).fillna(0)

# Compute the average rating for each book
average_ratings = (
    filtered_data.groupby("ISBN")["Book-Rating"].mean().sort_values(ascending=False)
)

# Get the top 10 highest-rated books
top_10_books = average_ratings.head(10).index
book_titles = books.set_index("ISBN").loc[top_10_books]["Book-Title"]

print("Top 10 highest-rated books:")
display(book_titles)

Top 10 highest-rated books:


ISBN
0439064864     Harry Potter and the Chamber of Secrets (Book 2)
0439136350    Harry Potter and the Prisoner of Azkaban (Book 3)
0590353403       Harry Potter and the Sorcerer's Stone (Book 1)
0439139597         Harry Potter and the Goblet of Fire (Book 4)
0877017883    Griffin &amp; Sabine: An Extraordinary Corresp...
0618002227    The Fellowship of the Ring (The Lord of the Ri...
0140143505                                84 Charing Cross Road
0156528207                                    The Little Prince
037541309X             Balzac and the Little Chinese Seamstress
0385199570           The Stand (The Complete and Uncut Edition)
Name: Book-Title, dtype: object

In [67]:
books.head()

Unnamed: 0.1,Unnamed: 0,ISBN,Book-Title,Book-Author,Year-Of-Publication,Publisher,Image-URL-S,Image-URL-M,Image-URL-L
0,0,195153448,Classical Mythology,Mark P. O. Morford,2002,Oxford University Press,http://images.amazon.com/images/P/0195153448.0...,http://images.amazon.com/images/P/0195153448.0...,http://images.amazon.com/images/P/0195153448.0...
1,1,2005018,Clara Callan,Richard Bruce Wright,2001,HarperFlamingo Canada,http://images.amazon.com/images/P/0002005018.0...,http://images.amazon.com/images/P/0002005018.0...,http://images.amazon.com/images/P/0002005018.0...
2,2,60973129,Decision in Normandy,Carlo D'Este,1991,HarperPerennial,http://images.amazon.com/images/P/0060973129.0...,http://images.amazon.com/images/P/0060973129.0...,http://images.amazon.com/images/P/0060973129.0...
3,3,374157065,Flu: The Story of the Great Influenza Pandemic...,Gina Bari Kolata,1999,Farrar Straus Giroux,http://images.amazon.com/images/P/0374157065.0...,http://images.amazon.com/images/P/0374157065.0...,http://images.amazon.com/images/P/0374157065.0...
4,4,393045218,The Mummies of Urumchi,E. J. W. Barber,1999,W. W. Norton &amp; Company,http://images.amazon.com/images/P/0393045218.0...,http://images.amazon.com/images/P/0393045218.0...,http://images.amazon.com/images/P/0393045218.0...


In [68]:
# Example 1: Filter books that have the word 'Harry Potter' in the title
harry_potter_books = books[books["Book-Title"].str.contains("Harry Potter")]
display("Harry Potter books:\n", harry_potter_books[["Book-Title", "Book-Author"]])

'Harry Potter books:\n'

Unnamed: 0,Book-Title,Book-Author
821,The Sorcerer's Companion: A Guide to the Magic...,ALLAN ZOLA KRONZEK
2143,Harry Potter and the Sorcerer's Stone (Harry P...,J. K. Rowling
2809,Harry Potter and the Sorcerer's Stone (Book 1),J. K. Rowling
3459,Harry Potter and the Chamber of Secrets (Book 2),J. K. Rowling
3839,Harry Potter and the Prisoner of Azkaban (Book 3),J. K. Rowling
...,...,...
247872,Harry Potter Fun Book,Warner Bros.
251233,Harry Potter y El Caliz de Fuego,J. K. Rowling
256403,Harry Potter and the Bible: The Menace Behind...,Richard Abanes
257263,Harry Potter and the Goblet of Fire (Harry Pot...,J. K. Rowling


In [69]:
users

Unnamed: 0.1,Unnamed: 0,User-ID,Location,Age
0,0,1,"nyc, new york, usa",
1,1,2,"stockton, california, usa",18.0
2,2,3,"moscow, yukon territory, russia",
3,3,4,"porto, v.n.gaia, portugal",17.0
4,4,5,"farnborough, hants, united kingdom",
...,...,...,...,...
278853,278853,278854,"portland, oregon, usa",
278854,278854,278855,"tacoma, washington, united kingdom",50.0
278855,278855,278856,"brampton, ontario, canada",
278856,278856,278857,"knoxville, tennessee, usa",


In [70]:
# Example 2: Filter users from a specific country, e.g., 'USA'
usa_users = users[users["Location"].str.contains("USA", case=False)]
display("Users from the USA:\n", usa_users.head())

'Users from the USA:\n'

Unnamed: 0.1,Unnamed: 0,User-ID,Location,Age
0,0,1,"nyc, new york, usa",
1,1,2,"stockton, california, usa",18.0
5,5,6,"santa monica, california, usa",61.0
6,6,7,"washington, dc, usa",
8,8,9,"germantown, tennessee, usa",


In [71]:
# Example 3: Filter books by a specific author, e.g., 'J.K. Rowling'
jk_rowling_books = books[books["Book-Author"] == "J.K. Rowling"]
display("J.K. Rowling books:\n", jk_rowling_books["Book-Title"])

'J.K. Rowling books:\n'

35086     Harry Potter and the Prisoner of Azkaban (Harr...
50434     Harry Potter and the Philosopher's Stone (Cove...
107936    Harry Potter and the Philosopher's Stone (Cove...
110431               Harry Potter y la Ã?rden del FÃÂ©nix
145529    Harry Potter et l'Ordre du PhÃÂ©nix (Harry Po...
200073             Harry Potter and the Philosopher's Stone
205143             Harry Potter and the Philosopher's Stone
214147                                  I El Pres D'askaban
224187                                 I La Pedra Filosofal
259611                Harry Potter and the Sorcerer's Stone
Name: Book-Title, dtype: object

In [72]:
# Example 4: Filter books published after a certain year, e.g., 2000
books["Year-Of-Publication"] = pd.to_numeric(
    books["Year-Of-Publication"], errors="coerce"
)
books_after_2000 = books[books["Year-Of-Publication"] > 2000]
display(
    "Books published after 2000:\n",
    books_after_2000[["Book-Title", "Year-Of-Publication"]].head(),
)

'Books published after 2000:\n'

Unnamed: 0,Book-Title,Year-Of-Publication
0,Classical Mythology,2002.0
1,Clara Callan,2001.0
9,Where You'll Find Me: And Other Stories,2002.0
12,The Middle Stories,2004.0
21,New Vegetarian: Bold and Beautiful Recipes for...,2001.0


In [76]:
# Example 5: Group the ratings data by the user's country and compute the average rating
data_with_country = pd.merge(ratings, users, on="User-ID")
average_ratings_by_country = data_with_country.groupby(
    data_with_country["Location"].str.split(",").str[-1].str.strip()
)["Book-Rating"].mean()
display("Average ratings by country:\n", average_ratings_by_country.sample(10))

'Average ratings by country:\n'

Location
estonia           2.500000
espaÃ±a           4.323529
fort bend         7.666667
brunei            5.833333
deutschland       5.611111
guinea-bissau     2.000000
wales             1.425000
thailand          5.000000
costa rica"      10.000000
lithuania         6.212121
Name: Book-Rating, dtype: float64

In [77]:
data_with_country.head()

Unnamed: 0,User-ID,ISBN,Book-Rating,Location,Age
0,276725,034545104X,0,"tyler, texas, usa",
1,276726,0155061224,5,"seattle, washington, usa",
2,276727,0446520802,0,"h, new south wales, australia",16.0
3,276729,052165615X,3,"rijeka, n/a, croatia",16.0
4,276729,0521795028,6,"rijeka, n/a, croatia",16.0
