# Импорт необходимых модулей

In [1]:
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns
import math

In [2]:
MEDIUM_SIZE = 20
BIGGER_SIZE = 30

plt.rc('font', size=BIGGER_SIZE)
plt.rc('axes', titlesize=MEDIUM_SIZE)
plt.rc('axes', labelsize=MEDIUM_SIZE)
plt.rc('xtick', labelsize=MEDIUM_SIZE)
plt.rc('ytick', labelsize=MEDIUM_SIZE)
plt.rc('legend', fontsize=MEDIUM_SIZE)
plt.rc('figure', titlesize=BIGGER_SIZE)
plt.rc('text', color='green')

plt.rc('xtick', color='green')
plt.rc('ytick', color='green')

plt.rc('axes', labelcolor='green')
plt.rc('axes', labelcolor='green')

In [3]:
pd.set_option('display.max_colwidth', -1)

# На всякий случай...

[ISBN](https://en.wikipedia.org/wiki/International_Standard_Book_Number)

# Чтение данных

In [4]:
ratings = pd.read_csv('data/BX-Book-Ratings.csv', sep=';', header=0, error_bad_lines=False, encoding='Windows-1251', low_memory=False)

In [5]:
books = pd.read_csv('data/BX-Books.csv', sep=';', header=0, error_bad_lines=False, encoding='Windows-1251', low_memory=False)

In [6]:
users = pd.read_csv('data/BX-Users.csv', sep=';', header=0, error_bad_lines=False, encoding='Windows-1251', low_memory=False)

# Знакомство

Ок, загрузили, надо теперь поглядеть, что это вообще за данные.

In [7]:
ratings.head()

Unnamed: 0,User-ID,ISBN,Book-Rating
0,276725,034545104X,0
1,276726,0155061224,5
2,276727,0446520802,0
3,276729,052165615X,3
4,276729,0521795028,6


In [8]:
ratings.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1149780 entries, 0 to 1149779
Data columns (total 3 columns):
User-ID        1149780 non-null int64
ISBN           1149780 non-null object
Book-Rating    1149780 non-null int64
dtypes: int64(2), object(1)
memory usage: 26.3+ MB


In [9]:
books.head()

Unnamed: 0,ISBN,Book-Title,Book-Author,Year-Of-Publication,Publisher,Image-URL-S,Image-URL-M,Image-URL-L
0,195153448,Classical Mythology,Mark P. O. Morford,2002,Oxford University Press,http://images.amazon.com/images/P/0195153448.01.THUMBZZZ.jpg,http://images.amazon.com/images/P/0195153448.01.MZZZZZZZ.jpg,http://images.amazon.com/images/P/0195153448.01.LZZZZZZZ.jpg
1,2005018,Clara Callan,Richard Bruce Wright,2001,HarperFlamingo Canada,http://images.amazon.com/images/P/0002005018.01.THUMBZZZ.jpg,http://images.amazon.com/images/P/0002005018.01.MZZZZZZZ.jpg,http://images.amazon.com/images/P/0002005018.01.LZZZZZZZ.jpg
2,60973129,Decision in Normandy,Carlo D'Este,1991,HarperPerennial,http://images.amazon.com/images/P/0060973129.01.THUMBZZZ.jpg,http://images.amazon.com/images/P/0060973129.01.MZZZZZZZ.jpg,http://images.amazon.com/images/P/0060973129.01.LZZZZZZZ.jpg
3,374157065,Flu: The Story of the Great Influenza Pandemic of 1918 and the Search for the Virus That Caused It,Gina Bari Kolata,1999,Farrar Straus Giroux,http://images.amazon.com/images/P/0374157065.01.THUMBZZZ.jpg,http://images.amazon.com/images/P/0374157065.01.MZZZZZZZ.jpg,http://images.amazon.com/images/P/0374157065.01.LZZZZZZZ.jpg
4,393045218,The Mummies of Urumchi,E. J. W. Barber,1999,W. W. Norton Company,http://images.amazon.com/images/P/0393045218.01.THUMBZZZ.jpg,http://images.amazon.com/images/P/0393045218.01.MZZZZZZZ.jpg,http://images.amazon.com/images/P/0393045218.01.LZZZZZZZ.jpg


Последние три признака не являются информативными, поскольку представляют собой ссылки на картинки обложек книг разных размеров. Их можно удалить:

In [10]:
books = books[['ISBN', 'Book-Title', 'Book-Author', 'Year-Of-Publication', 'Publisher']]

In [11]:
books.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 271379 entries, 0 to 271378
Data columns (total 5 columns):
ISBN                   271379 non-null object
Book-Title             271379 non-null object
Book-Author            271378 non-null object
Year-Of-Publication    271379 non-null object
Publisher              271377 non-null object
dtypes: object(5)
memory usage: 10.4+ MB


Гдянем теперь, нет ли каких-нибудь повторений среди этих книг:

In [12]:
books_groupped = books.groupby('Book-Title').agg([np.array, len])

In [13]:
books_groupped.sort_values(by=[('ISBN', 'len')], ascending=False).head(20)

Unnamed: 0_level_0,ISBN,ISBN,Book-Author,Book-Author,Year-Of-Publication,Year-Of-Publication,Publisher,Publisher
Unnamed: 0_level_1,array,len,array,len,array,len,array,len
Book-Title,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
Selected Poems,"[081120958X, 0811201465, 0679750800, 0060931744, 0517101548, 0520012984, 0871401541, 0060909897, 0571050190, 1550651498, 0333516265, 0679430830, 0940262193, 0802151027, 1852240954, 0679765654, 0906427851, 0520069358, 0156003961, 0395320461, 006093168X, 0679724834, 0394702956, 0811209512, 0670809179, 0460871501, 0571210767]",27,"[William Carlos Williams, K. Patchen, Rita Dove, Gwendolyn Brooks, John Donne, Paul Verlaine, E. E. Cummings, Gwendolyn Brooks, T. T Gunn, Ralph Gustafson, Thomas Hardy, Rita Dove, Kathleen Raine, Pablo Neruda, Jenny Joseph, Daniel Halpern, Denise Levertov, Robert Creeley, Carl Sandburg, Galway Kinnell, Edna St. Vincent Millay, W. H. Auden, R. Jeffers, Michael Mc Clure, John Ashbery, Elizabeth Barrett Browning, Simon Armitage]",27,"[1985, 1957, 1993, 1999, 1994, 1970, 1994, 1963, 1962, 2001, 1989, 1993, 1989, 1961, 1992, 1996, 1986, 1991, 1996, 1983, 1999, 1989, 1963, 1986, 1985, 1992, 2001]",27,"[New Directions Publishing Corporation, New Directions Publishing Corporation, Vintage Books USA, Perennial, Gramercy Books, University of California Press, Liveright Publishing Corporation, Harpercollins, Farrar Straus Giroux, Vehicule Press, Macmillan, Pantheon Books, Rudolph Steiner Pr, Grove Press, Bloodaxe Books Ltd, Alfred A. Knopf, Bloodaxe Books Ltd, University of California Press, Harvest Books, Houghton Mifflin Company, Perennial, Vintage Books USA, Vintage Books USA, W W Norton Co Inc, Penguin USA, Phoenix mass market p/bk, Faber and Faber Ltd]",27
Little Women,"[185854176X, 0861782356, 0590203509, 0440447682, 1550134140, 0451529308, 0451518144, 0590437976, 0195813898, 0785788727, 0448110199, 0812523334, 0394562798, 1557042160, 0590433423, 0448054663, 0448023644, 0590404989, 0681400552, 1593081081, 1568651198, 0553211153, 0448172569, 0590225375]",24,"[Louisa M. Atcott, Louisa May Alcott, Louisa May Alcott, Louisa May Alcott, Louisa May Alcott, Louisa May Alcott, Louisa May Alcott, Louisa May Alcott, Alcott, Louisa May Alcott, Louisa May Alcott, Louisa May Alcott, Louisa May Alcott, Laurie Lawlor, Louisa May Alcott, Louisa May Alcott, Louisa May Alcott, Louisa May Alcott, Louisa May Alcott, Louisa May Alcott, Louisa May Alcott, Louisa May Alcott, Louisa May Alcott, Louisa May Alcott]",24,"[1995, 0, 1994, 1990, 0, 2004, 1983, 1992, 1985, 1999, 1981, 1994, 1988, 1994, 1989, 1970, 1976, 1987, 1986, 2004, 1995, 1983, 1978, 1994]",24,"[Brimax Books Ltd, Octopus Publising Group Plc, Scholastic, Yearling Books, Firefly Books Ltd, Signet Classics, Signet Book, Scholastic, Oxford University Press, Sagebrush Bound, Grosset Dunlap, Tor Books, Alfred A. Knopf, Newmarket Press, Scholastic, Price Stern Sloan Pub (J), Price Stern Sloan Pub (J), Scholastic, Borders Press, Barnes Noble Books-Imports, Doubleday Books, Bantam, Berkley Pub Group (Mm), Little Brown and Company]",24
Wuthering Heights,"[0553212583, 0553211412, 0812505166, 0553210211, 0439228913, 1566193087, 0590460307, 0140171002, 0880299185, 0451519582, 0706430131, 0141305479, 0451521196, 0817221999, 0894714805, 0395051029, 0895771594, 0312138946, 1570421161, 0804900116, 0451516508]",21,"[EMILY BRONTE, Emily Bronte, Emily Bronte, Emily Bronte, Emily Bronte, Emily Bronte, Emily Bronte, Emily Bronte, Emily Bronte, Emily Bronte, Emily Bronte, Emily Bronte, Emily Bronte, Emily Bronte, Emily Bronte, Emily Bronte, Emily Bronte, Emily Bronte, Emily Bronte, Emily Bronte, Emily Bronte]",21,"[1983, 1983, 1989, 1981, 2003, 1994, 1992, 1992, 1992, 1959, 0, 1999, 1959, 1988, 1986, 1956, 1982, 2000, 1994, 1964, 1959]",21,"[Bantam, Bantam, Tor Classics, Bantam Books, Scholastic Paperbacks, Dorset Press, Scholastic Paperbacks (Mm), Penguin Books Ltd, Barnes Noble, Signet Book, Octopus Books, Puffin Books, Signet Book, Steck-Vaughn, Running Press Book Publishers, Houghton Mifflin Company, Readers Digest Assn, St. Martin's Press, Time Warner Audio Major, Peter Smith Publisher Inc, Signet Book]",21
The Secret Garden,"[0812505018, 0590433466, 006440188X, 0590471724, 0440977096, 0879236493, 055321201X, 0439099390, 0440777062, 0812519108, 0451525817, 0451524179, 0397321651, 0451520807, 0440477093, 1569874115, 0453008402, 1569873925, 0590407201, 0340611839]",20,"[Frances Hodgson Burnett, Frances H. Burnett, Frances Hodgson Burnett, M.J. Carr, Frances Hodgson Burnett, Frances Hodgson Burnett, Frances H. Burnett, Frances Hodgson Burnett, Frances Hodgson Burnett, Frances Hodgson Burnett, Frances Hodgson Burnett, Frances Hodgson Burnett, Frances Hodgson Burnett, Frances Hodgson Burnett, Frances H. Burnett, Frances Hodgson Burnett, Frances Hodgson Burnett, Frances Hodgson Burnett, Frances Hodgson Burnett, Frances Hodgson Burnett]",20,"[1989, 1997, 1998, 1993, 1989, 1987, 1987, 1999, 1979, 1991, 1994, 1994, 1998, 1987, 1990, 0, 1993, 0, 1987, 1994]",20,"[Tor Books, Scholastic, HarperTrophy, Scholastic Paperbacks (Mm), Laure Leaf, David R. Godine Publisher, Bantam, Scholastic, Dell Publishing, Tor Books (Mm), Signet Classics, Signet Classics, HarperCollins, Signet Book, Yearling Books, Landoll, Highbridge Audio, Landoll, Scholastic, Hodder Children's Books]",20
Dracula,"[156619301X, 055321148X, 9875021245, 0140052801, 0451175816, 0880299010, 8481301183, 1562542621, 0515053473, 0863221432, 0453007864, 0439101344, 8401492009, 0312863586, 0893757829, 014017186X, 1404336540, 8448700058, 0812504429, 0573608229]",20,"[Bram Stoker, Bram Stoker, Bram Stoker, Bram Stoker, Bram Stoker, Bram Stoker, Bram Stocker, Emily Hutchinson, Bram Stoker, Bram Stoker, Bram Stoker, Bram Stoker, Bram Stoker, Bram Stoker, Bram Stoker, Bram Stoker, Bram Stoker, Bram Stoker, Books Tor, Hamilton Deane]",20,"[1994, 1983, 2004, 1992, 1992, 1992, 2001, 1998, 1979, 1992, 1992, 2001, 1993, 1997, 1993, 1992, 2002, 1995, 1990, 1999]",20,"[Dorset Press, Bantam, Distal, Penguin USA, New Amer Library Classics, Barnes Noble Books, Colleccion Millenium, Saddleback Publishing, Inc., Berkley Pub Group (Mm), Brandon/Mount Eagle, Penguin Highbridge Audio, Scholastic Paperbacks (Mm), Plaza Janes Editores, S.A., Tor Books, Troll Communications, Penguin Books Ltd, IndyPublish.com, Altaya, Tor Books, Samuel French]",20
Adventures of Huckleberry Finn,"[0835902242, 059043389X, 0451519124, 0451523733, 0448110008, 0520237714, 0590408011, 0448058006, 0679448896, 0449912728, 0804900043, 0395051142, 0810200627, 0451516737, 0881421073, 0448149222, 0142500984, 1572701110, 0060806125, 0060467215]",20,"[Mark Twain, Mark Twain, Mark Twain, Mark Twain, Mark Twain, Mark Twain, Mark Twain, Mark Twain, Mark Twain, Mark Twain, Mark Twain, Mark Twain, Mark Twain, Mark Twain, Mark Twain, Mark Twain, Mark Twain, Mark Twain, Mark Twain, Mark Twain]",20,"[1992, 1987, 1959, 1959, 1981, 2002, 1987, 1970, 1996, 1997, 1992, 1980, 1962, 1959, 1973, 1978, 2003, 1999, 1965, 1987]",20,"[Globe Fearon, Scholastic, Signet Book, New Amer Library Classics, Price Stern Sloan Pub (J), University of California Press, Scholastic, Grosset Dunlap, Random House Inc, Ballantine Books, Peter Smith Publisher Inc, Houghton Mifflin Company, Harpercollins Juvenile Books, Signet Book, Soundelux Audio Publishing, Putnam Pub Group, Puffin Books, Audio Partners, Harpercollins Juvenile Books, Harper Row]",20
Jane Eyre,"[0451518845, 0451523326, 1566193028, 156619024X, 8426102069, 0553210203, 0460012878, 0141305371, 2253004359, 0812523377, 0809598949, 3548301231, 0517668432, 1853268348, 2266083252, 0451515560, 0582528259, 1590071212, 843761449X]",19,"[Charlotte Bronte, Charlotte Bronte, Charlotte Bronte, Charlotte Bronte, Charlotte Bronte, Charlotte Bronte, Charlotte Bronte, Charlotte Bronte, Charlotte BrontГ?В«, Charlotte Bronte, Charlotte Bronte, C Bronte, Charlotte Bronte, Charlotte Bronte, Charlotte BrontГ?В«, Charlotte Bronte, Charlotte Bronte, Charlotte Bronte, Charlotte Bronte]",19,"[1999, 1988, 1994, 0, 1997, 1981, 1976, 1999, 1991, 1994, 2004, 0, 1988, 0, 1999, 1981, 1978, 2002, 1998]",19,"[New Amer Library Classics, Signet Classics, Dorset Press, Barnes Noble Classics, Juventud, Bantam Books, J m Dent Sons Ltd, Puffin Books, LGF, Tor Books, Wildside Press, Ullstein-Taschenbuch-Verlag, Zweigniederlassung der Ullstein Buchverlage GmbH, Random House Value Publishing, Universal Sales Marketing, Pocket, Signet Book, Addison-Wesley Pub Co, New Millenium Audio, Ediciones Catedra S.A.]",19
The Night Before Christmas,"[0505523183, 0837885043, 155858465X, 0307109739, 1569872848, 0895424983, 030714190X, 0307102025, 0517185210, 0671684086, 0843134453, 0694004243, 0060283807, 0689840535, 0786806087, 0307137503, 0505521474, 0394807413]",18,"[Victoria Alexander, Clement Clarke Moore, Clement C. Moore, Clement C. Moore, Clement Clarke Moore, Clement Clark Moore, Clement C. Moore, Clement C. Moore, CLEMENT C. MOORE, Clement Clarke Moore, Kees Moerbeek, Clement C. Moore, Clement Clarke Moore, Clement Clarke Moore, William Wegman, Clement Moore, Victoria Alexander, Clement Clarke Moore]",18,"[1998, 1994, 1995, 1950, 1995, 1984, 1992, 1988, 2000, 1989, 1992, 1992, 1999, 2001, 2000, 1986, 1996, 1962]",18,"[Love Spell, C.R. Gibson Company, North-South Books, Merrigold Press, Landoll, Ideals Publications, Random House Childrens Books, Golden Books, Derrydale, Little Simon, Price Stern Sloan, HarperCollins Publishers, HarperCollins Publishers, Atheneum/Anne Schwartz Books, Hyperion Books for Children, Golden Books, Leisure Books, Random House Children's Books]",18
Pride and Prejudice,"[055321215X, 0553213105, 0451523652, 1566190932, 0451525884, 0451519167, 0893756113, 0553210181, 0192815032, 0140238212, 0812523369, 0804900019, 0451520750, 0451516621, 0451522265, 0393997715, 0582529131, 3190025355]",18,"[Jane Austen, Jane Austen, Jane Austen, Jane Austen, Jane Austen, Jane Austen, Jane Austen, Jane Austen, Jane Austen, Jane Austen, Jane Austen, Jane Austen, Jane Austen, Jane Austen, Jane Austen, Jane Austen, Jane Austen, Jane Austen]",18,"[1983, 1981, 1988, 1993, 1996, 1961, 1997, 1981, 1987, 1995, 1994, 1980, 1961, 1961, 1961, 0, 1985, 1999]",18,"[Bantam, Bantam, New Amer Library Classics, Barnes Noble Classics, Signet Book, Signet Book, Troll Communications, Bantam Books, Oxford University Press, Penguin Books Ltd, Tor Books, Airmont Pub Co, Signet Book, Signet Book, Signet Book, R.S. Means Company, Addison-Wesley, Max Hueber Verlag]",18
Great Expectations,"[0689839618, 0140434895, 0451525248, 0141309326, 1566194415, 0812563115, 0140059342, 0451520769, 0877207259, 0553211137, 0771557000, 1551111748, 0451519329, 0553212346, 1590861531, 080490068X, 0802131557]",17,"[Charles Dickens, Charles Dickens, Charles Dickens, Charles Dickens, Charles Dickens, Charles Dickens, Charles Dickens, Charles Dickens, Charles Dickens, Charles Dickens, Charles Dickens, Charles Dickens, Charles Dickens, Charles Dickens, Charles Dickens, Charles Dickens, Kathy Acker]",17,"[2000, 1998, 1986, 2000, 0, 1998, 1981, 1981, 1970, 1982, 0, 1998, 1981, 1982, 2002, 1970, 1989]",17,"[Aladdin, Penguin USA (Paper), Signet Classics, Penguin Putnam~trade, Barnes Noble, Tor Books, Penguin Books Ltd, Signet Book, Amsco School Pubns Inc, Bantam, Gage Publishing Ltd, Broadview Press, Signet Book, Bantam, Brilliance Audio, Airmont Pub Co, Grove Press]",17


Очевидно есть повторения.

Заметно, что по некоторым публикациям не указан год издания, также по некоторым книгам имена авторов по-разному указаны.

В остальном это разные издания одних и тех же работ, напечатанных в разные (не все) годы разными издательствами.

Пока не совсем понятно, что делать с этой информацией.

Попробуем глянуть, какие есть оценки для разных изданий какого-нибудь произведения:

In [14]:
ratings[ratings.ISBN.isin(books_groupped.loc['Jane Eyre', ('ISBN', 'array')])][ratings['Book-Rating'] > 0]['User-ID'].nunique()

  """Entry point for launching an IPython kernel.


38

Итак, в частности для произведения **"Джейн Эйр"** присутствует довольно большое количество оценок от разных пользователей (для разных ISBN).

Собственно, логично предположить, что, оценивая книгу, читатель оценивает далеко не только само произведение, но еще и обложку, шрифт, цвет, качество бумаги (если это печатное издание).

Существуют, наверное и другие факторы, не имеющие отношения к самому произведению, однако здесь это особо не проверить, поскольку данных на эту тему нет.

In [15]:
books.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 271379 entries, 0 to 271378
Data columns (total 5 columns):
ISBN                   271379 non-null object
Book-Title             271379 non-null object
Book-Author            271378 non-null object
Year-Of-Publication    271379 non-null object
Publisher              271377 non-null object
dtypes: object(5)
memory usage: 10.4+ MB


In [16]:
users.head()

Unnamed: 0,User-ID,Location,Age
0,1,"nyc, new york, usa",
1,2,"stockton, california, usa",18.0
2,3,"moscow, yukon territory, russia",
3,4,"porto, v.n.gaia, portugal",17.0
4,5,"farnborough, hants, united kingdom",


In [17]:
users.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 278858 entries, 0 to 278857
Data columns (total 3 columns):
User-ID     278858 non-null int64
Location    278858 non-null object
Age         168096 non-null float64
dtypes: float64(1), int64(1), object(1)
memory usage: 6.4+ MB


Итак, у нас есть 271379 книг и 278858 пользователей, по книгам известны их:
- ISBN;
- название;
- автор;
- год выпуска;
- издательство.

По пользователям (не по всем) известно их:
- местоположение;
- возраст.

Надо глянуть какой процент пользователей указали возраст:

In [None]:
100 * len(users[~users.Age.isnull()]) / len(users)

Ок, ~60% пользователей не стесняются, чего не скажешь об остальных.

Глянем, как читатели распределены по возрасту:

In [None]:
plt.figure(figsize=(35, 15))
n, bins, _ = plt.hist(users[~users.Age.isnull()].Age, bins=20)
plt.xticks(list(map(int, bins)))
plt.show()

Что же, очевидно, есть некоторая часть пользователей с возрастом, указанным не вполне адекватно:

In [None]:
users[~users.Age.isnull()].Age.min()

In [None]:
users[~users.Age.isnull()].Age.max()

Вряд ли кто-то в возрасте 0 или 244 лет что-то покупал из книг.

Заметим, что поле Location состоит из трех пунктов: город, регион, страна.

Надо бы разделить это поле на три, чтобы глянуть, как пользователи по миру раскиданы.

Перед этим надо глянуть, можно ли вообще легко это разделение сделать:

In [None]:
locations = users.Location.values
locations = np.array([loc.split(', ') for loc in locations])

In [None]:
incorrect_items_more = [ind for ind, item in enumerate(locations) if len(item) > 3]
incorrect_items_less = [ind for ind, item in enumerate(locations) if len(item) < 3]

In [None]:
print(100 * (len(incorrect_items_more) + len(incorrect_items_less)) / len(locations))

~2% людей с коряво указанными данными по местоположению.

Надо глянуть, сколько из них оценили какие-нибудь книги:

In [None]:
users_with_their_ratings_l = pd.merge(users[users.index.isin(incorrect_items_less)], ratings, how='inner', on='User-ID')

In [None]:
plt.figure(figsize=(16, 16))
users_with_their_ratings_l['Book-Rating'].value_counts().plot.pie(autopct='%.2f')
plt.show()

In [None]:
users_with_their_ratings_m = pd.merge(users[users.index.isin(incorrect_items_more)], ratings, how='inner', on='User-ID')

In [None]:
plt.figure(figsize=(8, 8))
users_with_their_ratings_m['Book-Rating'].value_counts().plot.pie(autopct='%.2f')
plt.show()

Здесь графики приводятся в разных масштабах, чтобы не ввести в заблуждение по поводу объема выборок пользователей с коряво указанными локациями:

In [None]:
print(len(incorrect_items_more), len(incorrect_items_less))

Надо бы еще глянуть, как много ISBN, указанных в таблице BX-Book-Ratings, отсутствуют в таблице BX-Books.

То же самое по поводу пользователей:

In [None]:
ratings[~ratings.ISBN.isin(books.ISBN)].ISBN.nunique()

Получается, что в списке книг есть такие, о которых, вообще говоря, ничего не известно.

Надо глянуть, по скольким таким книгам есть оценки:

In [None]:
non_zero_ratings = ratings[ratings['Book-Rating'] > 0]
non_zero_ratings[~non_zero_ratings.ISBN.isin(books.ISBN)].ISBN.nunique()

Что же, у нас есть оценки пользователей по книгам, о которых мы ничего не знаем.

Глянем, как это количество соотносится с общим количеством оцененных пользователями книг:

In [None]:
100 * non_zero_ratings[~non_zero_ratings.ISBN.isin(books.ISBN)].ISBN.nunique() / non_zero_ratings.ISBN.nunique()

С одной стороны 19% - это довольно много, с другой - это 19% оценок книг, о которых ничего неизвестно.

Это просто какие-то номера, по которым нельзя будет, скажем построить какой-нибудь Item-based алгоритм, после применения Collaborative filtering нельзя будет сказать, каким именно книгам были восстановлены оценки, нельзя будет сделать никаких выводов по этому поводу.

Собственно поэтому логичнее эти оценки пока не рассматривать.

In [None]:
non_zero_ratings = non_zero_ratings[non_zero_ratings.ISBN.isin(books.ISBN)]

In [None]:
non_zero_ratings.ISBN.nunique()

In [None]:
non_zero_ratings[~non_zero_ratings['User-ID'].isin(users['User-ID'])]['User-ID'].nunique()

Итак, нет ни одного ID для которого бы в таблице users не было бы записи.

Хорошо, теперь надо еще ответить на обратные вопросы: есть ли такие пользователи, которые не дали оценки ни одной книге и есть ли такие книги, которые не были оценены ни одним пользователем:

In [None]:
100 * users[~users['User-ID'].isin(non_zero_ratings['User-ID'])]['User-ID'].nunique() / users['User-ID'].nunique()

In [None]:
100 * books[~books.ISBN.isin(non_zero_ratings.ISBN)].ISBN.nunique() / books.ISBN.nunique()

Получается, у нас есть ~75.6% пользователей, никак ни одной книги не оценивших и ~44.8% книг, никах никем не оценённых.

# К вопросу о правильном Evaluation

Здесь общая идея следующая:
- сформировать выборку троек (пользователь, книга, оценка), желательно, чтобы эта выборка покрыла как можно больше книг;
- извлечь эти тройки из основного набора данных (оценок) и далее считать, что для выбранных пользователей и книг оценки неизвестны и должны быть восстановлены;
- собственно, применить один из алгоритмов восстановления оценок;
- пользуясь выбраннной метрикой (RMSE или NDCG) оценить качество восстановления пользовательских оценок.

# Сколько читателей поставили оценки и какое количество книг было оценено

Ок, теперь надо глянуть, какие пользователи сколько раз поставили оценки и какие книги сколько раз были оценены.

Это необходимо для того, чтобы понять как разделять датасет на трейн и тест.

Также нужно понять какую часть пользователей и книг нужно отсеять (пользователи, оценившие слишком мало книг из всего множества, книги, оцененные слишком мало пользователями).

In [None]:
non_zero_ratings_groupped_by_user = non_zero_ratings.groupby('User-ID').agg(len)

In [None]:
non_zero_ratings_groupped_by_user.sort_values(by=['ISBN'], ascending=False).head(10)

In [None]:
len(non_zero_ratings_groupped_by_user[non_zero_ratings_groupped_by_user.ISBN > 10])

In [None]:
non_zero_ratings_groupped_by_user[non_zero_ratings_groupped_by_user.ISBN > 10].index.values

In [None]:
non_zero_ratings[non_zero_ratings['User-ID'] == 278633].index.values

In [None]:
len(non_zero_ratings_groupped_by_user)

In [None]:
non_zero_ratings_groupped_by_isbn = non_zero_ratings.groupby('ISBN').agg(len)

In [None]:
non_zero_ratings_groupped_by_isbn.sort_values(by=['User-ID'], ascending=False).head(10)

In [None]:
len(non_zero_ratings_groupped_by_isbn[non_zero_ratings_groupped_by_isbn['User-ID'] > 10])

In [None]:
len(non_zero_ratings_groupped_by_isbn)

# Итог

Итого на данный момент можно сделать несколько выводов по данным, а именно:
- среди книг присутствует большое количество повторений (одни и те же произведения, но от разных издательств, разных годов издания, одинаково названные, но вообще говоря, разные произведения и т.д.)
- ~ у 40% пользователей не указан возраст;
- некоторая часть пользователей указала возраст неправильно (значения типа 0 и 244);
- за исключением ~2% пользователей местоположение можно разделить на город, регион и страну;
- среди этих 2% бОльшая часть пользоваталей не поставила оценок ни одной книге;
- ~19% оценок относятся к книгам, о которых ничего неизвестно (их нельзя найти по ISBN в таблице BX-Books.csv);
- ~75.6% пользователей либо только заходили на страницу с книгой, но не поставили оценку, либо вообще ничего не делали;
- ~44.8% книг либо были только просмотрены, но не оценены, либо вообще никак не были задействованы