# Домашнее задание
## Изучение базовых возможностей библиотеки Pandas

Для примера используется датасет с рекомендациями по японским мульфильмам в формате csv.

### Получение информации из .csv

Для начала считаем информацию из датасета:

In [109]:
import pandas as pd

df = pd.read_csv('animedb.csv')
df.head()

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
0,32281,Kimi no Na wa.,"Drama, Romance, School, Supernatural",Movie,1,9.37,200630
1,5114,Fullmetal Alchemist: Brotherhood,"Action, Adventure, Drama, Fantasy, Magic, Mili...",TV,64,9.26,793665
2,28977,Gintama°,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.25,114262
3,9253,Steins;Gate,"Sci-Fi, Thriller",TV,24,9.17,673572
4,9969,Gintama&#039;,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.16,151266


### Базовые команды

Используя команды **.head()** и **.tail()** имеем возможность выводить первые и последние n элементов.
Для того, чтобы узнать больше о выбранном датасете применим команду **.info()**, которое вернет количество строк/столбцов, количество ненулевых значений, объем занимаемой памяти и тому подобное.

In [112]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12294 entries, 0 to 12293
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   anime_id  12294 non-null  int64  
 1   name      12294 non-null  object 
 2   genre     12232 non-null  object 
 3   type      12269 non-null  object 
 4   episodes  12294 non-null  object 
 5   rating    12064 non-null  float64
 6   members   12294 non-null  int64  
dtypes: float64(1), int64(2), object(4)
memory usage: 672.5+ KB


Можем понять, что некоторые строки у нас имеют нулевые значения, их можно как удалить, так и заполнить какими-либо значениями, например средними по датасету, подробнее это рассмотрим далее.  
Если необходимо просто узнать количество строк и столбцов имеется атрибут **.shape**, обратим внимание на отсутствие скобок.

In [115]:
df.shape

(12294, 7)

Убеждаемся, что наш **DataFrame** имеет 12294 строки и 7 столбцов. **DataFrame** тип данных, который описывает таблицу состоящую хотя бы из 2 столбоцов, для описания одного столбца существует тип данных **Series**. Покажем это:

In [118]:
print(type(df))
print(type(df["name"]))
df["name"].head()

<class 'pandas.core.frame.DataFrame'>
<class 'pandas.core.series.Series'>


0                      Kimi no Na wa.
1    Fullmetal Alchemist: Brotherhood
2                            Gintama°
3                         Steins;Gate
4                       Gintama&#039;
Name: name, dtype: object

### Обработка дубликатов

  В наборе данных важно, чтобы не было дубликатов, которые могут значительно удлинить срок обработки. В нашем наборе данных дубликатов нет, но для примера добавим набор данных к самому себе, используя метод **.concat()**. Он вернет копию, не затрагивая наш оригинал:

In [121]:
temp_df = pd.concat([df, df])
temp_df.shape

(24588, 7)

Видим, что количество строк удвоилось, теперь попробуем избавиться от дуликатов. Для этого используем метод **.drop_duplicates()**, у него есть именнованный параметр **inplace**, который при значении **inplace=True**, поможет избежать лишнего  самоприсваивания. Другой важный параметр - **keep**, имеет 3 возможные опции:  
- **first** - отбросить дубликаты, кроме первого вхождения, параметр по умолчанию.
- **last** - отбросить дубликаты, кроме последнего вхождения.
- **False** - отбросить все дубликаты.

Итак, избавимся от дубликатов:

In [124]:
temp_df.drop_duplicates(inplace=True)
temp_df.shape

(12294, 7)

Успех! Мы избавились от всех копий наших строк.

### Чистка столбцов

  Часто бывает, что набор данных имеет сомнительные названия столбцов: опечатки, лишние пробелы, верхний и нижный регистр. Это значительно увеличивает шанс неправильно обратиться к столбцу и словить ошибку *KeyError*.  
  Все названия столбцов можно получить через атрибут **columns**:

In [127]:
df.columns

Index(['anime_id', 'name', 'genre', 'type', 'episodes', 'rating', 'members'], dtype='object')

Названия можно поменять, используя **.rename()**. Для изменения регистра можно использовать тот же **.rename()** или *list comprehension*:

In [130]:
df.rename(columns={"name": "name_japanese"}, inplace=True)
df.head(3)

Unnamed: 0,anime_id,name_japanese,genre,type,episodes,rating,members
0,32281,Kimi no Na wa.,"Drama, Romance, School, Supernatural",Movie,1,9.37,200630
1,5114,Fullmetal Alchemist: Brotherhood,"Action, Adventure, Drama, Fantasy, Magic, Mili...",TV,64,9.26,793665
2,28977,Gintama°,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.25,114262


In [132]:
temp_df.columns = [col.upper() for col in df.columns]
temp_df.head(3)

Unnamed: 0,ANIME_ID,NAME_JAPANESE,GENRE,TYPE,EPISODES,RATING,MEMBERS
0,32281,Kimi no Na wa.,"Drama, Romance, School, Supernatural",Movie,1,9.37,200630
1,5114,Fullmetal Alchemist: Brotherhood,"Action, Adventure, Drama, Fantasy, Magic, Mili...",TV,64,9.26,793665
2,28977,Gintama°,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.25,114262


Удобнее всего использовать названия в нижнем регистре, без пробелов и специальных символов, за исключением нижнего подчеркивания

### Обработка нулевых значений

Выше уже было упомянуто, что некоторые значения в строчках были равны нулю (None, np.nan), для работы с ними есть 2 варианта:  
1. Удалить строки
2. Заполнить средним значением по набору данных  

Первым делом проверим какие конкретно строки содержат нулевые значения, посчитаем их общее количество

In [135]:
df.isnull()

Unnamed: 0,anime_id,name_japanese,genre,type,episodes,rating,members
0,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...
12289,False,False,False,False,False,False,False
12290,False,False,False,False,False,False,False
12291,False,False,False,False,False,False,False
12292,False,False,False,False,False,False,False


Метод **.isnull()** возвращает *DataFrame*, в котором каждая ячейка *True* или *False* в зависимости от значения.  
Чтобы посчитать общее количество *null*-ячеек используем **.sum()**

In [138]:
df.isnull().sum()

anime_id           0
name_japanese      0
genre             62
type              25
episodes           0
rating           230
members            0
dtype: int64

Теперь мы знаем, какие и сколько значений равны *null*.

#### Удаление нулых значений

Не трудно понять, что удаление строки это довольно расточительный вариант, ведь мы теряем всю информацию из других строчек. Тем не менее мы также рассмотрим его.  
Удалить нулевые строки довольно просто, используя **.dropna()**:

In [141]:
df.dropna().isnull().sum()

anime_id         0
name_japanese    0
genre            0
type             0
episodes         0
rating           0
members          0
dtype: int64

**.dropna()** также имеет параметр **inplace**, который мы могли бы задать. Помимо удаления строк, можно удалить столбцы, в которых встречаются нулевые значения, задав параметр **axis** равным 1:

In [144]:
df.dropna(axis=1).isnull().sum()

anime_id         0
name_japanese    0
episodes         0
members          0
dtype: int64

Видим, что удалились 3 столбца, в которых содержались нулевые значения.

#### Заполнение значениями (импутация)

Когда удаление строк или столбцов исключает слишком большой кусок данных, мы можем попробовать заменить *null* другим значением, обычно средним или медианным по столбцу.  
Рассмотрим импутацию недостающих значений столбца **rating**. Для начала выделим столбец в отдельную переменную:

In [147]:
rating = df["rating"]
type(rating)

pandas.core.series.Series

Переменная **rating** имеет тип Series:

In [150]:
rating.head()

0    9.37
1    9.26
2    9.25
3    9.17
4    9.16
Name: rating, dtype: float64

Пожалуй для заполнения нулевых значений будем использовать среднее значения по всему столбцу. Для начала получим его:

In [153]:
rating_mean = rating.mean()

rating_mean

6.473901690981432

Получив среднее значение заполним им нулевые, используя **.fillna()**:

In [156]:
rating.fillna(rating_mean, inplace=True)

df.isnull().sum()

anime_id          0
name_japanese     0
genre            62
type             25
episodes          0
rating            0
members           0
dtype: int64

Видно, что не осталось ни одной строчки, где **rating** был бы нулевым. Это базовый пример заполнения, можно было заполнить нулевые значения средним значением по жанру или типу.

### Понимание переменных

Используя метод **.describe()**, можно получить сводку распределения непрерывных переменных:

In [159]:
df.describe()

Unnamed: 0,anime_id,rating,members
count,12294.0,12294.0,12294.0
mean,14058.221653,6.473902,18071.34
std,11455.294701,1.017096,54820.68
min,1.0,1.67,5.0
25%,3484.25,5.9,225.0
50%,10260.5,6.55,1550.0
75%,24794.5,7.17,9437.0
max,34527.0,10.0,1013917.0


Его можно также использовать для отдельной категории, чтобы получить количество строк, количество уникальных категорий, топовую категорию и ее частоту:

In [162]:
df['type'].describe()

count     12269
unique        6
top          TV
freq       3787
Name: type, dtype: object

Это говорит нам о том, что у нас есть 6 уникальных категорий, топовая категоря *TV*, которая встречается 3787 раз (*freq*).  
Функция **.value_counts()** позволяет определить частотность всех значений в столбце:

In [165]:
df['type'].value_counts()

type
TV         3787
OVA        3311
Movie      2348
Special    1676
ONA         659
Music       488
Name: count, dtype: int64

### Получение данных по столбцам

Выше мы уже получали отдельный столбец, используя квадратные скобки, в результате тип объекта был *Series*, для того, чтобы получить объект типа *DataFrame*, необходимо передать список имен столбцов:

In [168]:
genre = df[['genre']]
type(genre)

pandas.core.frame.DataFrame

Поскольку это просто список, то можем добавить еще элемент:

In [173]:
sub_df = df[['name_japanese', 'genre']]
sub_df.head()

Unnamed: 0,name_japanese,genre
0,Kimi no Na wa.,"Drama, Romance, School, Supernatural"
1,Fullmetal Alchemist: Brotherhood,"Action, Adventure, Drama, Fantasy, Magic, Mili..."
2,Gintama°,"Action, Comedy, Historical, Parody, Samurai, S..."
3,Steins;Gate,"Sci-Fi, Thriller"
4,Gintama&#039;,"Action, Comedy, Historical, Parody, Samurai, S..."


### Получение данных по строкам

Для этого есть 2 варианта:  
- **.loc()** - определяет местоположение по имени 
- **.iloc()** - определяет местоположение по числовому индексу

В силу особенностей конкретного набора данных, продемонстрируем 2 вариант:

In [176]:
some = df.iloc[0]

some

anime_id                                        32281
name_japanese                          Kimi no Na wa.
genre            Drama, Romance, School, Supernatural
type                                            Movie
episodes                                            1
rating                                           9.37
members                                        200630
Name: 0, dtype: object

### Выборка по условиям

В случае, когда нам необходимо выбрать строки удовлетворяющие каким-то условиям, то мы можем воспользоваться булевым условием:

In [179]:
df[df["rating"] > 9.0].head()

Unnamed: 0,anime_id,name_japanese,genre,type,episodes,rating,members
0,32281,Kimi no Na wa.,"Drama, Romance, School, Supernatural",Movie,1,9.37,200630
1,5114,Fullmetal Alchemist: Brotherhood,"Action, Adventure, Drama, Fantasy, Magic, Mili...",TV,64,9.26,793665
2,28977,Gintama°,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.25,114262
3,9253,Steins;Gate,"Sci-Fi, Thriller",TV,24,9.17,673572
4,9969,Gintama&#039;,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.16,151266


Можем применить более сложные условия, используя логические операторы **|** и **&**, обязательно добавлять (), без них не будет работать

In [182]:
df[(df["rating"] > 9.0) & (df["type"] == "Movie")]

Unnamed: 0,anime_id,name_japanese,genre,type,episodes,rating,members
0,32281,Kimi no Na wa.,"Drama, Romance, School, Supernatural",Movie,1,9.37,200630
8,15335,Gintama Movie: Kanketsu-hen - Yorozuya yo Eien...,"Action, Comedy, Historical, Parody, Samurai, S...",Movie,1,9.1,72534
11,28851,Koe no Katachi,"Drama, School, Shounen",Movie,1,9.05,102733
9078,33607,Kahei no Umi,Historical,Movie,1,9.33,44
9595,23005,Mogura no Motoro,Slice of Life,Movie,1,9.5,62
10464,33662,Taka no Tsume 8: Yoshida-kun no X-Files,"Comedy, Parody",Movie,1,10.0,13


## Заключение

Мы рассмотрели самые базовые возможности библиотеки Pandas. Для более глубокого понимания следует погрузиться в документацию.   