# PANDAS
Одна из самых необходимых библиотек для работы с данными в python (есть также модуль polars, он предназначен для того же)
Pandas - это пакет для манипулирования данными и их анализа на Python. Название Pandas происходит от эконометрического термина Panel Data. Pandas включает в Python две дополнительные структуры данных, а именно Pandas Series и Pandas DataFrame. Эти структуры данных позволяют нам работать с маркированными и реляционными данными простым и интуитивно понятным способом.
Серия Pandas и фреймы данных предназначены для быстрого анализа данных и манипулирования ими, а также являются гибкими и простыми в использовании. Ниже приведены лишь несколько функций, которые делают Pandas отличным пакетом для анализа данных:
- Позволяет использовать метки для строк и столбцов
- Может вычислять скользящую статистику по данным временных рядов
- Простая обработка значений NaN
- Способен загружать данные разных форматов во фреймы данных
- ожет объединять различные наборы данных вместе
- Интегрируется с NumPy и Matplotlib

Для установки пропишем **pip install pandas**

Серии
Объект, похожий на одномерный массив, который может содержать множество типов данных. Одно из основных отличий между Pandas Series и NumPy ndarrays заключается в том, что мы можем назначить индексную метку каждому элементу в Pandas Series. Еще одно большое отличие заключается в том, что серии Pandas могут содержать данные разных типов.
Синтаксис:
pd.Series(данные, индекс)

In [4]:
# Серия создается так: (создадим пустую серию)
import pandas as pd

ls = pd.Series()
print(ls)

Series([], dtype: object)


In [6]:
groceries = pd.Series(data=[30, 6, 'Yes', 'No'], index=['eggs', 'apples', 'milk', 'bread'])
print(groceries)

eggs       30
apples      6
milk      Yes
bread      No
dtype: object


**форма, размер, значения, индекс, ndim (измерение)**

In [8]:
print('Shape:', groceries.shape)
print('Dimension:', groceries.ndim)
print(groceries.size, 'elements')
print('Data:', groceries.values)
print('Index:', groceries.index)

Shape: (4,)
Dimension: 1
4 elements
Data: [30 6 'Yes' 'No']
Index: Index(['eggs', 'apples', 'milk', 'bread'], dtype='object')


In [9]:
# проверим, существует ли индексная метка в серии
x = 'bananas' in groceries
x

False

**Можем создавать объект series из ndarray**

In [10]:
import pandas as pd
import numpy as np

data = np.array(['a', 'b', 'c', 'd'])
ls = pd.Series(data)
print(ls)

0    a
1    b
2    c
3    d
dtype: object


**Можем создавать series прямо из списка (list)**

In [11]:
import pandas as pd

a = [6, 7, 2]
ls = pd.Series(a)
print(ls)

0    6
1    7
2    2
dtype: int64


**А так же из словаря**

In [12]:
import pandas as pd

calories = {"day1": 420,
            "day2": 380,
            "day3": 390
            }
df = pd.Series(calories)
print(df)

day1    420
day2    380
day3    390
dtype: int64


**Да, можем даже создать из списка словарей)))**

In [16]:
import pandas as pd

data = [
    {'a': 1, 'b': 2},
    {'a': 5, 'b': 10, 'c': 20}
]
df = pd.DataFrame(data)
print(df.loc[0])  # Pandas использует атрибут loc для возврата одной или нескольких указанных строк.

a    1.0
b    2.0
c    NaN
Name: 0, dtype: float64


**Операции с датафреймами**

In [24]:
import pandas as pd

d = {'Name': pd.Series(['Tom', 'James', 'Ricky', 'Vin', 'Steve', 'Smith', 'Jack',
                        'Lee', 'David', 'Gasper', 'Betina', 'Andres']),
     'Age': pd.Series([25, 26, 25, 23, 30, 29, 23, 34, 40, 30, 51, 46]),
     'Rating': pd.Series([4.23, 3.24, 3.98, 2.56, 3.20, 4.6, 3.8, 3.78, 2.98, 4.80, 4.10, 3.65])
     }

# Создаем датафрейм
df = pd.DataFrame(d)
print(df)
print("------------------**sum**---------------------")
print(df.sum())
print("------------------**mean**---------------------")
print(df.Age.mean())
print(df.Rating.mean())
print("------------------**mode**---------------------")
print(df.Age.mode())
print(df.Rating.mode())
print("------------------**median**---------------------")
print(df.Age.median())
print(df.Rating.median())
print("------------------**std**---------------------")
print(df.Age.std())
print(df.Rating.std())
print("------------------**describe**---------------------")
print(df.describe())
print("------------------**max**---------------------")
print(df.max())
print("------------------**min**---------------------")
print(df.min())

      Name  Age  Rating
0      Tom   25    4.23
1    James   26    3.24
2    Ricky   25    3.98
3      Vin   23    2.56
4    Steve   30    3.20
5    Smith   29    4.60
6     Jack   23    3.80
7      Lee   34    3.78
8    David   40    2.98
9   Gasper   30    4.80
10  Betina   51    4.10
11  Andres   46    3.65
------------------**sum**---------------------
Name      TomJamesRickyVinSteveSmithJackLeeDavidGasperBe...
Age                                                     382
Rating                                                44.92
dtype: object
------------------**mean**---------------------
31.833333333333332
3.7433333333333327
------------------**mode**---------------------
0    23
1    25
2    30
Name: Age, dtype: int64
0     2.56
1     2.98
2     3.20
3     3.24
4     3.65
5     3.78
6     3.80
7     3.98
8     4.10
9     4.23
10    4.60
11    4.80
Name: Rating, dtype: float64
------------------**median**---------------------
29.5
3.79
------------------**std**-------------------

# Манипуляции с данными

- Добавление/удаление столбцов
- Агрегирование данных
- Группировка и сводные таблицы

In [25]:
import pandas as pd

data = {'Name': ['Alice', 'Bob', 'Charlie'],
        'Age': [20, 35, 27]}
df = pd.DataFrame(data)
print(df)

      Name  Age
0    Alice   20
1      Bob   35
2  Charlie   27


Добавление элементов в фрейм данных

In [31]:
df['City'] = ['New York', 'Los Angeles', 'Chicago']
print(df)

      Name  Age         City
0    Alice   20     New York
1      Bob   35  Los Angeles
2  Charlie   27      Chicago


In [32]:
df = df.drop('City', axis=1)
print(df)

      Name  Age
0    Alice   20
1      Bob   35
2  Charlie   27


# Сводные таблицы

In [45]:
import pandas as pd

data = {'Category': ['A', 'B', 'A', 'B', 'A', 'B'],
        'Value': [10, 20, 15, 25, 30, 35]}
df = pd.DataFrame(data)

In [46]:
pivot_table = df.pivot_table(index='Category', values='Value', aggfunc='sum')  # Найдем сумму по каждой категории
print(pivot_table)

          Value
Category       
A            55
B            80


In [48]:
pivot_table = df.pivot_table(index='Category', values='Value', aggfunc='mean')  # Найдем среднее по каждой категории
print(pivot_table)

              Value
Category           
A         18.333333
B         26.666667


# Основные операции с фреймами данных

- Выбор столбцов
- Фильтрация данных
- Сортировка данных
- Описательная статистика

In [49]:
# Выбор столбца
import pandas as pd

data = {'Name': ['Alice', 'Bob', 'Charlie'],
        'Age': [20, 35, 27],
        'City': ['New York', 'Los Angeles', 'Chicago']}
df = pd.DataFrame(data)
df1 = df['Name']
df2 = df[['Name', 'Age']]

print(df1)
print("-" * 25)
print(df2)

0      Alice
1        Bob
2    Charlie
Name: Name, dtype: object
-------------------------
      Name  Age
0    Alice   20
1      Bob   35
2  Charlie   27


In [50]:
# Отфильтруем строки
x1 = df[df['Age'] > 30]
y1 = df[(df['Age'] > 25) & (df['City'] == 'New York')]
print(x1)
print("-" * 25)
print(y1)

  Name  Age         City
1  Bob   35  Los Angeles
-------------------------
Empty DataFrame
Columns: [Name, Age, City]
Index: []


In [55]:
# Сортировка данных
Q1 = df.sort_values(by='Age')
Q2 = df.sort_values(by=['City', 'Age'], ascending=[True, False])

print(Q1)
print("-" * 25)
print(Q2)

      Name  Age         City
0    Alice   20     New York
2  Charlie   27      Chicago
1      Bob   35  Los Angeles
-------------------------
      Name  Age         City
2  Charlie   27      Chicago
1      Bob   35  Los Angeles
0    Alice   20     New York


# Для дальнейшей работы скачиваем датасет с Kaggle

https://www.kaggle.com/datasets/CooperUnion/anime-recommendations-database

In [98]:
import pandas as pd
import numpy as np

anime = pd.read_csv(
    'anim_recom/anime.csv')  # Мы можем выгружать данные из csv, excel, sas, json, html, pickle, sql, gbq. Достаточно использовать метод read_* (вместо звёздочки используем наименование необходимого формата)
rating = pd.read_csv('anim_recom/rating.csv')
anime_modified = anime.set_index('name')

In [59]:
anime.head(3)   # head используется для просмотра необходимого количества строк в датасете (С начала датасета)

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
0,32281,Kimi no Na wa.,"Drama, Romance, School, Supernatural",Movie,1,9.37,200630
1,5114,Fullmetal Alchemist: Brotherhood,"Action, Adventure, Drama, Fantasy, Magic, Mili...",TV,64,9.26,793665
2,28977,Gintama°,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.25,114262


In [63]:
rating.tail(3)  #  tail используется для просмотра необходимого количества строк в датасете (С конца датасета)

Unnamed: 0,user_id,anime_id,rating
7813734,73515,22145,10
7813735,73516,790,9
7813736,73516,8074,9


In [66]:
len(df)     # Подсчёт кол-ва строк в датасете

3

In [67]:
df

Unnamed: 0,Name,Age,City
0,Alice,20,New York
1,Bob,35,Los Angeles
2,Charlie,27,Chicago


In [122]:
rating['user_id'].nunique()    # Подсчёт кол-ва уникальных значений

73515

In [70]:
anime.info()    # Краткая сводка о датасете

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12294 entries, 0 to 12293
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   anime_id  12294 non-null  int64  
 1   name      12294 non-null  object 
 2   genre     12232 non-null  object 
 3   type      12269 non-null  object 
 4   episodes  12294 non-null  object 
 5   rating    12064 non-null  float64
 6   members   12294 non-null  int64  
dtypes: float64(1), int64(2), object(4)
memory usage: 672.5+ KB


In [74]:
anime.describe()    # Вывод статистических сведений о датафрейме

Unnamed: 0,anime_id,rating,members
count,12294.0,12064.0,12294.0
mean,14058.221653,6.473902,18071.34
std,11455.294701,1.026746,54820.68
min,1.0,1.67,5.0
25%,3484.25,5.88,225.0
50%,10260.5,6.57,1550.0
75%,24794.5,7.18,9437.0
max,34527.0,10.0,1013917.0


In [75]:
anime.type.value_counts()   # value_counts подсчитывает кол-во значений

type
TV         3787
OVA        3311
Movie      2348
Special    1676
ONA         659
Music       488
Name: count, dtype: int64

In [76]:
anime.episodes.value_counts()

episodes
1      5677
2      1076
12      816
13      572
26      514
       ... 
358       1
366       1
201       1
172       1
125       1
Name: count, Length: 187, dtype: int64

In [80]:
anime['genre'].tolist()     # Мы также можем перевести столбец в список

['Drama, Romance, School, Supernatural',
 'Action, Adventure, Drama, Fantasy, Magic, Military, Shounen',
 'Action, Comedy, Historical, Parody, Samurai, Sci-Fi, Shounen',
 'Sci-Fi, Thriller',
 'Action, Comedy, Historical, Parody, Samurai, Sci-Fi, Shounen',
 'Comedy, Drama, School, Shounen, Sports',
 'Action, Adventure, Shounen, Super Power',
 'Drama, Military, Sci-Fi, Space',
 'Action, Comedy, Historical, Parody, Samurai, Sci-Fi, Shounen',
 'Action, Comedy, Historical, Parody, Samurai, Sci-Fi, Shounen',
 'Drama, Fantasy, Romance, Slice of Life, Supernatural',
 'Drama, School, Shounen',
 'Action, Comedy, Historical, Parody, Samurai, Sci-Fi, Shounen',
 'Action, Drama, Mecha, Military, Sci-Fi, Super Power',
 'Comedy, Drama, School, Shounen, Sports',
 'Adventure, Drama, Supernatural',
 'Drama, Music, Romance, School, Shounen',
 'Adventure, Fantasy, Historical, Mystery, Seinen, Slice of Life, Supernatural',
 'Fantasy, Slice of Life',
 'Action, Mecha, Military, School, Sci-Fi, Super Power',
 

In [81]:
print(anime['genre'])       # Просмотрим датасет, тот же столбец

0                     Drama, Romance, School, Supernatural
1        Action, Adventure, Drama, Fantasy, Magic, Mili...
2        Action, Comedy, Historical, Parody, Samurai, S...
3                                         Sci-Fi, Thriller
4        Action, Comedy, Historical, Parody, Samurai, S...
                               ...                        
12289                                               Hentai
12290                                               Hentai
12291                                               Hentai
12292                                               Hentai
12293                                               Hentai
Name: genre, Length: 12294, dtype: object


In [82]:
anime.columns.tolist()      # Можем узнать наименования столбцов

['anime_id', 'name', 'genre', 'type', 'episodes', 'rating', 'members']

In [83]:
anime.drop(['anime_id', 'genre', 'members'], axis=1).head()     # Удаление данных из датафрейма

Unnamed: 0,name,type,episodes,rating
0,Kimi no Na wa.,Movie,1,9.37
1,Fullmetal Alchemist: Brotherhood,TV,64,9.26
2,Gintama°,TV,51,9.25
3,Steins;Gate,TV,24,9.17
4,Gintama&#039;,TV,51,9.16


In [87]:
# Мы можем и объединять датасеты
df1 = anime[0:2]
df2 = anime[50:58]
pd.concat([df1, df2], ignore_index=True)    # concat объединяет датасеты. Применяется, когда столбцы у датасетов одинаковые

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
0,32281,Kimi no Na wa.,"Drama, Romance, School, Supernatural",Movie,1,9.37,200630
1,5114,Fullmetal Alchemist: Brotherhood,"Action, Adventure, Drama, Fantasy, Magic, Mili...",TV,64,9.26,793665
2,7785,Yojouhan Shinwa Taikei,"Mystery, Psychological, Romance",TV,11,8.65,122531
3,3297,Aria The Origination,"Fantasy, Sci-Fi, Shounen, Slice of Life",TV,13,8.64,56162
4,30709,Kamisama Hajimemashita: Kako-hen,"Comedy, Demons, Fantasy, Shoujo, Supernatural",OVA,4,8.64,33422
5,6114,Rainbow: Nisha Rokubou no Shichinin,"Drama, Historical, Seinen, Thriller",TV,26,8.64,139474
6,31240,Re:Zero kara Hajimeru Isekai Seikatsu,"Drama, Fantasy, Psychological, Thriller",TV,25,8.64,355839
7,4565,Tengen Toppa Gurren Lagann Movie: Lagann-hen,"Action, Mecha, Sci-Fi, Space, Super Power",Movie,1,8.64,82253
8,5300,Zoku Natsume Yuujinchou,"Drama, Fantasy, Shoujo, Slice of Life, Superna...",TV,13,8.64,114173
9,9989,Ano Hi Mita Hana no Namae wo Bokutachi wa Mada...,"Drama, Slice of Life, Supernatural",TV,11,8.62,463835


In [104]:
anime[anime['type'].isin(['TV', 'Movie'])].head()   # isin проверяет, есть ли строки в определенных столбцах

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
0,32281,Kimi no Na wa.,"Drama, Romance, School, Supernatural",Movie,1,9.37,200630
1,5114,Fullmetal Alchemist: Brotherhood,"Action, Adventure, Drama, Fantasy, Magic, Mili...",TV,64,9.26,793665
2,28977,Gintama°,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.25,114262
3,9253,Steins;Gate,"Sci-Fi, Thriller",TV,24,9.17,673572
4,9969,Gintama&#039;,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.16,151266


In [106]:
anime[anime['type'] == 'TV'].head()

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
1,5114,Fullmetal Alchemist: Brotherhood,"Action, Adventure, Drama, Fantasy, Magic, Mili...",TV,64,9.26,793665
2,28977,Gintama°,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.25,114262
3,9253,Steins;Gate,"Sci-Fi, Thriller",TV,24,9.17,673572
4,9969,Gintama&#039;,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.16,151266
5,32935,Haikyuu!!: Karasuno Koukou VS Shiratorizawa Ga...,"Comedy, Drama, School, Shounen, Sports",TV,10,9.15,93351


In [107]:
anime[1:3]  # Срезы датафреймов

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
1,5114,Fullmetal Alchemist: Brotherhood,"Action, Adventure, Drama, Fantasy, Magic, Mili...",TV,64,9.26,793665
2,28977,Gintama°,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.25,114262


In [111]:
# Также можем отфильтровать по значению
anime[anime['rating'] > 9.3].head()

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
0,32281,Kimi no Na wa.,"Drama, Romance, School, Supernatural",Movie,1,9.37,200630
9078,33607,Kahei no Umi,Historical,Movie,1,9.33,44
9595,23005,Mogura no Motoro,Slice of Life,Movie,1,9.5,62
10400,30120,Spoon-hime no Swing Kitchen,"Adventure, Kids",TV,Unknown,9.6,47
10464,33662,Taka no Tsume 8: Yoshida-kun no X-Files,"Comedy, Parody",Movie,1,10.0,13


In [112]:
anime.sort_values('rating', ascending=False)    # Сортировка по значениям столбцов. В данном случае сортируем по рейтингу

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
10464,33662,Taka no Tsume 8: Yoshida-kun no X-Files,"Comedy, Parody",Movie,1,10.00,13
10400,30120,Spoon-hime no Swing Kitchen,"Adventure, Kids",TV,Unknown,9.60,47
9595,23005,Mogura no Motoro,Slice of Life,Movie,1,9.50,62
0,32281,Kimi no Na wa.,"Drama, Romance, School, Supernatural",Movie,1,9.37,200630
9078,33607,Kahei no Umi,Historical,Movie,1,9.33,44
...,...,...,...,...,...,...,...
12274,34492,Nuki Doki! Tenshi to Akuma no Sakusei Battle -...,Hentai,OVA,Unknown,,392
12279,34491,Sagurare Otome The Animation,Hentai,OVA,1,,79
12280,34312,Saimin Class,Hentai,OVA,Unknown,,240
12282,34388,Shikkoku no Shaga The Animation,Hentai,OVA,Unknown,,195


In [114]:
anime.groupby('type').count()   # Найдём количество элементов в наборе данных по определенным типам

Unnamed: 0_level_0,anime_id,name,genre,episodes,rating,members
type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Movie,2348,2348,2306,2348,2297,2348
Music,488,488,488,488,488,488
ONA,659,659,655,659,652,659
OVA,3311,3311,3310,3311,3285,3311
Special,1676,1676,1674,1676,1671,1676
TV,3787,3787,3777,3787,3671,3787


In [116]:
# Создание сводной таблицы
tmp_df = rating.copy()  # Скопируем датасет рейтингов в tmp_df
tmp_df.sort_values('user_id', ascending=True, inplace=True)     # Отсортируем по user_id
tmp_df = tmp_df[tmp_df.user_id < 10]    # Выберем записи с user_id меньше 10
tmp_df = tmp_df[tmp_df.anime_id < 30]   # Выберем записи с anime_id меньше 30
tmp_df = tmp_df[tmp_df.rating != -1]    # Удалим лишнее (если значение в столбце rating равно -1, то удалим)
pd.pivot_table(tmp_df, values='rating', index=['user_id'], columns=['anime_id'], aggfunc=np.sum, fill_value=0)  # fill_value - задаем значение, которое встанет вместо NaN

  pd.pivot_table(tmp_df, values='rating', index=['user_id'], columns=['anime_id'], aggfunc=np.sum, fill_value=0)


anime_id,6,15,17,18,20,22,24
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
3,0,0,0,0,8,0,0
5,8,6,6,6,6,5,1
7,0,0,0,0,0,7,0


In [118]:
pivot = pd.pivot_table(tmp_df, values='rating', index=['user_id'], columns=['anime_id'], aggfunc=np.sum) 
pivot

  pivot = pd.pivot_table(tmp_df, values='rating', index=['user_id'], columns=['anime_id'], aggfunc=np.sum)


anime_id,6,15,17,18,20,22,24
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
3,,,,,8.0,,
5,8.0,6.0,6.0,6.0,6.0,5.0,1.0
7,,,,,,7.0,


In [119]:
pivot.fillna(0)     # Заполним все NaN'ы

anime_id,6,15,17,18,20,22,24
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
3,0.0,0.0,0.0,0.0,8.0,0.0,0.0
5,8.0,6.0,6.0,6.0,6.0,5.0,1.0
7,0.0,0.0,0.0,0.0,0.0,7.0,0.0


In [121]:
anime.sample(frac=0.25).head()     # Sample используется для получения случайных строк датасета

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
4192,3037,GS Mikami: Gokuraku Daisakusen!!,"Comedy, Fantasy",Movie,1,6.78,1228
8461,8879,Dolphin Ouji,"Action, Adventure, Kids, Sci-Fi",TV,3,5.58,127
1046,14289,Sukitte Ii na yo.,"Romance, School, Shoujo",TV,13,7.71,233410
2708,8206,Hime Chen! Otogi Chikku Idol Lilpri,"Magic, Shoujo",TV,51,7.18,6118
9270,33880,Kochira Katsushikaku Kameari Kouenmae Hashutsu...,"Comedy, Police",Special,2,6.64,105
