# **Библиотека Pandas**
Используется для работы с данными, предоставляет возможности для их анализа.

Начнем с того, что установим Pandas

In [None]:
!pip install pandas

Подключим Pandas к нашему ноутбуку, также подключим NumPy, он может нам пригодиться

In [None]:
import pandas as pd
import numpy as np

# Series и DataFrame


*   Series - одномерный массив данных с индексами
*   DataFrame - двумерный массив, в столбцы которого являются Series



In [None]:
pd.Series([1, 3, 6, 2, 7])

0    1
1    3
2    6
3    2
4    7
dtype: int64

По умолчанию индексы - это последовательность целых чисел, начиная с 0. Но прижелании их можно изменить например на буквы:

In [None]:
s = pd.Series([1, 3, 6, 2, 7], index=['a', 'b', 'c', 'd', 'e'])
s

a    1
b    3
c    6
d    2
e    7
dtype: int64

Можно сделать выборку по индексам

In [None]:
s[['a', 'd', 'e']]

a    1
d    2
e    7
dtype: int64

In [None]:
s[['a', 'd', 'e']] = 10
s

a    10
b     3
c     6
d    10
e    10
dtype: int64

Попробуем теперь создать DataFrame, сделаем это через словарь.

In [None]:
ami_students_dict = {"student" : ["Никита", "Даниил", "Валерия", "Яна"],
                     "statistics_mark": [6.7, 8.5, 5.2, 9.1],
                     "caos_mark": [8.0, 9.2, 3.5, 4.2],
                     "omv_mark": [7.2, 8.5, np.NaN, 7.8]}
ami_students = pd.DataFrame(ami_students_dict)
ami_students

Unnamed: 0,student,statistics_mark,caos_mark,omv_mark
0,Никита,6.7,8.0,7.2
1,Даниил,8.5,9.2,8.5
2,Валерия,5.2,3.5,
3,Яна,9.1,4.2,7.8


NaN означает отсутствие данных. Воспользуемся методов `dropna()`, чтобы избавится от NaN, обратим внимание, что он удаляет всю строку с пропусками, а не только одну ячейку

In [None]:
ami_students = ami_students.dropna()
ami_students

Unnamed: 0,student,statistics_mark,caos_mark,omv_mark
0,Никита,6.7,8.0,7.2
1,Даниил,8.5,9.2,8.5
3,Яна,9.1,4.2,7.8


В некоторых случаях нам будет лучше не удалять строки с пропусками, а заполнить эти пропуски например нулями. Это можно сделать с помощью метода `fillna(0)`

Мы можем получать доступ к столбцам через квадратные скобки с название столбца, к строкам через `.loc[i]`, если хотим взять конкретные столбцы и строки, то  `.iloc[,]`. Думаю на примере будет понятнее

In [None]:
ami_students['student']

0    Никита
1    Даниил
3       Яна
Name: student, dtype: object

In [None]:
ami_students.loc[1]

student            Даниил
statistics_mark       8.5
caos_mark             9.2
omv_mark              8.5
Name: 1, dtype: object

In [None]:
ami_students.iloc[0:3, 0:2]

Unnamed: 0,student,statistics_mark
0,Никита,6.7
1,Даниил,8.5
3,Яна,9.1


Добавим еще одного студента в нашу таблицу:

In [None]:
new_student = {"student" : "Мирон", "statistics_mark": 5.2, "caos_mark": 4.4, "omv_mark": 7.4}
df1 = pd.DataFrame([new_student])
ami_students = pd.concat([df1, ami_students], ignore_index=True)
ami_students

Unnamed: 0,student,statistics_mark,caos_mark,omv_mark
0,Мирон,5.2,4.4,7.4
1,Никита,6.7,8.0,7.2
2,Даниил,8.5,9.2,8.5
3,Яна,9.1,4.2,7.8


Со столбцам таблицы можно проводить математические вычисления (если тип данных позволяет). Давайте добавим в нашу таблицу столбец со средним баллом студентов за математические предметы

In [None]:
ami_students['math_mean_mark'] = (ami_students['statistics_mark'] + ami_students['omv_mark']) / 2

In [None]:
ami_students

Unnamed: 0,student,statistics_mark,caos_mark,omv_mark,math_mean_mark
0,Мирон,5.2,4.4,7.4,6.3
1,Никита,6.7,8.0,7.2,6.95
2,Даниил,8.5,9.2,8.5,8.5
3,Яна,9.1,4.2,7.8,8.45


Отсортируем по убыванию среднего балла за математические предметы

In [None]:
ami_students.sort_values(['math_mean_mark'], ascending=False)

Unnamed: 0,student,statistics_mark,caos_mark,omv_mark,math_mean_mark
2,Даниил,8.5,9.2,8.5,8.5
3,Яна,9.1,4.2,7.8,8.45
1,Никита,6.7,8.0,7.2,6.95
0,Мирон,5.2,4.4,7.4,6.3


Давайте создадим еще одну табличку, у которой тоже будет столбец students

In [None]:
ami_students2_dict = {"student" : ["Никита", "Даниил", "Мирон", "Яна", "Арег"],
                      "specialty" : ["РС", "МОП", "МОП", "МОП", "РС"]}
ami_students2 = pd.DataFrame(ami_students2_dict)
ami_students2

Unnamed: 0,student,specialty
0,Никита,РС
1,Даниил,МОП
2,Мирон,МОП
3,Яна,МОП
4,Арег,РС


А теперь давайте объединим две эти таблицы по столбцу students

In [None]:
ami_students.merge(ami_students2)

Unnamed: 0,student,statistics_mark,caos_mark,omv_mark,math_mean_mark,specialty
0,Мирон,5.2,4.4,7.4,6.3,МОП
1,Никита,6.7,8.0,7.2,6.95,РС
2,Даниил,8.5,9.2,8.5,8.5,МОП
3,Яна,9.1,4.2,7.8,8.45,МОП




---

Важный момент про копирование, чтобы явно скопировать таблицу делаем так:

In [None]:
new_df = ami_students.copy(deep=True)

# Импорт данных
Давайте возьмем csv таблицу и поработаем с ней (скачать можно [тут](https://www.kaggle.com/datasets/thedevastator/film-genre-statistics/data))

In [None]:
df = pd.read_csv('film_genres_stat.csv')

In [None]:
df.head(5) # так можно посмотреть на первые 5 строк

Unnamed: 0,index,Genre,Year,Movies Released,Gross,Tickets Sold,Inflation-Adjusted Gross,Top Movie,Top Movie Gross (That Year),Top Movie Inflation-Adjusted Gross (That Year)
0,0,Adventure,1995.0,29.0,771507600.0,177358047.0,1590902000.0,Toy Story,150148222.0,309616000.0
1,1,Adventure,1996.0,34.0,1290490000.0,291966054.0,2618936000.0,Independence Day,306169255.0,621343500.0
2,2,Adventure,1997.0,23.0,881902800.0,192135684.0,1723457000.0,Men in Black,250650052.0,489832400.0
3,3,Adventure,1998.0,29.0,1614468000.0,344236174.0,3087798000.0,Armageddon,201578182.0,385534400.0
4,4,Adventure,1999.0,27.0,1612432000.0,317407880.0,2847149000.0,Star Wars Ep. I: The Phantom Menace,430443350.0,760054500.0


In [None]:
df.info() # посмотреть информацию о таблице

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 300 entries, 0 to 299
Data columns (total 10 columns):
 #   Column                                          Non-Null Count  Dtype  
---  ------                                          --------------  -----  
 0   index                                           300 non-null    object 
 1   Genre                                           295 non-null    object 
 2   Year                                            295 non-null    float64
 3   Movies Released                                 295 non-null    float64
 4   Gross                                           295 non-null    float64
 5   Tickets Sold                                    295 non-null    float64
 6   Inflation-Adjusted Gross                        295 non-null    float64
 7   Top Movie                                       295 non-null    object 
 8   Top Movie Gross (That Year)                     295 non-null    float64
 9   Top Movie Inflation-Adjusted Gross (That Ye

Давайте узнаем сколько уникальных жанров есть в этой таблице

In [None]:
df['Genre'].nunique() # количество уникальных

14

В этом случае к столбцу можно обращаться еще вот так:

In [None]:
df.Genre.unique() # список уникальных значений

array(['Adventure', 'Action', nan, 'Drama', 'Comedy',
       'Thriller or Suspense', 'Horror', 'Romantic Comedy', 'Musical',
       'Documentary', 'Dark Comedy', 'Western', 'Concert or Performance',
       'Multiple Genres', 'Reality'], dtype=object)

Можем брать отдельные столбцы таблицы

In [None]:
df[['Genre', 'Year', 'Movies Released']]

Unnamed: 0,Genre,Year,Movies Released
0,Adventure,1995.0,29.0
1,Adventure,1996.0,34.0
2,Adventure,1997.0,23.0
3,Adventure,1998.0,29.0
4,Adventure,1999.0,27.0
...,...,...,...
295,Multiple Genres,2017.0,5.0
296,Multiple Genres,2018.0,3.0
297,Reality,2014.0,1.0
298,Reality,2015.0,3.0




---

Операции, которые можно делать со столбцами:


*   `sum()` - сумма
*   `mean()` - среднее
*   `min()` - минимум
*   `max()` - максимум
*   `median()` - медиана
*   `std()` - среднее отклонение
---


Можем отфильтровать и смотреть только информацию например начиная с 2000 года

In [None]:
df[df['Year'] > 2000].head(3)

Unnamed: 0,index,Genre,Year,Movies Released,Gross,Tickets Sold,Inflation-Adjusted Gross,Top Movie,Top Movie Gross (That Year),Top Movie Inflation-Adjusted Gross (That Year)
6,6,Adventure,2001.0,32.0,2268871000.0,400844935.0,3595579000.0,Harry Potter and the Sorcerer’s Stone,300404434.0,476064100.0
7,7,Adventure,2002.0,45.0,2818920000.0,485184060.0,4352101000.0,Spider-Man,403706375.0,623278100.0
8,8,Adventure,2003.0,46.0,2424131000.0,402011823.0,3606046000.0,Finding Nemo,339714367.0,505346200.0


Давайте узнаем сколько фильмов каждого жанра было выпущено за все время и сколько максимум за один год. Для этого нужно сгруппировать данные по жанру и аггрегировать количество фильмов.

In [None]:
grouped_df = df.groupby(['Genre']).agg({'Movies Released' : ['sum', 'max']}).reset_index()
grouped_df

Unnamed: 0_level_0,Genre,Movies Released,Movies Released
Unnamed: 0_level_1,Unnamed: 1_level_1,sum,max
0,Action,928.0,67.0
1,Adventure,1005.0,57.0
2,Comedy,2230.0,134.0
3,Concert or Performance,63.0,11.0
4,Dark Comedy,154.0,14.0
5,Documentary,2143.0,160.0
6,Drama,4525.0,287.0
7,Horror,553.0,34.0
8,Multiple Genres,39.0,5.0
9,Musical,170.0,11.0


Давайте удалим из таблицы категории Multiple Genres и Concert or Performance

In [None]:
grouped_df.drop([3, 8]) # удаление происходит по индексам

Unnamed: 0_level_0,Genre,Movies Released,Movies Released
Unnamed: 0_level_1,Unnamed: 1_level_1,sum,max
0,Action,928.0,67.0
1,Adventure,1005.0,57.0
2,Comedy,2230.0,134.0
4,Dark Comedy,154.0,14.0
5,Documentary,2143.0,160.0
6,Drama,4525.0,287.0
7,Horror,553.0,34.0
9,Musical,170.0,11.0
10,Reality,5.0,3.0
11,Romantic Comedy,574.0,35.0


Еще одна очень полезная штука называается apply в комбинации с лямбда-функцией. Давайте сделаем колонку popular и будем считать, что жанр популярный, если суммарное количество выпущенных фильмов превышает 1000

In [None]:
grouped_df['popular'] = grouped_df['Movies Released']['sum'].apply(lambda x: x > 1000)

In [None]:
grouped_df

Unnamed: 0_level_0,Genre,Movies Released,Movies Released,popular
Unnamed: 0_level_1,Unnamed: 1_level_1,sum,max,Unnamed: 4_level_1
0,Action,928.0,67.0,False
1,Adventure,1005.0,57.0,True
2,Comedy,2230.0,134.0,True
3,Concert or Performance,63.0,11.0,False
4,Dark Comedy,154.0,14.0,False
5,Documentary,2143.0,160.0,True
6,Drama,4525.0,287.0,True
7,Horror,553.0,34.0,False
8,Multiple Genres,39.0,5.0,False
9,Musical,170.0,11.0,False


# Экспорт данных
Сохраним то, что у нас получилось

In [None]:
grouped_df.to_csv('popular_genres.csv')