# Pandas

Pandas - это библиотека для удобной работы с данными, в основном - с таблицами. В библиотеке есть много методов, которые нужны для чтения данных в разном формате, взаимодействия с базами данных и для разных манипуляций, которые часто нужны в процессе работы.

Чтобы сократить число символов, часто при импорте ```pandas``` заменяют просто на ```pd```

In [2]:
!pip install pandas

Collecting pandas
  Downloading pandas-1.5.0-cp39-cp39-macosx_10_9_x86_64.whl (12.1 MB)
[K     |████████████████████████████████| 12.1 MB 3.0 MB/s eta 0:00:01
Installing collected packages: pandas
Successfully installed pandas-1.5.0
You should consider upgrading via the '/Users/u14510182/Documents/python_for_nlp_stud/venv/bin/python -m pip install --upgrade pip' command.[0m


In [3]:
import pandas as pd

### Создание таблиц

Для начала, посмотрим, как выглядят таблицы (объекты) в pandas на примере небольших таблиц, созданных вручную.

Есть специальный объект типа датафрейм и мы туда передаем информацию о данных, которые у нас есть. Это может быть разный вид, например:

1. Словарь, где ключ - название будущего столбца, а значение - это список значений.
2. Список словарей, где одна запись - это отдельная строка таблицы, где ключи - это параметры (название столбца).
3. Список списков (или кортежей), где каждый элемент - это одна строка таблицы. В этом случае названия стобцов задаются отдельно.

In [4]:
data = {
    "name": ["Mary", "Jane", "Ivan", "Mark"],
    "age": [25, 14, 34, 78]
}

df = pd.DataFrame(data)
df

Unnamed: 0,name,age
0,Mary,25
1,Jane,14
2,Ivan,34
3,Mark,78


In [5]:
data = [
    {"name": "Mary", "age": 25}, 
    {"name": "Jane", "age": 14}, 
    {"name": "Ivan", "age": 34}, 
    {"name": "Mark", "age": 78}
]

df = pd.DataFrame(data)
df

Unnamed: 0,name,age
0,Mary,25
1,Jane,14
2,Ivan,34
3,Mark,78


In [6]:
data = [["Mary", 25], ["Jane", 14], ["Ivan", 34], ["Mark", 78]]

df = pd.DataFrame(data, columns=["name", "age"])
df

Unnamed: 0,name,age
0,Mary,25
1,Jane,14
2,Ivan,34
3,Mark,78


Метод `rename` позволяет переименовывать `indexes` и `columns`

In [7]:
df.rename(columns={"name": "col_name", "age": "col_age"})

Unnamed: 0,col_name,col_age
0,Mary,25
1,Jane,14
2,Ivan,34
3,Mark,78


In [8]:
df

Unnamed: 0,name,age
0,Mary,25
1,Jane,14
2,Ivan,34
3,Mark,78


In [9]:
df.rename(columns={"name": "col_name", "age": "col_age"}, inplace=True)
df

Unnamed: 0,col_name,col_age
0,Mary,25
1,Jane,14
2,Ivan,34
3,Mark,78


Метод `pd.concat` дает возможность объединить два или больше датафреймов вместе.

In [11]:
pd.concat([df,df], axis=1)

Unnamed: 0,col_name,col_age,col_name.1,col_age.1
0,Mary,25,Mary,25
1,Jane,14,Jane,14
2,Ivan,34,Ivan,34
3,Mark,78,Mark,78


In [12]:
pd.concat([df,df], axis=0)

Unnamed: 0,col_name,col_age
0,Mary,25
1,Jane,14
2,Ivan,34
3,Mark,78
0,Mary,25
1,Jane,14
2,Ivan,34
3,Mark,78


### Чтение данных

Рассмотрим несколько основных способов прочитать данные.

1. CSV файл (табличный формат с различными разделителями, в том числе запятая, таб, точка с запятой и др.)
2. Excel-файл
3. База данных (посмотрим, когда будем работать с базами)
4. Онлайн-таблицы (на страницах сайта)

In [None]:
?pd.read_csv

In [15]:
df = pd.read_csv("data/example.csv", sep="\t")  # разделитель табуляция
df

Unnamed: 0,name,age
0,Mary,25
1,Ivan,34


In [17]:
!pip install openpyxl 

Collecting openpyxl
  Using cached openpyxl-3.0.10-py2.py3-none-any.whl (242 kB)
Collecting et-xmlfile
  Using cached et_xmlfile-1.1.0-py3-none-any.whl (4.7 kB)
Installing collected packages: et-xmlfile, openpyxl
Successfully installed et-xmlfile-1.1.0 openpyxl-3.0.10
You should consider upgrading via the '/Users/u14510182/Documents/python_for_nlp_stud/venv/bin/python -m pip install --upgrade pip' command.[0m


In [18]:
df = pd.read_excel("data/example.xlsx", sheet_name="example")
df

Unnamed: 0,name,age
0,Mary,25
1,Ivan,34


In [12]:
# ! pip install lxml

In [28]:
import ssl
try:
    _create_unverified_https_context = ssl._create_unverified_context
except AttributeError:
    pass
else:
    ssl._create_default_https_context = _create_unverified_https_context

In [32]:
df = pd.read_html("https://en.wikipedia.org/wiki/List_of_countries_and_dependencies_by_population")[0]
df

Unnamed: 0,Rank,Country / Dependency,Continent,Population,Percentage of the world,Date,Source (official or from the United Nations),Notes
0,–,World,All,7981514000,100%,30 Sep 2022,UN projection[3],
1,1,China,Asia,1412600000,,31 Dec 2021,Official estimate[4],The population figure refers to mainland China...
2,2,India,Asia,1375586000,,1 Mar 2022,Official projection[5],The figure includes the population of Indian-a...
3,3,United States,North America,331893745,,1 Jul 2021,Official estimate[6],The figure includes the 50 states and the Dist...
4,4,Indonesia,Asia[b],275773800,,1 Jul 2022,Official estimate[7],
...,...,...,...,...,...,...,...,...
237,–,Niue (New Zealand),Oceania,1549,,1 Jul 2021,National annual projection[96],
238,–,Tokelau (New Zealand),Oceania,1501,,1 Jul 2021,National annual projection[96],
239,195,Vatican City,Europe,825,,1 Feb 2019,Monthly national estimate[200],The total population of 825 consisted of 453 r...
240,–,Cocos (Keeling) Islands (Australia),Oceania,573,,30 Jun 2020,Official estimate[199],


In [33]:
df.head(3) # Верхушка датафрейма

Unnamed: 0,Rank,Country / Dependency,Continent,Population,Percentage of the world,Date,Source (official or from the United Nations),Notes
0,–,World,All,7981514000,100%,30 Sep 2022,UN projection[3],
1,1,China,Asia,1412600000,,31 Dec 2021,Official estimate[4],The population figure refers to mainland China...
2,2,India,Asia,1375586000,,1 Mar 2022,Official projection[5],The figure includes the population of Indian-a...


In [34]:
df.tail(3) # Конец датафрейма

Unnamed: 0,Rank,Country / Dependency,Continent,Population,Percentage of the world,Date,Source (official or from the United Nations),Notes
239,195,Vatican City,Europe,825,,1 Feb 2019,Monthly national estimate[200],The total population of 825 consisted of 453 r...
240,–,Cocos (Keeling) Islands (Australia),Oceania,573,,30 Jun 2020,Official estimate[199],
241,–,Pitcairn Islands (United Kingdom),Oceania,40,,1 Jan 2021,Official estimate[201],


Информация по пропущенным значениям

In [35]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 242 entries, 0 to 241
Data columns (total 8 columns):
 #   Column                                        Non-Null Count  Dtype 
---  ------                                        --------------  ----- 
 0   Rank                                          242 non-null    object
 1   Country / Dependency                          242 non-null    object
 2   Continent                                     242 non-null    object
 3   Population                                    242 non-null    int64 
 4   Percentage of the world                       1 non-null      object
 5   Date                                          242 non-null    object
 6   Source (official or from the United Nations)  242 non-null    object
 7   Notes                                         32 non-null     object
dtypes: int64(1), object(7)
memory usage: 15.2+ KB


С помощью property `shape` -  можно получить размеры `DataFrame`.

In [36]:
df.shape

(242, 8)

### Сохраняем данные

Сохраняем данные в текстовом формате (csv)

In [37]:
df.to_csv("countries.csv", index=None)

Сохраняем данные в бинарном формате Excel (xlsx)

In [38]:
df.to_excel("countries.xlsx", index=None)

Данные можно сохраняться в разных форматах

Текстовые формат `csv` и бинарные форматы: `pickle`, `hdf5`, `feather`, `parquet`, `excel` (не оптимизированный формат)

Достоинства бинарных форматов: 

- быстрота сохранения\загрузки дынных, 
- небольшой размер данных на диске

[Здесь](https://towardsdatascience.com/the-best-format-to-save-pandas-data-414dca023e0d) можно посмотреть сравнение разных форматов сохранение


### ![](https://miro.medium.com/max/678/1*6qdaUz8pMFTurG7N14SQjA.png)
### ![](https://miro.medium.com/max/695/1*Q4QsOWSh2gDrG8aCAF8ewA.png)

Сохраняем данные в бинарном формате parquet

In [39]:
! pip3 install fastparquet

Collecting fastparquet
  Downloading fastparquet-0.8.3-cp39-cp39-macosx_10_9_universal2.whl (777 kB)
[K     |████████████████████████████████| 777 kB 2.6 MB/s eta 0:00:01
Collecting cramjam>=2.3.0
  Downloading cramjam-2.5.0-cp39-cp39-macosx_10_9_x86_64.macosx_11_0_arm64.macosx_10_9_universal2.whl (2.7 MB)
[K     |████████████████████████████████| 2.7 MB 35.1 MB/s eta 0:00:01
[?25hCollecting fsspec
  Downloading fsspec-2022.8.2-py3-none-any.whl (140 kB)
[K     |████████████████████████████████| 140 kB 35.2 MB/s eta 0:00:01
Installing collected packages: fsspec, cramjam, fastparquet
Successfully installed cramjam-2.5.0 fastparquet-0.8.3 fsspec-2022.8.2
You should consider upgrading via the '/Users/u14510182/Documents/python_for_nlp_stud/venv/bin/python -m pip install --upgrade pip' command.[0m


In [40]:
df.to_parquet("countries.parquet", index=None)

In [42]:
! ls -ahl | grep countries

-rw-r--r--   1 u14510182  staff    21K Sep 30 20:53 countries.csv
-rw-r--r--   1 u14510182  staff    13K Sep 30 20:56 countries.parquet
-rw-r--r--   1 u14510182  staff    19K Sep 30 20:53 countries.xlsx


Увеличим количество данных. Для этого конкатенируем 100 раз наш датафрейм  - используем метод `concat`.

In [43]:
df1 = pd.concat([df]*100)
df1.shape

(24200, 8)

Для большего количества данных `parquet` лучше сжимает файл в сравнении с другими форматами.

In [45]:
df1.to_csv("countries.csv", index=None)
df1.to_excel("countries.xlsx", index=None)
df1.to_parquet("countries.parquet", index=None)
!ls -ahl | grep countries

-rw-r--r--   1 u14510182  staff   2.1M Sep 30 20:58 countries.csv
-rw-r--r--   1 u14510182  staff   187K Sep 30 20:58 countries.parquet
-rw-r--r--   1 u14510182  staff   1.3M Sep 30 20:58 countries.xlsx


### Манипуляции с данными

**Фильтрация данных**

Можно удалять отдельные строки или столбцы

In [46]:
df.drop

[0;31mSignature:[0m
[0mdf[0m[0;34m.[0m[0mdrop[0m[0;34m([0m[0;34m[0m
[0;34m[0m    [0mlabels[0m[0;34m:[0m [0;34m'IndexLabel'[0m [0;34m=[0m [0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0maxis[0m[0;34m:[0m [0;34m'Axis'[0m [0;34m=[0m [0;36m0[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mindex[0m[0;34m:[0m [0;34m'IndexLabel'[0m [0;34m=[0m [0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mcolumns[0m[0;34m:[0m [0;34m'IndexLabel'[0m [0;34m=[0m [0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mlevel[0m[0;34m:[0m [0;34m'Level'[0m [0;34m=[0m [0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0minplace[0m[0;34m:[0m [0;34m'bool'[0m [0;34m=[0m [0;32mFalse[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0merrors[0m[0;34m:[0m [0;34m'IgnoreRaise'[0m [0;34m=[0m [0;34m'raise'[0m[0;34m,[0m[0;34m[0m
[0;34m[0m[0;34m)[0m [0;34m->[0m [0;34m'DataFrame | None'[0m[0;34m[0m[0;34m[0m[0m
[0;31mDocstring:

In [48]:
df.head(3)

Unnamed: 0,Rank,Country / Dependency,Continent,Population,Percentage of the world,Date,Source (official or from the United Nations),Notes
0,–,World,All,7981514000,100%,30 Sep 2022,UN projection[3],
1,1,China,Asia,1412600000,,31 Dec 2021,Official estimate[4],The population figure refers to mainland China...
2,2,India,Asia,1375586000,,1 Mar 2022,Official projection[5],The figure includes the population of Indian-a...


In [49]:
 # убираем столбцы
df.drop(["Notes", "Rank"], axis=1).head(3)

Unnamed: 0,Country / Dependency,Continent,Population,Percentage of the world,Date,Source (official or from the United Nations)
0,World,All,7981514000,100%,30 Sep 2022,UN projection[3]
1,China,Asia,1412600000,,31 Dec 2021,Official estimate[4]
2,India,Asia,1375586000,,1 Mar 2022,Official projection[5]


In [52]:
df.head(3)

Unnamed: 0,Rank,Country / Dependency,Continent,Population,Percentage of the world,Date,Source (official or from the United Nations),Notes
0,–,World,All,7981514000,100%,30 Sep 2022,UN projection[3],
1,1,China,Asia,1412600000,,31 Dec 2021,Official estimate[4],The population figure refers to mainland China...
2,2,India,Asia,1375586000,,1 Mar 2022,Official projection[5],The figure includes the population of Indian-a...


Можно удалять те, где есть пропуски

In [55]:
df.isnull().sum()

Rank                                              0
Country / Dependency                              0
Continent                                         0
Population                                        0
Percentage of the world                         241
Date                                              0
Source (official or from the United Nations)      0
Notes                                           210
dtype: int64

Здесь во всех строчка в столбца markup_description ничего нет и все удаляется

In [56]:
df.shape, df.dropna().shape

((242, 8), (0, 8))

Удалим столбцы, где все значения пустые

In [59]:
df.dropna(how="any", axis=1).head()

Unnamed: 0,Rank,Country / Dependency,Continent,Population,Date,Source (official or from the United Nations)
0,–,World,All,7981514000,30 Sep 2022,UN projection[3]
1,1,China,Asia,1412600000,31 Dec 2021,Official estimate[4]
2,2,India,Asia,1375586000,1 Mar 2022,Official projection[5]
3,3,United States,North America,331893745,1 Jul 2021,Official estimate[6]
4,4,Indonesia,Asia[b],275773800,1 Jul 2022,Official estimate[7]


Можно выбрать нужные столбцы

In [62]:
df = df[["Country / Dependency", "Continent", "Population", "Date"]]
df.rename(columns={"Country / Dependency": 'Country'}, inplace=True)
df.head()

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df.rename(columns={"Country / Dependency": 'Country'}, inplace=True)


Unnamed: 0,Country,Continent,Population,Date
0,World,All,7981514000,30 Sep 2022
1,China,Asia,1412600000,31 Dec 2021
2,India,Asia,1375586000,1 Mar 2022
3,United States,North America,331893745,1 Jul 2021
4,Indonesia,Asia[b],275773800,1 Jul 2022


In [80]:
index = df['Country'] == 'World'
print(f'Row World: {index.sum()}')
index.head()

Row World: 1


0     True
1    False
2    False
3    False
4    False
Name: Country, dtype: bool

In [81]:
df[index]

Unnamed: 0,Country,Continent,Population,Date
0,World,All,7981514000,30 Sep 2022


In [82]:
df.loc[index, 'Population']

0    7981514000
Name: Population, dtype: int64

In [83]:
world_population = df.loc[index, 'Population'].values[0]
world_population

7981514000

In [91]:
index_population = (df['Population'] / world_population) > 0.05
df[index_population]

Unnamed: 0,Country,Continent,Population,Date
0,World,All,7981514000,30 Sep 2022
1,China,Asia,1412600000,31 Dec 2021
2,India,Asia,1375586000,1 Mar 2022


In [92]:
df[index_population & (df['Country'] != 'World')]

Unnamed: 0,Country,Continent,Population,Date
1,China,Asia,1412600000,31 Dec 2021
2,India,Asia,1375586000,1 Mar 2022


Посмотрим, какие вообще есть континенты

In [94]:
df["Continent"].value_counts()

Africa           55
Europe           51
Asia             50
North America    38
Oceania          27
South America    13
Asia[b]           5
All               1
Europe[c]         1
Africa[b]         1
Name: Continent, dtype: int64

In [95]:
df[df["Continent"] == "North America"]

Unnamed: 0,Country,Continent,Population,Date
3,United States,North America,331893745,1 Jul 2021
10,Mexico,North America,128533664,30 Jun 2022
37,Canada,North America,38956473,30 Sep 2022
70,Guatemala,North America,17109746,1 Jul 2021
82,Haiti,North America,11743017,1 Jul 2020
85,Cuba,North America,11113215,31 Dec 2021
86,Dominican Republic,North America,10535535,1 Jul 2021
94,Honduras,North America,9546178,1 Jul 2021
107,El Salvador,North America,6825935,1 Jul 2021
111,Nicaragua,North America,6595674,30 Jun 2020


Отсортируем эти страны по алфавиту по ID

In [96]:
df[df["Continent"] == "North America"].sort_values(by="Country")

Unnamed: 0,Country,Continent,Population,Date
226,Anguilla (United Kingdom),North America,15000,1 Jul 2021
199,Antigua and Barbuda,North America,99337,1 Jul 2021
194,Aruba (Netherlands),North America,111050,31 Dec 2020
176,Bahamas,North America,393450,1 Jul 2021
182,Barbados,North America,288000,1 Jul 2021
174,Belize,North America,430191,1 Jul 2021
206,Bermuda (United Kingdom),North America,64055,1 Jul 2021
223,British Virgin Islands (United Kingdom),North America,30000,1 Jul 2021
37,Canada,North America,38956473,30 Sep 2022
205,Cayman Islands (United Kingdom),North America,65786,30 Sep 2020


Допустим, мы хотим получить список стран по континентам

1. Группируем по континенту
2. Из имен составляем списки

In [97]:
agg_continent = df.groupby("Continent").agg({"Country": list})
print(type(agg_continent))
agg_continent

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0_level_0,Country
Continent,Unnamed: 1_level_1
Africa,"[Nigeria, Ethiopia, DR Congo, Tanzania, South ..."
Africa[b],[Egypt]
All,[World]
Asia,"[China, India, Pakistan, Bangladesh, Japan, Ph..."
Asia[b],"[Indonesia, Turkey, Kazakhstan, Azerbaijan, Ge..."
Europe,"[Germany, France, United Kingdom, Italy, Spain..."
Europe[c],[Russia]
North America,"[United States, Mexico, Canada, Guatemala, Hai..."
Oceania,"[Australia, Papua New Guinea, New Zealand, Fij..."
South America,"[Brazil, Colombia, Argentina, Peru, Venezuela,..."


In [99]:
df[df['Country'] == 'World']

Unnamed: 0,Country,Continent,Population,Date
0,World,All,7981514000,30 Sep 2022


In [101]:
agg_continent = df.groupby("Continent").agg({"Population": "sum"})
agg_continent['Percent'] = round(100 * agg_continent['Population'] / 7981514000, 2)
agg_continent

Unnamed: 0_level_0,Population,Percent
Continent,Unnamed: 1_level_1,Unnamed: 2_level_1
Africa,1248916788,15.65
Africa[b],103891636,1.3
All,7981514000,100.0
Asia,4232388049,53.03
Asia[b],393646265,4.93
Europe,599739988,7.51
Europe[c],145100000,1.82
North America,592145828,7.42
Oceania,43613570,0.55
South America,438047458,5.49


Можно применять функции к столбцам. Например, есть функция, которая принимает один аргумент и возвращает один аргумент. Ее можно применить к столбцу и преобразовать его содержимое.

In [102]:
df.head()

Unnamed: 0,Country,Continent,Population,Date
0,World,All,7981514000,30 Sep 2022
1,China,Asia,1412600000,31 Dec 2021
2,India,Asia,1375586000,1 Mar 2022
3,United States,North America,331893745,1 Jul 2021
4,Indonesia,Asia[b],275773800,1 Jul 2022


In [106]:
def convert_pop(value):
    if value > 1000000000:
        return f"{round(value / 1000000000, 2)} млрд."
    elif value > 1000000:
        return f"{round(value / 1000000, 2)} млн."
    elif value > 1000:
        return f"{round(value / 1000, 2)} тыс."
    else:
        return str(value)
df['Converted_Population'] = df['Population'].apply(convert_pop)
df.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['Converted_Population'] = df['Population'].apply(convert_pop)


Unnamed: 0,Country,Continent,Population,Date,Converted_Population
0,World,All,7981514000.0,30 Sep 2022,7.98 млрд.
1,China,Asia,1412600000.0,31 Dec 2021,1.41 млрд.
2,India,Asia,1375586000.0,1 Mar 2022,1.38 млрд.
3,United States,North America,331893700.0,1 Jul 2021,331.89 млн.
4,Indonesia,Asia[b],275773800.0,1 Jul 2022,275.77 млн.


In [107]:
df = df[['Country', 'Continent', 'Population','Converted_Population', 'Date']]
df.head()

Unnamed: 0,Country,Continent,Population,Converted_Population,Date
0,World,All,7981514000.0,7.98 млрд.,30 Sep 2022
1,China,Asia,1412600000.0,1.41 млрд.,31 Dec 2021
2,India,Asia,1375586000.0,1.38 млрд.,1 Mar 2022
3,United States,North America,331893700.0,331.89 млн.,1 Jul 2021
4,Indonesia,Asia[b],275773800.0,275.77 млн.,1 Jul 2022


## Практика

Скачаем данные по кинопрокату [тут](https://opendata.mkrf.ru/opendata/7705851331-register_movies)

Считаем таблицу (можно прямо из zip), замените путь на путь к вашему файлу

In [109]:
your_zip = "data-7-structure-4.csv.zip"
df = pd.read_csv(your_zip)
df.head()

  df = pd.read_csv(your_zip)


Unnamed: 0,Название фильма,Hаименование на иностранном языке,Номер удостоверения,Дата регистрации удостоверения,Дата начала показа фильма,Примечание,Идентификатор записи реестра,Аннотация,Вид Фильма,Категория,...,Код,Права проката переданы,Порядковый номер переоформления/продления,Должность подписанта,ФИО подписанта,Запись удалена,Дата удаления записи,Не показывать на сайте mkrf.ru,дата создания объекта,дата обновления объекта
0,Почти знаменит,Almost Famous,221006316,2016-02-09T12:00:00.000Z,2016-02-09T12:00:00.000Z,,2157027,"В ролях: Фрэнсис МакДорманд, Кейт Хадсон. Исто...",Художественный,Видео,...,[],,,,,,,,2017-07-05T14:10:11+03:00,2018-04-09T09:12:02+03:00
1,Открытое окно.,Open Window,221027814,2014-06-30T12:00:00.000Z,2014-06-30T12:00:00.000Z,,2157028,"В главных ролях: Робин Тюннин, Джоэль Эдгертон...",Художественный,Видео,...,[],,,,,,,,2017-07-05T14:10:11+03:00,2018-04-09T09:12:02+03:00
2,Открытый простор,Open Range,221048915,2015-11-27T12:00:00.000Z,2015-11-27T12:00:00.000Z,,2157029,"Драма-вестерн. В ролях: Роберт Дюволл, Кевин К...",Художественный,Кино,...,[],,,,,,,,2017-07-05T14:10:11+03:00,2018-04-09T09:12:02+03:00
3,Особо важное задание,,111013716,2016-09-13T12:00:00.000Z,2016-09-13T12:00:00.000Z,Показ фильма в кинозале и прокат фильма на мат...,2157030,"В ролях - В.Заклунная, Н.Крючков, Е.Матвеев ...",Художественный,Кино,...,[],,,,,,,,2017-07-05T14:10:11+03:00,2018-04-09T09:12:02+03:00
4,Особо опасен,Wanted,221038416,2016-10-10T12:00:00.000Z,2016-10-10T12:00:00.000Z,,2157031,"В ролях: Джеймс МакЭвой, Анджелина Джоли. Тайн...",Художественный,Кино,...,[],,,,,,,,2017-07-05T14:10:11+03:00,2021-04-06T12:16:16+03:00


In [111]:
pd.options.display.max_columns=100

In [112]:
df.head(2)

Unnamed: 0,Название фильма,Hаименование на иностранном языке,Номер удостоверения,Дата регистрации удостоверения,Дата начала показа фильма,Примечание,Идентификатор записи реестра,Аннотация,Вид Фильма,Категория,Язык оригинала,Формат кадра,Количество серий,Метраж (для фильмов на кинопленке),Количество частей/рулонов (для фильмов на кинопленке),Цвет,"Продолжительность демонстрации, часы","Продолжительность демонстрации, минуты",Формат носителя,Объем носителя,Единица измерения,Студия-производитель,Страна производства,Год производства,Режиссер,Художник,Сценарист,Оператор,Композитор,Продюсер,Права на использование фильма,Категория прав на использование фильма,Срок действия прав на использование фильма,Срок действия прав на способ использования фильма,Возрастная категория,Возрастная категория.1,Дубляж (где дублирован),Срок действия прав проката до,Код,Права проката переданы,Порядковый номер переоформления/продления,Должность подписанта,ФИО подписанта,Запись удалена,Дата удаления записи,Не показывать на сайте mkrf.ru,дата создания объекта,дата обновления объекта
0,Почти знаменит,Almost Famous,221006316,2016-02-09T12:00:00.000Z,2016-02-09T12:00:00.000Z,,2157027,"В ролях: Фрэнсис МакДорманд, Кейт Хадсон. Исто...",Художественный,Видео,,,,,,Цветной,2.0,3.0,,,,Коламбиа Пикчерз,США,2000,Кемерон Кроу,,Кемерон Кроу,,Джон Бонхэм,,"ЗАО ""ФЕЛИСТА""",Телевидение (неисключительные права),,01.01.2020,«18+» запрещено для детей,18,,,[],,,,,,,,2017-07-05T14:10:11+03:00,2018-04-09T09:12:02+03:00
1,Открытое окно.,Open Window,221027814,2014-06-30T12:00:00.000Z,2014-06-30T12:00:00.000Z,,2157028,"В главных ролях: Робин Тюннин, Джоэль Эдгертон...",Художественный,Видео,,,,,,Цветной,1.0,37.0,,,,"Кард Интертейнмент, Имэйдж Интертейнмент",США,2006,Миа Голдмен,,Миа Голдмен,,Клифф Эйдельман,,"ООО ""Люксор Дистрибьюшн""","Коммерческое видео, Домашнее видео, Телевидение",,01.12.2018,«16+» для детей старше 16 лет,16,,,[],,,,,,,,2017-07-05T14:10:11+03:00,2018-04-09T09:12:02+03:00


In [115]:
df.shape

(96427, 48)

Описательная статистика по числовым значениям (минимум, максимум, перцентили)

In [110]:
df.describe()

Unnamed: 0,Идентификатор записи реестра,Язык оригинала,Количество серий,"Продолжительность демонстрации, часы",Запись удалена,Не показывать на сайте mkrf.ru
count,96427.0,4.0,38442.0,79764.0,0.0,0.0
mean,2598982.0,44.75,4.079496,1.807645,,
std,1183600.0,6.70199,12.374256,4.795819,,
min,2157027.0,38.0,0.0,0.0,,
25%,2182640.0,39.5,1.0,1.0,,
50%,2208424.0,45.0,1.0,1.0,,
75%,2234040.0,50.25,2.0,2.0,,
max,7961287.0,51.0,678.0,288.0,,


Покажите верхушку датафрейма

Покажите, какие есть столбцы в датафрейме (атрибут df.columns)

Выберите столбцы ```["Название фильма", "Год производства", "Вид Фильма", "Продолжительность демонстрации, минуты", "Страна производства"]```

Сколько фильмов каждого вида в наборе данных?

Какая проблема есть в данных? Как можно ее исправить с помощью ```apply```?

In [None]:
def fix_film_type(text):
    
    # ваш код
    
    return new_text

In [None]:
# тестируем

text = ""

fix_film_type(text)

In [None]:
# применяем



In [None]:
# повторим запрос по количеству фильмов



Заменим длинные названия столбцов на более короткие на латинице

Какова средняя или медианная продолжительность фильмов по странам? И сколько фильмов?

## Более сложные манипуляции с данными

Пример того, как можно сделать таблицу по годам и по странам одновременно

In [40]:
# фильтруем и группируем

# копия датафрейма - это можно делать, если он небольшой
df2 = df.copy()

# считаем длину поля год (она в текстовом формате): если строка, то длина, иначе 0
df2["len"] = df2["prod_year"].apply(lambda x: len(x) if (type(x) == str) else 0)

# фильтруем 4-значный год и год после 2009
df2 = df2[(df2["len"] == 4) & (df2["prod_year"] > "2009")]

# группируем по году и по стране
df2 = df2.groupby(["country", "prod_year"]).agg({"film_name": "count"})

df2.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,film_name
country,prod_year,Unnamed: 2_level_1
Нидерланды,2019,1
Россия,2016,1
2014,2014,1
2018,2018,1
2019,2019,1


Создаем таблицу, где строчки - это страны, столбцы - это года, а значения - наше количество фильмов

In [41]:
df2 = df2.pivot_table(index="country", columns="prod_year", values="film_name")
df2.head()

prod_year,2010,2011,2012,2013,2014,2015,2016,2017,2018,2019,2020
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Нидерланды,,,,,,,,,,1.0,
Россия,,,,,,,1.0,,,,
2014,,,,,1.0,,,,,,
2018,,,,,,,,,1.0,,
2019,,,,,,,,,,1.0,


Тут много мусора, поэтому отсортируем по количеству фильмов и возьмем топ

In [42]:
df2["total"] = df2.sum(axis=1)

In [43]:
df2.sort_values(by="total", ascending=False).head(25)

prod_year,2010,2011,2012,2013,2014,2015,2016,2017,2018,2019,2020,total
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
Россия,1952.0,1786.0,1535.0,1448.0,1515.0,1336.0,1143.0,1194.0,1231.0,1244.0,451.0,14835.0
США,585.0,501.0,494.0,398.0,307.0,243.0,203.0,170.0,231.0,174.0,44.0,3350.0
Великобритания,98.0,77.0,75.0,51.0,44.0,27.0,19.0,38.0,21.0,31.0,10.0,491.0
Франция,30.0,51.0,45.0,44.0,35.0,27.0,27.0,31.0,38.0,26.0,4.0,358.0
Германия,25.0,19.0,67.0,27.0,14.0,9.0,8.0,12.0,15.0,16.0,6.0,218.0
Италия,23.0,25.0,14.0,14.0,11.0,10.0,15.0,11.0,13.0,20.0,3.0,159.0
Украина,19.0,23.0,15.0,8.0,8.0,2.0,10.0,17.0,17.0,3.0,,122.0
Канада,19.0,23.0,16.0,16.0,6.0,6.0,5.0,10.0,8.0,9.0,,118.0
США - Великобритания,18.0,9.0,11.0,19.0,13.0,6.0,8.0,5.0,9.0,3.0,1.0,102.0
Испания,14.0,12.0,13.0,16.0,4.0,7.0,4.0,8.0,3.0,5.0,2.0,88.0
