# Pandas

Pandas - это библиотека для удобной работы с данными, в основном - с таблицами. В библиотеке есть много методов, которые нужны для чтения данных в разном формате, взаимодействия с базами данных и для разных манипуляций, которые часто нужны в процессе работы.

Чтобы сократить число символов, часто при импорте ```pandas``` заменяют просто на ```pd```

In [1]:
import pandas as pd

### Создание таблиц

Для начала, посмотрим, как выглядят таблицы (объекты) в pandas на примере небольших таблиц, созданных вручную.

Есть специальный объект типа датафрейм и мы туад передаем информацию о данных, которые у нас есть. Это может быть разный вид, например:

1. Словарь, где ключ - название будущего столбца, а значение - это список значений.
2. Список словарей, где одна запись - это отдельная строка таблицы, где ключи - это параметры (название столбца).
3. Список списков (или кортежей), где каждый элемент - это одна строка таблицы. В этом случае названия стобцов задаются отдельно.

In [2]:
data = {
    "name": ["Mary", "Jane", "Ivan", "Mark"],
    "age": [25, 14, 34, 78]
}

df = pd.DataFrame(data)
df

Unnamed: 0,name,age
0,Mary,25
1,Jane,14
2,Ivan,34
3,Mark,78


In [3]:
data = [
    {"name": "Mary", "age": 25}, 
    {"name": "Jane", "age": 14}, 
    {"name": "Ivan", "age": 34}, 
    {"name": "Mark", "age": 78}
]

df = pd.DataFrame(data)
df

Unnamed: 0,name,age
0,Mary,25
1,Jane,14
2,Ivan,34
3,Mark,78


In [4]:
data = [["Mary", 25], ["Jane", 14], ["Ivan", 34], ["Mark", 78]]

df = pd.DataFrame(data, columns=["name", "age"])
df

Unnamed: 0,name,age
0,Mary,25
1,Jane,14
2,Ivan,34
3,Mark,78


### Метод `rename` позволяет переименовывать `indexes` и `columns`

In [5]:
df.rename(columns={"name": "col_name", "age": "col_age"})

Unnamed: 0,col_name,col_age
0,Mary,25
1,Jane,14
2,Ivan,34
3,Mark,78


### Метод `pd.concat` дает возможность объединить два или больше датафреймов вместе.

In [6]:
pd.concat([df,df])

Unnamed: 0,name,age
0,Mary,25
1,Jane,14
2,Ivan,34
3,Mark,78
0,Mary,25
1,Jane,14
2,Ivan,34
3,Mark,78


### Чтение данных

Рассмотрим несколько основных способов прочитать данные.

1. CSV файл (табличный формат с различными разделителями, в том числе запятая, таб, точка с запятой и др.)
2. Excel-файл
3. База данных (посмотрим, когда будем работать с базами)
4. Онлайн-таблицы (на страницах сайта)

In [7]:
df = pd.read_csv("data/example.csv", sep="\t")  # разделитель табуляция
df

Unnamed: 0,name,age
0,Mary,25
1,Ivan,34


In [8]:
# ! pip install openpyxl 
df = pd.read_excel("data/example.xlsx", sheet_name="example")
df

Unnamed: 0,name,age
0,Mary,25
1,Ivan,34


In [9]:
# ! pip install lxml
df = pd.read_html("https://en.wikipedia.org/wiki/List_of_countries_and_dependencies_by_population")[0]
df

You should consider upgrading via the '/home/@share/Documents/hse/seminars/venv/bin/python -m pip install --upgrade pip' command.[0m


Unnamed: 0,Rank,Country or dependent territory,Region,Population,% of world,Date,Source (official or from the United Nations),Notes
0,–,,World,7899167000,100%,30 Sep 2021,UN projection[2],
1,1,China,Asia,1411778724,,1 Nov 2020,2020 census result[3],"The census figure refers to mainland China, ex..."
2,2,India,Asia,1382518422,,30 Sep 2021,National population clock[4],The figure includes the population of India-ad...
3,3,United States,Americas,332452295,,30 Sep 2021,National population clock[5],Includes the 50 states and the District of Col...
4,4,Indonesia,Asia,271350000,,31 Dec 2020,National annual estimate[6],
...,...,...,...,...,...,...,...,...
237,–,Niue (New Zealand),Oceania,1549,,1 Jul 2021,National annual projection[91],
238,–,Tokelau (New Zealand),Oceania,1501,,1 Jul 2021,National annual projection[91],
239,195,Vatican City,Europe,825,,1 Feb 2019,Monthly national estimate[190],The total population of 825 consisted of 453 r...
240,–,Cocos (Keeling) Islands (Australia),Oceania,573,,30 Jun 2020,National annual estimate[189],


In [10]:
df = pd.read_csv("https://raw.githubusercontent.com/cldf-datasets/wals/master/raw/country.csv")

Верхушка датафрейма (по умолчанию 5)

In [11]:
df.head(3)

Unnamed: 0,pk,jsondata,id,name,description,markup_description,continent
0,1,,AF,Afghanistan,,,Asia
1,2,,AL,Albania,,,Europe
2,3,,DZ,Algeria,,,Africa


Конец

In [12]:
df.tail(3)

Unnamed: 0,pk,jsondata,id,name,description,markup_description,continent
189,190,,ZM,Zambia,,,Africa
190,191,,ZW,Zimbabwe,,,Africa
191,192,,SS,South Sudan,,,Africa


Информация по пропущенным значениям

In [13]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 192 entries, 0 to 191
Data columns (total 7 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   pk                  192 non-null    int64  
 1   jsondata            0 non-null      float64
 2   id                  191 non-null    object 
 3   name                192 non-null    object 
 4   description         0 non-null      float64
 5   markup_description  0 non-null      float64
 6   continent           192 non-null    object 
dtypes: float64(3), int64(1), object(3)
memory usage: 10.6+ KB


### С помощью property `shape` -  можно получить размеры `DataFrame`.

In [14]:
df.shape

(192, 7)

### Сохраняем данные в текстовом формате (csv)

In [15]:
df.to_csv("wals_country.csv", index=None)

### Сохраняем данные в бинарном формате Excel (xlsx)

In [16]:
df.to_excel("wals_country.xlsx", index=None)

### Данные можно сохраняться в разных форматах
### Текстовые формат `csv` и бинарные форматы: `pickle`, `hdf5`, `feather`, `parquet`, `excel` (не оптимизированный формат)

### Достоинства бинарных форматов: быстрота сохранения\загрузки дынных, небольшой размер данных на диске
### [Здесь](https://towardsdatascience.com/the-best-format-to-save-pandas-data-414dca023e0d) можно посмотреть сравнение разных форматов сохранение


### ![](https://miro.medium.com/max/678/1*6qdaUz8pMFTurG7N14SQjA.png)
### ![](https://miro.medium.com/max/695/1*Q4QsOWSh2gDrG8aCAF8ewA.png)

### Сохраняем данные в бинарном формате parquet


In [17]:
df.to_parquet("wals_country.parquet", index=None)

### Видно, что для небольшого количества данных `parquet` занимает столько же места сколько и текстовый формат `csv`. А формат `xlsx` занимает в 2 раза больше чем другие.

In [18]:
!ls -ahl | grep wals

-rw-r--r-- 1 kudep kudep 5.4K Oct  1 00:13 [01;31m[Kwals[m[K_country.csv
-rw-r--r-- 1 kudep kudep 6.5K Oct  1 00:13 [01;31m[Kwals[m[K_country.parquet
-rw-r--r-- 1 kudep kudep  12K Oct  1 00:13 [01;31m[Kwals[m[K_country.xlsx


### Увеличим количество данных для этого конкатенируем 10-ть раз наш датафрейм  - используем метод `concat`.

In [19]:
df1 = pd.concat([df]*10)
df1.shape

(1920, 7)

### Для большего количества данных `parquet` лучше сжимает файл в сравнении с другими форматами.

In [20]:
df1.to_csv("wals_country.csv", index=None)
df1.to_excel("wals_country.xlsx", index=None)
df1.to_parquet("wals_country.parquet", index=None)
!ls -ahl | grep wals

-rw-r--r-- 1 kudep kudep  53K Oct  1 00:13 [01;31m[Kwals[m[K_country.csv
-rw-r--r-- 1 kudep kudep  15K Oct  1 00:13 [01;31m[Kwals[m[K_country.parquet
-rw-r--r-- 1 kudep kudep  72K Oct  1 00:13 [01;31m[Kwals[m[K_country.xlsx


### Манипуляции с данными

**Фильтрация данных**

Можно удалять отдельные строки или столбцы

In [21]:
df = df.drop(["jsondata", "description"], axis=1) # убираем столбцы

# проверяем
df.head(2) 

Unnamed: 0,pk,id,name,markup_description,continent
0,1,AF,Afghanistan,,Asia
1,2,AL,Albania,,Europe


Можно удалять те, где есть пропуски

In [22]:
df.dropna()

Unnamed: 0,pk,id,name,markup_description,continent


Здесь во всех строчка в столбца markup_description ничего нет и все удаляется

In [23]:
df.shape, df.dropna().shape

((192, 5), (0, 5))

Удалим столбцы, где все значения пустые

In [24]:
df.dropna(how="all", axis=1).head()

Unnamed: 0,pk,id,name,continent
0,1,AF,Afghanistan,Asia
1,2,AL,Albania,Europe
2,3,DZ,Algeria,Africa
3,4,AS,American Samoa,Australia & Oceania
4,5,AO,Angola,Africa


Можно выбрать нужные столбцы

In [25]:
df = df[["pk", "id", "name", "continent"]]

In [26]:
df.head()

Unnamed: 0,pk,id,name,continent
0,1,AF,Afghanistan,Asia
1,2,AL,Albania,Europe
2,3,DZ,Algeria,Africa
3,4,AS,American Samoa,Australia & Oceania
4,5,AO,Angola,Africa


Фильтруем, где pk < 4

In [27]:
df[df["pk"] < 4]

Unnamed: 0,pk,id,name,continent
0,1,AF,Afghanistan,Asia
1,2,AL,Albania,Europe
2,3,DZ,Algeria,Africa


Посмотрим, какие вообще есть континенты

In [28]:
df["continent"].value_counts()

Africa                 54
Asia                   46
Europe                 38
Australia & Oceania    22
North America          17
South America          13
Eurasia                 2
Name: continent, dtype: int64

In [29]:
df[df["continent"] == "North America"]

Unnamed: 0,pk,id,name,continent
14,15,BZ,Belize,North America
26,27,CA,Canada,North America
34,35,CR,Costa Rica,North America
42,43,DM,Dominica,North America
46,47,SV,El Salvador,North America
63,64,GD,Grenada,North America
66,67,GT,Guatemala,North America
70,71,HT,Haiti,North America
71,72,HN,Honduras,North America
81,82,JM,Jamaica,North America


Отсортируем эти страны по алфавиту по ID

In [30]:
df[df["continent"] == "North America"].sort_values(by="id")

Unnamed: 0,pk,id,name,continent
120,121,AN,Netherlands Antilles,North America
14,15,BZ,Belize,North America
26,27,CA,Canada,North America
34,35,CR,Costa Rica,North America
42,43,DM,Dominica,North America
63,64,GD,Grenada,North America
66,67,GT,Guatemala,North America
71,72,HN,Honduras,North America
70,71,HT,Haiti,North America
81,82,JM,Jamaica,North America


Допустим, мы хотим получить список стран по континентам

1. Группируем по континенту
2. Из имен составляем списки

In [31]:
df.groupby("continent").agg({"name": list})

Unnamed: 0_level_0,name
continent,Unnamed: 1_level_1
Africa,"[Algeria, Angola, Benin, Botswana, Burkina Fas..."
Asia,"[Afghanistan, Armenia, Azerbaijan, Bahrain, Ba..."
Australia & Oceania,"[American Samoa, Australia, Fiji, French Polyn..."
Eurasia,"[Russia, Turkey]"
Europe,"[Albania, Austria, Belarus, Belgium, Bosnia-He..."
North America,"[Belize, Canada, Costa Rica, Dominica, El Salv..."
South America,"[Argentina, Bolivia, Brazil, Chile, Colombia, ..."


Посчитаем среднее по pk (**это не имеет смысла, просто пример**)

In [32]:
df.groupby("continent").agg({"pk": "mean"})

Unnamed: 0_level_0,pk
continent,Unnamed: 1_level_1
Africa,94.703704
Asia,104.195652
Australia & Oceania,113.909091
Eurasia,159.5
Europe,85.921053
North America,88.235294
South America,79.307692


Можно применять функции к столбцам. Например, есть функция, которая принимает один аргумент и возвращает один аргумент. Ее можно применить к столбцу и преобраховать его содержимое.

In [33]:
def change_id(text):
    if type(text) == str:
        text = text.lower() * 2
    return text

In [34]:
df["id"].apply(change_id)

0      afaf
1      alal
2      dzdz
3      asas
4      aoao
       ... 
187    wfwf
188    yeye
189    zmzm
190    zwzw
191    ssss
Name: id, Length: 192, dtype: object

## Практика

Скачаем данные по кинопрокату [тут](https://opendata.mkrf.ru/opendata/7705851331-register_movies)

Считаем таблицу (можно прямо из zip), замените путь на путь к вашему файлу

In [36]:
your_zip = "data-7-structure-4.csv.zip"
df = pd.read_csv(your_zip)

  exec(code_obj, self.user_global_ns, self.user_ns)


Описательная статистика по числовым значениям (минимум, максимум, перцентили)

In [39]:
df.describe()

Unnamed: 0,Идентификатор записи реестра,Язык оригинала,Количество серий,"Продолжительность демонстрации, часы","Продолжительность демонстрации, минуты",Запись удалена,Не показывать на сайте mkrf.ru
count,93827.0,4.0,36259.0,77278.0,91308.0,0.0,0.0
mean,2471519.0,44.75,4.103643,1.815704,32.214373,,
std,914531.5,6.70199,12.083681,4.846307,26.854649,,
min,2157027.0,38.0,0.0,0.0,0.0,,
25%,2181938.0,39.5,1.0,1.0,20.0,,
50%,2207024.0,45.0,1.0,1.0,31.0,,
75%,2231976.0,50.25,2.0,2.0,44.0,,
max,6750280.0,51.0,532.0,288.0,5454.0,,


Покажите верхушку датафрейма

Покажите, какие есть столбцы в датафрейме (атрибут df.columns)

Выберите столбцы ```["Название фильма", "Год производства", "Вид Фильма", "Продолжительность демонстрации, минуты", "Страна производства"]```

Сколько фильмов каждого типа в наборе данных?

Какая проблема есть в данных? Как можно ее исправить с помощью ```apply```?

In [None]:
def fix_film_type(text):
    
    # ваш код
    
    return new_text

In [None]:
# тестируем

text = ""

fix_film_type(text)

In [None]:
# применяем



In [None]:
# повторим запрос по количеству фильмов



Заменим длинные названия столбцов на более короткие на латинице

Какова средняя или медианная продолжительность фильмов по странам? И сколько фильмов?

## Более сложные манипуляции с данными

Пример того, как можно сделать таблицу по годам и по странам одновременно

In [40]:
# фильтруем и группируем

# копия датафрейма - это можно делать, если он небольшой
df2 = df.copy()

# считаем длину поля год (она в текстовом формате): если строка, то длина, иначе 0
df2["len"] = df2["prod_year"].apply(lambda x: len(x) if (type(x) == str) else 0)

# фильтруем 4-значный год и год после 2009
df2 = df2[(df2["len"] == 4) & (df2["prod_year"] > "2009")]

# группируем по году и по стране
df2 = df2.groupby(["country", "prod_year"]).agg({"film_name": "count"})

df2.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,film_name
country,prod_year,Unnamed: 2_level_1
Нидерланды,2019,1
Россия,2016,1
2014,2014,1
2018,2018,1
2019,2019,1


Создаем таблицу, где строчки - это страны, столбцы - это года, а значения - наше количество фильмов

In [41]:
df2 = df2.pivot_table(index="country", columns="prod_year", values="film_name")
df2.head()

prod_year,2010,2011,2012,2013,2014,2015,2016,2017,2018,2019,2020
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Нидерланды,,,,,,,,,,1.0,
Россия,,,,,,,1.0,,,,
2014,,,,,1.0,,,,,,
2018,,,,,,,,,1.0,,
2019,,,,,,,,,,1.0,


Тут много мусора, поэтому отсортируем по количеству фильмов и возьмем топ

In [42]:
df2["total"] = df2.sum(axis=1)

In [43]:
df2.sort_values(by="total", ascending=False).head(25)

prod_year,2010,2011,2012,2013,2014,2015,2016,2017,2018,2019,2020,total
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
Россия,1952.0,1786.0,1535.0,1448.0,1515.0,1336.0,1143.0,1194.0,1231.0,1244.0,451.0,14835.0
США,585.0,501.0,494.0,398.0,307.0,243.0,203.0,170.0,231.0,174.0,44.0,3350.0
Великобритания,98.0,77.0,75.0,51.0,44.0,27.0,19.0,38.0,21.0,31.0,10.0,491.0
Франция,30.0,51.0,45.0,44.0,35.0,27.0,27.0,31.0,38.0,26.0,4.0,358.0
Германия,25.0,19.0,67.0,27.0,14.0,9.0,8.0,12.0,15.0,16.0,6.0,218.0
Италия,23.0,25.0,14.0,14.0,11.0,10.0,15.0,11.0,13.0,20.0,3.0,159.0
Украина,19.0,23.0,15.0,8.0,8.0,2.0,10.0,17.0,17.0,3.0,,122.0
Канада,19.0,23.0,16.0,16.0,6.0,6.0,5.0,10.0,8.0,9.0,,118.0
США - Великобритания,18.0,9.0,11.0,19.0,13.0,6.0,8.0,5.0,9.0,3.0,1.0,102.0
Испания,14.0,12.0,13.0,16.0,4.0,7.0,4.0,8.0,3.0,5.0,2.0,88.0
