# Pandas

## Скачивание необходимых данных

In [None]:
!wget https://archive.ics.uci.edu/ml/machine-learning-databases/auto-mpg/auto-mpg.data

--2021-09-12 13:34:53--  https://archive.ics.uci.edu/ml/machine-learning-databases/auto-mpg/auto-mpg.data
Resolving archive.ics.uci.edu (archive.ics.uci.edu)... 128.195.10.252
Connecting to archive.ics.uci.edu (archive.ics.uci.edu)|128.195.10.252|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 30286 (30K) [application/x-httpd-php]
Saving to: ‘auto-mpg.data’


2021-09-12 13:34:53 (449 KB/s) - ‘auto-mpg.data’ saved [30286/30286]



## Импорт необходимых библиотек

In [None]:
import pandas as pd

## Чтение таблиц из файла

Основной способ создания объектов типа pd.DataFrame — чтение CSV (comma separated value) файлов. В данном случае в .csv файле нет строки с указанием названий столбцов, потому, после создания таблицы, мы укажем их вручную:

In [None]:
mpg_df = pd.read_csv("auto-mpg.data", sep="\s+", header=None)
mpg_df.columns = [
    "mpg",
    "cylinders",
    "displacement",
    "horsepower",
    "weight",
    "acceleration",
    "model year",
    "origin",
    "car name"
]

mpg_df

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model year,origin,car name
0,18.0,8,307.0,130.0,3504.0,12.0,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693.0,11.5,70,1,buick skylark 320
2,18.0,8,318.0,150.0,3436.0,11.0,70,1,plymouth satellite
3,16.0,8,304.0,150.0,3433.0,12.0,70,1,amc rebel sst
4,17.0,8,302.0,140.0,3449.0,10.5,70,1,ford torino
...,...,...,...,...,...,...,...,...,...
393,27.0,4,140.0,86.00,2790.0,15.6,82,1,ford mustang gl
394,44.0,4,97.0,52.00,2130.0,24.6,82,2,vw pickup
395,32.0,4,135.0,84.00,2295.0,11.6,82,1,dodge rampage
396,28.0,4,120.0,79.00,2625.0,18.6,82,1,ford ranger


## Первый взгляд на таблицу

In [None]:
mpg_df.head(4)

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model year,origin,car name
0,18.0,8,307.0,130.0,3504.0,12.0,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693.0,11.5,70,1,buick skylark 320
2,18.0,8,318.0,150.0,3436.0,11.0,70,1,plymouth satellite
3,16.0,8,304.0,150.0,3433.0,12.0,70,1,amc rebel sst


In [None]:
mpg_df.describe()

Unnamed: 0,mpg,cylinders,displacement,weight,acceleration,model year,origin
count,398.0,398.0,398.0,398.0,398.0,398.0,398.0
mean,23.514573,5.454774,193.425879,2970.424623,15.56809,76.01005,1.572864
std,7.815984,1.701004,104.269838,846.841774,2.757689,3.697627,0.802055
min,9.0,3.0,68.0,1613.0,8.0,70.0,1.0
25%,17.5,4.0,104.25,2223.75,13.825,73.0,1.0
50%,23.0,4.0,148.5,2803.5,15.5,76.0,1.0
75%,29.0,8.0,262.0,3608.0,17.175,79.0,2.0
max,46.6,8.0,455.0,5140.0,24.8,82.0,3.0


## Индексирование

### Получение данных, простой индекс

Вариант 1  
Представим DataFrame как словарь. В нем ключи — названия столбцов, а значения — массивы (pd.Series) данных.

In [None]:
mpg_df["mpg"]

0      18.0
1      15.0
2      18.0
3      16.0
4      17.0
       ... 
393    27.0
394    44.0
395    32.0
396    28.0
397    31.0
Name: mpg, Length: 398, dtype: float64

In [None]:
mpg_df["mpg"][1:4]

1    15.0
2    18.0
3    16.0
Name: mpg, dtype: float64

Вариант 2  
Представим DataFrame как объект. У этого объекта, помимо прочих, есть поля с названиями столбцов. Значения этих полей, также, pd.Series:

In [None]:
mpg_df.horsepower

0      130.0
1      165.0
2      150.0
3      150.0
4      140.0
       ...  
393    86.00
394    52.00
395    84.00
396    79.00
397    82.00
Name: horsepower, Length: 398, dtype: object

In [None]:
mpg_df.horsepower[1:4]

1    165.0
2    150.0
3    150.0
Name: horsepower, dtype: object

Вариант 3  
У DataFrame также есть поле loc. Оно хранит в себе объект типа LocIndexer:

In [None]:
mpg_df.loc

<pandas.core.indexing._LocIndexer at 0x7f6e1a4d02f0>

In [None]:
mpg_df.loc[:, "weight"]

0      3504.0
1      3693.0
2      3436.0
3      3433.0
4      3449.0
        ...  
393    2790.0
394    2130.0
395    2295.0
396    2625.0
397    2720.0
Name: weight, Length: 398, dtype: float64

In [None]:
mpg_df.loc[1:4, "weight"]

1    3693.0
2    3436.0
3    3433.0
4    3449.0
Name: weight, dtype: float64

In [None]:
a = mpg_df["weight"]
b = mpg_df.horsepower
c = mpg_df.loc[:, "mpg"]

mpg_df.loc[:, :] = 0

In [None]:
mpg_df

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model year,origin,car name
0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...
393,0,0,0,0,0,0,0,0,0
394,0,0,0,0,0,0,0,0,0
395,0,0,0,0,0,0,0,0,0
396,0,0,0,0,0,0,0,0,0


In [None]:
a

0      3504.0
1      3693.0
2      3436.0
3      3433.0
4      3449.0
        ...  
393    2790.0
394    2130.0
395    2295.0
396    2625.0
397    2720.0
Name: weight, Length: 398, dtype: float64

In [None]:
b

0      130.0
1      165.0
2      150.0
3      150.0
4      140.0
       ...  
393    86.00
394    52.00
395    84.00
396    79.00
397    82.00
Name: horsepower, Length: 398, dtype: object

In [None]:
c

0      18.0
1      15.0
2      18.0
3      16.0
4      17.0
       ... 
393    27.0
394    44.0
395    32.0
396    28.0
397    31.0
Name: mpg, Length: 398, dtype: float64

Видим, что во всех случаях была создана копия столбца и при изменениях в исходной таблице в переменных a, b и c ничего не поменялось.  

### Запись данных, простой индекс

Теперь разберемся с внесением изменений в DataFrame:

In [None]:
mpg_df = pd.read_csv("auto-mpg.data", sep="\s+", header=None)
mpg_df.columns = [
    "mpg",
    "cylinders",
    "displacement",
    "horsepower",
    "weight",
    "acceleration",
    "model year",
    "origin",
    "car name"
]

mpg_df

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model year,origin,car name
0,18.0,8,307.0,130.0,3504.0,12.0,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693.0,11.5,70,1,buick skylark 320
2,18.0,8,318.0,150.0,3436.0,11.0,70,1,plymouth satellite
3,16.0,8,304.0,150.0,3433.0,12.0,70,1,amc rebel sst
4,17.0,8,302.0,140.0,3449.0,10.5,70,1,ford torino
...,...,...,...,...,...,...,...,...,...
393,27.0,4,140.0,86.00,2790.0,15.6,82,1,ford mustang gl
394,44.0,4,97.0,52.00,2130.0,24.6,82,2,vw pickup
395,32.0,4,135.0,84.00,2295.0,11.6,82,1,dodge rampage
396,28.0,4,120.0,79.00,2625.0,18.6,82,1,ford ranger


In [None]:
mpg_df["mpg"][5:10]

5    15.0
6    14.0
7    14.0
8    14.0
9    15.0
Name: mpg, dtype: float64

In [None]:
mpg_df["mpg"][5:10] = 10

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


Предупреждение говорит, что такой вариант присвоения использовать нежелательно.

In [None]:
mpg_df["mpg"][5:10]

5    10.0
6    10.0
7    10.0
8    10.0
9    10.0
Name: mpg, dtype: float64

В данном случае все работает, как ожидается, но далее мы поймем, почему предпочтительнее следующий вариант:

In [None]:
mpg_df.loc[5:10, "cylinders"] = 0

### Получение данных, составной индекс

In [None]:
from datetime import date, time

Предположим у нас есть данные о климате в следующем формате:
Для каждого города и даты хранятся значения температуры, количества осадков, облачности, восхода и захода Солнца:

(Москва, 1.09.2021, 13°C, 5 мм, 90%, 5.47, 19.05)  
(Москва, 2.09.2021, 11°C, 7 мм, 95%, 5.49, 19.01)  
(Москва, 3.09.2021, 14°C, 3 мм, 50%, 5.51, 18.59)  
(Санкт-Петербург, 1.09.2021, 15°C, 3 мм, 90%, 6.10, 19.40)  
(Санкт-Петербург, 2.09.2021, 14°C, 5 мм, 30%, 6.12, 19.38)  
(Санкт-Петербург, 3.09.2021, 16°C, 4 мм, 70%, 6.14, 19.37)  

Легко представить себе хранение в виде обычной таблицы:

In [None]:
df = pd.DataFrame(
    [
      ("Москва", date(2021, 9, 1), 13, 5, 90, time(5, 47), time(19, 5)),
      ("Москва", date(2021, 9, 2), 11, 7, 95, time(5, 49), time(19, 1)),
      ("Москва", date(2021, 9, 3), 14, 3, 50, time(5, 51), time(18, 59)),
      ("Санкт-Петербург", date(2021, 9, 1), 15, 3, 90, time(6, 10), time(19, 40)),  
      ("Санкт-Петербург", date(2021, 9, 2), 14, 5, 30, time(6, 12), time(19, 38)),  
      ("Санкт-Петербург", date(2021, 9, 3), 16, 4, 70, time(6, 14), time(19, 37))  
    ],
    columns = ["Город", "Дата", "Температура", "Осадки, мм", "Облачность, %", "Время восхода", "Время захода"]
)
df

Unnamed: 0,Город,Дата,Температура,"Осадки, мм","Облачность, %",Время восхода,Время захода
0,Москва,2021-09-01,13,5,90,05:47:00,19:05:00
1,Москва,2021-09-02,11,7,95,05:49:00,19:01:00
2,Москва,2021-09-03,14,3,50,05:51:00,18:59:00
3,Санкт-Петербург,2021-09-01,15,3,90,06:10:00,19:40:00
4,Санкт-Петербург,2021-09-02,14,5,30,06:12:00,19:38:00
5,Санкт-Петербург,2021-09-03,16,4,70,06:14:00,19:37:00


Обратим внимание на другой способ получения объектов DataFrame, вызовом конструктора.

Если нашей задачей будет найти среднеквадратичную разницу температур между городами, или поискать корреляции между осадками и облачностью между городами, более удобным видом таблицы будет следующий:

In [None]:
df = pd.DataFrame(
    [
      (date(2021, 9, 1), 13, 5, 90, time(5, 47), time(19, 5), date(2021, 9, 1), 15, 3, 90, time(6, 10), time(19, 40)),
      (date(2021, 9, 2), 11, 7, 95, time(5, 49), time(19, 1), date(2021, 9, 2), 14, 5, 30, time(6, 12), time(19, 38)),
      (date(2021, 9, 3), 14, 3, 50, time(5, 51), time(18, 59), date(2021, 9, 3), 16, 4, 70, time(6, 14), time(19, 37))
    ],
    columns = pd.MultiIndex.from_product([
        ["Москва", "Санкт-Петербург"], 
        ["Дата", "Температура", "Осадки, мм", "Облачность, %", "Время восхода", "Время захода"]
    ])
)
df

Unnamed: 0_level_0,Москва,Москва,Москва,Москва,Москва,Москва,Санкт-Петербург,Санкт-Петербург,Санкт-Петербург,Санкт-Петербург,Санкт-Петербург,Санкт-Петербург
Unnamed: 0_level_1,Дата,Температура,"Осадки, мм","Облачность, %",Время восхода,Время захода,Дата,Температура,"Осадки, мм","Облачность, %",Время восхода,Время захода
0,2021-09-01,13,5,90,05:47:00,19:05:00,2021-09-01,15,3,90,06:10:00,19:40:00
1,2021-09-02,11,7,95,05:49:00,19:01:00,2021-09-02,14,5,30,06:12:00,19:38:00
2,2021-09-03,14,3,50,05:51:00,18:59:00,2021-09-03,16,4,70,06:14:00,19:37:00


Теперь найдем среднеквадратичную разницу между температурами:

In [None]:
temp_diff = df["Москва"]["Температура"] - df["Санкт-Петербург"]["Температура"]
temp_diff

0   -2
1   -3
2   -2
Name: Температура, dtype: int64

In [None]:
(sum([a ** 2 for a in temp_diff.to_list()]) / len(temp_diff)) ** (1/2)

2.3804761428476167

Обратим внимание на то, что столбцы теперь имеют составные названия: Москва;Температура или Санкт-Петерубрг;Облачность. Такой подход имеет массу плюсов и в целом очень удобен, однако есть один неочевидный момент, который стоит осветить.

### Запись данных, составной индекс

Попробуем теперь внести изменения в таблицу. Например, заменим все значения температуры в Москве на -1:

In [None]:
df["Москва"]["Температура"] = -1
df

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


Unnamed: 0_level_0,Москва,Москва,Москва,Москва,Москва,Москва,Санкт-Петербург,Санкт-Петербург,Санкт-Петербург,Санкт-Петербург,Санкт-Петербург,Санкт-Петербург
Unnamed: 0_level_1,Дата,Температура,"Осадки, мм","Облачность, %",Время восхода,Время захода,Дата,Температура,"Осадки, мм","Облачность, %",Время восхода,Время захода
0,2021-09-01,13,5,90,05:47:00,19:05:00,2021-09-01,15,3,90,06:10:00,19:40:00
1,2021-09-02,11,7,95,05:49:00,19:01:00,2021-09-02,14,5,30,06:12:00,19:38:00
2,2021-09-03,14,3,50,05:51:00,18:59:00,2021-09-03,16,4,70,06:14:00,19:37:00


Снова видим предупреждение о том, что лучше использовать .loc. Только в этом случае видим, что результат отличается от того, что мы ожидали, изменения не отобразились в таблице! Почему так происходит?

Согласно официальной [документации](https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy), этот код равнозначен следующему:

```
df.__getitem__("Москва").__setitem__("Температура", -1)
```

Сначала мы пользуемся методом `__getitem__`, а после — `__setitem__`. Второй метод изменяет значения полей объекта, однако какой объект возвращает первый: копию DataFrame или ссылку на него? Правильный ответ — никто точно не знает, именно поэтому присвоение рекомендуется делать через .loc:

In [None]:
df.loc[:, ("Москва", "Температура")] = -1
df

Unnamed: 0_level_0,Москва,Москва,Москва,Москва,Москва,Москва,Санкт-Петербург,Санкт-Петербург,Санкт-Петербург,Санкт-Петербург,Санкт-Петербург,Санкт-Петербург
Unnamed: 0_level_1,Дата,Температура,"Осадки, мм","Облачность, %",Время восхода,Время захода,Дата,Температура,"Осадки, мм","Облачность, %",Время восхода,Время захода
0,2021-09-01,-1,5,90,05:47:00,19:05:00,2021-09-01,15,3,90,06:10:00,19:40:00
1,2021-09-02,-1,7,95,05:49:00,19:01:00,2021-09-02,14,5,30,06:12:00,19:38:00
2,2021-09-03,-1,3,50,05:51:00,18:59:00,2021-09-03,16,4,70,06:14:00,19:37:00


Этот код транслируется уже немного в другой, по сравнению с предыдущим вариантом:

```
df.loc.__setitem__((slice(None), ("Москва", "Температура")), -1)
```

В данном случае мы не пользуемся методом `__getitem__`, а значит, и нет вопроса, что он вернет. Мы в любом случае воздействуем на сам объект df.

Чтобы не запоминать слишком много, можно просто использовать для чтения нотацию `[]`, а для записи — .loc. Или вообще всегда использовать .loc.

### Произвольные индексы строк

Теперь мы знаем, что столбец может иметь название, и по этому названию можно выбирать нужные части таблицы. Также мы знаем, что строки обычно пронумерованы от 0 до N-1 (где N — число строк) и мы можем выбирать нужные строки по их индексам.  

Можно выбирать строки не по номерам, а, например, по текстовому полю, если его значения уникальны:

In [None]:
df = pd.DataFrame([
    ["Москва", 12.66],
    ["Санкт-Петербург", 5.38],
    ["Новосибирск", 1.62],
    ["Екатеринбург", 1.49],
    ["Казань", 1.26],
    ["Нижний Новгород", 1.24]
], columns=[
    "Город",
    "Население"
])
df = df.set_index("Город")
df

Unnamed: 0_level_0,Население
Город,Unnamed: 1_level_1
Москва,12.66
Санкт-Петербург,5.38
Новосибирск,1.62
Екатеринбург,1.49
Казань,1.26
Нижний Новгород,1.24


Видим, что номера пропали, вместо них теперь названия городов, попробуем получить данные:

In [None]:
df.loc["Казань", :]

Население    1.26
Name: Казань, dtype: float64

In [None]:
df["Население"]["Екатеринбург"]

1.49

Наиболее распространены эти два варианта: числовые и строковые индексы. Однако pandas не запрещает использовать и другие типы. Например, списки и множества (set).

In [None]:
list_1 = [1, 2, 3]
list_2 = [5, 6, 7]

df = pd.DataFrame([
    [list_1, 2.54],
    [list_2, 8],
], columns=[
    "a",
    "b"
])
df = df.set_index("a")
df

Unnamed: 0_level_0,b
a,Unnamed: 1_level_1
"[1, 2, 3]",2.54
"[5, 6, 7]",8.0


In [None]:
df.loc[[5, 6, 7], :]

TypeError: ignored

Однако делать этого не рекомендуется, потому что выбирать элементы с помощью таких индексов не получится. В связи с этим следует использовать в качестве индексов только hashable типы, например, frozenset или кортеж (tuple):

In [None]:
set_1 = frozenset([1, 2, 3])
set_2 = frozenset([5, 6, 7])

df = pd.DataFrame([
    [set_1, 2.54],
    [set_2, 8],
], columns=[
    "a",
    "b"
])
df = df.set_index("a")
df

Unnamed: 0_level_0,b
a,Unnamed: 1_level_1
"(1, 2, 3)",2.54
"(5, 6, 7)",8.0


In [None]:
df.loc[(set_1, ), :]

Unnamed: 0_level_0,b
a,Unnamed: 1_level_1
"(1, 2, 3)",2.54


Однако здесь сразу же стоит обратить внимание на то, что мы в качестве row_indexer используем кортеж, а не само множество. Дело в том, что без этого `loc[]` интерпретирует множество как список и попытается найти строки со значениями индекса 1, 2 и 3. Таковых в таблице нет:

In [None]:
df.loc[set_1, :]

KeyError: ignored

### Маскирование

Так же, как и в numpy, в некоторых случаях удобно пользоваться масками:

In [None]:
cyl_mask = mpg_df.cylinders > 4
mpg_df.loc[cyl_mask, :]

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model year,origin,car name
0,18.0,8,307.0,130.0,3504.0,12.0,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693.0,11.5,70,1,buick skylark 320
2,18.0,8,318.0,150.0,3436.0,11.0,70,1,plymouth satellite
3,16.0,8,304.0,150.0,3433.0,12.0,70,1,amc rebel sst
4,17.0,8,302.0,140.0,3449.0,10.5,70,1,ford torino
...,...,...,...,...,...,...,...,...,...
365,20.2,6,200.0,88.00,3060.0,17.1,81,1,ford granada gl
366,17.6,6,225.0,85.00,3465.0,16.6,81,1,chrysler lebaron salon
386,25.0,6,181.0,110.0,2945.0,16.4,82,1,buick century limited
387,38.0,6,262.0,85.00,3015.0,17.0,82,1,oldsmobile cutlass ciera (diesel)


In [None]:
acc_mask = mpg_df.acceleration < 11
mpg_df.loc[cyl_mask & acc_mask, :]

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model year,origin,car name
4,17.0,8,302.0,140.0,3449.0,10.5,70,1,ford torino
11,14.0,8,340.0,160.0,3609.0,8.0,70,1,plymouth 'cuda 340
12,15.0,8,400.0,150.0,3761.0,9.5,70,1,chevrolet monte carlo
13,14.0,8,455.0,225.0,3086.0,10.0,70,1,buick estate wagon (sw)
116,16.0,8,400.0,230.0,4278.0,9.5,73,1,pontiac grand prix


### Порядковое индексирование

Обратим внимание на индекс в полученной таблице: в нем целые числа, однако идут они не по порядку. Это и понятно: мы выбрали определенные строки из таблицы, а эти номера соответсвуют номерам этих строк в исходной:

In [None]:
mpg_df.loc[[116], :]

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model year,origin,car name
116,16.0,8,400.0,230.0,4278.0,9.5,73,1,pontiac grand prix


В некоторых случаях может быть необходимо выбрать n-ую строку, независимо от того, какой у нее индекс, для этого нужен .iloc:

In [None]:
filtered_df = mpg_df.loc[cyl_mask & acc_mask, :]
filtered_df.iloc[[-1]]

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model year,origin,car name
116,16.0,8,400.0,230.0,4278.0,9.5,73,1,pontiac grand prix


Обратим также внимание на то, что ситуация с `[]` vs `.loc` здесь сохраняется:

In [None]:
filtered_df.iloc[[-1]]["displacement"] = -1
filtered_df.iloc[[-1]]

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model year,origin,car name
116,16.0,8,400.0,230.0,4278.0,9.5,73,1,pontiac grand prix


Если же старый индекс нам больше не пригодится, мы можем избавиться от него:

In [None]:
new_index_df = filtered_df.reset_index(drop=True)
new_index_df

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model year,origin,car name
0,17.0,8,302.0,140.0,3449.0,10.5,70,1,ford torino
1,14.0,8,340.0,160.0,3609.0,8.0,70,1,plymouth 'cuda 340
2,15.0,8,400.0,150.0,3761.0,9.5,70,1,chevrolet monte carlo
3,14.0,8,455.0,225.0,3086.0,10.0,70,1,buick estate wagon (sw)
4,16.0,8,400.0,230.0,4278.0,9.5,73,1,pontiac grand prix


In [None]:
mpg_df.iloc

<pandas.core.indexing._iLocIndexer at 0x7f6e1a0adad0>

In [None]:
mpg_df.loc

<pandas.core.indexing._LocIndexer at 0x7f6e1a0a97d0>

## Заполнение пропусков
В английской литературе — imputation.

Предположим, у нас есть данные с нескольких датчиков температуры. Датчики иногда отключаются и не записывают показания, из-за этого возникают пропущенные значения:

In [None]:
from datetime import datetime

In [None]:
import numpy as np

In [None]:
df = pd.DataFrame([
    [datetime(2021, 9, 1, 13, 0), 23.1, 20, 19.9],
    [datetime(2021, 9, 1, 13, 15), 23.2, 19.8, 19.7],
    [datetime(2021, 9, 1, 13, 30), 23.1, 20.1, 19.9],
    [datetime(2021, 9, 1, 13, 45), 23.0, 20.2, 20.0],
    [datetime(2021, 9, 1, 14, 0), 22.9, np.nan, 20.1],
    [datetime(2021, 9, 1, 14, 15), 23.0, 20.2, 20.0],
    [datetime(2021, 9, 1, 14, 30), 23.2, 20.3, 20.2],
    [datetime(2021, 9, 1, 14, 45), np.nan, 20.1, 19.9],
    [datetime(2021, 9, 1, 15, 0), 23.3, 20.3, 20.1],
    [datetime(2021, 9, 1, 15, 15), 23.4, 20.5, np.nan],
], columns=[
    "Дата и время",
    "Температура 1",
    "Температура 2",
    "Температура 3"
])
df.describe()

Unnamed: 0,Температура 1,Температура 2,Температура 3
count,9.0,9.0,9.0
mean,23.133333,20.166667,19.977778
std,0.158114,0.2,0.148137
min,22.9,19.8,19.7
25%,23.0,20.1,19.9
50%,23.1,20.2,20.0
75%,23.2,20.3,20.1
max,23.4,20.5,20.2


Самый простой способ избавиться от nan — выбросить те строки, в которых встречается хоть один nan. В данном случае это 4, 7 и 9 строки. Это хорошо работает в тех случаях, когда стоимость получения одной строчки невысока, а самих пропущенных значений не очень много.

In [None]:
df

Unnamed: 0,Дата и время,Температура 1,Температура 2,Температура 3
0,2021-09-01 13:00:00,23.1,20.0,19.9
1,2021-09-01 13:15:00,23.2,19.8,19.7
2,2021-09-01 13:30:00,23.1,20.1,19.9
3,2021-09-01 13:45:00,23.0,20.2,20.0
4,2021-09-01 14:00:00,22.9,,20.1
5,2021-09-01 14:15:00,23.0,20.2,20.0
6,2021-09-01 14:30:00,23.2,20.3,20.2
7,2021-09-01 14:45:00,,20.1,19.9
8,2021-09-01 15:00:00,23.3,20.3,20.1
9,2021-09-01 15:15:00,23.4,20.5,


In [None]:
df.dropna()

Unnamed: 0,Дата и время,Температура 1,Температура 2,Температура 3
0,2021-09-01 13:00:00,23.1,20.0,19.9
1,2021-09-01 13:15:00,23.2,19.8,19.7
2,2021-09-01 13:30:00,23.1,20.1,19.9
3,2021-09-01 13:45:00,23.0,20.2,20.0
5,2021-09-01 14:15:00,23.0,20.2,20.0
6,2021-09-01 14:30:00,23.2,20.3,20.2
8,2021-09-01 15:00:00,23.3,20.3,20.1


Однако бывают случаи, когда более, чем в половине строк есть хотя бы одно пропущенное значение. Или стоимость одного измерения очень высока, как, например, в биоинформатике и медицине. Тогда стоит воспользоваться более хитрыми методами, например, вписать предыдущее или следующее в столбце. В данном случае это особенно осмысленно, потому что каждая наша строка соответствует определенному моменту времени.

In [None]:
df.fillna(method="ffill")

Unnamed: 0,Дата и время,Температура 1,Температура 2,Температура 3
0,2021-09-01 13:00:00,23.1,20.0,19.9
1,2021-09-01 13:15:00,23.2,19.8,19.7
2,2021-09-01 13:30:00,23.1,20.1,19.9
3,2021-09-01 13:45:00,23.0,20.2,20.0
4,2021-09-01 14:00:00,22.9,20.2,20.1
5,2021-09-01 14:15:00,23.0,20.2,20.0
6,2021-09-01 14:30:00,23.2,20.3,20.2
7,2021-09-01 14:45:00,23.2,20.1,19.9
8,2021-09-01 15:00:00,23.3,20.3,20.1
9,2021-09-01 15:15:00,23.4,20.5,20.1


In [None]:
df.fillna(method="bfill")

Unnamed: 0,Дата и время,Температура 1,Температура 2,Температура 3
0,2021-09-01 13:00:00,23.1,20.0,19.9
1,2021-09-01 13:15:00,23.2,19.8,19.7
2,2021-09-01 13:30:00,23.1,20.1,19.9
3,2021-09-01 13:45:00,23.0,20.2,20.0
4,2021-09-01 14:00:00,22.9,20.2,20.1
5,2021-09-01 14:15:00,23.0,20.2,20.0
6,2021-09-01 14:30:00,23.2,20.3,20.2
7,2021-09-01 14:45:00,23.3,20.1,19.9
8,2021-09-01 15:00:00,23.3,20.3,20.1
9,2021-09-01 15:15:00,23.4,20.5,


Обратим внимание, что использование этого метода не гарантирует нам, что все NaN будут заменены.

В случае, если бы строки не имели порядка и были независимы друг от друга, лучше бы подошел способ заполнения средним или медианным значением:

In [None]:
df.fillna(value={
    "Температура 1": df["Температура 1"].mean(),
    "Температура 2": df["Температура 2"].mean(),
    "Температура 3": df["Температура 3"].mean()
})

Unnamed: 0,Дата и время,Температура 1,Температура 2,Температура 3
0,2021-09-01 13:00:00,23.1,20.0,19.9
1,2021-09-01 13:15:00,23.2,19.8,19.7
2,2021-09-01 13:30:00,23.1,20.1,19.9
3,2021-09-01 13:45:00,23.0,20.2,20.0
4,2021-09-01 14:00:00,22.9,20.166667,20.1
5,2021-09-01 14:15:00,23.0,20.2,20.0
6,2021-09-01 14:30:00,23.2,20.3,20.2
7,2021-09-01 14:45:00,23.133333,20.1,19.9
8,2021-09-01 15:00:00,23.3,20.3,20.1
9,2021-09-01 15:15:00,23.4,20.5,19.977778


In [None]:
df.fillna(value={
    "Температура 1": df["Температура 1"].median(),
    "Температура 2": df["Температура 2"].median(),
    "Температура 3": df["Температура 3"].median()
})

Unnamed: 0,Дата и время,Температура 1,Температура 2,Температура 3
0,2021-09-01 13:00:00,23.1,20.0,19.9
1,2021-09-01 13:15:00,23.2,19.8,19.7
2,2021-09-01 13:30:00,23.1,20.1,19.9
3,2021-09-01 13:45:00,23.0,20.2,20.0
4,2021-09-01 14:00:00,22.9,20.2,20.1
5,2021-09-01 14:15:00,23.0,20.2,20.0
6,2021-09-01 14:30:00,23.2,20.3,20.2
7,2021-09-01 14:45:00,23.1,20.1,19.9
8,2021-09-01 15:00:00,23.3,20.3,20.1
9,2021-09-01 15:15:00,23.4,20.5,20.0


Внимательный слушатель мог отметить, что Температура 2 отличается от 3 чаще всего на 2 в большую сторону. Таким образом, можно было бы предсказывать пропущенное значение. В некоторых случаях это существенно точнее обычного заполнения средним или предыдущим.

## Операции над сериями

Предположим, в файле, который нам нужно проанализировать даты записаны текстом. Это не очень удобно, потому что нельзя легко посчитать разницу времени между двумя точками, нельзя построить график, у которого по оси Х будет время.

Чтобы произвести какую-то операции со всеми значениями в одном столбце, можно воспользоваться функцией `.apply`

In [None]:
df = pd.DataFrame([
    ["Jul, 7, 2021", "Солнечно"],
    ["Jul, 8, 2021", "Пасмурно"],
    ["Jul, 15, 2021", "Дождь"],
    ["Jul, 23, 2021", "Солнечно"],
    ["Jul, 30, 2021", "Пасмурно"]
], columns=[
    "Дата",
    "Погода"
])
df

Unnamed: 0,Дата,Погода
0,"Jul, 7, 2021",Солнечно
1,"Jul, 8, 2021",Пасмурно
2,"Jul, 15, 2021",Дождь
3,"Jul, 23, 2021",Солнечно
4,"Jul, 30, 2021",Пасмурно


In [None]:
def convert_date(date_string):
  return datetime.strptime(date_string, "%b, %d, %Y")

df["Дата"].apply(convert_date)

0   2021-07-07
1   2021-07-08
2   2021-07-15
3   2021-07-23
4   2021-07-30
Name: Дата, dtype: datetime64[ns]

Если мы хотим внести изменения в нашу таблицу, вспоминаем про .loc и SettingWithCopyWarning.

In [None]:
df.loc[:, "Дата"] = df["Дата"].apply(convert_date)
df

Unnamed: 0,Дата,Погода
0,2021-07-07,Солнечно
1,2021-07-08,Пасмурно
2,2021-07-15,Дождь
3,2021-07-23,Солнечно
4,2021-07-30,Пасмурно


Теперь представим другую ситуацию: если время, день, месяц и год — это разные столбцы. Как тогда получить дату в удобном формате?

In [None]:
df = pd.DataFrame([
    ["13", "15", "1", "Jul", "2021", "Солнечно"],
    ["14", "00", "3", "Jul", "2021", "Пасмурно"],
    ["21", "15", "5", "Jul", "2021", "Дождь"],
    ["13", "50", "20", "Jul", "2021", "Солнечно"],
    ["11", "40", "21", "Jul", "2021", "Пасмурно"],
], columns=[
    "Часы",
    "Минуты",
    "День",
    "Месяц",
    "Год",
    "Погода"
])
df

Unnamed: 0,Часы,Минуты,День,Месяц,Год,Погода
0,13,15,1,Jul,2021,Солнечно
1,14,0,3,Jul,2021,Пасмурно
2,21,15,5,Jul,2021,Дождь
3,13,50,20,Jul,2021,Солнечно
4,11,40,21,Jul,2021,Пасмурно


Рассмотрим одну строку:

In [None]:
df.loc[0, :]

Часы            13
Минуты          15
День             1
Месяц          Jul
Год           2021
Погода    Солнечно
Name: 0, dtype: object

Это объект типа pd.Series. Все элементы здесь приведены к одному типу — object. Можно обратиться к конкретному столбцу, чтобы получить значение:

In [None]:
row_series = df.loc[0, :]
row_series["Часы"]

'13'

Напишем функцию, которая обрабатывает одну строку и выдает нам дату:

In [None]:
def row_to_datetime(row):
  return datetime(
      year=int(row["Год"]),
      month=datetime.strptime(row["Месяц"], "%b").month,
      day=int(row["День"]),
      hour=int(row["Часы"]),
      minute=int(row["Минуты"])
  )

row_to_datetime(row_series)

datetime.datetime(2021, 7, 1, 13, 15)

Далее применим ее к каждой строке:

In [None]:
result = []

for idx, row in df.iterrows():
  result.append(row_to_datetime(row))

pd.Series(result)

0   2021-07-01 13:15:00
1   2021-07-03 14:00:00
2   2021-07-05 21:15:00
3   2021-07-20 13:50:00
4   2021-07-21 11:40:00
dtype: datetime64[ns]

В подавляющем большинстве случаев циклы на самом деле не нужны. Часто использование средств библиотеки лучше выглядит и быстрее выполняется:

In [None]:
df.apply(row_to_datetime, axis=1)

0   2021-07-01 13:15:00
1   2021-07-03 14:00:00
2   2021-07-05 21:15:00
3   2021-07-20 13:50:00
4   2021-07-21 11:40:00
dtype: datetime64[ns]

# Дополнительные материалы

## Конвертируем в np.array

Представим, что мы занимаемся рекомендательной системой для хостинга фильмов. У нас есть оценки, которые ставили пользователи разными фильмам, а нам нужно научиться предлагать им новые, которые с высокой вероятностью им понравятся.

In [None]:
np.random.choice([0, 1, 2, 3, 4, 5], p=[0.7, 0.06, 0.06, 0.06, 0.06, 0.06], size=9)

array([1, 2, 0, 0, 0, 1, 4, 0, 0])

In [None]:
df = pd.DataFrame([
    [5, 4, 1, 0, 0, 5, 0, 0, 0],
    [0, 5, 3, 0, 0, 0, 0, 0, 0],
    [0, 5, 0, 0, 0, 1, 0, 2, 0],
    [0, 5, 0, 0, 0, 4, 0, 3, 0],
    [0, 0, 0, 0, 0, 0, 0, 5, 0],
    [3, 0, 0, 0, 0, 0, 0, 0, 2],
    [2, 5, 2, 0, 0, 0, 1, 0, 0],
    [5, 0, 4, 0, 0, 0, 0, 0, 0],
    [0, 4, 0, 0, 0, 4, 4, 0, 0]
], columns=[
    "Зеленая миля",
    "Побег из Шоушенка",
    "Властелин колец: Возвращение короля",
    "Властелин колец: Две крепости",
    "Властелин колец: Братство кольца",
    "Интерстеллар",
    "Форрест Гамп",
    "Король Лев",
    "Иван Васильевич меняет профессию"
])

Далее нам необходимо немного магии, связанной с линейной алгеброй и математическим анализом. Погружение в тонкости заняло бы ещё целый курс.  

Представим нашу таблицу в виде матрицы X. Линейная алгебра утверждает, что ее можно разложить в виде X = U*I, где количество столбцов у U равно количеству строк у I, при этом мы вольны выбрать это количество; количество строк U равно количеству строк Х; количество столбцов I равно количеству столбцов Х.

Теория оптимизаций подсказывает нам, каким образом найти эти самые матрицы U и I. После их нахождения оказывается, что произведение U на I не в точности равно Х, а на месте 0 в Х стоят __предсказанные__ значения. Те, которые равны 4 и 5 мы и покажем нашим пользователям.

Если бы мы пользовались только средствами pandas, нахождение этих матриц заняло бы несколько минут. При конвертации в np.array и использовании матричных операций — меньше секунды. Вспомним предыдущий модуль.

In [None]:
from functools import partial
from scipy.optimize import minimize

In [None]:
def loss(params):
    X = df.values

    users = X.shape[0]
    items = X.shape[1]
    latent = 4

    U = params[:users*latent].reshape((users,latent))
    I = params[users*latent:].reshape((latent, items))

    diff = X - np.matmul(U, I)
    masked_diff = diff[X > 0]
    loss = (masked_diff ** 2).sum()

    return loss

result = minimize(loss, np.random.randn(72))
U = result.x[:36].reshape((9,4))
I = result.x[36:].reshape((4, 9))

raw_reconstructed = np.round(np.matmul(U, I)).astype(int)
raw_reconstructed = np.clip(raw_reconstructed, 0, 5)
raw_reconstructed

array([[5, 4, 1, 1, 0, 5, 0, 0, 3],
       [4, 5, 3, 3, 0, 5, 0, 3, 0],
       [0, 5, 0, 0, 4, 1, 5, 2, 0],
       [1, 5, 1, 1, 0, 4, 2, 3, 0],
       [1, 2, 2, 1, 0, 4, 0, 5, 0],
       [3, 4, 0, 0, 0, 1, 0, 0, 2],
       [2, 5, 2, 2, 0, 5, 1, 4, 0],
       [5, 2, 4, 4, 0, 5, 0, 4, 0],
       [0, 4, 2, 1, 0, 4, 4, 5, 0]])

## Расширенное использование pandas

По аналогии с реляционными базами данных pandas имеет инструменты для агрегирования таблиц.

Допустим, у нас есть таблица с прецедентными данными. Например, это могут быть записанные факты продаж товаров. Каждая строка содержит место, время, сумму и прочие обстоятельства покупки.

Если мы хотим узнать, какой магазин имеет наибольшую выручку или показывает рост этой выручки, или какие месяцы более успешные, во всех этих случаях нам помогут методы агрегирования таблиц, такие как groupby, pivot_table.

### Group by

In [None]:
from datetime import date, time, datetime, timedelta

Для начала сгенерируем данные с некоторыми зависимостями, а далее проанализируем и постараемся их найти.

Сгенерируем время покупки:

In [None]:
timedeltas = np.random.randint(1, 25, size=100000)
timedeltas = np.cumsum(timedeltas).astype(float)
timedeltas = [timedelta(minutes=t) for t in timedeltas]

datetimes = [
    datetime(2021, 9, 1, 13) + d
    for d in timedeltas
]
dates = [d.date() for d in datetimes]
times = [d.time() for d in datetimes]

Сгенерируем районы, в которых были покупки. Сделаем так, чтобы районы встречались с разной частотой:

In [None]:
districts = [
    "Адмиралтейский",
    "Василеостровский",
    "Выборгский",
    "Калининский",
    "Кировский",
    "Колпинский",
    "Красногвардейский",
    "Красносельский",
    "Кронштадтский",
    "Курортный",
    "Московский",
    "Невский",
    "Петроградский",
    "Петродворцовый",
    "Приморский",
    "Пушкинский",
    "Фрунзенский",
    "Центральный"
]

def softmax(x):
  return np.exp(x) / np.exp(x).sum()

district_p = softmax(np.random.randn(len(districts)))

print(
    "\n".join([d + ": " + str(p) for d, p in zip(districts, district_p)])
)

Адмиралтейский: 0.01672121449394242
Василеостровский: 0.02208117487330952
Выборгский: 0.02658755984957128
Калининский: 0.022841781962107576
Кировский: 0.007579810251205856
Колпинский: 0.23442857094840483
Красногвардейский: 0.1210116264475971
Красносельский: 0.035966453163554436
Кронштадтский: 0.026752808519814132
Курортный: 0.10024148730434694
Московский: 0.01880177771406441
Невский: 0.05715615783851921
Петроградский: 0.08548084883444125
Петродворцовый: 0.026436541533677978
Приморский: 0.021841239898741344
Пушкинский: 0.02803004665983499
Фрунзенский: 0.054011594847736474
Центральный: 0.09402930485913023


In [None]:
districts_to_df = np.random.choice(districts, p=district_p, size=100000)

Категории, также сделаем, чтобы вероятности были разные:

In [None]:
categories = [
    "Продовольствие",
    "Электроника",
    "Одежда",
    "Мебель",
    "Автотовары",
    "Бытовая химия"
]

category_p = softmax(np.random.randn(len(categories)))

print(
    "\n".join([d + ": " + str(p) for d, p in zip(categories, category_p)])
)

Продовольствие: 0.020555290320259937
Электроника: 0.1745757798054431
Одежда: 0.047006876566452464
Мебель: 0.03108287378058518
Автотовары: 0.026355167939322122
Бытовая химия: 0.7004240115879372


In [None]:
categories_to_df = np.random.choice(categories, p=category_p, size=100000)

In [None]:
amounts = np.random.randint(1, 100000, size=100000)

In [None]:
df = pd.DataFrame({
    "Дата": dates,
    "Время": times,
    "Район": districts_to_df,
    "Категория": categories_to_df,
    "Сумма": amounts

})
df

Unnamed: 0,Дата,Время,Район,Категория,Сумма
0,2021-09-01,13:08:00,Фрунзенский,Бытовая химия,79310
1,2021-09-01,13:12:00,Красногвардейский,Бытовая химия,73862
2,2021-09-01,13:27:00,Петродворцовый,Бытовая химия,35893
3,2021-09-01,13:50:00,Колпинский,Бытовая химия,45184
4,2021-09-01,14:09:00,Василеостровский,Бытовая химия,48962
...,...,...,...,...,...
99995,2024-01-17,20:24:00,Адмиралтейский,Бытовая химия,16977
99996,2024-01-17,20:31:00,Красногвардейский,Бытовая химия,53985
99997,2024-01-17,20:47:00,Курортный,Электроника,34817
99998,2024-01-17,20:51:00,Приморский,Бытовая химия,31244


Теперь у нас есть база данных, очень похожая на настоящую, давайте попробуем найти в ней те зависимости, которые ожидаем: сравнительно много продаж в Колпинском районе, а также довольно много продаж бытовой химии в сравнении с другими категориями.

Сделаем `split`: разделим нашу таблицу на несколько в соответствии с районами.

In [None]:
groupby = df.groupby("Район")
groupby

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f6e01251890>

`apply` и `combine` в данном случае идут вместе. Применим среднее:

In [None]:
groupby.mean()

Unnamed: 0_level_0,Сумма
Район,Unnamed: 1_level_1
Адмиралтейский,50352.039592
Василеостровский,50393.649446
Выборгский,50247.202417
Калининский,49797.006211
Кировский,49402.688172
Колпинский,49919.754185
Красногвардейский,49895.04096
Красносельский,49767.443085
Кронштадтский,49763.860997
Курортный,50134.751409


Видим, что средняя сумма везде примерно одинакова: около 50.000. Этого и следовало ожидать, так как распределение было одинаково независимо от района.

Посмотрим теперь не на среднюю сумму, а на сумму по всем сделкам:

In [None]:
df.groupby("Район").sum()

Unnamed: 0_level_0,Сумма
Район,Unnamed: 1_level_1
Адмиралтейский,83936850
Василеостровский,109253432
Выборгский,133054592
Калининский,112242452
Кировский,36755600
Колпинский,1166075538
Красногвардейский,611513622
Красносельский,174882795
Кронштадтский,132819745
Курортный,507012741


Видим, что суммы отличаются. Упорядочим:

In [None]:
sum_amounts_df = df.groupby("Район").sum()
sum_amounts_df.sort_values("Сумма", ascending=False)

Unnamed: 0_level_0,Сумма
Район,Unnamed: 1_level_1
Колпинский,1166075538
Красногвардейский,611513622
Курортный,507012741
Центральный,464477075
Петроградский,425000387
Невский,292709554
Фрунзенский,274725704
Красносельский,174882795
Пушкинский,139909761
Выборгский,133054592


Колпинский и Красногвардейский в топе, вспомним наши вероятности:

In [None]:
for d, d_p in zip(districts, district_p):
  sum_amounts_df.loc[d, "Вероятность"] = d_p

sum_amounts_df.sort_values("Сумма", ascending=False)

Unnamed: 0_level_0,Сумма,Вероятность
Район,Unnamed: 1_level_1,Unnamed: 2_level_1
Колпинский,1166075538,0.234429
Красногвардейский,611513622,0.121012
Курортный,507012741,0.100241
Центральный,464477075,0.094029
Петроградский,425000387,0.085481
Невский,292709554,0.057156
Фрунзенский,274725704,0.054012
Красносельский,174882795,0.035966
Пушкинский,139909761,0.02803
Выборгский,133054592,0.026588


Все вполне соответствует нашим ожиданиям.

Ясно, что apply не обязан быть простой функцией типа mean или sum. Можно использовать любую функцию, которая принимает DataFrame и возвращает Series:

In [None]:
def fancy_agg(df):
  result_dict = {
      "Минимальная сумма": df["Сумма"].min(),
      "Максимальная сумма": df["Сумма"].max(),
      "Последняя сделка": df["Дата"].max()
  }
  return pd.Series(result_dict)

groupby.apply(fancy_agg)

Unnamed: 0_level_0,Минимальная сумма,Максимальная сумма,Последняя сделка
Район,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Адмиралтейский,21,99844,2024-01-17
Василеостровский,27,99902,2024-01-17
Выборгский,103,99998,2024-01-17
Калининский,106,99955,2024-01-17
Кировский,120,99596,2024-01-17
Колпинский,7,99990,2024-01-17
Красногвардейский,2,99994,2024-01-17
Красносельский,7,99988,2024-01-17
Кронштадтский,7,99945,2024-01-17
Курортный,7,99998,2024-01-17


### Pivot table

Следующим шагом может быть работа со сводными таблицами (pivot table). Сводные таблицы — инструмент для обобщения прецедентных данных, позволяющий агрегировать значения сразу по нескольким признакам. Проще показать на примере:

In [None]:
df

Unnamed: 0,Дата,Время,Район,Категория,Сумма
0,2021-09-01,13:08:00,Фрунзенский,Бытовая химия,79310
1,2021-09-01,13:12:00,Красногвардейский,Бытовая химия,73862
2,2021-09-01,13:27:00,Петродворцовый,Бытовая химия,35893
3,2021-09-01,13:50:00,Колпинский,Бытовая химия,45184
4,2021-09-01,14:09:00,Василеостровский,Бытовая химия,48962
...,...,...,...,...,...
99995,2024-01-17,20:24:00,Адмиралтейский,Бытовая химия,16977
99996,2024-01-17,20:31:00,Красногвардейский,Бытовая химия,53985
99997,2024-01-17,20:47:00,Курортный,Электроника,34817
99998,2024-01-17,20:51:00,Приморский,Бытовая химия,31244


In [None]:
table = pd.pivot_table(
    df, 
    values="Сумма", 
    index=["Дата"], 
    columns=["Район", "Категория"], 
    aggfunc=np.sum,
    fill_value=0
)
table

Район,Адмиралтейский,Адмиралтейский,Адмиралтейский,Адмиралтейский,Адмиралтейский,Адмиралтейский,Василеостровский,Василеостровский,Василеостровский,Василеостровский,Василеостровский,Василеостровский,Выборгский,Выборгский,Выборгский,Выборгский,Выборгский,Выборгский,Калининский,Калининский,Калининский,Калининский,Калининский,Калининский,Кировский,Кировский,Кировский,Кировский,Кировский,Кировский,Колпинский,Колпинский,Колпинский,Колпинский,Колпинский,Колпинский,Красногвардейский,Красногвардейский,Красногвардейский,Красногвардейский,...,Невский,Невский,Невский,Невский,Петроградский,Петроградский,Петроградский,Петроградский,Петроградский,Петроградский,Петродворцовый,Петродворцовый,Петродворцовый,Петродворцовый,Петродворцовый,Петродворцовый,Приморский,Приморский,Приморский,Приморский,Приморский,Приморский,Пушкинский,Пушкинский,Пушкинский,Пушкинский,Пушкинский,Пушкинский,Фрунзенский,Фрунзенский,Фрунзенский,Фрунзенский,Фрунзенский,Фрунзенский,Центральный,Центральный,Центральный,Центральный,Центральный,Центральный
Категория,Автотовары,Бытовая химия,Мебель,Одежда,Продовольствие,Электроника,Автотовары,Бытовая химия,Мебель,Одежда,Продовольствие,Электроника,Автотовары,Бытовая химия,Мебель,Одежда,Продовольствие,Электроника,Автотовары,Бытовая химия,Мебель,Одежда,Продовольствие,Электроника,Автотовары,Бытовая химия,Мебель,Одежда,Продовольствие,Электроника,Автотовары,Бытовая химия,Мебель,Одежда,Продовольствие,Электроника,Автотовары,Бытовая химия,Мебель,Одежда,...,Мебель,Одежда,Продовольствие,Электроника,Автотовары,Бытовая химия,Мебель,Одежда,Продовольствие,Электроника,Автотовары,Бытовая химия,Мебель,Одежда,Продовольствие,Электроника,Автотовары,Бытовая химия,Мебель,Одежда,Продовольствие,Электроника,Автотовары,Бытовая химия,Мебель,Одежда,Продовольствие,Электроника,Автотовары,Бытовая химия,Мебель,Одежда,Продовольствие,Электроника,Автотовары,Бытовая химия,Мебель,Одежда,Продовольствие,Электроника
Дата,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2,Unnamed: 22_level_2,Unnamed: 23_level_2,Unnamed: 24_level_2,Unnamed: 25_level_2,Unnamed: 26_level_2,Unnamed: 27_level_2,Unnamed: 28_level_2,Unnamed: 29_level_2,Unnamed: 30_level_2,Unnamed: 31_level_2,Unnamed: 32_level_2,Unnamed: 33_level_2,Unnamed: 34_level_2,Unnamed: 35_level_2,Unnamed: 36_level_2,Unnamed: 37_level_2,Unnamed: 38_level_2,Unnamed: 39_level_2,Unnamed: 40_level_2,Unnamed: 41_level_2,Unnamed: 42_level_2,Unnamed: 43_level_2,Unnamed: 44_level_2,Unnamed: 45_level_2,Unnamed: 46_level_2,Unnamed: 47_level_2,Unnamed: 48_level_2,Unnamed: 49_level_2,Unnamed: 50_level_2,Unnamed: 51_level_2,Unnamed: 52_level_2,Unnamed: 53_level_2,Unnamed: 54_level_2,Unnamed: 55_level_2,Unnamed: 56_level_2,Unnamed: 57_level_2,Unnamed: 58_level_2,Unnamed: 59_level_2,Unnamed: 60_level_2,Unnamed: 61_level_2,Unnamed: 62_level_2,Unnamed: 63_level_2,Unnamed: 64_level_2,Unnamed: 65_level_2,Unnamed: 66_level_2,Unnamed: 67_level_2,Unnamed: 68_level_2,Unnamed: 69_level_2,Unnamed: 70_level_2,Unnamed: 71_level_2,Unnamed: 72_level_2,Unnamed: 73_level_2,Unnamed: 74_level_2,Unnamed: 75_level_2,Unnamed: 76_level_2,Unnamed: 77_level_2,Unnamed: 78_level_2,Unnamed: 79_level_2,Unnamed: 80_level_2,Unnamed: 81_level_2
2021-09-01,0,0,0,0,0,0,0,48962,0,0,0,87601,0,0,0,0,0,95298,0,0,0,0,0,19263,0,0,0,0,0,0,91403,657309,0,0,0,73742,0,243287,0,0,...,0,0,0,0,0,90050,0,0,0,80095,0,132014,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,65941,0,178255,0,0,0,0,0,86033,84658,0,0,3212
2021-09-02,0,0,0,0,0,0,0,16841,0,0,0,0,0,68829,56256,0,0,0,0,142135,0,0,0,0,0,0,0,0,0,0,0,709616,0,69879,0,177281,0,368872,48471,44308,...,0,0,0,172927,0,671237,0,82537,70449,0,0,197620,0,0,0,62630,0,335363,0,23513,0,0,0,290636,0,0,0,96113,0,339013,0,0,0,94621,0,347336,86214,0,0,118572
2021-09-03,0,16368,0,88502,0,0,0,137176,0,0,0,0,0,72479,90207,0,15869,0,0,0,0,0,0,23375,0,4798,0,0,0,0,37245,592785,0,0,56730,311855,0,575243,0,24516,...,0,78300,0,20446,0,304723,0,0,0,116013,44701,0,0,0,0,0,0,0,0,25040,0,0,0,47641,0,0,0,0,82756,202122,0,0,0,97259,0,442684,0,63672,41262,17047
2021-09-04,0,66824,0,0,0,0,35805,154368,0,0,0,0,0,154355,0,0,0,96401,0,0,55554,0,74859,0,0,0,0,0,0,0,0,1426400,0,95734,86099,222253,0,458959,0,0,...,63041,0,0,106185,0,562624,0,16742,0,0,0,24219,0,0,0,0,0,52816,0,0,0,0,0,88533,0,59143,0,94481,0,287243,121203,0,0,0,50354,410366,22464,0,33280,128999
2021-09-05,0,0,0,0,0,88606,0,126256,0,0,0,0,0,4113,0,0,0,90946,0,24665,0,0,0,0,0,0,0,0,0,0,52371,932009,71095,49732,79124,331449,0,595675,0,0,...,0,34873,0,79166,0,159705,0,0,0,89773,0,0,48610,0,0,0,0,311756,0,0,43071,0,0,84781,93611,0,0,0,0,312178,0,0,0,46967,0,432463,0,0,0,87371
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2024-01-13,0,0,0,82823,0,0,0,208346,0,0,0,0,0,199460,0,45095,0,41650,0,67447,0,0,0,0,0,68065,0,0,0,0,6976,915483,0,98535,0,157284,0,605887,0,0,...,0,0,0,0,0,463555,0,0,0,267773,0,155662,0,0,0,0,0,55765,0,0,0,51440,99673,26038,0,0,0,67603,0,226570,12762,0,0,82890,0,380022,0,26013,0,0
2024-01-14,0,0,0,81953,0,0,0,35171,0,0,68441,0,0,305667,0,0,0,0,0,109441,0,0,0,0,0,10897,0,0,0,0,0,700157,0,26316,48078,215640,0,106102,0,56450,...,0,0,0,204633,38969,365613,0,36706,0,302972,0,100505,0,20731,0,0,22925,72942,0,0,0,24062,0,200200,0,0,0,33578,0,360054,19373,0,0,62410,0,331852,57754,74758,0,214747
2024-01-15,0,92730,0,0,0,0,0,144297,53401,0,0,0,0,194562,0,0,0,20507,0,92461,0,0,0,0,0,106103,0,96889,0,0,0,577359,56023,55188,0,199549,0,431896,0,0,...,0,0,0,79213,0,258287,62724,0,0,0,58779,0,96768,0,0,5786,51692,0,0,90329,0,56477,0,183978,53831,0,0,1272,0,335902,0,0,0,128709,0,494507,0,0,91380,70476
2024-01-16,0,80996,0,0,0,0,0,0,0,80540,0,25402,0,220408,4474,45434,0,0,0,191439,0,0,0,0,0,0,0,0,0,0,44146,1218970,97696,236010,84072,284632,0,387323,0,0,...,0,0,0,89599,0,421142,0,0,0,74052,0,94447,0,0,0,0,0,55538,0,0,0,0,0,167685,0,0,0,13539,0,394631,0,20096,0,0,0,284433,0,0,0,119366


Видим, что в данном случае очень много 0. Например, 1 сентября 2021 года в Адмиралтейском районе не было продано Автотоваров. По такой таблице сложно делать выводы, попробуем не дробить ее так сильно и смотреть только в масштабах месяца:

In [None]:
def drop_day(d_time):
  return datetime(d_time.year, d_time.month, 1)

df.loc[:, "Месяц"] = df["Дата"].apply(drop_day)

table = pd.pivot_table(
    df, 
    values="Сумма", 
    index=["Месяц"], 
    columns=["Район", "Категория"], 
    aggfunc=np.sum,
    fill_value=0
)
table

Район,Адмиралтейский,Адмиралтейский,Адмиралтейский,Адмиралтейский,Адмиралтейский,Адмиралтейский,Василеостровский,Василеостровский,Василеостровский,Василеостровский,Василеостровский,Василеостровский,Выборгский,Выборгский,Выборгский,Выборгский,Выборгский,Выборгский,Калининский,Калининский,Калининский,Калининский,Калининский,Калининский,Кировский,Кировский,Кировский,Кировский,Кировский,Кировский,Колпинский,Колпинский,Колпинский,Колпинский,Колпинский,Колпинский,Красногвардейский,Красногвардейский,Красногвардейский,Красногвардейский,...,Невский,Невский,Невский,Невский,Петроградский,Петроградский,Петроградский,Петроградский,Петроградский,Петроградский,Петродворцовый,Петродворцовый,Петродворцовый,Петродворцовый,Петродворцовый,Петродворцовый,Приморский,Приморский,Приморский,Приморский,Приморский,Приморский,Пушкинский,Пушкинский,Пушкинский,Пушкинский,Пушкинский,Пушкинский,Фрунзенский,Фрунзенский,Фрунзенский,Фрунзенский,Фрунзенский,Фрунзенский,Центральный,Центральный,Центральный,Центральный,Центральный,Центральный
Категория,Автотовары,Бытовая химия,Мебель,Одежда,Продовольствие,Электроника,Автотовары,Бытовая химия,Мебель,Одежда,Продовольствие,Электроника,Автотовары,Бытовая химия,Мебель,Одежда,Продовольствие,Электроника,Автотовары,Бытовая химия,Мебель,Одежда,Продовольствие,Электроника,Автотовары,Бытовая химия,Мебель,Одежда,Продовольствие,Электроника,Автотовары,Бытовая химия,Мебель,Одежда,Продовольствие,Электроника,Автотовары,Бытовая химия,Мебель,Одежда,...,Мебель,Одежда,Продовольствие,Электроника,Автотовары,Бытовая химия,Мебель,Одежда,Продовольствие,Электроника,Автотовары,Бытовая химия,Мебель,Одежда,Продовольствие,Электроника,Автотовары,Бытовая химия,Мебель,Одежда,Продовольствие,Электроника,Автотовары,Бытовая химия,Мебель,Одежда,Продовольствие,Электроника,Автотовары,Бытовая химия,Мебель,Одежда,Продовольствие,Электроника,Автотовары,Бытовая химия,Мебель,Одежда,Продовольствие,Электроника
Месяц,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2,Unnamed: 22_level_2,Unnamed: 23_level_2,Unnamed: 24_level_2,Unnamed: 25_level_2,Unnamed: 26_level_2,Unnamed: 27_level_2,Unnamed: 28_level_2,Unnamed: 29_level_2,Unnamed: 30_level_2,Unnamed: 31_level_2,Unnamed: 32_level_2,Unnamed: 33_level_2,Unnamed: 34_level_2,Unnamed: 35_level_2,Unnamed: 36_level_2,Unnamed: 37_level_2,Unnamed: 38_level_2,Unnamed: 39_level_2,Unnamed: 40_level_2,Unnamed: 41_level_2,Unnamed: 42_level_2,Unnamed: 43_level_2,Unnamed: 44_level_2,Unnamed: 45_level_2,Unnamed: 46_level_2,Unnamed: 47_level_2,Unnamed: 48_level_2,Unnamed: 49_level_2,Unnamed: 50_level_2,Unnamed: 51_level_2,Unnamed: 52_level_2,Unnamed: 53_level_2,Unnamed: 54_level_2,Unnamed: 55_level_2,Unnamed: 56_level_2,Unnamed: 57_level_2,Unnamed: 58_level_2,Unnamed: 59_level_2,Unnamed: 60_level_2,Unnamed: 61_level_2,Unnamed: 62_level_2,Unnamed: 63_level_2,Unnamed: 64_level_2,Unnamed: 65_level_2,Unnamed: 66_level_2,Unnamed: 67_level_2,Unnamed: 68_level_2,Unnamed: 69_level_2,Unnamed: 70_level_2,Unnamed: 71_level_2,Unnamed: 72_level_2,Unnamed: 73_level_2,Unnamed: 74_level_2,Unnamed: 75_level_2,Unnamed: 76_level_2,Unnamed: 77_level_2,Unnamed: 78_level_2,Unnamed: 79_level_2,Unnamed: 80_level_2,Unnamed: 81_level_2
2021-09-01,140808,2767873,0,120542,50506,486703,320759,2757266,71239,288292,0,429962,0,2668043,208334,227625,109843,804419,162249,2482160,141544,76702,128398,440952,0,875367,0,0,0,107683,1055780,29794363,1028320,1959992,709053,5785601,310803,15903105,903252,1213399,...,191574,393397,82419,1490693,262446,11423444,568715,1126890,136086,2480645,128638,3548766,88649,295294,178423,862238,45371,2648233,60512,231934,128134,438794,99617,3072134,221990,201158,189642,1331213,366735,6815461,161729,461926,113367,984473,319465,11551332,569557,756888,343458,2408504
2021-10-01,67648,2025925,142044,0,0,527539,209260,2877773,90354,473453,0,888049,68993,3253946,166240,324494,97654,729765,30365,2676490,103548,174539,30067,594283,0,959923,134252,200402,0,537196,1194872,26627325,1366471,2034144,1028547,6746794,876850,14834703,1130890,933011,...,201994,716482,87322,1524064,209694,10392350,938174,800124,346491,2297297,0,3070747,287450,84796,151702,687871,188368,3388650,54432,258057,92542,942901,104273,3442883,125982,498189,192070,653030,405027,6631277,336937,281731,134870,1567848,388261,13010049,415542,1014150,319940,2510727
2021-11-01,56070,2204471,83191,144904,0,519154,162394,2102544,238321,236909,4469,244271,230492,4006511,184234,116435,116989,885758,47706,2468218,48199,326912,72311,773912,0,1358534,0,0,0,35487,1727521,29327433,1018142,2563708,843567,5191875,457212,16692504,759206,755070,...,74657,255445,63073,1765348,352335,9910617,580091,446244,565345,2484134,259958,2668912,162788,278972,15485,577867,124121,2542348,251865,97476,308799,434789,72778,3334926,54807,104622,103123,624989,175970,5802687,529527,360135,292778,2116431,434268,11377683,459235,889004,273767,2784348
2021-12-01,68529,2608605,95339,316119,97564,370289,98119,2953117,0,251941,0,373240,164207,3356401,102976,125557,137377,1244486,47636,3516222,322321,278598,38879,507245,58270,569346,0,90121,80851,260701,932954,29631045,1146678,2445028,1144488,8185891,578612,14115772,969552,761055,...,346633,436815,281971,1457395,322259,10892704,811879,621417,273464,2363183,122170,3505326,161340,176672,0,585044,295392,2237057,28580,51151,0,1320569,160156,3569855,159678,309524,181189,1046738,93846,6744343,344832,457851,294734,1416850,559032,11239818,515244,636101,581106,2924723
2022-01-01,249413,1865945,116808,128432,85597,722474,188732,4129565,114658,122297,118659,741672,63343,3728877,67435,439098,68895,942291,101386,2782743,136377,226243,123868,829472,84503,892200,55189,76872,24426,1654,881891,30621791,1265388,2279834,1089592,6280167,684580,14631114,339700,682419,...,207729,505590,115742,1760453,121531,9512795,799561,672547,563374,2626227,299818,3407497,34139,347343,161107,609051,116342,2839373,63013,372774,301917,508517,27587,3172536,35658,299860,83644,710207,440913,7109004,129780,386208,279650,1686785,169626,9934276,542950,478968,116374,2930200
2022-02-01,0,1916716,51580,65233,0,347405,0,2157306,0,376990,0,499965,33132,3563683,0,194115,186010,517107,96385,2239322,70925,176808,172684,756457,0,647555,94761,0,37212,291194,1108249,26445344,1002011,2495869,1164459,5996737,592793,13935296,366716,772142,...,251835,422049,339883,1081448,334905,10499428,391685,361869,157713,2447211,58530,2201465,107777,164994,77118,859550,128981,2154631,173984,190361,0,681114,0,3173170,32624,338297,87375,646179,1467,7993806,254791,234136,377026,1444275,330857,10683839,428151,401307,524726,2032895
2022-03-01,116884,2382117,157900,11367,0,628496,393448,2553507,154235,105167,98006,778067,108149,2625872,82412,550513,131611,472867,58066,3032479,167655,9838,0,556276,45310,1574678,0,0,0,291887,1391173,29455666,1202808,1888048,1111984,7603589,829578,14904393,703142,670237,...,48334,347116,152101,1722931,408670,11049213,374280,733703,312926,1515011,108736,2742612,194013,278525,74251,862741,0,3160230,48273,89008,196533,671841,93382,3672957,88604,296598,128694,876902,256261,7156563,242378,376753,214038,2302851,344394,10646433,881010,538177,344903,2912789
2022-04-01,46844,2264045,10915,113204,93044,617470,116210,2455374,0,147928,14058,764791,0,3494638,86639,143393,58583,728755,0,2722161,13018,91339,61338,727721,39581,806321,0,81838,0,288470,1025718,28487120,1225298,1722902,789024,7741481,544936,15835756,459617,1036039,...,612088,628731,140262,1717944,442466,11530192,273620,602050,298550,2675231,105211,2849285,47876,309595,72697,526556,239158,2235851,198532,190756,3071,981033,280873,2995866,217551,311417,0,538553,333252,6692111,251535,268365,154659,1816980,271634,11018658,526762,928043,315194,2255821
2022-05-01,77017,2020155,112468,92728,10986,468509,0,2318483,256545,264194,74046,898182,20716,3867816,384453,315426,94778,688922,95447,3311552,211344,106282,89574,740589,131166,854538,0,0,51052,0,1049691,29839129,918080,1590505,1252263,7094854,581477,15809032,478686,949655,...,342233,469859,169309,2293024,147861,10116648,530459,1052258,79848,3119554,74885,3236213,150778,460341,88330,1101121,91349,2020529,0,220074,123347,843352,147814,3864439,51420,181609,72721,823225,305773,6603642,439585,666437,10249,2156632,82039,11681929,713232,972075,345961,2799711
2022-06-01,0,2572735,10790,99956,42564,392614,55898,2596445,87525,286893,0,579503,71117,2937345,232960,333848,145877,794021,22465,2584807,389246,203059,0,753809,42261,966439,0,200154,0,40394,1028277,28462708,1092628,1898190,1059941,7016698,288383,14147130,803283,938748,...,188273,500996,234964,2253395,467614,10563228,379367,289096,234072,2421107,221772,3468573,2715,369213,129285,774788,9794,2216690,164574,77585,105812,354065,67779,3821248,163687,43776,65151,825624,132987,7076512,574093,303645,62594,1275376,202898,11167687,544784,610848,480010,3083218


В таком виде таблице имеет чуть больше смысла.

Теперь попробуем ответить на вопросы:
*   какая категория товаров лучше продается
*   есть ли зависимость продаж разных категорий от месяца



In [None]:
table = pd.pivot_table(
    df, 
    values="Сумма", 
    index=["Месяц"], 
    columns=["Категория"], 
    aggfunc=np.sum,
    fill_value=0
)
table

Категория,Автотовары,Бытовая химия,Мебель,Одежда,Продовольствие,Электроника
Месяц,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2021-09-01,4155277,123890957,5867589,8529545,3011840,27295366
2021-10-01,4994938,123993493,6490472,9140788,3672818,29942311
2021-11-01,5025992,124717439,5931827,7891553,3569595,26240449
2021-12-01,4571974,125434034,6228466,8392430,4246166,32752595
2022-01-01,4157812,125007964,4703147,9284871,4347742,30753711
2022-02-01,4111206,115895798,4412484,8090509,3680759,25381429
2022-03-01,5008261,122328656,5328683,7372956,3717785,31081254
2022-04-01,4660372,123052885,4343203,7927589,3129548,31440268
2022-05-01,3831719,125967276,5434109,8636661,3815191,32257631
2022-06-01,3888396,121686695,5943497,7243064,3845041,30108471


Можно видеть, что Бытовая химия продавалась сильно лучше, но при этом расклад не зависел от месяца. Что согласуется с тем, как мы генерировали данные.

## inplace

В этом модуле следующие функции имеют параметр inplace:

*   set_index
*   dropna
*   fillna
*   apply

На самом деле их много больше, но следует запомнить как правило: значение True понадобится вам очень редко.  
Дело в том, что если в функцию передается таблица, функция таким образом может ее изменить и обнаружится это сильно позже. Особенно это плохо в Jupyter notebook, когда отслеживание подобных вещей ещё сложнее. 




## Чтение и запись таблиц

### CSV

Самый простой способ записать/прочитать таблицу — это CSV. С чтением мы познакомились в начале урока, попробуем записать:

In [None]:
mpg_df.to_csv("new_mpg_df.csv")

In [None]:
!cat new_mpg_df.csv | head -n 10

,mpg,cylinders,displacement,horsepower,weight,acceleration,model year,origin,car name
0,18.0,8,307.0,130.0,3504.0,12.0,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693.0,11.5,70,1,buick skylark 320
2,18.0,8,318.0,150.0,3436.0,11.0,70,1,plymouth satellite
3,16.0,8,304.0,150.0,3433.0,12.0,70,1,amc rebel sst
4,17.0,8,302.0,140.0,3449.0,10.5,70,1,ford torino
5,10.0,0,429.0,198.0,4341.0,10.0,70,1,ford galaxie 500
6,10.0,0,454.0,220.0,4354.0,9.0,70,1,chevrolet impala
7,10.0,0,440.0,215.0,4312.0,8.5,70,1,plymouth fury iii
8,10.0,0,455.0,225.0,4425.0,10.0,70,1,pontiac catalina


In [None]:
mpg_df.to_csv("new_mpg_df.csv", index=False)

In [None]:
!cat new_mpg_df.csv | head -n 10

mpg,cylinders,displacement,horsepower,weight,acceleration,model year,origin,car name
18.0,8,307.0,130.0,3504.0,12.0,70,1,chevrolet chevelle malibu
15.0,8,350.0,165.0,3693.0,11.5,70,1,buick skylark 320
18.0,8,318.0,150.0,3436.0,11.0,70,1,plymouth satellite
16.0,8,304.0,150.0,3433.0,12.0,70,1,amc rebel sst
17.0,8,302.0,140.0,3449.0,10.5,70,1,ford torino
10.0,0,429.0,198.0,4341.0,10.0,70,1,ford galaxie 500
10.0,0,454.0,220.0,4354.0,9.0,70,1,chevrolet impala
10.0,0,440.0,215.0,4312.0,8.5,70,1,plymouth fury iii
10.0,0,455.0,225.0,4425.0,10.0,70,1,pontiac catalina


In [None]:
mpg_df.loc[0, "car name"] = "name,with,comma"
mpg_df.to_csv("new_mpg_df.csv", index=False)

In [None]:
!cat new_mpg_df.csv | head -n 10

mpg,cylinders,displacement,horsepower,weight,acceleration,model year,origin,car name
18.0,8,307.0,130.0,3504.0,12.0,70,1,"name,with,comma"
15.0,8,350.0,165.0,3693.0,11.5,70,1,buick skylark 320
18.0,8,318.0,150.0,3436.0,11.0,70,1,plymouth satellite
16.0,8,304.0,150.0,3433.0,12.0,70,1,amc rebel sst
17.0,8,302.0,140.0,3449.0,10.5,70,1,ford torino
10.0,0,429.0,198.0,4341.0,10.0,70,1,ford galaxie 500
10.0,0,454.0,220.0,4354.0,9.0,70,1,chevrolet impala
10.0,0,440.0,215.0,4312.0,8.5,70,1,plymouth fury iii
10.0,0,455.0,225.0,4425.0,10.0,70,1,pontiac catalina


In [None]:
mpg_df = pd.read_csv("new_mpg_df.csv")
mpg_df

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model year,origin,car name
0,18.0,8,307.0,130.0,3504.0,12.0,70,1,"name,with,comma"
1,15.0,8,350.0,165.0,3693.0,11.5,70,1,buick skylark 320
2,18.0,8,318.0,150.0,3436.0,11.0,70,1,plymouth satellite
3,16.0,8,304.0,150.0,3433.0,12.0,70,1,amc rebel sst
4,17.0,8,302.0,140.0,3449.0,10.5,70,1,ford torino
...,...,...,...,...,...,...,...,...,...
393,27.0,4,140.0,86.00,2790.0,15.6,82,1,ford mustang gl
394,44.0,4,97.0,52.00,2130.0,24.6,82,2,vw pickup
395,32.0,4,135.0,84.00,2295.0,11.6,82,1,dodge rampage
396,28.0,4,120.0,79.00,2625.0,18.6,82,1,ford ranger


In [None]:
mpg_pivot_table = pd.pivot_table(
    mpg_df,
    values="acceleration",
    index="origin",
    columns=["cylinders", "model year"]
)
mpg_pivot_table

cylinders,0,3,3,3,3,4,4,4,4,4,4,4,4,4,4,4,4,4,5,5,5,6,6,6,6,6,6,6,6,6,6,6,6,8,8,8,8,8,8,8,8,8,8,8
model year,70,72,73,77,80,70,71,72,73,74,75,76,77,78,79,80,81,82,78,79,80,70,71,73,74,75,76,77,78,79,80,81,82,70,71,72,73,74,75,76,77,78,79,81
origin,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2,Unnamed: 22_level_2,Unnamed: 23_level_2,Unnamed: 24_level_2,Unnamed: 25_level_2,Unnamed: 26_level_2,Unnamed: 27_level_2,Unnamed: 28_level_2,Unnamed: 29_level_2,Unnamed: 30_level_2,Unnamed: 31_level_2,Unnamed: 32_level_2,Unnamed: 33_level_2,Unnamed: 34_level_2,Unnamed: 35_level_2,Unnamed: 36_level_2,Unnamed: 37_level_2,Unnamed: 38_level_2,Unnamed: 39_level_2,Unnamed: 40_level_2,Unnamed: 41_level_2,Unnamed: 42_level_2,Unnamed: 43_level_2,Unnamed: 44_level_2
1,9.333333,,,,,,17.6,16.8,19.0,16.0,17.75,18.1,15.833333,15.85,14.857143,16.483333,15.95,16.782353,,,,15.5,14.75,16.0,16.857143,17.708333,17.225,17.5,16.73,15.433333,18.7,15.525,16.033333,12.125,12.214286,13.0,12.25,14.7,13.166667,13.222222,13.6625,13.266667,15.4,19.0
2,,,,,,16.5,16.75,18.7,16.428571,15.333333,15.083333,15.957143,15.0,17.366667,17.833333,18.175,16.8,19.95,15.9,20.1,19.9,,,,,,16.7,,14.7,,,19.6,,,,,,,,,,,,
3,,13.5,13.5,13.5,12.5,14.75,16.375,15.875,17.75,17.666667,16.0,16.933333,17.475,16.2,17.2,16.754545,16.78,15.833333,,,,,,13.5,,,15.5,14.5,,,11.4,13.2,,,,,,,,,,,,


In [None]:
mpg_pivot_table.to_csv("agg_table.csv")

In [None]:
!cat agg_table.csv | head -n 10

cylinders,0,3,3,3,3,4,4,4,4,4,4,4,4,4,4,4,4,4,5,5,5,6,6,6,6,6,6,6,6,6,6,6,6,8,8,8,8,8,8,8,8,8,8,8
model year,70,72,73,77,80,70,71,72,73,74,75,76,77,78,79,80,81,82,78,79,80,70,71,73,74,75,76,77,78,79,80,81,82,70,71,72,73,74,75,76,77,78,79,81
origin,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
1,9.333333333333334,,,,,,17.6,16.8,19.0,16.0,17.75,18.1,15.833333333333334,15.85,14.85714285714286,16.483333333333334,15.95,16.78235294117647,,,,15.5,14.75,16.0,16.857142857142858,17.708333333333332,17.225,17.5,16.73,15.433333333333335,18.7,15.525,16.03333333333333,12.125,12.214285714285714,13.0,12.25,14.7,13.166666666666666,13.222222222222221,13.662500000000001,13.266666666666667,15.4,19.0
2,,,,,,16.5,16.75,18.7,16.428571428571427,15.333333333333334,15.083333333333334,15.957142857142859,15.0,17.366666666666667,17.833333333333332,18.175,16.8,19.950000000000003,15.9,20.1,19.9,,,,,,16.7,,14.7,,,19.6,,,,,,,,,,,,
3,,13.5,13.5,13.5,12.5,14.75,16.375,15.875,17.75,17.666666666666668,16.0,16.933333333333334

In [None]:
pd.read_csv("agg_table.csv", index_col=[0], header=[0, 1])

cylinders,0,3,3,3,3,4,4,4,4,4,4,4,4,4,4,4,4,4,5,5,5,6,6,6,6,6,6,6,6,6,6,6,6,8,8,8,8,8,8,8,8,8,8,8
model year,70,72,73,77,80,70,71,72,73,74,75,76,77,78,79,80,81,82,78,79,80,70,71,73,74,75,76,77,78,79,80,81,82,70,71,72,73,74,75,76,77,78,79,81
origin,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2,Unnamed: 22_level_2,Unnamed: 23_level_2,Unnamed: 24_level_2,Unnamed: 25_level_2,Unnamed: 26_level_2,Unnamed: 27_level_2,Unnamed: 28_level_2,Unnamed: 29_level_2,Unnamed: 30_level_2,Unnamed: 31_level_2,Unnamed: 32_level_2,Unnamed: 33_level_2,Unnamed: 34_level_2,Unnamed: 35_level_2,Unnamed: 36_level_2,Unnamed: 37_level_2,Unnamed: 38_level_2,Unnamed: 39_level_2,Unnamed: 40_level_2,Unnamed: 41_level_2,Unnamed: 42_level_2,Unnamed: 43_level_2,Unnamed: 44_level_2
1,9.333333,,,,,,17.6,16.8,19.0,16.0,17.75,18.1,15.833333,15.85,14.857143,16.483333,15.95,16.782353,,,,15.5,14.75,16.0,16.857143,17.708333,17.225,17.5,16.73,15.433333,18.7,15.525,16.033333,12.125,12.214286,13.0,12.25,14.7,13.166667,13.222222,13.6625,13.266667,15.4,19.0
2,,,,,,16.5,16.75,18.7,16.428571,15.333333,15.083333,15.957143,15.0,17.366667,17.833333,18.175,16.8,19.95,15.9,20.1,19.9,,,,,,16.7,,14.7,,,19.6,,,,,,,,,,,,
3,,13.5,13.5,13.5,12.5,14.75,16.375,15.875,17.75,17.666667,16.0,16.933333,17.475,16.2,17.2,16.754545,16.78,15.833333,,,,,,13.5,,,15.5,14.5,,,11.4,13.2,,,,,,,,,,,,
