In [1]:
import pandas as pd
import numpy  as np

# Применяем .stack()

In [2]:
# Генерируем датафрейм
np.random.seed(17)    # метод seed позволяет генерировать одни и те же "случайные" чилса
df = pd.DataFrame({'col_1':['item_1', 'item_2', 'item_3', 'item_4', 'item_5'], 
                   'col_2': np.random.randint(0, 10, 5), 
                   'col_3': np.random.randint(0, 10, 5)})
df

Unnamed: 0,col_1,col_2,col_3
0,item_1,1,6
1,item_2,6,4
2,item_3,6,7
3,item_4,9,4
4,item_5,0,7


In [3]:
# Применяем .stack()
df_stacked = df.stack()
df_stacked

0  col_1    item_1
   col_2         1
   col_3         6
1  col_1    item_2
   col_2         6
   col_3         4
2  col_1    item_3
   col_2         6
   col_3         7
3  col_1    item_4
   col_2         9
   col_3         4
4  col_1    item_5
   col_2         0
   col_3         7
dtype: object

In [4]:
# Индексам также можно присвоить названия:
df_stacked.index.names = ['id', 'column']
df_stacked

id  column
0   col_1     item_1
    col_2          1
    col_3          6
1   col_1     item_2
    col_2          6
    col_3          4
2   col_1     item_3
    col_2          6
    col_3          7
3   col_1     item_4
    col_2          9
    col_3          4
4   col_1     item_5
    col_2          0
    col_3          7
dtype: object

## Аргументы stack

В качестве аргументов `stack` можно передать два параметра.

- **level** – отвечает за уровень, по которому будет проведена стыковка
- **dropna** – нужно ли убрать ряды с пропущенными значениями 

### Датафрейм о весе и росте котиков:

In [5]:
multicol1 = pd.MultiIndex.from_tuples([('weight', 'old_kg'),
                                       ('weight', 'new_kg'),
                                       ('height', 'old_cm'),
                                       ('height', 'new_cm')])
MyCats = pd.DataFrame([[np.NaN, 3.4, np.NaN, 26.0], [3.0, 4.1, 25.0, 30.0]],
                        index=['Persik', 'Barsik'],
                        columns=multicol1)

In [6]:
MyCats

Unnamed: 0_level_0,weight,weight,height,height
Unnamed: 0_level_1,old_kg,new_kg,old_cm,new_cm
Persik,,3.4,,26.0
Barsik,3.0,4.1,25.0,30.0


Сначала применяем метод s`tack` без указания аргументов.

По умолчанию стыковка происходит по уровню -1, а ряды с пропущенными значениями удаляются. Теперь в датафрейме есть две колонки – `height` и `weight` и два уровня индексов. 

In [7]:
MyCats.stack()

Unnamed: 0,Unnamed: 1,height,weight
Persik,new_cm,26.0,
Persik,new_kg,,3.4
Barsik,new_cm,30.0,
Barsik,new_kg,,4.1
Barsik,old_cm,25.0,
Barsik,old_kg,,3.0


**Как бы выглядела табличка с пропущенными значениями?**

Можно заметить, что в случае `dropna=False`, для Персика появились еще две строки со старыми параметрами роста и веса (`old_cm` и `old_kg`), которые полностью заполнены `NaN`.

In [8]:
MyCats.stack(dropna=False)

Unnamed: 0,Unnamed: 1,height,weight
Persik,new_cm,26.0,
Persik,new_kg,,3.4
Persik,old_cm,,
Persik,old_kg,,
Barsik,new_cm,30.0,
Barsik,new_kg,,4.1
Barsik,old_cm,25.0,
Barsik,old_kg,,3.0


**Теперь проведем стыковку по нулевому уровню.**

В качестве столбцов выступают `new_cm`, `new_kg`, `old_cm` и `old_kg`, а в индексах остались имена животных и рост/вес.

In [9]:
MyCats.stack(level=0)

Unnamed: 0,Unnamed: 1,new_cm,new_kg,old_cm,old_kg
Persik,height,26.0,,,
Persik,weight,,3.4,,
Barsik,height,30.0,,25.0,
Barsik,weight,,4.1,,3.0


## .xs()

Значения конкретного уровня индексов можно получить используя метод `.xs()`, передав ему интересующее нас значение индекса и уровень. Например, чтобы вывести все значения для `height`, в аргументах нужно указать само значение и название столбца с индексами интересующего нас уровня, в данном случае — `param`.

Применяем `stack` и присваиваем уровням индекса названия:

In [10]:
df_stacked_2 = MyCats.stack([0,1])
df_stacked_2.index.names = ['name', 'param', 'param_type']  # присваиваем индексам названия
df_stacked_2

name    param   param_type
Persik  height  new_cm        26.0
        weight  new_kg         3.4
Barsik  height  new_cm        30.0
                old_cm        25.0
        weight  new_kg         4.1
                old_kg         3.0
dtype: float64

Достаем все значения роста `height` из уровня индексов param с помощью `xs`:

In [11]:
df_stacked_2.xs('height', level='param')

name    param_type
Persik  new_cm        26.0
Barsik  new_cm        30.0
        old_cm        25.0
dtype: float64

Попробуем достать значения из колонок исходного датафрейма. Для этого необходимо указать `axis=1`, далее – уровень и ключ, т.е. название интересующего нас уровня. Например, возьмем старый вес Персика и Барсика: 

In [12]:
MyCats

Unnamed: 0_level_0,weight,weight,height,height
Unnamed: 0_level_1,old_kg,new_kg,old_cm,new_cm
Persik,,3.4,,26.0
Barsik,3.0,4.1,25.0,30.0


In [13]:
MyCats.xs(axis=1, level=1, key='old_kg')

Unnamed: 0,weight
Persik,
Barsik,3.0


In [14]:
MyCats.xs(axis=1, key='weight')    # в данном случае можно не указывать level, т.к. по умолчанию level=0

Unnamed: 0,old_kg,new_kg
Persik,,3.4
Barsik,3.0,4.1


**Note**: Чтобы получить значения из исходного датафрейма, можно также передать кортеж из уровней:

In [15]:
MyCats[('weight', 'old_kg')]

Persik    NaN
Barsik    3.0
Name: (weight, old_kg), dtype: float64

In [16]:
MyCats.loc[:, ('weight', 'old_kg')]

Persik    NaN
Barsik    3.0
Name: (weight, old_kg), dtype: float64

# .unstack()

**Unstack** (расстыковка) — операция, противоположная `stack`, которая помещает уровень индекса строк в уровень оси столбцов.

Возьмем датафрейм из предыдущего стэпа `df_stacked_2`

In [17]:
df_stacked_2

name    param   param_type
Persik  height  new_cm        26.0
        weight  new_kg         3.4
Barsik  height  new_cm        30.0
                old_cm        25.0
        weight  new_kg         4.1
                old_kg         3.0
dtype: float64

In [18]:
df_stacked_2.unstack(level=1)

Unnamed: 0_level_0,param,height,weight
name,param_type,Unnamed: 2_level_1,Unnamed: 3_level_1
Barsik,new_cm,30.0,
Barsik,new_kg,,4.1
Barsik,old_cm,25.0,
Barsik,old_kg,,3.0
Persik,new_cm,26.0,
Persik,new_kg,,3.4


Один из аргументов метода — `level`, отвечает за уровень, по которому будет проведена расстыковка. Можно передать как число, так и название уровня индексов, если таковое имеется. В данном случае, `0` или `"name"`, `1` или `"param"`, `2` или `"param_type"`.

In [19]:
df_stacked_2.unstack(level='name')

Unnamed: 0_level_0,name,Barsik,Persik
param,param_type,Unnamed: 2_level_1,Unnamed: 3_level_1
height,new_cm,30.0,26.0
height,old_cm,25.0,
weight,new_kg,4.1,3.4
weight,old_kg,3.0,


Для того, чтобы сделать расстыковку по нескольким уровням, необходимо передать список, состоящий либо только из чисел, либо только из названий. Поместим параметры в столбцы, а имена оставим в индексах:

In [20]:
df_stacked_2.unstack(level=['param', 'param_type'])

param,height,weight,height,weight
param_type,new_cm,new_kg,old_cm,old_kg
name,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Barsik,30.0,4.1,25.0,3.0
Persik,26.0,3.4,,


# Pokemon

Теперь задача. В этот раз никаких такси и товаров, потренируемся на характеристиках покемонов! В исходном датасете мультииндексов нет, поэтому будем создавать их сами. Данные сохранены в переменную `pokemon`

In [21]:
pokemon = pd.read_csv('https://stepik.org/media/attachments/lesson/363874/Pokemon.csv')

In [22]:
pokemon

Unnamed: 0,#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,1,Bulbasaur,Grass,Poison,318,45,49,49,65,65,45,1,False
1,2,Ivysaur,Grass,Poison,405,60,62,63,80,80,60,1,False
2,3,Venusaur,Grass,Poison,525,80,82,83,100,100,80,1,False
3,3,VenusaurMega Venusaur,Grass,Poison,625,80,100,123,122,120,80,1,False
4,4,Charmander,Fire,,309,39,52,43,60,50,65,1,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...
795,719,Diancie,Rock,Fairy,600,50,100,150,100,150,50,6,True
796,719,DiancieMega Diancie,Rock,Fairy,700,50,160,110,160,110,110,6,True
797,720,HoopaHoopa Confined,Psychic,Ghost,600,80,110,60,150,130,70,6,True
798,720,HoopaHoopa Unbound,Psychic,Dark,680,80,160,60,170,130,80,6,True


**Сначала измените названия исходных столбцов:**

- пробелы и точки нужно заменить на "_" (напр. `Sp. Atk` → `sp_atk`)
- приведите все названия к нижнему регистру
- колонку `"#"` переименовать в `"id"`

Полученные результаты запишите в исходный датафрейм `pokemon`.

In [23]:
pokemon.columns = (pokemon
                   .rename(columns={'#': 'id'})
                   .columns
                   .str.replace(" ","_")
                   .str.replace(".","")
                   .str.lower())

  pokemon.columns = (pokemon


In [24]:
pokemon

Unnamed: 0,id,name,type_1,type_2,total,hp,attack,defense,sp_atk,sp_def,speed,generation,legendary
0,1,Bulbasaur,Grass,Poison,318,45,49,49,65,65,45,1,False
1,2,Ivysaur,Grass,Poison,405,60,62,63,80,80,60,1,False
2,3,Venusaur,Grass,Poison,525,80,82,83,100,100,80,1,False
3,3,VenusaurMega Venusaur,Grass,Poison,625,80,100,123,122,120,80,1,False
4,4,Charmander,Fire,,309,39,52,43,60,50,65,1,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...
795,719,Diancie,Rock,Fairy,600,50,100,150,100,150,50,6,True
796,719,DiancieMega Diancie,Rock,Fairy,700,50,160,110,160,110,110,6,True
797,720,HoopaHoopa Confined,Psychic,Ghost,600,80,110,60,150,130,70,6,True
798,720,HoopaHoopa Unbound,Psychic,Dark,680,80,160,60,170,130,80,6,True


Затем сгруппируйте данные по поколению покемонов (`generation`), и с помощью `value_counts()` посчитайте, сколько в каком поколении легендарных покемонов (`legendary`), а также сколько в этих поколениях нелегендарных покемонов. Полученный объект приведите к формату датафрейма (`.to_frame()`) и сохраните в `legends`.

In [25]:
legends = pokemon.groupby('generation')\
                .legendary \
                .value_counts() \
                .to_frame()
legends

Unnamed: 0_level_0,Unnamed: 1_level_0,legendary
generation,legendary,Unnamed: 2_level_1
1,False,160
1,True,6
2,False,101
2,True,5
3,False,142
3,True,18
4,False,108
4,True,13
5,False,150
5,True,15


Как вы могли заметить,  есть только одна колонка со значениями, которая называется `legendary`, а в качестве индекса используются две колонки — `generation` и `legendary`. Два одинаковых названия — не очень хорошо, поэтому необходимо переименовать колонку `legendary` в `legendary_count`. 

Используйте датафрейм `legends`, полученный на предыдущем шаге, и измените в нём название столбца, перезаписав его в ту же переменную. Затем используйте `unstack`, чтобы поместить уровень индекса `legendary` в уровень оси столбцов. Иными словами, должно получиться две колонки – `False` & `True`. Результат сохраните в `legends_unstacked`.

In [26]:
legends.columns = ['legendary_count']
legends

Unnamed: 0_level_0,Unnamed: 1_level_0,legendary_count
generation,legendary,Unnamed: 2_level_1
1,False,160
1,True,6
2,False,101
2,True,5
3,False,142
3,True,18
4,False,108
4,True,13
5,False,150
5,True,15


In [27]:
legends_unstacked = legends.unstack()
legends_unstacked

Unnamed: 0_level_0,legendary_count,legendary_count
legendary,False,True
generation,Unnamed: 1_level_2,Unnamed: 2_level_2
1,160,6
2,101,5
3,142,18
4,108,13
5,150,15
6,74,8


**Немного усложним задачу**.

Теперь попробуем узнать, среди каких типов покемонов и какого поколения больше всего легендарных.

Сгруппируйте датасет `pokemon` по переменным `generation` и `type_1`, посчитайте количество легендарных покемонов внутри групп. Приведите данные в формат датафрейма, а затем используйте `unstack()`.

В качестве ответа выберите **вид и поколение покемона, среди которых больше всего легендарных**.

***Hint***: обратиться к колонке с мультииндексом можно с помощью `.loc[:,('legendary', True)]`

In [28]:
(
    pokemon
        .groupby(['generation', 'type_1'])
        .legendary
        .value_counts()
        .to_frame()
        .unstack()
        .loc[:,('legendary', True)]
        .idxmax()
)

(3, 'Dragon')

# .melt()
https://www.youtube.com/watch?v=g97z1XbQGTM

С помощью метода `melt` можно "расплавить" данные и привести их к длинному формату.

Так, одна или несколько колонок помещаются в качестве идентификационных переменных, а остальные столбцы считаются измеряемыми переменными. Их названия и значения помещаются в колонки `variable` и `value`.

Для изменения названий полученных столбцов используются параметры `var_name` и `value_name`.

In [29]:
df3 = pd.DataFrame({'name': ['Persik', 'Brownie'],
                    'type': ['cat', 'dog'],
                    'color': ['ginger', 'white'],
                    'height': [17, 30], 
                    'weight': [3.4, 4.3]})
df3

Unnamed: 0,name,type,color,height,weight
0,Persik,cat,ginger,17,3.4
1,Brownie,dog,white,30,4.3


**Расплавляем!**

Если не указать колонки, которые нужно использовать в качестве идентификаторов, то названия всех столбцов помещаются в `variable`, а соответствующие в `value`.

In [30]:
df3.melt().head()

Unnamed: 0,variable,value
0,name,Persik
1,name,Brownie
2,type,cat
3,type,dog
4,color,ginger


Используем имена в качестве идентификатора:

In [31]:
df3.melt(id_vars='name').head()

Unnamed: 0,name,variable,value
0,Persik,type,cat
1,Brownie,type,dog
2,Persik,color,ginger
3,Brownie,color,white
4,Persik,height,17


Для изменения названий полученных столбцов используются параметры `var_name` и `value_name`. Например, передаем в качестве `id_vars` имена, для значений (`value_vars`) используем только три колонки и изменяем названия новых колонок:

In [32]:
df3.melt(id_vars=['name'],
         value_vars=['type', 'color', 'height'], 
         var_name='characteristics',
         value_name='value')

Unnamed: 0,name,characteristics,value
0,Persik,type,cat
1,Brownie,type,dog
2,Persik,color,ginger
3,Brownie,color,white
4,Persik,height,17
5,Brownie,height,30


# .wide_to_long()
https://www.youtube.com/watch?v=g97z1XbQGTM

Еще один вариант для перевода данных из широкого формата в длинный — `pd.wide_to_long()`. 

Предположим, мы собрали побольше данных о котике Персике и пёсике Брауни, и добавили данные о весе и росте уже за два года:

In [33]:
df4 = pd.DataFrame({'name': ['Persik', 'Brownie'],
                    'type': ['cat', 'dog'],
                    'AvgHeight_2019': [17.077963, 30.673324],
                    'AvgHeight_2020': [17.134233, 30.674466],
                    'AvgWeight_2019': [3.4, 4.3],
                    'AvgWeight_2020': [3.5545, 4.5716],
                    'color': ['ginger', 'white']
                    })
df4

Unnamed: 0,name,type,AvgHeight_2019,AvgHeight_2020,AvgWeight_2019,AvgWeight_2020,color
0,Persik,cat,17.077963,17.134233,3.4,3.5545,ginger
1,Brownie,dog,30.673324,30.674466,4.3,4.5716,white


**Посмотрим на аргументы функции более подробно.**

- **data** — датафрейм
- **stubnames** — части названий переменных, которые мы хотим преобразовать из широкого формата в длинный
- **i** — переменные, которые не трансформируются, и в результате помещаются в индексы
- **j** — имя новой переменной
- **sep** — разделитель (между параметром и значением)

В данном случае у нас есть две общих характеристики, отвечающих за рост и вес в конкретный год. Названия соответствующих переменных состоят из `AvgHeight` / `AvgWeight` и года, поэтому в `stubnames` мы передаем список параметров (вес и рост), а оставшаяся часть названия (2018, 2019) будет использована в качестве значений новой переменной `year`. Столбцы `type` и `name` помещаем в индексы, а параметр `color` оставляем обычной колонкой.

In [34]:
lng = pd.wide_to_long(df4, ['AvgHeight', 'AvgWeight'], i=['type', 'name'], j='year', sep='_')
lng

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,color,AvgHeight,AvgWeight
type,name,year,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
cat,Persik,2019,ginger,17.077963,3.4
cat,Persik,2020,ginger,17.134233,3.5545
dog,Brownie,2019,white,30.673324,4.3
dog,Brownie,2020,white,30.674466,4.5716


А теперь возвращаем всё обратно к широкому формату:

In [35]:
wd = lng.unstack(level='year')
wd.columns = ['_'.join(map(str, col)) for col in wd.columns]  # соединяем названия
wd.drop('color_2019', inplace=True, axis=1)  # убираем лишнюю колонку
wd = wd.rename(columns={'color_2020': 'color'})  # исправляем название
wd.reset_index() # избавляемся от мультииндекса

Unnamed: 0,type,name,color,AvgHeight_2019,AvgHeight_2020,AvgWeight_2019,AvgWeight_2020
0,cat,Persik,ginger,17.077963,17.134233,3.4,3.5545
1,dog,Brownie,white,30.673324,30.674466,4.3,4.5716


## Задача
Преобразуйте представленные данные в длинный формат и запишите в переменную `avocado_agg_long`. В качестве индекса используйте `type`


In [36]:
avocado_agg = pd.DataFrame({'type' : ['conventional', 'organic'],
                            'AvgPrice_2015' : [1.077963, 1.673324],
                            'AvgPrice_2016' : [1.105595, 1.571684],
                            'AvgPrice_2017' : [1.294888, 1.735521],
                            'AvgPrice_2018' : [1.127886, 1.567176],
                            })
avocado_agg

Unnamed: 0,type,AvgPrice_2015,AvgPrice_2016,AvgPrice_2017,AvgPrice_2018
0,conventional,1.077963,1.105595,1.294888,1.127886
1,organic,1.673324,1.571684,1.735521,1.567176


In [37]:
avocado_agg_long = pd.wide_to_long(avocado_agg,
                                   stubnames='AvgPrice',
                                   i='type',
                                   j='year',
                                   sep='_'
                                  )
avocado_agg_long

Unnamed: 0_level_0,Unnamed: 1_level_0,AvgPrice
type,year,Unnamed: 2_level_1
conventional,2015,1.077963
organic,2015,1.673324
conventional,2016,1.105595
organic,2016,1.571684
conventional,2017,1.294888
organic,2017,1.735521
conventional,2018,1.127886
organic,2018,1.567176


# ⭐️ 
Имеется набор данных о супергероях в широком формате. В первой колонке `Name` находятся их имена, а остальные 167 столбцов — различные характеристики (суперсилы), принимающие значение либо True, либо False.

Давайте преобразуем датафрейм так, чтобы "собрать" эти признаки в один столбец под названием `superpower`, а в качестве значений поместить туда списки имеющихся у того или иного героя суперсил.

In [38]:
superheroes = pd.read_csv('https://stepik.org/media/attachments/lesson/363874/superheroes_power_matrix.csv')
superheroes

Unnamed: 0,Name,Agility,Accelerated Healing,Lantern Power Ring,Dimensional Awareness,Cold Resistance,Durability,Stealth,Energy Absorption,Flight,...,Web Creation,Reality Warping,Odin Force,Symbiote Costume,Speed Force,Phoenix Force,Molecular Dissipation,Vision - Cryo,Omnipresent,Omniscient
0,3-D Man,True,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
1,A-Bomb,False,True,False,False,False,True,False,False,False,...,False,False,False,False,False,False,False,False,False,False
2,Abe Sapien,True,True,False,False,True,True,False,False,False,...,False,False,False,False,False,False,False,False,False,False
3,Abin Sur,False,False,True,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
4,Abomination,False,True,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
662,Yellowjacket II,False,False,False,False,False,False,False,False,True,...,False,False,False,False,False,False,False,False,False,False
663,Ymir,False,False,False,False,True,True,False,False,False,...,False,False,False,False,False,False,False,False,False,False
664,Yoda,True,False,False,False,False,False,True,False,False,...,False,False,False,False,False,False,False,False,False,False
665,Zatanna,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False


1. Сначала приведите данные к длинному формату, где единственным идентификатором будет имя героя `Name`.
2. Новый столбец с названиями суперсил переименуйте в `superpower`.
3. Полученный датафрейм запишите в `superheroes_long`.

Для того, чтобы соединить силы в списки и привести данные в желаемую форму:
- отфильтруйте колонку `value` так, чтобы остались строки только со значением True.
- сгруппируйте датасет по `Name`
- после чего возьмите столбец `superpower`
- и используйте `.apply(list)`. Результат сохраните в `superheroes_powers`.

***Обратите внимание***, что результирующий объект тоже должен быть датафреймом, а колонки должно быть всего две — `Name` и `superpower`.

In [39]:
superheroes_long = superheroes.melt(id_vars=('Name'),
                                    var_name='superpower')
superheroes_powers = superheroes_long.query('value == True') \
                                    .groupby('Name') \
                                    .superpower \
                                    .apply(list) \
                                    .to_frame() \
                                    .reset_index()
superheroes_powers

Unnamed: 0,Name,superpower
0,3-D Man,"[Agility, Super Strength, Stamina, Super Speed]"
1,A-Bomb,"[Accelerated Healing, Durability, Longevity, S..."
2,Abe Sapien,"[Agility, Accelerated Healing, Cold Resistance..."
3,Abin Sur,[Lantern Power Ring]
4,Abomination,"[Accelerated Healing, Intelligence, Super Stre..."
...,...,...
662,Yellowjacket II,"[Flight, Energy Blasts, Size Changing]"
663,Ymir,"[Cold Resistance, Durability, Longevity, Super..."
664,Yoda,"[Agility, Stealth, Danger Sense, Marksmanship,..."
665,Zatanna,"[Cryokinesis, Telepathy, Magic, Fire Control, ..."


# .explode()
https://www.youtube.com/watch?v=PU_2t1EaEMM

Одно из нововведений в pandas версии 0.25.0 — метод `explode()`. Сначала создадим датафрейм из двух столбцов: колонку `B` заполним единичками, а в `А` запишем следующие элементы:
- в две ячейки – списки, состоящие из нескольких элементов
- пустой список
- 'kitten'

In [40]:
df = pd.DataFrame({'A': [[1, 2, 3], 
                         'kitten', 
                         [], 
                         ['kitten', 'puppy']], 
                   'B': 1})
df

Unnamed: 0,A,B
0,"[1, 2, 3]",1
1,kitten,1
2,[],1
3,"[kitten, puppy]",1


Такой формат данных в ячейках не очень удобен для дальнейшей работы. Например, как нам посчитать, сколько раз встретилось то или иное значение в `А`?

Как раз здесь нам поможет `explode`. Метод преобразовывает каждый элемент списка в отдельный ряд, при этом сами индексы строк дублируются. На вход необходимо передать либо одну колонку, либо их список.

In [41]:
df.explode('A')

Unnamed: 0,A,B
0,1,1
0,2,1
0,3,1
1,kitten,1
2,,1
3,kitten,1
3,puppy,1


Посчитаем, сколько раз встречаются те или иные значения:

In [42]:
df.explode('A').A.value_counts().to_frame(name='count')  # переименовываем "A" в "count"

Unnamed: 0,count
kitten,2
1,1
2,1
3,1
puppy,1
