# Семинар: работа с таблицами в pandas

## Вступление

Сегодня мы начнём работать с табличными данными в питоне, и в этом нам поможет библиотека pandas. `Pandas` — это мощная библиотека для работы с табличными данными в Python. Она предоставляет огромное количество методов и функций, которые можно разделить на несколько категорий: функции верхнего уровня, методы объектов `DataFrame`, методы объектов `Series` и другие.

Полный список всех методов и функций Pandas можно найти в официальной [документации](https://pandas.pydata.org/docs/reference/index.html) 

Цель семинара — познакомиться с основными конструкциями pandas и научиться им пользоваться.

Почему pandas удобный?
1.	Удобное представление таблиц и много готовых методов, как работать с этими таблицами
2.	Простота использования
3.	Наличие встроенных визуализаций
4.	Наличие всех функций из excel (и даже больше)
5.	Универсальность инструмента, можно читать почти все табличные типы данных
6.	Хорошо подходит для экспериментов с данными

А почему он неудобный?
1.	Медленный
2.	Чаще всего нельзя использовать в проде из-за скорости
3.	Иногда сложно интерпретировать код, написанный на pandas

### План 

1. Работаем с датасетом оценок студентов
2. Работаем с датасетом пассажиров Титаника

### Дополнительные материалы

[Pandas Cheat Sheet](https://github.com/pandas-dev/pandas/blob/master/doc/cheatsheet/Pandas_Cheat_Sheet.pdf)

[10 Minutes To Pandas](https://pandas.pydata.org/pandas-docs/stable/10min.html)

[Pandas CookBook](https://pandas.pydata.org/pandas-docs/stable/cookbook.html#cookbook)

### Краткий обзор основных функций и методов `pandas` 



1. Функции верхнего уровня (`pd.<function_name>`). Эти функции доступны через сам модуль pandas и не требуют создания объекта `DataFrame` или `Series`:

    Чтение и запись данных

    `pd.read_csv(filepath\_or_buffer)`: Чтение данных из CSV-файла  

    `pd.read\_excel(io)`: Чтение данных из Excel-файла  

    `pd.read\_sql(query, con)`: Чтение данных из SQL-запроса  

    `pd.to_csv(path\_or\_buf)`: Запись данных в CSV-файл  

    `pd.to\_excel(excel\_writer)`: Запись данных в Excel-файл  

    Создание объектов

    `pd.DataFrame(data)`: Создание `DataFrame` из словаря, списка или массива.
    
    `pd.Series(data)`: Создание `Series` из списка или массива.
    
    `pd.date_range(start, end, freq)`: Создание диапазона дат.
    
    `pd.concat([df1, df2])`: Объединение нескольких DataFrame.
    
    `pd.merge(left, right, on)`: Объединение DataFrame по ключу (аналог `SQL JOIN`).

    Обработка данных

    `pd.cut(x, bins)`: Разделение данных на интервалы.

    `pd.qcut(x, q)`: Разделение данных на квантили.
    
    `pd.value_counts(data)`: Подсчет уникальных значений в массиве.

    Прочие функции

    `pd.isnull(data)`: Проверка на наличие пропущенных значений.

    `pd.notnull(data)`: Проверка на отсутствие пропущенных значений.
    
    `pd.pivot_table(data, values, index, columns)`: Создание сводной таблицы.ние памяти для каждого столбца.

2. Методы объектов `DataFrame`. Эти методы вызываются на экземплярах `DataFrame` и используются для работы с табличными данными:
   
    Информация о данных     

    `df.head(n)`: Первые n строк.
    
    `df.tail(n)`: Последние n строк.
    
    `df.info()`: Общая информация о DataFrame.
    
    `df.describe()`: Статистическая сводка для числовых столбцов.

    `df['column']`: Выбор одного столбца как Series.

    Выбор данных
    
    `df[['col1', 'col2']]`: Выбор нескольких столбцов как DataFrame.
    
    `df.loc[row_indexer, col_indexer]`: Выбор данных по меткам индексов.
    
    `df.iloc[row_indexer, col_indexer]`: Выбор данных по позициям.
    
    `df.query('condition')`: Фильтрация данных с использованием строки запроса.

    Фильтрация и преобразование
    
    `df.drop(columns=['col1', 'col2'])`: Удаление столбцов.

    `df.rename(columns={'old': 'new'})`: Переименование столбцов.

    `df.sort_values(by='column')`: Сортировка данных по столбцу.

    `df.groupby('column')`: Группировка данных по указанному столбцу.

    `df.apply(func)`: Применение функции к каждому элементу столбца или строки.

    Обработка пропущенных значений

    `df.isnull()`: Проверка на наличие пропущенных значений.

    `df.dropna()`: Удаление строк или столбцов с пропущенными значениями.

    `df.fillna(value)`: Заполнение пропущенных значений указанным значением.

    Визуализация

    `df.plot()`: Построение графика.

    `df.hist()`: Построение гистограммы.

    Прочие методы

    `df.shape`: Размерность DataFrame (строки, столбцы).

    `df.columns`: Список названий столбцов.

    `df.dtypes`: Типы данных в столбцах.

    `df.memory_usage()`: Использование памяти для каждого столбца.

3. Методы объектов `Series`. Эти методы вызываются на экземплярах Series и используются для работы с одномерными массивами данных:
   
   `series.head(n)`,

   `series.tail(n)`,
   
   `series.describe()` - статистическая сводка для числовых данных,

   `series.loc[index]` - выбор элемента по метке индекса,

   `series.iloc[index]` - выбор элемента по позиции,

   `series.dropna()` - удаление пропущенных значений.,

   `series.fillna(value)` - заполнение пропущенных значений.,

   `series.apply(func)` - применение функции к каждому элементу.,

   `series.map(func)` - преобразование значений с помощью функции,

   `series.unique()` - получение уникальных значений.,

   `series.value_counts()` - подсчет частоты уникальных значений.,

   `series.plot()`,

   `series.hist()`
   
5. Статистические методы:

   `df.mean()`, `df.median()`, `df.std()`, `df.min()`, `df.max()`, `df.sum()`, `df.count()`
   
7. Прочие полезные функции:
  
   `df.set_index(keys)` - установка нового индекса,

   `df.reset_index()` - сброс индекса,

   `df.sort_index()` - сортировка по индексу,

   `df.join(other_df)` - присоединение другого DataFrame по индексу,

   `df.append(other_df)` - добавление строк из другого DataFrame.

Pandas предоставляет нам много различных инструментов работы с табличными данными. Главные из них — это: класс таблицы `pandas.core.frame.DataFrame` и его методы; класс серии данных (например, столбец таблицы) `pandas.core.series.Series` и его методы; и различные функции библиотеки. 

## 0. Создание объектов `pandas.Series` и `pandas.DataFrame`


In [None]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

Про `pandas.Series` стоит думать как про одномерный массив фиксированного размера из данных одного типа. 

В отличие от массивов доступ к элементам может быть по нечисловому индексу. Индексы стоит понимать как ключи.

Объекты типа `pandas.Series` очень часто используются как возвращаемые значения в `pandas`.

In [None]:
# pandas.Series хранящий буквы со стандартной индексацией
pd.Series(data=['BTC', 'LTC', 'DOGE', 'DASH'])

In [None]:
# pandas.Series хранящий числа типа str cо специальным индексом
pd.Series(data=['BTC', 'ETH', 'XRP'], 
          index=['first_coin', 'second_coin', 'third_coin'], dtype=str)

Данные типа `pandas.DataFrame` - это двумерный массив (переменного размера) разнородных данных (но однородных по колонкам). 

Лучше всего предстаставлять себе `pandas.DataFrame` как набор колонок, где каждая колонка это `pandas.Series`.

In [None]:
# Создание простейшей таблицы
pd.DataFrame(data=['BTC', 'LTC', 'XRP'])

In [None]:
# Cоздание таблицы с именами колонок
pd.DataFrame(
    data=[['BTC', 10000],['LTC', 200],['XRP', 1]],
    columns=['symbol', 'price'])


## 1. Работаем с датасетом оценок студентов


Начнём с подгрузки таблицы из файла и посмотрим на методы класса `DataFrame`.

In [None]:
# таблица с оценками (загружаем в переменную df)
df = pd.read_csv("grades.csv", sep=",", index_col=0) #index_col=0 - 1-ый столбец csv - индексы строк 
type(df)

In [None]:
# размер таблицы
df.shape

In [None]:
# вывести начало таблицы
df.head()

Поясним значения, хранящиеся в колонках:
 - *hash* - студент (ФИО)
 - *0,1,2,3,4,5,6,7,8* - номера задач (значения колонки N - оценки студента за задачу N, оценка = 0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0)
 

In [None]:
# вывести конец таблицы
df.tail()

In [None]:
# выбрать случайные строки
df.sample(n=5)

In [None]:
# выбрать долю случайных строк из таблицы 
df.sample(frac=0.3)

#### Информация о содержимом таблицы

In [None]:
df.info()

#### Обращение к столбцам

Добавим работу со столбцами: датафрейм можно индексировать квадратными скобками с названиями столбцов. Столбец будет экземпляром класса `pandas.core.series.Series`.

In [None]:
col0 = df["0"]
col0.head()

In [None]:
type(col0)

In [None]:
# выбрать 5 строк с наибольшими значениями в столбцах '3', '4'
df.nlargest(n=5, columns=["3", "4"])

##### Получить данные в виде numpy массива

In [None]:
df.values

##### В столбце: Количество уникальных значений 

In [None]:
# подсчитать количество уникальных значений в столбце 3
df["3"].nunique()

##### В столбце: для каждого уникального значения его количество

In [None]:
# подсчитать, сколько раз встретилось в столбце '3' каждое уникальное значение
df["3"].value_counts()

Доступ к столбцу можно получить не только через квадратные скобки, но и через точку, по аналогии с атрибутом класса.

In [None]:
df["hash"]

In [None]:
df.hash

#### Обращение к строкам

А вот доступ к строкам можно получить при помощи `.iloc` и `loc`. Внешне они выглядят одинаково, но отличаются в деталях: первый индексирует по номеру строки, а второй — по индексирующему столбцу.

In [None]:
df.iloc[:5]

#### Слияние таблиц `DataFrame.concat`

In [None]:
# склеить две таблицы по строкам (по умолчанию axis=0)
df1 = df.iloc[:5]
df2 = df.iloc[10:15]
pd.concat([df1, df2])

In [None]:
# склеить две таблицы по столбцам (axis=1)
df1 = df[["hash", "1"]]
df2 = df[["3", "4"]]
pd.concat([df1, df2], axis=1).head()

#### Объединение таблиц `DataFrame.merge`

Метод `DataFrame.merge` объединяет таблицы по переданному столбцу.

In [None]:
# таблица с оценками (загружаем в переменную df_grades)
df_grades = pd.read_csv("grades.csv", index_col=0)
df_grades.head()

In [None]:
df_grades.shape

In [None]:
# Проверка типов данных
print(df_grades.dtypes)

In [None]:
# таблица со студентами (загружаем в переменную df_hashes)
df_hashes = pd.read_csv("hashes.csv")
df_hashes.head()

In [None]:
df_hashes.shape

Не для всех студентов известны оценки!

In [None]:
#кол-во уникальных занчений в столбце hash
df_grades['hash'].nunique(), df_hashes['hash'].nunique()

In [None]:
# присоединить подходящие строки из df_grades к df_hashes
df = pd.merge(df_hashes, df_grades, on="hash", how="left")
print(df.shape)
df.head(10)

In [None]:
pd.merge?

In [None]:
# присоединить подходящие строки из df_hashes к df_grades
df = pd.merge(df_hashes, df_grades, on="hash", how="right")
print(df.shape)
df.head(10)

In [None]:
# пересечение таблиц
# в данном случае эквивалентно 'right', т.к. в df_grades нет таких хэшей, которые отсутствуют в df_hashes
df = pd.merge(df_hashes, df_grades, on="hash", how="inner")
print(df.shape)
df.head(10)

In [None]:
# объединение таблиц
# в данном случае эквивалентно 'left', т.к. в df_grades нет таких хэшей, которые отсутствуют в df_hashes
df = pd.merge(df_hashes, df_grades, on="hash", how="outer")
print(df.shape)
df.head(10)

In [None]:
# выбрать из таблицы хэшей только те строки, в которых хэш есть в таблице оценок
# т.е. отобрать тех студентов, которые писали контрольную и были оценены
df = df_hashes[df_hashes['hash'].isin(df_grades['hash'])]
print(df.shape)
df.head()

In [None]:
# сколько человек из каждой группы были оценены?
df['Группа'].value_counts()

In [None]:
type(df)

In [None]:
type(df["Группа"])

#### Работа с группами `DataFrame.groupby`

Метод `DataFrame.groupby` делает *группировку строк по значениям в каком-то столбце*, чтобы мы могли их усреднить/просуммировать/etc. Например, если бы у нас была таблица вида [студент - предмет - оценка], то мы могли бы сгруппировать строки по столбцу предмета и посчитать по каждому предмету среднюю оценку.

In [None]:
# сгруппировать строки по столбцу '1'
gr = df_grades.groupby(by="1")
gr

In [None]:
df_grades["1"].unique()

In [None]:
#выводим полученные группы
print(gr.groups)

In [None]:
# Проверяем значения в группах
for name, group in gr:
    print(f"Group {name}:")
    print(group)

In [None]:
df_grades.groupby('1')[['3','4']].agg(['mean','count','sum'])

In [None]:
#Какая средняя оценка за другие задачи у студентов, 
#получивших конкретную оценку по задаче '1'?
gr[['2','3','4','5','6','7','8']].agg('mean')


In [None]:
#Какая дисперсия средней оценки за другие задачи у студентов, 
#получивших конкретную оценку по задаче '1'?
gr[['2','3','4','5','6','7','8']].agg('var')

In [None]:
# Откуда взялись NaN? - т.к. по одному разу встречаются 0.5 и 0.6 для '1'

In [None]:
#в группt gr: строки, в кот. всречается оценка 0.2
gr.get_group(0.2)

In [None]:
gr.get_group?

## 2. Работаем с датасетом пассажиров Титаника



In [None]:
df = pd.read_csv("titanic_train.csv", sep=",")
df.head()

Каждая строчка набора данных содержит следующие поля:

- Pclass — класс пассажира (1 — высший, 2 — средний, 3 — низший);

- Name — имя;

- Sex — пол;

- Age — возраст;

- SibSp — количество братьев, сестер, сводных братьев, сводных сестер, супругов на борту Титаника;

- Parch — количество родителей, детей (в том числе приемных) на борту Титаника;

- Ticket — номер билета;

- Fare — плата за проезд;

- Cabin — каюта;

- Embarked — порт посадки (C — Шербур; Q — Квинстаун; S — Саутгемптон)

- Survived - пассажир выжил (1) или нет (0).

В поле Age приводится количество полных лет. Для детей меньше 1 года — дробное. Если возраст не известен точно, то указано примерное значение в формате xx.5.

In [None]:
# типы данных столбцов
df.dtypes

In [None]:
df.info()

In [None]:
df.shape

In [None]:
# сравним, сколько места занимает столбец
df["SibSp"].astype("int64").memory_usage()

In [None]:
df["SibSp"].astype("int8").memory_usage()

In [None]:
df.shape

#### Базовые статистики числовых переменных.

In [None]:
df.describe()
#или
#df.describe(exclude = 'object')

**Корреляция** (Пирсона) между числовыми столбцами (мера линейной зависимости).

In [None]:
#df.corr()

In [None]:
#выбираем числовые столбцы
# numeric_df = df.select_dtypes(include=["number"])
# numeric_df.corr()
df.select_dtypes(include=["number"]).corr()

#### Базовые статистики категориальных переменных.

In [None]:
#top - самое часто встречающееся значение, freq - кол-во самых частых значений
df.describe(include = 'object')

In [None]:
df.head()

#### Столбцы и строки

In [None]:
#Список названий колонок
df.columns

In [None]:
#Список индексов
df.index

In [None]:
#Обращение к столбцу
Y = df["Survived"]
Y.head()

In [None]:
#Обращение к нескольким столбцам (передаем список названий колонок !!!!!!)
df[["Survived", "Age"]].head()

In [None]:
# удаление данных одного из столбцов
X = df.drop("Survived", axis=1) 
X.head()

In [None]:
df.shape, X.shape, Y.shape

Обращение к строкам.  
Давайте сперва проиндексируем таблицу двумя способами через `iloc` (индексы) и `loc`, а затем изменим индексирующий столбец и посмотрим на разницу.

In [None]:
#выбираем строки с указаныыми в списке номерами
X.iloc[[5, 8, 10]]

In [None]:
#выбираем строки с указаныыми в списке индексами (здесь числовыми)
X.loc[[5, 8, 10]]

In [None]:
# Меняем индексацию!
df_new = df.set_index("Name")
df_new.head()

In [None]:
#выбираем строки с указаныыми в списке индексами (здесь нечисловыми)
df_new.loc["Braund, Mr. Owen Harris"]

#### Пропуски и ошибки в данных

In [None]:
df

In [None]:
#пропуски в данных
df.isna() #вариант 1
#df.isnull() #вариант 2

In [None]:
#число пропусков в данных
df.isna().sum() #вариант 1

In [None]:
# Найти места где есть пропуски методом isnull. 
#Аналогично есть метод notnull
df.isnull().sum()   #вариант 2

In [None]:
df.info()

In [None]:
# Заполнить все пропуски дефолтным занчением
df.fillna(0)

In [None]:
# Заполнить все пропуски занчениями со cледующей строки
df.fillna(method='bfill')

In [None]:
# Заполнить все пропуски занчениями с предыдущей строки
df.fillna(method='ffill')

In [None]:
#  Выкинуть строки содержащие nan'ы
df.dropna()

In [None]:
#  Выкинуть колонки содержащие nan'ы
df.dropna(axis=1)

#### Сводная таблица

In [None]:
set(df["Sex"])

In [None]:
len(set(df["Name"]))

In [None]:
df["Sex"].value_counts()

In [None]:
#сводная таблица
#(значение - что считаем, 
#индексы строк (горизонт. ось), 
#столбцы, 
#ф-ия для агрегации (кол-во, среднее и т.д.) - применяем к значению)
df.pivot_table("PassengerId", "Sex", "Survived", "count")

In [None]:
df.pivot_table?

In [None]:
df.pivot_table("PassengerId", "Sex", "Survived", "count").plot(kind="bar", stacked=True
                                                              );
# Какой вывод из полученных гистограмм?

In [None]:
df.pivot_table("PassengerId", "Pclass", "Survived", "count").plot(
    kind="bar", stacked=True
);
# Какой вывод из полученных гистограмм?

In [None]:
#Пример пострения графиков в pandas
fig, axes = plt.subplots(ncols=2)
df.pivot_table("PassengerId", ["SibSp"], "Survived", "count").plot(
    ax=axes[0], title="SibSp"
)
df.pivot_table("PassengerId", ["Parch"], "Survived", "count").plot(
    ax=axes[1], title="Parch"
);

# Какой вывод из полученных графиков?


In [None]:
#Пример пострения графиков в pandas
df.plot(x="PassengerId", y="Fare", kind="bar")

#### Обработка и преобразование данных

In [None]:
df.head(7)

In [None]:
df.shape

In [None]:
# преобразуем текстовый признак "Пол" в числовые значения
df["DecodedSex"] = df["Sex"].map({"male": 1, "female": -1})#, "unknown": 0})
df.head(2)

In [None]:
# добавим еще одну характеристику для каждого объекта датасета (вар 1)
def fun(age):
    return age / 100


df["NewAge"] = df["Age"].apply(fun)
df.head(2)

In [None]:
# то же самое можно сделать с помощью лямбда функции (вар 2)
df["NewAge"] = df["Age"].apply(lambda age: age / 100)
df.head(2)

In [None]:
df["NewAge"] = df["Age"] / 100 #(вар 3) !!!!!!!
df.head(2)

**Важно!** Pandas, как и NumPy, является лишь обёрткой на питоне для вычислительно эффективных операций над большими данными. Любое использование циклов в pandas приводит к неэффективности кода. Методы `.apply` и `.map` **медленные**, потому что внутри в цикле применяют питоновскую функцию к элементам таблицы. Старайтесь всегда использовать более эффективные реализации (например, арифметические операторы над столбцами) и прибегать к `.apply` и `.map` только в крайнем случае!

In [None]:
%%timeit
df["NewAge"] = df["Age"].apply(lambda age: age / 100)

In [None]:
%%timeit
df["NewAge"] = df["Age"] / 100

In [None]:
# выделим фамилию из данных (добавляем новый столбец!!!)
# option1 (вар 1)
df["Surname"] = df["Name"].apply(lambda name: name.split(",")[0])  
df.head()

In [None]:
df["Surname"]

In [None]:
df

In [None]:
#удаление столбца
#del df["Surname"]

In [None]:
df

In [None]:
# option 2 (вар 2)
df["Surname"] = df["Name"].apply(lambda name: name[: name.find(",")])  

In [None]:
df["Surname"]

In [None]:
#вспомог.: находим в строке индекс указанного элемента
'qwerty'.find('r')

In [None]:
df["Surname"].value_counts().head()

In [None]:
#Исследуем возраст пассажиров Титаника
#группируем по полу, считаем средний возраст для каждого пола
df.groupby("Sex")["Age"].mean() #вариант 1

или

In [None]:
df.groupby("Sex")["Age"].apply(np.mean) #вариант 2

In [None]:
#обращаем внимание на эффективное использование pandas
%timeit df.groupby("Sex")["Age"].mean()

или

In [None]:
%timeit df.groupby("Sex")["Age"].apply(np.mean)

In [None]:
#средний возраст в квадрате
df.groupby("Sex")["Age"].apply(lambda ages: np.mean(ages) ** 2)

In [None]:
#Группируем по выживаемости, считаем средний возраст выживших и невыживших
df.groupby("Survived")["Age"].apply(np.mean)

In [None]:
# группировка по нескольким столбцам и агрегация нескольких полей сразу 
#(средний возраст, среднее кол-во выживших)
df.groupby(["Sex", "Pclass"]).agg(avg=("Age", "mean"), avg_surv=("Survived", "mean"))

In [None]:
# .mean -> .count
# В скольких семьях (семья, если одна фамилия) было больше трёх человек?
np.sum(df.groupby("Surname")["Name"].count() > 3)

In [None]:
# Сколько семей, в которых минимальный возраст меньше 10 лет?
np.sum(df.groupby("Surname")["Age"].apply(min) < 10)

или

In [None]:
# Сколько семей, в которых минимальный возраст меньше 10 лет? - более правильный вариант
np.sum(df.groupby("Surname")["Age"].min() < 10)

Можно индексировать значения **булевыми масками** (как в numpy)

In [None]:
((df["Age"] > 10) & (df["Age"] < 20)).value_counts()

In [None]:
# пассажиры, удовлетворяющие условию
df.loc[(df["Age"] > 10) & (df["Age"] < 20)]

---

##  Дополнительно. 

##### Применение пользовательских функций

In [None]:
#Датасет с монетами
earnings = pd.DataFrame(
    data=[[7629.39, -9357.49, -1661.3, 8597.23],
          [560.68, None, 10.46, 3578.5],
          [487.38, 7560.38, 1090.87, -5164.93]],
    columns=['BTC', 'DOGE', 'ADA', 'ETH'],
    index=['yesterday', 'today', 'tomorrow']
)
earnings

**Одновременное применение `apply` и `lambda`**

`apply` - функция используется для  **применения указанной функции построчно/поколоночно**   
(если хочется применить построчно добавьте `axis=1`)

`lambda` - функция (анонимная - функция без имени)

In [None]:
f = lambda x: x[0] * x[1]
print(type(f))
t = (5, 2)
print(type(t))
print(f(t))

In [None]:
#  Посчитать дисперсию заработка для каждой монеты. В лямбду приходит pandas.Series объект каждой колонки
earnings.apply(lambda money: money.std() ** 2)

**Применение `applymap`**

`applymap` - функция для поэлементного применения 

In [None]:
# Сделаем вид, что потери превратились в профит
earnings.applymap(abs)

In [None]:
# Применять функцию можно и к отдельной колонке. В лямбду приходит отдельное значение колонки
earnings['BTC+100500'] = earnings['BTC'].apply(lambda money: money + 100500)
earnings

In [None]:
# Если нужно взаимодействие между колонками - применяйте apply row-wise (по строкам) 
earnings['BTC+DOGE'] = earnings.apply(lambda x: x['BTC'] + x.DOGE, axis = 1)
earnings

**Применение `map(команда,послед-ть)`, метод `map()` в `pandas`**

`map(команда,послед-ть)` - функция (метод), которая проходит по всем элементам последовательности и применяет к ним указанную команду (функцию, метод, словарь и.т.д.). Результат можно превратить в список.  
Метод `map()` в `pandas` предоставляет гибкую возможность преобразования значений в объекте DataFrame или Series на основе словарей, функций либо других отображений или преобразований.

In [None]:
#Пример 1
# Создание DataFrame для примера
data = pd.DataFrame({'Gender': ['male', 'female', 'male', 'female']})
print(data)
print()
# Применение map к столбцу Gender
data['Gender_Mapped'] = data['Gender'].map({"male": 1, "female": -1})
print(data)

In [None]:
#Пример 2,3,4,5
print(list(map(lambda x : x ** 2, range(10))))
f_2 = lambda x, y: x + y
lst = list(map(f_2, [-1, -2, -3], [1, 2, 3]))
print(lst)
print(list(map(lambda _: 1, lst)))
for i in map(lambda x: x ** 2, lst):
    print(i)

##### Работа со строковыми колонками

In [None]:
# Привести все к нижнему регистру
df['Name'].str.lower()

In [None]:
# Привести все к верхнему регистру
df['Name'].str.upper()

In [None]:
# Длины строк
df['Name'].str.len()

In [None]:
# Убрать по краям пробельные символы
df['Name'].str.strip()

In [None]:
# Разбить строки по заданному символу
df['Name'].str.split(' ')

In [None]:
# Склеить все строки в одну. Аналог str.join
df['Name'].str.cat(sep=' $$$ ')

In [None]:
# Найти везде подстроку
df['Name'].str.contains('Mr')

In [None]:
~df['Name'].str.contains('Mr')

In [None]:
df[df['Name'].str.contains('Mr')]

In [None]:
# Везде заменить строку на другую
df['Name'].str.replace('Mr', 'Mister')

In [None]:
# Посчитать все появления указанной подстроки
df['Name'].str.lower().str.count('e')

In [None]:
# Проверка наличия префикса
df['Name'].str.startswith('B')

In [None]:
# Проверка наличия суффикса
df['Name'].str.endswith('ry')

In [None]:
# Найти место в строках где начинается искомая строка. 
df['Name'].str.find('Mr')

In [None]:
# Проверка верхнего регистра
df['Name'].str.isupper()

In [None]:
# Проверка нижнего регистра
df['Name'].str.islower()

In [None]:
# Проверка что все символы - цифры
df['Sex'].str.isnumeric()

---

### Задания для самостоятельного решения

#### Часть 1. Для датасета пассажиров Титаника 

1. Какова доля семей, в которых минимальный возраст меньше 20 (семьи с детьми)?

2. Какова доля выживших пассажиров класса 3? А пассажиров класса 1?

3. Сколько пассажиров выжило, а сколько - нет?

4. Создайте столбец 'IsChild', который равен 1, если возраст меньше 20, и 0 - иначе. Для пропущенных значений поведение функции может быть произвольным.

5. Какова доля выживших женщин из первого класса? А доля выживших мужчин из 3 класса?