# Занятие 1. Pandas

Ноутбук составлен по мотивам ноутбука @nadiinchi.


Библиотека Pandas - это модуль для первичной работы с данными. C его помощью можно осуществлять первичный анализ данных и предобработку данных.

Основные возможности pandas:
* удобное чтение и запись данных из csv, txt, xls, SQL databases, HDF5
* удобная работа с пропусками в данных
* поиск, сортировка, выборка объектов, удовлетворяющих заданным критериям
* возможности по соединению датасетов
* красивая визуализация

Импорт библиотеки:

In [1]:
import pandas as pd

### Загрузка данных и создание датафреймов

__Наиболее популярные форматы данных (при скачивании датасета из интернета)__:
* _csv_ (comma separated file), _tsv_ (tab separated file) - таблицы, записанные в текстовые файлы с простой структурой. Эти файлы можно открывать в обычном текстовом редакторе. Pandas позволяет считывать эти данные именно в формате таблицы.
* _xls_ (eXceL Spreadsheet $-$ таблицы Microsoft)
* _json_ (JavaScript Object Notation, используется для _сериализации_ структур языка, то есть сохранения сложных объектов, например, вложенных списков или словарей python). Json-текст представляет собой либо набор пар ключ: значение, либо упорядоченный набор значений
* _txt_ в иной специфичной для задачи форме (например, vowpal-wabbit и uci bag-of-words для <<мешка слов>>)

В pandas есть функции для считывания во всех этих форматах.

В реальной жизни данные хранятся в базах данных, откуда с помощью sql-подобных языков из них составляют файлы в указанных выше форматах.

__Чтение из csv с помощью pandas__:
[pandas.read_csv()](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html)
У функции несколько параметров, основные необходимые:
* filepath_or_buffer (перый и единственный обязательный аргумент) --- имя файла
* sep $-$ разделитель (; , \t ...)
* quotechar $-$ символ кавычек, все что внутри считается за строку (разделители также могут входить в эту строку; ' " ...)
* names $-$ список названий колонок
* header $-$ номер строки файла (с 0), которую нужно считать заголовком
* dtype $-$ словарь, сопоставляющий именам колонок типы данных в них
* na_values $-$ строка/список/словарь (ключи $-$ названия колонок) строковых значений, которые нужно считать пропуском.

По умолчанию names=None и header=0, то есть названия колонок берутся из первой строки файла. Можно передать названия через names. Если вы не хотите давать названия, укажите header=None, тогда названия будут даны автоматически индексами с 0. Учтите, что названия нужны при дальнейшей работе с данными (если вы только не собираетесь взять оттуда только numpy-матрицу; в этом случае они не понадобятся). Следите за длиной списка названий, он должен совпадать с реальным числом колонок в файле (а в противном случае вы получите ошибки)! Чтобы заменить заголовки, записанные в файле, нужно установить header=0 и передать names.

В функцию pd.read\_csv можно передавать как путь к файлу, хранящемуся на компьютере, так и ссылку на файл в Интернете.

Для чтения xls: [pandas.read_excel](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_excel.html)

Для чтения sql: [pandas.read_sql](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_sql.html)


Считывание данных:

In [12]:
data = pd.read_csv("https://raw.githubusercontent.com/Murcha1990/Smartphone_activity_analysis/main/Titanic.csv",
                   sep=",")

data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,Braund; Mr. Owen Harris,male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,Cumings; Mrs. John Bradley (Florence Briggs Th...,female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,Heikkinen; Miss. Laina,female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,Futrelle; Mrs. Jacques Heath (Lily May Peel),female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,Allen; Mr. William Henry,male,35.0,0,0,373450,8.05,,S


Мы будем работать с данными о пассажирах Титаника: их демографические характеристики и выжил пассажир или нет.

Посмотреть первые строки:

In [6]:
data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,Braund; Mr. Owen Harris,male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,Cumings; Mrs. John Bradley (Florence Briggs Th...,female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,Heikkinen; Miss. Laina,female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,Futrelle; Mrs. Jacques Heath (Lily May Peel),female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,Allen; Mr. William Henry,male,35.0,0,0,373450,8.05,,S


In [7]:
type(data)

pandas.core.frame.DataFrame

Переменная, которую возвращает функция чтения, ссылается на _датафрейм_; это основная структура данных в pandas.

Датафрейм можно также создать вручную:

In [14]:
df = pd.DataFrame({'col_1' : [1,3,5,7,9], 'col_2' : [2,4,6,8,10], 'col_3' : [1,-1,1,-1,1]})
df

Unnamed: 0,col_1,col_2,col_3
0,1,2,1
1,3,4,-1
2,5,6,1
3,7,8,-1
4,9,10,1


### Работа со строками и столбцами датафрейма

Датафрейм - это таблица. Названия строк:

In [9]:
data.index

RangeIndex(start=0, stop=891, step=1)

Названия столбов:

In [10]:
data.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

Полезный функционал:
* параметр df.dtypes $-$ типы колонок
* метод [df.fillna(value)](http://pandas.pydata.org/pandas-docs/version/0.17.1/generated/pandas.DataFrame.fillna.html), value $-$ на что заменить (скаляр или словарь с ключами-названиями колонок)
* методы df.head([N]) и df.tail([N]) $-$ показать N (необязательный аргумент) первых или последних значений
* параметры df.index, df.columns и df.values $-$ соответственно индексы строк датафрейма, названия колонок и np.array, составленный из значений датафрейма
* метод df.T $-$ транспонировать данные (поменять строки и столбцы местами)
* сортировка данных по индексу (по названиям строк) и по значениям колонки, например df.sort_index(axis=1, ascending=False) и df.sort_values(by='B')
* метод df.copy() $-$ копировать датафрейм

Все структуры данных, показываемые и возвращаемые pandas, имеют тип, придуманный разработчиками pandas (а не стандартный для python список или словарь). Все эти типы имеют удобный интерфейс обращения к своим элементам (индексация, slicing), но иногда кажутся непривычными. Например, df[smth], как указано выше, должен выдать колонку, имеющую название smth (если она существует в датафрейме).

В датафрейме могут храниться данные разных типов (главное, чтобы тип был один и тот же внутри колонки), например float, int, string.

In [11]:
data.dtypes

PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

Выбор одного или нескольких столбцов:

In [14]:
data['Age']

0      22.0
1      38.0
2      26.0
3      35.0
4      35.0
       ... 
886    27.0
887    19.0
888     NaN
889    26.0
890    32.0
Name: Age, Length: 891, dtype: float64

In [15]:
data[["Age", "Sex", "Cabin"]].head(5)

Unnamed: 0,Age,Sex,Cabin
0,22.0,male,
1,38.0,female,C85
2,26.0,female,
3,35.0,female,C123
4,35.0,male,


В машинном обучении библиотеку удобно использовать со следующей интерпретацией: по строкам датафрейма находятся объекты, по столбцам - признаки и целевая переменная (величина, которую мы хотим предсказывать). В нашем датафрейме целевая переменная задана в столбце Survived. Если мы бы хотели выделить часть датафрейма без этого столбца, мы бы использовали такой код:

In [18]:
y = data['Survived']

data.drop("Survived", axis=1).head()

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,3,Braund; Mr. Owen Harris,male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,Cumings; Mrs. John Bradley (Florence Briggs Th...,female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,3,Heikkinen; Miss. Laina,female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,Futrelle; Mrs. Jacques Heath (Lily May Peel),female,35.0,1,0,113803,53.1,C123,S
4,5,3,Allen; Mr. William Henry,male,35.0,0,0,373450,8.05,,S


Обратите внимание, что столбец не удалился из датафрейма навсегда. Наоборот, результат нашей операции записан в выводе, и если бы мы хотели его сохранить, мы должны были бы присвоить результат операции новой переменной.

In [20]:
data_new = data.drop("Survived", axis=1)

Индексация по строкам:

In [21]:
data2 = data.iloc[data.index % 2 == 0].head(5)

data2

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,Braund; Mr. Owen Harris,male,22.0,1,0,A/5 21171,7.25,,S
2,3,1,3,Heikkinen; Miss. Laina,female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,5,0,3,Allen; Mr. William Henry,male,35.0,0,0,373450,8.05,,S
6,7,0,1,McCarthy; Mr. Timothy J,male,54.0,0,0,17463,51.8625,E46,S
8,9,1,3,Johnson; Mrs. Oscar W (Elisabeth Vilhelmina Berg),female,27.0,0,2,347742,11.1333,,S


Использовать столбец Name для задания названий строк (index):

In [22]:
data.set_index(data["Name"], inplace=True)

# data.set_index(data["Name"]) # таблица не изменится

In [23]:
data.head()

Unnamed: 0_level_0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
Braund; Mr. Owen Harris,1,0,3,Braund; Mr. Owen Harris,male,22.0,1,0,A/5 21171,7.25,,S
Cumings; Mrs. John Bradley (Florence Briggs Thayer),2,1,1,Cumings; Mrs. John Bradley (Florence Briggs Th...,female,38.0,1,0,PC 17599,71.2833,C85,C
Heikkinen; Miss. Laina,3,1,3,Heikkinen; Miss. Laina,female,26.0,0,0,STON/O2. 3101282,7.925,,S
Futrelle; Mrs. Jacques Heath (Lily May Peel),4,1,1,Futrelle; Mrs. Jacques Heath (Lily May Peel),female,35.0,1,0,113803,53.1,C123,S
Allen; Mr. William Henry,5,0,3,Allen; Mr. William Henry,male,35.0,0,0,373450,8.05,,S


Теперь строки индексируются с помощью Name (выделено жирным в начале каждой строки).

Считывание данных без названий колонок и придумывание своих названий колонкам:

In [24]:
data_m = pd.read_csv("https://archive.ics.uci.edu/ml/machine-learning-databases/mushroom/agaricus-lepiota.data",
                     header=None)

In [25]:
data_m.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,13,14,15,16,17,18,19,20,21,22
0,p,x,s,n,t,p,f,c,n,k,...,s,w,w,p,w,o,p,k,s,u
1,e,x,s,y,t,a,f,c,b,k,...,s,w,w,p,w,o,p,n,n,g
2,e,b,s,w,t,l,f,c,b,n,...,s,w,w,p,w,o,p,n,n,m
3,p,x,y,w,t,p,f,c,n,n,...,s,w,w,p,w,o,p,k,s,u
4,e,x,s,g,f,n,f,w,b,k,...,s,w,w,p,w,o,e,n,a,g


In [26]:
data_m.columns = ["col"+str(i) for i in range(23)]

In [27]:
data_m.head()

Unnamed: 0,col0,col1,col2,col3,col4,col5,col6,col7,col8,col9,...,col13,col14,col15,col16,col17,col18,col19,col20,col21,col22
0,p,x,s,n,t,p,f,c,n,k,...,s,w,w,p,w,o,p,k,s,u
1,e,x,s,y,t,a,f,c,b,k,...,s,w,w,p,w,o,p,n,n,g
2,e,b,s,w,t,l,f,c,b,n,...,s,w,w,p,w,o,p,n,n,m
3,p,x,y,w,t,p,f,c,n,n,...,s,w,w,p,w,o,p,k,s,u
4,e,x,s,g,f,n,f,w,b,k,...,s,w,w,p,w,o,e,n,a,g


### Анализ и преобразование датафрейма

Основная информация по датафрейму:

In [28]:
data.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


По этим статистикам можно понять, одинаковый ли масштаб имеют признаки (например, Age измеряется от 0 до 80, а Pclass в единицах - от 1 до 3). Также можно понять, есть ли пропуски в данных (по count). Например, в графе Age есть пропуски.

Уникальные значения в столбце:

In [29]:
set(data["Sex"])

{'female', 'male', 'unknown'}

Уникальные значения в столбце с числом строк с таким значением:

In [30]:
data["Sex"].value_counts()

male       574
female     312
unknown      5
Name: Sex, dtype: int64

In [31]:
data[data.Sex == 'unknown']

Unnamed: 0_level_0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
Moran; Mr. James,6,0,3,Moran; Mr. James,unknown,,0,0,330877,8.4583,,Q
Andersson; Mr. Anders Johan,14,0,3,Andersson; Mr. Anders Johan,unknown,39.0,1,5,347082,31.275,,S
"O'Dwyer; Miss. Ellen ""Nellie""",29,1,3,"O'Dwyer; Miss. Ellen ""Nellie""",unknown,,0,0,330959,7.8792,,Q
Arnold-Franchi; Mrs. Josef (Josefine Franchi),50,0,3,Arnold-Franchi; Mrs. Josef (Josefine Franchi),unknown,18.0,1,0,349237,17.8,,S
Caldwell; Master. Alden Gates,79,1,2,Caldwell; Master. Alden Gates,unknown,0.83,0,2,248738,29.0,,S


Перекодирование столбца с помощью функции map:

In [32]:
sex = data["Sex"]
sex.map({"male":1, "female":-1, "unknown":0}).head()

Name
Braund; Mr. Owen Harris                                1
Cumings; Mrs. John Bradley (Florence Briggs Thayer)   -1
Heikkinen; Miss. Laina                                -1
Futrelle; Mrs. Jacques Heath (Lily May Peel)          -1
Allen; Mr. William Henry                               1
Name: Sex, dtype: int64

Функция apply: применение функции поэлементно к столбцу или строке (+ создание нового столбца, потому что apply возвращает результат и никак не модифицирует датафрейм)

In [33]:
data["NewAge"] = data["Age"].apply(lambda x: x+100)

In [34]:
data.head()

Unnamed: 0_level_0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,NewAge
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
Braund; Mr. Owen Harris,1,0,3,Braund; Mr. Owen Harris,male,22.0,1,0,A/5 21171,7.25,,S,122.0
Cumings; Mrs. John Bradley (Florence Briggs Thayer),2,1,1,Cumings; Mrs. John Bradley (Florence Briggs Th...,female,38.0,1,0,PC 17599,71.2833,C85,C,138.0
Heikkinen; Miss. Laina,3,1,3,Heikkinen; Miss. Laina,female,26.0,0,0,STON/O2. 3101282,7.925,,S,126.0
Futrelle; Mrs. Jacques Heath (Lily May Peel),4,1,1,Futrelle; Mrs. Jacques Heath (Lily May Peel),female,35.0,1,0,113803,53.1,C123,S,135.0
Allen; Mr. William Henry,5,0,3,Allen; Mr. William Henry,male,35.0,0,0,373450,8.05,,S,135.0


Создадим колонку Adult, где будет стоять 1, если человеку есть 18 лет, и 0 иначе.

In [35]:
data['Adult'] = data['Age'].apply(lambda x: 1 if x>=18 else 0)
data.head()

Unnamed: 0_level_0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,NewAge,Adult
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
Braund; Mr. Owen Harris,1,0,3,Braund; Mr. Owen Harris,male,22.0,1,0,A/5 21171,7.25,,S,122.0,1
Cumings; Mrs. John Bradley (Florence Briggs Thayer),2,1,1,Cumings; Mrs. John Bradley (Florence Briggs Th...,female,38.0,1,0,PC 17599,71.2833,C85,C,138.0,1
Heikkinen; Miss. Laina,3,1,3,Heikkinen; Miss. Laina,female,26.0,0,0,STON/O2. 3101282,7.925,,S,126.0,1
Futrelle; Mrs. Jacques Heath (Lily May Peel),4,1,1,Futrelle; Mrs. Jacques Heath (Lily May Peel),female,35.0,1,0,113803,53.1,C123,S,135.0,1
Allen; Mr. William Henry,5,0,3,Allen; Mr. William Henry,male,35.0,0,0,373450,8.05,,S,135.0,1


In [36]:
len(data[data.Adult == 0])

290

Функция groupby: создание групп по значению какого-то столбца (или группы столбцов)

In [37]:
data.groupby("Sex")

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000021BB8495AC8>

In [38]:
data.groupby("Sex")['Age'].mean()

Sex
female     27.953846
male       30.774590
unknown    19.276667
Name: Age, dtype: float64

Создаем столбец с фамилией:

In [40]:
name = "Braund; Mr. Owen Harris"
name.split(";")[0]

'Braund'

In [41]:
data["Family"] = data["Name"].apply(lambda s: s.split(";")[0])

In [42]:
data.head(1)

Unnamed: 0_level_0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,NewAge,Adult,Family
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
Braund; Mr. Owen Harris,1,0,3,Braund; Mr. Owen Harris,male,22.0,1,0,A/5 21171,7.25,,S,122.0,1,Braund


Сколько человек в каждой семье (семья - множество людей с одной фамилией Family)?

In [43]:
data.groupby("Family")["Parch"].count().head()

Family
Abbing     1
Abbott     2
Abelson    2
Adahl      1
Adams      1
Name: Parch, dtype: int64

Сколько семей, в которых больше трех человек?

In [44]:
(data.groupby("Family")["Fare"].count() > 3).sum()

22

Выбор строк по условию (индексация по строкам по массиву из True и False)

In [45]:
data[(data.Age > 10) & (data.Sex=="male")].head()

Unnamed: 0_level_0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,NewAge,Adult,Family
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
Braund; Mr. Owen Harris,1,0,3,Braund; Mr. Owen Harris,male,22.0,1,0,A/5 21171,7.25,,S,122.0,1,Braund
Allen; Mr. William Henry,5,0,3,Allen; Mr. William Henry,male,35.0,0,0,373450,8.05,,S,135.0,1,Allen
McCarthy; Mr. Timothy J,7,0,1,McCarthy; Mr. Timothy J,male,54.0,0,0,17463,51.8625,E46,S,154.0,1,McCarthy
Saundercock; Mr. William Henry,13,0,3,Saundercock; Mr. William Henry,male,20.0,0,0,A/5. 2151,8.05,,S,120.0,1,Saundercock
Fynney; Mr. Joseph J,21,0,2,Fynney; Mr. Joseph J,male,35.0,0,0,239865,26.0,,S,135.0,1,Fynney


### Задания:

1. Сколько пассажиров выжило, а сколько - нет?

In [46]:
#your code here

2. Какова доля выживших пассажиров из класса 3? А пассажиров из класса 1?

In [47]:
#your code here

3. Какова доля семей, в которых минимальный возраст меньше 20 (семьи с детьми)?

In [48]:
#your code here

4. Создайте столбец "IsChild", который равен 1, если возраст меньше 20, и 0 иначе. Для пропущенных значений поведение функции может быть произвольным.

In [49]:
#your code here

5. Какова доля выживших женщин из первого класса? А доля выживших мужчин из 3 класса?

In [50]:
#your code here