© Валерий Студенников, курс "Инструменты анализа данных" в СГАУ

## Pandas

pandas — это высокоуровневая Python библиотека для работы с табличными данными.

Материалы:
* https://khashtamov.com/ru/pandas-introduction/
* https://pandas.pydata.org/pandas-docs/stable/10min.html
* https://habr.com/company/ods/blog/322626/
* Книжка *"Python для анализа данных"*, главы про pandas

In [2]:
import numpy as np
import pandas as pd

In [3]:
# Пример создания DataFrame на основе 
import sklearn.datasets

iris = sklearn.datasets.load_iris()

data1 = pd.DataFrame( data = np.c_[iris['data'], iris['target']],
                      columns = iris['feature_names'] + ['target'] )

data1.target = data1.target.astype( int )

data1.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


In [5]:
df = pd.read_csv('bikes_rent.csv')
df.head()

Unnamed: 0,season,yr,mnth,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed(mph),windspeed(ms),cnt
0,1,0,1,0,6,0,2,14.110847,18.18125,80.5833,10.749882,4.80549,985
1,1,0,1,0,0,0,2,14.902598,17.68695,69.6087,16.652113,7.443949,801
2,1,0,1,0,1,1,1,8.050924,9.47025,43.7273,16.636703,7.43706,1349
3,1,0,1,0,2,1,1,8.2,10.6061,59.0435,10.739832,4.800998,1562
4,1,0,1,0,3,1,1,9.305237,11.4635,43.6957,12.5223,5.59781,1600


Два главные класса pandas: DataFrame и Series

### pandas.Series

In [320]:
myseries = pd.Series([5, 6, 7, 8, 9, 10])
myseries

0     5
1     6
2     7
3     8
4     9
5    10
dtype: int64

Объект Series можно также представлять себе как упорядоченный словарь фиксированной
длины, поскольку он отображает индекс на данные.

In [321]:
myseries.index

RangeIndex(start=0, stop=6, step=1)

In [322]:
myseries.values

array([ 5,  6,  7,  8,  9, 10])

In [323]:
myseries.dtype

dtype('int64')

In [16]:
# Доступ к элементам объекта Series возможны по индексу
myseries[4]

9

In [324]:
# Индексы можно задавать явно
myseries2 = pd.Series( [5, 6, 7, 8, 9, 10], index=['a', 'b', 'c', 'd', 'e', 'f'] )
myseries2

a     5
b     6
c     7
d     8
e     9
f    10
dtype: int64

In [325]:
# выборка по индексу
myseries2['f']

10

In [328]:
# выборка по нескольким индексам
myseries2[['a', 'b', 'f']]

a     5
b     6
f    10
dtype: int64

In [329]:
# групповое присваивание
myseries2[['a', 'b', 'f']] = 0
myseries2

a    0
b    0
c    7
d    8
e    9
f    0
dtype: int64

In [142]:
# Series можно передавать многим функциям, ожидающим получить словарь:
'b' in myseries2, 'g' in myseries2

(True, False)

In [330]:
# Фильтрация Series:
myseries2[ myseries2 > 0 ]

c    7
d    8
e    9
dtype: int64

In [334]:
# А вот что под капотом
myseries2 > 0

a    False
b    False
c     True
d     True
e     True
f    False
dtype: bool

In [339]:
# Пропущенные значения
myseries2[['a', 'f']] = None # np.nan
myseries2

a    NaN
b    0.0
c    7.0
d    8.0
e    9.0
f    NaN
dtype: float64

In [148]:
myseries2.isnull() # pd.isnull( myseries2 )

a     True
b    False
c    False
d    False
e    False
f     True
dtype: bool

In [150]:
myseries2[ myseries2.notnull() ]

b    0.0
c    7.0
d    8.0
e    9.0
dtype: float64

In [344]:
myseries2.fillna( -1, inplace = True )
myseries2

a   -1.0
b    0.0
c    7.0
d    8.0
e    9.0
f   -1.0
dtype: float64

In [346]:
# можно применять математические операции
# !!! Обратите внимание, что индекс остался неизменным
myseries2 * 2 + 1

a    -1.0
b     1.0
c    15.0
d    17.0
e    19.0
f    -1.0
dtype: float64

In [347]:
# Применение к элементам функций numpy
# !!! Обратите внимание, что индекс остался неизменным
np.sqrt( myseries2[['c','d','e']] )

c    2.645751
d    2.828427
e    3.000000
dtype: float64

In [348]:
myseries3 = pd.Series( {'a': 5, 'b': 6, 'c': 7, 'd': 8} )
myseries3

a    5
b    6
c    7
d    8
dtype: int64

In [349]:
# У объекта Series и его индекса есть атрибут name, задающий имя объекту и индексу соответственно
myseries3.name = 'numbers'
myseries3.index.name = 'letters'
myseries3

letters
a    5
b    6
c    7
d    8
Name: numbers, dtype: int64

In [350]:
# Индекс можно поменять "на лету", присвоив список атрибуту index объекта Series

myseries3.index = ['A', 'B', 'C', 'D']
myseries3

A    5
B    6
C    7
D    8
Name: numbers, dtype: int64

In [164]:
myseries3.copy()

A    5
B    6
C    7
D    8
dtype: int64

## DataFrame

Объект `DataFrame` представляет табличную структуру данных, состоящую из
упорядоченной коллекции столбцов, причем типы значений (числовой, строковый,
булев и т. д.) в разных столбцах могут различаться.

Можно считать, что это словарь объектов Series.

In [351]:
# Конструктор DataFrame на основе питоновского словаря:
data = {
     'country': ['Kazakhstan', 'Russia', 'Belarus', 'Ukraine'],
     'population': [17.04, 143.5, 9.5, 45.5],
     'square': [2724902, 17125191, 207600, 603628],
}

df = pd.DataFrame(data)
df

Unnamed: 0,country,population,square
0,Kazakhstan,17.04,2724902
1,Russia,143.5,17125191
2,Belarus,9.5,207600
3,Ukraine,45.5,603628


In [6]:
# Можно передавать данные разных типов
pd.DataFrame({
    'A' : 1.,
    'B' : pd.Timestamp('20130102'),
    'C' : pd.Series([5,3,1,7], index=list(range(4))),
    'D' : np.array( [3,8,5,6] ),
    'E' : pd.Categorical(["test","train","test","train"]),
    'F' : 'foo'
})

Unnamed: 0,A,B,C,D,E,F
0,1.0,2013-01-02,5,3,test,foo
1,1.0,2013-01-02,3,8,train,foo
2,1.0,2013-01-02,1,5,test,foo
3,1.0,2013-01-02,7,6,train,foo


In [237]:
# Можно конструировать DF множеством способов, например с помощью numpy
dfr = pd.DataFrame( np.random.randn(3,4) )
dfr

Unnamed: 0,0,1,2,3
0,-0.022227,-1.384734,1.935308,-0.662665
1,0.545118,-0.645782,0.152441,-0.649196
2,0.508409,-1.723055,-1.035597,0.969799


In [76]:
# посмотрим типы данных колонок
df.dtypes

country        object
population    float64
square          int64
dtype: object

Доступ к колонкам:

In [77]:
# убеждаемся, что столбец в DataFrame — это Series
df['country']

0    Kazakhstan
1        Russia
2       Belarus
3       Ukraine
Name: country, dtype: object

In [78]:
type(df['country'])

pandas.core.series.Series

In [79]:
# к столбцам можно обращаться, используя атрибут или нотацию словарей Python,
# т.е. df.country и df['country'] это одно и то же.
df.country

0    Kazakhstan
1        Russia
2       Belarus
3       Ukraine
Name: country, dtype: object

In [353]:
# Доступ к списку полей — получаем срез DataFrame по полям
df[['country', 'square']]

Unnamed: 0,country,square
0,Kazakhstan,2724902
1,Russia,17125191
2,Belarus,207600
3,Ukraine,603628


In [7]:
# смотрим что там у нас за индекс
df.index

RangeIndex(start=0, stop=731, step=1)

Объект DataFrame имеет 2 индекса: по строкам и по столбцам:
`df.index` и `df.columns`.

Если индекс по строкам явно не задан, то pandas задаёт целочисленный индекс RangeIndex от 0 до N-1, где N это количество строк в таблице.

In [356]:
df2 = df.copy()
df2.columns = ['C', 'P', 'S']
df2

Unnamed: 0,C,P,S
0,Kazakhstan,17.04,2724902
1,Russia,143.5,17125191
2,Belarus,9.5,207600
3,Ukraine,45.5,603628


In [45]:
df.index

RangeIndex(start=0, stop=4, step=1)

In [10]:
# колонки — это тоже объект индекса
df.columns

Index(['season', 'yr', 'mnth', 'holiday', 'weekday', 'workingday',
       'weathersit', 'temp', 'atemp', 'hum', 'windspeed(mph)', 'windspeed(ms)',
       'cnt'],
      dtype='object')

### Доступ по индексу в DataFrame

Индекс по строкам можно задать разными способами, например, при формировании самого объекта DataFrame или "на лету":

In [12]:
# Указываем индекс сразу при создании объекта DF
df = pd.DataFrame({
     'country': ['Kazakhstan', 'Russia', 'Belarus', 'Ukraine'],
     'population': [17.04, 143.5, 9.5, 45.5],
     'square': [2724902, 17125191, 207600, 603628]
}, index=['KZ', 'RU', 'BY', 'UA'])

df

Unnamed: 0,country,population,square
KZ,Kazakhstan,17.04,2724902
RU,Russia,143.5,17125191
BY,Belarus,9.5,207600
UA,Ukraine,45.5,603628


In [13]:
# задаём значения индекса
df.index = ['KZ', 'RU', 'BY', 'UA']
# задаём имя индекса
df.index.name = 'Country Code'
df

Unnamed: 0_level_0,country,population,square
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
KZ,Kazakhstan,17.04,2724902
RU,Russia,143.5,17125191
BY,Belarus,9.5,207600
UA,Ukraine,45.5,603628


Доступ к строкам по индексу возможен несколькими способами:

In [14]:
# .loc - используется для доступа по строковой метке
df.loc[['KZ','RU']]

Unnamed: 0_level_0,country,population,square
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
KZ,Kazakhstan,17.04,2724902
RU,Russia,143.5,17125191


In [16]:
# выбираем одну единственную строчку и убеждаемся, что это объект Series, у которого индекс по названиям колонок
type(df.loc['KZ']), df.loc['KZ'].index

(pandas.core.series.Series,
 Index(['country', 'population', 'square'], dtype='object'))

In [57]:
# .iloc - используется для доступа по числовому значению (начиная от 0)
df.iloc[0]

country       Kazakhstan
population         17.04
square           2724902
Name: KZ, dtype: object

In [194]:
# естественно, можно указать сразу несколько значений индекса
df.iloc[ [0,1] ]

Unnamed: 0,country,population,square
0,Kazakhstan,17.04,2724902
1,Russia,143.5,17125191


In [58]:
# Выборка сразу по нескольким элементам индекса
df.loc[['KZ', 'RU']]

Unnamed: 0_level_0,country,population,square
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
KZ,Kazakhstan,17.04,2724902
RU,Russia,143.5,17125191


In [69]:
# Можно делать выборку по индексу и интересующим колонкам:
df.loc[['KZ', 'RU'], 'population']

Country Code
KZ     17.04
RU    143.50
Name: population, dtype: float64

In [70]:
# Можно сразу список полей указавать в loc:
df.loc[['KZ', 'RU'], ['population','square']]

Unnamed: 0_level_0,population,square
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1
KZ,17.04,2724902
RU,143.5,17125191


In [71]:
# .loc в квадратных скобках принимает 2 аргумента:
# - интересующий индекс (в том числе поддерживается слайсинг)
# - колонки
df.loc['KZ':'BY', 'country':'population']

Unnamed: 0_level_0,country,population
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1
KZ,Kazakhstan,17.04
RU,Russia,143.5
BY,Belarus,9.5


In [215]:
# .at — оптимизированная версия .loc
df.at[ 'RU', 'population' ]

143.5

In [216]:
# доступ к колонкам по номерам
df.iat[ 1, 1 ]

143.5

In [236]:
# можно устанавливать значения через .at или .loc
df.at[ 'RU', 'population' ] = 144

<img src="https://i.stack.imgur.com/S0PTh.png" height="500">

In [207]:
# фильтрация строк по диапазону номеров строк
df[ 0:2 ]

Unnamed: 0_level_0,country,population,square
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
KZ,Kazakhstan,17.04,2724902
RU,Russia,143.5,17125191


In [208]:
# фильтрация строк по диапазону индекса
df[ 'KZ':'RU' ]

Unnamed: 0_level_0,country,population,square
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
KZ,Kazakhstan,17.04,2724902
RU,Russia,143.5,17125191


#### Фильтрация по логическому условию

In [64]:
# Фильтрация DataFrame с помощью булевых массивов
df[ df.population > 10 ]

Unnamed: 0_level_0,country,population,square
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
KZ,Kazakhstan,17.04,2724902
RU,Russia,143.5,17125191
UA,Ukraine,45.5,603628


In [65]:
# Под капотом
df.population > 10

Country Code
KZ     True
RU     True
BY    False
UA     True
Name: population, dtype: bool

In [213]:
# .isin — для фильтрации категориальных колонок
df[ df['country'].isin(['Russia','Kazakhstan']) ]

Unnamed: 0_level_0,country,population,square
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
KZ,Kazakhstan,17.04,2724902
RU,Russia,143.5,17125191


In [240]:
# Присваивание значений отфильтрованному диапазону
dfr[ dfr < 0 ] = -dfr
dfr

Unnamed: 0,0,1,2,3
0,0.022227,1.384734,1.935308,0.662665
1,0.545118,0.645782,0.152441,0.649196
2,0.508409,1.723055,1.035597,0.969799


In [243]:
# под капотом
dfr > 0.5

Unnamed: 0,0,1,2,3
0,False,True,True,True
1,True,True,False,True
2,True,True,True,True


In [210]:
# Сбросить индексы можно вот так:
df.reset_index()

Unnamed: 0,Country Code,country,population,square
0,KZ,Kazakhstan,17.04,2724902
1,RU,Russia,143.5,17125191
2,BY,Belarus,9.5,207600
3,UA,Ukraine,45.5,603628


### Операции с колонками

In [302]:
# Добавим новый столбец, в котором население (в миллионах) поделим на площадь страны,
# получив тем самым плотность:
df['density'] = df['population'] / df['square'] * 1000000
df

Unnamed: 0_level_0,country,population,square,density
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
KZ,Kazakhstan,17.04,2724902,6.253436
RU,Russia,144.0,17125191,8.408665
BY,Belarus,9.5,207600,45.761079
UA,Ukraine,45.5,603628,75.37755


In [28]:
# .apply для всего DataFrame
df['density'] = df.apply( lambda row: row['population'] / row['square'] * 1000000, axis = 1 )
df

Unnamed: 0_level_0,country,population,square,square_,density
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
KZ,Kazakhstan,17.04,2724902,2724.902,6.253436
RU,Russia,143.5,17125191,17125.191,8.379469
BY,Belarus,9.5,207600,207.6,45.761079
UA,Ukraine,45.5,603628,603.628,75.37755


In [24]:
# .apply для DataFrame через передачу ссылки на функцию
def get_density( row ):
    return row['population'] / row['square'] * 1000000

df.apply( get_density, axis = 1 )

Country Code
KZ     6.253436
RU     8.379469
BY    45.761079
UA    75.377550
dtype: float64

In [19]:
# Series.apply — для конкретной колонки
df['square_'] = df['square'].apply( lambda val: val / 1000 )
df['square_']

Country Code
KZ     2724.902
RU    17125.191
BY      207.600
UA      603.628
Name: square_, dtype: float64

In [20]:
# удаляем лишние колонки, которые мы навычисляли
df.drop(['density', 'square_'], axis='columns')

Unnamed: 0_level_0,country,population,square
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
KZ,Kazakhstan,17.04,2724902
RU,Russia,143.5,17125191
BY,Belarus,9.5,207600
UA,Ukraine,45.5,603628


In [29]:
# можно удалять колонки через del
del df['density']
df

Unnamed: 0_level_0,country,population,square,square_
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
KZ,Kazakhstan,17.04,2724902,2724.902
RU,Russia,143.5,17125191,17125.191
BY,Belarus,9.5,207600,207.6
UA,Ukraine,45.5,603628,603.628


In [95]:
# Переименовывать столбцы нужно через метод rename:
df.rename( columns = {'country': 'Country Name'} )

Unnamed: 0_level_0,Country Name,population,square,density
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
KZ,Kazakhstan,17.04,2724902,6.253436
RU,Russia,143.5,17125191,8.379469
BY,Belarus,9.5,207600,45.761079
UA,Ukraine,45.5,603628,75.37755


In [96]:
# inplace = True
df.rename( columns = {'square': 'Square Km'}, inplace = True )
df

Unnamed: 0_level_0,country,population,Square Km,density
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
KZ,Kazakhstan,17.04,2724902,6.253436
RU,Russia,143.5,17125191,8.379469
BY,Belarus,9.5,207600,45.761079
UA,Ukraine,45.5,603628,75.37755


Когда столбцу присваивается список или массив, длина значения должна совпадать
с длиной DataFrame. Если же присваивается объект Series, то он будет
точно согласован с индексом DataFrame, а в "дырки" будут вставлены значения
NA.

In [161]:
df['tmp'] = np.arange(4) + 1
df

Unnamed: 0,country,population,square,tmp
0,Kazakhstan,17.04,2724902,1
1,Russia,143.5,17125191,2
2,Belarus,9.5,207600,3
3,Ukraine,45.5,603628,4


In [190]:
df.drop( columns = ['tmp'], inplace = True )
# Можно "транспонировать" DF
df.T

Unnamed: 0,0,1,2,3
country,Kazakhstan,Russia,Belarus,Ukraine
population,17.04,143.5,9.5,45.5
square,2724902,17125191,207600,603628


#### Манипуляции с данными

In [183]:
# Копирование DF
df.copy().shape

(4, 4)

In [191]:
# Сортировка по индексу
df.sort_index( axis = 0, ascending = False ) # axis = 1 — сортировка колонок, поддержка inplace = True

Unnamed: 0,country,population,square
3,Ukraine,45.5,603628
2,Belarus,9.5,207600
1,Russia,143.5,17125191
0,Kazakhstan,17.04,2724902


In [192]:
df.sort_values( by = 'population' )

Unnamed: 0,country,population,square
2,Belarus,9.5,207600
0,Kazakhstan,17.04,2724902
3,Ukraine,45.5,603628
1,Russia,143.5,17125191


## Чтение и запись данных

pandas поддерживает все самые популярные форматы обмена данными: CSV, excel, SQL, буфер обмена, HTML и многое другое.

_Pickling_

`read_pickle` — Load pickled pandas object (or any object) from file.<br/>

_Flat File_

`read_table` — Read general delimited file into DataFrame<br/>
`read_csv` — Read CSV (comma-separated) file into DataFrame<br/>
`read_fwf` — Read a table of fixed-width formatted lines into DataFrame<br/>
`read_msgpack` — Load msgpack pandas object from the specified file path<br/>

_Clipboard_

`read_clipboard` — Read text from clipboard and pass to read_table.<br/>

_Excel_

`read_excel` — Read an Excel table into a pandas DataFrame<br/>
`ExcelFile.parse` — Parse specified sheet(s) into a DataFrame<br/>

_JSON_

`read_json`	Convert a JSON string to pandas object<br/>
`json_normalize`	“Normalize” semi-structured JSON data into a flat table<br/>
`build_table_schema`	Create a Table schema from data.<br/>

_HTML_

`read_html` — Read HTML tables into a list of DataFrame objects.<br/>

_HDFStore: PyTables (HDF5)_

`read_hdf`	Read from the store, close it if we opened it.<br/>

_Feather_

`read_feather`	Load a feather-format object from the file path<br/>

_Parquet_

`read_parquet` — Load a parquet object from the file path, returning a DataFrame.<br/>

_SAS_

`read_sas` — Read SAS files stored as either XPORT or SAS7BDAT format files.<br/>

_SQL_

`read_sql_table` — Read SQL database table into a DataFrame.<br/>
`read_sql_query` — Read SQL query into a DataFrame.<br/>
`read_sql` — Read SQL query or database table into a DataFrame.<br/>

_Google BigQuery_

`read_gbq` — Load data from Google BigQuery.<br/>

### CSV

In [98]:
# Запишем CSV
df.to_csv('/tmp/countries.csv')

In [100]:
# Считаем CSV
df2 = pd.read_csv('/tmp/countries.csv')
df2

Unnamed: 0,Country Code,country,population,Square Km,density
0,KZ,Kazakhstan,17.04,2724902,6.253436
1,RU,Russia,143.5,17125191,8.379469
2,BY,Belarus,9.5,207600,45.761079
3,UA,Ukraine,45.5,603628,75.37755


In [102]:
# Явно укажем индексное поле
df2 = pd.read_csv('/tmp/countries.csv', index_col = 'Country Code')
df2

Unnamed: 0_level_0,country,population,Square Km,density
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
KZ,Kazakhstan,17.04,2724902,6.253436
RU,Russia,143.5,17125191,8.379469
BY,Belarus,9.5,207600,45.761079
UA,Ukraine,45.5,603628,75.37755


In [39]:
# Можно даже читать из интернета
import ssl
ssl._create_default_https_context = ssl._create_unverified_context

# uri = 'https://gist.githubusercontent.com/michhar/2dfd2de0d4f8727f873422c5d959fff5/raw/ff414a1bcfcba32481e4d4e8db578e55872a2ca1/titanic.csv'
uri = 'https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv'
titanic_df = pd.read_csv( uri, index_col='PassengerId' )
titanic_df.head()

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


### SQL

In [106]:
# Запишем стандартный dataset iris в табличку
import sqlalchemy

dbconn_str =  "mysql+pymysql://ds_course:Lodu5ooj@ds-internship.int.reg.ru:3306/test"
engine = sqlalchemy.create_engine( dbconn_str )
con = engine.connect()
con.execute( "SET autocommit = 1" )
data1.to_sql( 'dataset_iris', con, if_exists = 'replace' )

In [109]:
# создаём коннект
import pymysql

db_test = pymysql.connect(
    host   = "ds-internship.int.reg.ru",
    user   = "ds_course",
    passwd = "Lodu5ooj",
    db     = "test",
    charset = 'utf8'
)

In [110]:
df3 = pd.read_sql('SELECT * FROM dataset_iris', db_test)
df3.head()

Unnamed: 0,index,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,0,5.1,3.5,1.4,0.2,0
1,1,4.9,3.0,1.4,0.2,0
2,2,4.7,3.2,1.3,0.2,0
3,3,4.6,3.1,1.5,0.2,0
4,4,5.0,3.6,1.4,0.2,0


In [111]:
df3 = pd.read_sql('SELECT * FROM dataset_iris', db_test, index_col='index')
df3.head()

Unnamed: 0_level_0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


## Анализ данных в pandas

In [182]:
# Размерность таблицы
titanic_df.shape

(156, 11)

In [127]:
# описательные статистики для всех числовых полей
titanic_df.describe()

Unnamed: 0,Survived,Pclass,Age,SibSp,Parch,Fare
count,156.0,156.0,126.0,156.0,156.0,156.0
mean,0.346154,2.423077,28.141508,0.615385,0.397436,28.109587
std,0.477275,0.795459,14.61388,1.056235,0.870146,39.401047
min,0.0,1.0,0.83,0.0,0.0,6.75
25%,0.0,2.0,19.0,0.0,0.0,8.00315
50%,0.0,3.0,26.0,0.0,0.0,14.4542
75%,1.0,3.0,35.0,1.0,0.0,30.37185
max,1.0,3.0,71.0,5.0,5.0,263.0


In [134]:
# различные описательные статистики для колонок
titanic_df.Survived.mean(), titanic_df['Age'].max(), titanic_df.Age.min(), titanic_df.Age.median()

(0.34615384615384615, 71.0, 0.83, 26.0)

### Группировка и агрегирование

In [40]:
# Группировка и агрегирование
titanic_df.groupby(['Sex', 'Survived'])['Survived'].count()

Sex     Survived
female  0            81
        1           233
male    0           468
        1           109
Name: Survived, dtype: int64

In [43]:
# Агрегирование сразу нескольких полей
titanic_df.groupby(['Sex', 'Survived'])['Age','Fare'].agg(['min','mean'])

  """Entry point for launching an IPython kernel.


Unnamed: 0_level_0,Unnamed: 1_level_0,Age,Age,Fare,Fare
Unnamed: 0_level_1,Unnamed: 1_level_1,min,mean,min,mean
Sex,Survived,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
female,0,2.0,25.046875,6.75,23.024385
female,1,0.75,28.847716,7.225,51.938573
male,0,1.0,31.618056,0.0,21.960993
male,1,0.42,27.276022,0.0,40.821484


### Сводные таблицы

In [46]:
# подготовим данные для .pivot
df_grp = titanic_df.groupby(['Sex', 'Survived'])['Age'].mean().reset_index()
df_grp

Unnamed: 0,Sex,Survived,Age
0,female,0,25.046875
1,female,1,28.847716
2,male,0,31.618056
3,male,1,27.276022


In [47]:
df_grp.pivot( index = 'Sex', columns = 'Survived' )

Unnamed: 0_level_0,Age,Age
Survived,0,1
Sex,Unnamed: 1_level_2,Unnamed: 2_level_2
female,25.046875,28.847716
male,31.618056,27.276022


In [48]:
# .pivot_table
# сколько всего женщин и мужчин было в конкретном классе корабля

titanic_df.pivot_table( index=['Sex'], columns=['Pclass'], values='Name', aggfunc='count')

Pclass,1,2,3
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,94,76,144
male,122,108,347


In [51]:
# группируем сразу по двум полям, получаем multiindex
titanic_df.pivot_table( index=['Sex', 'Survived'], columns=['Pclass'], values='Age', aggfunc='mean')

Unnamed: 0_level_0,Pclass,1,2,3
Sex,Survived,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,0,25.666667,36.0,23.818182
female,1,34.939024,28.080882,19.329787
male,0,44.581967,33.369048,27.255814
male,1,36.248,16.022,22.274211
