Подготовлено, на основе материалов за авторством: программист-исследователь Mail.ru Group, старший преподаватель Факультета Компьютерных Наук ВШЭ Юрий Кашницкий и Data Scientist в Segmento Екатерина Демидова.

# <center> Первичный анализ данных с Pandas</center>

**[Pandas](http://pandas.pydata.org)** — это библиотека Python, предоставляющая широкие возможности для анализа данных. С ее помощью очень удобно загружать, обрабатывать и анализировать табличные данные с помощью SQL-подобных запросов. В связке с библиотеками `Matplotlib` и `Seaborn` появляется возможность удобного визуального анализа табличных данных.

In [38]:
import pandas as pd
import numpy as np

Данные, с которыми работают дата саентисты и аналитики, обычно хранятся в виде табличек — например, в форматах `.csv`, `.tsv` или `.xlsx`. Для того, чтобы считать нужные данные из такого файла, отлично подходит библиотека Pandas.

Основными структурами данных в Pandas являются классы `Series` и `DataFrame`. Первый из них представляет собой одномерный индексированный массив данных некоторого фиксированного типа. Второй - это двухмерная структура данных, представляющая собой таблицу, каждый столбец которой содержит данные одного типа. Можно представлять её как словарь объектов типа `Series`. Структура `DataFrame` отлично подходит для представления реальных данных: строки соответствуют признаковым описаниям отдельных объектов, а столбцы соответствуют признакам.

In [40]:
help(pd.read_csv) # Справка по Pandas

Help on function read_csv in module pandas.io.parsers:

read_csv(filepath_or_buffer, sep=',', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, iterator=False, chunksize=None, compression='infer', thousands=None, decimal=b'.', lineterminator=None, quotechar='"', quoting=0, escapechar=None, comment=None, encoding=None, dialect=None, tupleize_cols=None, error_bad_lines=True, warn_bad_lines=True, skipfooter=0, doublequote=True, delim_whitespace=False, low_memory=True, memory_map=False, float_precision=None)
    Read CSV (comma-separated) file into DataFrame
    
    Also supports optionally itera

Прочитаем данные

В качестве данных - данные по модельному бизнесу за 80-90е года в США

In [73]:
data = pd.read_csv('data/beauty.csv', sep=';') # Возможно потребуется скорректировать правильный путь к файлу с данными

In [7]:
type(data)

pandas.core.frame.DataFrame

посмотрим на первые 5 строк с помощью метода `head`:

In [10]:
data.head()

Unnamed: 0,wage,exper,union,goodhlth,black,female,married,service,educ,looks
0,5.73,30,0,1,0,1,1,1,14,4
1,4.28,28,0,1,0,1,1,0,12,3
2,7.96,35,0,1,0,1,0,0,10,4
3,11.57,38,0,1,0,0,1,1,16,3
4,11.42,27,0,1,0,0,1,0,16,3


In [11]:
data.shape

(1260, 10)

Чтобы посмотреть общую информацию по датафрейму и всем признакам, воспользуемся методом info:

In [12]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1260 entries, 0 to 1259
Data columns (total 10 columns):
wage        1260 non-null float64
exper       1260 non-null int64
union       1260 non-null int64
goodhlth    1260 non-null int64
black       1260 non-null int64
female      1260 non-null int64
married     1260 non-null int64
service     1260 non-null int64
educ        1260 non-null int64
looks       1260 non-null int64
dtypes: float64(1), int64(9)
memory usage: 98.5 KB


int64 и float64 — это типы признаков. Видим, что 1 признак — float64 и 9 признаков имеют тип int64.

Метод describe показывает основные статистические характеристики данных по каждому числовому признаку (типы int64 и float64): число непропущенных значений, среднее, стандартное отклонение, диапазон, медиану, 0.25 и 0.75 квартили.

In [13]:
data.describe()

Unnamed: 0,wage,exper,union,goodhlth,black,female,married,service,educ,looks
count,1260.0,1260.0,1260.0,1260.0,1260.0,1260.0,1260.0,1260.0,1260.0,1260.0
mean,6.30669,18.206349,0.272222,0.933333,0.07381,0.346032,0.69127,0.27381,12.563492,3.185714
std,4.660639,11.963485,0.44528,0.249543,0.261564,0.475892,0.462153,0.446089,2.624489,0.684877
min,1.02,0.0,0.0,0.0,0.0,0.0,0.0,0.0,5.0,1.0
25%,3.7075,8.0,0.0,1.0,0.0,0.0,0.0,0.0,12.0,3.0
50%,5.3,15.0,0.0,1.0,0.0,0.0,1.0,0.0,12.0,3.0
75%,7.695,27.0,1.0,1.0,0.0,1.0,1.0,1.0,13.0,4.0
max,77.72,48.0,1.0,1.0,1.0,1.0,1.0,1.0,17.0,5.0


Посмотрим на признак "exper" - рабочий стаж

In [28]:
data['exper']

0       30
1       28
2       35
3       38
4       27
5       20
6       12
7        5
8        5
9       12
10       3
11       6
12      19
13       8
14      12
15      17
16       7
17      12
18      10
19       7
20       7
21      19
22      33
23      32
24      12
25      24
26      29
27      17
28      41
29      40
        ..
1230    18
1231    13
1232    36
1233     4
1234     8
1235    24
1236    31
1237    16
1238    10
1239    10
1240    12
1241    20
1242    13
1243     9
1244    15
1245    34
1246     8
1247     3
1248    19
1249    10
1250    13
1251     7
1252    21
1253    10
1254    20
1255    25
1256     4
1257    35
1258    15
1259    24
Name: exper, Length: 1260, dtype: int64

Как описывалось ранее - тип данных в колонке является Series, что по сути является проиндексированным массивом

In [15]:
type(data['exper'])

pandas.core.series.Series

Посмотрим первые 5 позиций у признака

In [16]:
data['exper'].head()

0    30
1    28
2    35
3    38
4    27
Name: exper, dtype: int64

# loc и iloc

С помощью loc и iloc - можно из начального датафрейма зафиксировать определённые интервал строк и интересующих столбцов и работать/смотреть только их

In [17]:
data.loc[0:5, ['wage', 'female']]

Unnamed: 0,wage,female
0,5.73,1
1,4.28,1
2,7.96,1
3,11.57,0
4,11.42,0
5,3.91,1


In [19]:
data.iloc[:, 2:4].head()

Unnamed: 0,union,goodhlth
0,0,1
1,0,1
2,0,1
3,0,1
4,0,1


Посмотрим на наш датафрейм, на соответствие какому-то условию

In [21]:
data['female'] == 1

0        True
1        True
2        True
3       False
4       False
5        True
6       False
7       False
8        True
9        True
10       True
11      False
12      False
13      False
14      False
15      False
16      False
17      False
18       True
19       True
20      False
21      False
22      False
23      False
24      False
25      False
26      False
27      False
28      False
29      False
        ...  
1230    False
1231    False
1232    False
1233    False
1234     True
1235    False
1236    False
1237    False
1238    False
1239    False
1240    False
1241    False
1242    False
1243    False
1244    False
1245    False
1246    False
1247    False
1248    False
1249    False
1250    False
1251    False
1252    False
1253     True
1254     True
1255     True
1256     True
1257     True
1258     True
1259     True
Name: female, Length: 1260, dtype: bool

Посмотрим только те строки, в датафрейме, которые удовлетворяют определённому условию, и выведем первые 5 из них

In [22]:
data[data['female'] == 1].head()

Unnamed: 0,wage,exper,union,goodhlth,black,female,married,service,educ,looks
0,5.73,30,0,1,0,1,1,1,14,4
1,4.28,28,0,1,0,1,1,0,12,3
2,7.96,35,0,1,0,1,0,0,10,4
5,3.91,20,0,0,0,1,1,0,12,3
8,5.0,5,0,1,0,1,0,0,16,3


Посмотрим только те строки, которые удовлетворяют условию и выведем значение определённого столбца 

In [25]:
data[data['female'] == 1]['wage']

0        5.73
1        4.28
2        7.96
5        3.91
8        5.00
9        3.89
10       3.45
18      10.44
19       7.69
44       4.95
50       9.16
51       6.91
61       4.62
64       4.77
65       7.14
71       8.36
79       5.73
81       7.79
82       8.79
83       9.32
84       8.33
85      10.12
86       1.98
87       8.24
88       5.05
89       6.55
91       7.96
94       6.73
95       7.69
96       4.35
        ...  
1199     4.47
1200     2.07
1201     6.97
1202     1.98
1203     4.62
1205     1.80
1206     4.62
1212     1.75
1213     2.15
1214     1.02
1215     2.40
1216     2.83
1217     3.29
1218     1.98
1220     5.49
1222     3.29
1223     2.88
1224     2.63
1225     5.82
1226     1.09
1227     1.28
1228     6.25
1234     1.98
1253     1.22
1254     1.79
1255     1.61
1256     1.68
1257     3.29
1258     2.31
1259     1.92
Name: wage, Length: 436, dtype: float64

Посчитаем средние значения из тех данных, что удовлетворяют условию

In [30]:
data[data['female'] == 1]['wage'].mean(), \
data[data['female'] == 0]['wage'].mean()

(4.299357798165136, 7.3688228155339734)

Пример сложного условия

In [31]:
(data['female'] == 0) & (data['married'] == 1)

0       False
1       False
2       False
3        True
4        True
5       False
6        True
7       False
8       False
9       False
10      False
11       True
12       True
13      False
14       True
15       True
16       True
17       True
18      False
19      False
20      False
21       True
22       True
23       True
24       True
25       True
26      False
27      False
28       True
29       True
        ...  
1230     True
1231     True
1232     True
1233    False
1234    False
1235    False
1236     True
1237     True
1238     True
1239     True
1240    False
1241     True
1242     True
1243     True
1244     True
1245     True
1246     True
1247    False
1248    False
1249     True
1250     True
1251    False
1252     True
1253    False
1254    False
1255    False
1256    False
1257    False
1258    False
1259    False
Length: 1260, dtype: bool

Метод describe для сложного условия

In [35]:
data[(data['female'] == 0) & (data['married'] == 1)].describe()

Unnamed: 0,wage,exper,union,goodhlth,black,female,married,service,educ,looks
count,658.0,658.0,658.0,658.0,658.0,658.0,658.0,658.0,658.0,658.0
mean,7.716778,22.136778,0.308511,0.93769,0.037994,0.0,1.0,0.194529,12.495441,3.164134
std,4.798763,11.714753,0.46223,0.241902,0.191327,0.0,0.0,0.396139,2.716007,0.655469
min,1.05,1.0,0.0,0.0,0.0,0.0,1.0,0.0,5.0,1.0
25%,4.81,12.0,0.0,1.0,0.0,0.0,1.0,0.0,12.0,3.0
50%,6.71,20.5,0.0,1.0,0.0,0.0,1.0,0.0,12.0,3.0
75%,8.89,32.0,1.0,1.0,0.0,0.0,1.0,0.0,13.0,4.0
max,41.67,48.0,1.0,1.0,1.0,0.0,1.0,1.0,17.0,5.0


Вывод медианного значения, для данных, удовлетворяющих сложному условию

In [42]:
data[(data['female'] == 0) & (data['married'] == 1)]['wage'].median(), \
data[(data['female'] == 0) & (data['married'] == 0)]['wage'].median()

(6.710000000000001, 5.0649999999999995)

Ниже приводятся примеры использования метода groupby для отображения информации по сгруппированному признаку

In [48]:
for look, sub_df in data.groupby('looks'):
    print(look)
    
    print(sub_df.head())

1
      wage  exper  union  goodhlth  black  female  married  service  educ  \
28    8.35     41      0         0      0       0        1        1    16   
200   3.75     36      0         1      0       0        0        0    12   
248  10.99     40      0         1      0       0        1        0    12   
327   1.65     24      0         1      0       1        0        1    13   
751   7.93     39      1         1      0       0        1        0    12   

     looks  
28       1  
200      1  
248      1  
327      1  
751      1  
2
    wage  exper  union  goodhlth  black  female  married  service  educ  looks
12  5.14     19      0         1      0       0        1        1    17      2
33  8.17     18      0         1      0       0        1        0    16      2
35  9.62     37      0         1      0       0        1        0    13      2
37  7.69     10      1         1      0       0        1        0    13      2
57  6.56     17      0         1      0       0        1    

In [50]:
for look, sub_df in data.groupby('looks'):
    print(look)
    
    print(sub_df['wage'].median())

1
3.46
2
4.595000000000001
3
5.635
4
5.24
5
4.81


In [51]:
for look, sub_df in data.groupby('looks'):
    print(look)
    
    print(sub_df['female'].mean())

1
0.38461538461538464
2
0.38028169014084506
3
0.32271468144044324
4
0.37362637362637363
5
0.42105263157894735


In [53]:
for look, sub_df in data.groupby(['looks', 'female']):
    print(look)
    
    print(sub_df['goodhlth'].mean())

(1, 0)
0.75
(1, 1)
1.0
(2, 0)
0.9431818181818182
(2, 1)
0.9259259259259259
(3, 0)
0.9304703476482618
(3, 1)
0.9012875536480687
(4, 0)
0.9649122807017544
(4, 1)
0.9411764705882353
(5, 0)
1.0
(5, 1)
1.0


С помощью .agg метод groupby может применять различные функции к данным, что он получает

In [56]:
data.groupby('looks')[['wage', 'exper']].agg(np.median)

Unnamed: 0_level_0,wage,exper
looks,Unnamed: 1_level_1,Unnamed: 2_level_1
1,3.46,32.0
2,4.595,18.0
3,5.635,18.0
4,5.24,12.5
5,4.81,8.0


Декартово произведение признаков из столбцов и их отображение

In [57]:
pd.crosstab(data['female'], data['married'])

married,0,1
female,Unnamed: 1_level_1,Unnamed: 2_level_1
0,166,658
1,223,213


In [58]:
pd.crosstab(data['female'], data['looks'])

looks,1,2,3,4,5
female,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,8,88,489,228,11
1,5,54,233,136,8


In [59]:
data['wage'].describe()

count    1260.000000
mean        6.306690
std         4.660639
min         1.020000
25%         3.707500
50%         5.300000
75%         7.695000
max        77.720000
Name: wage, dtype: float64

Создание нового признака из наложения дополнительных условий на основе старых данных

In [74]:
data['is_rich'] = (data['wage'] >
                    data['wage'].quantile(.75)).astype('int64')

In [75]:
data['wage'].quantile(.75)

7.695

In [63]:
(data['wage'] > data['wage'].quantile(.75)).astype('int64')

0       0
1       0
2       1
3       1
4       1
5       0
6       1
7       0
8       0
9       0
10      0
11      0
12      0
13      0
14      1
15      0
16      0
17      1
18      1
19      0
20      0
21      0
22      0
23      1
24      1
25      1
26      1
27      1
28      1
29      1
       ..
1230    0
1231    0
1232    0
1233    0
1234    0
1235    1
1236    0
1237    0
1238    0
1239    0
1240    0
1241    0
1242    0
1243    0
1244    1
1245    0
1246    0
1247    0
1248    1
1249    1
1250    0
1251    0
1252    1
1253    0
1254    0
1255    0
1256    0
1257    0
1258    0
1259    0
Name: wage, Length: 1260, dtype: int64

In [76]:
data.head()

Unnamed: 0,wage,exper,union,goodhlth,black,female,married,service,educ,looks,is_rich
0,5.73,30,0,1,0,1,1,1,14,4,0
1,4.28,28,0,1,0,1,1,0,12,3,0
2,7.96,35,0,1,0,1,0,0,10,4,1
3,11.57,38,0,1,0,0,1,1,16,3,1
4,11.42,27,0,1,0,0,1,0,16,3,1


In [78]:
data['rubbish'] = .56 * data['wage'] + 0.32 * data['exper']

In [79]:
data.head()

Unnamed: 0,wage,exper,union,goodhlth,black,female,married,service,educ,looks,is_rich,rubbish
0,5.73,30,0,1,0,1,1,1,14,4,0,12.8088
1,4.28,28,0,1,0,1,1,0,12,3,0,11.3568
2,7.96,35,0,1,0,1,0,0,10,4,1,15.6576
3,11.57,38,0,1,0,0,1,1,16,3,1,18.6392
4,11.42,27,0,1,0,0,1,0,16,3,1,15.0352
