# Pandas


## Чтение данных


### Импорт Pandas


В первую очередь нужно импортировать сам pandas

In [None]:
import pandas as pd

Отлично, теперь мы можем использовать библиотеку. `as pd` означает, что, когда мы будем использовать команды **pandas**, нам нужно будет дописать `pd.`
Очень полезно, чтобы не путаться. Почти во всех книгах, документациях, статьях используется именно это сокращение.


### Чтение из файла в Colab


Теперь считаем данные. В **colab** это делается несколько иначе, чем в **Anaconda**. Для начала импортируем специальную библиотеку, а потом используем функцию оттуда


In [None]:
from google.colab import files
uploaded = files.upload()

Saving beauty.csv to beauty.csv


Нажимаем на кнопку выбрать файлы и появится окно файловой системы. Далее выбраем необходимые файлы. В данном уроке нам нужен **beauty.csv**, который я прикреплю к посту в группе.

На всякий случай импортируем ещё одну библиотеку, чтобы раскодировать файл. Собственно всё, мы считали файл

In [None]:
import io
data = pd.read_csv(io.BytesIO(uploaded['beauty.csv']))

Как видите, готово:


In [None]:
data.head()

Unnamed: 0,wage;exper;union;goodhlth;black;female;married;service;educ;looks
0,5.73;30;0;1;0;1;1;1;14;4
1,4.28;28;0;1;0;1;1;0;12;3
2,7.96;35;0;1;0;1;0;0;10;4
3,11.57;38;0;1;0;0;1;1;16;3
4,11.42;27;0;1;0;0;1;0;16;3


Довольно некрасиво, да? Мы это исправим, когда я расскажу об остальных способах чтения данных


### Чтение из файла в Anaconda

Собственно, тут нам не надо крутиться и пихать всякие библиотеки, просто прописываем путь к файлу. Однако в облаке такое не сработает

In [None]:
data = pd.read_csv('./path/to/file.csv')

FileNotFoundError: ignored

### Чтение из Github

Пожалуй, самое простое и универсальное решение ввиду того, что не придётся скачивать данные, а они часто немаленькие. Просто указываем ссылку на гитхаб нужного нам ДатаСета

In [None]:
url = 'https://raw.githubusercontent.com/Yorko/mlcourse.ai/master/data/beauty.csv'
data = pd.read_csv(url)

Можете убедиться, работать всё будет аналогично:

In [None]:
data.head()

Unnamed: 0,wage;exper;union;goodhlth;black;female;married;service;educ;looks
0,5.73;30;0;1;0;1;1;1;14;4
1,4.28;28;0;1;0;1;1;0;12;3
2,7.96;35;0;1;0;1;0;0;10;4
3,11.57;38;0;1;0;0;1;1;16;3
4,11.42;27;0;1;0;0;1;0;16;3


### Что с данными? Почему некрасиво?

Вс очень просто. У `read_csv` есть параметр `sep`, который отвечает за разделители. Изначально наши данные - это просто набор чисел и слов, разделённые определённым символом. Так вот по умолчанию `sep=','`. Как мы можем видет, в этом датасете разделитель `;`, так что нам просто остаётся изменить этот параметр.

Вообще это делается прямо при загрузке файла, но так как это конспект, я оставлю те варианты и загружу их заново:

In [None]:
url = 'https://raw.githubusercontent.com/Yorko/mlcourse.ai/master/data/beauty.csv'
data = pd.read_csv(url, sep=';') # Вот и наш sep
# Проверим
data.head()

Unnamed: 0,wage,exper,union,goodhlth,black,female,married,service,educ,looks
0,5.73,30,0,1,0,1,1,1,14,4
1,4.28,28,0,1,0,1,1,0,12,3
2,7.96,35,0,1,0,1,0,0,10,4
3,11.57,38,0,1,0,0,1,1,16,3
4,11.42,27,0,1,0,0,1,0,16,3


Красота, великолепно, восхитительно! Мы настоящие DataScientist-ы

## DataSet

Давайте посмотрим, что же это за данные. Во первых посмотрим тип данных.

In [None]:
type(data)

pandas.core.frame.DataFrame

### Вывод DataFrame

Получаем некоторый объект типа DataFrame. Давайте присмотримся к данным получше. Следующая команда позволяет вывести первые 5 строк нашего DataFrame

In [None]:
data.head()

Unnamed: 0,wage,exper,union,goodhlth,black,female,married,service,educ,looks
0,5.73,30,0,1,0,1,1,1,14,4
1,4.28,28,0,1,0,1,1,0,12,3
2,7.96,35,0,1,0,1,0,0,10,4
3,11.57,38,0,1,0,0,1,1,16,3
4,11.42,27,0,1,0,0,1,0,16,3


Столбцы отвечают за какой-то признак. Каждый столбец содержит значения одного типа. Строки отвечают за отдельный объект

Помимо этого, мы можем просто вывести данные, так мы узнаем сколько их всего, но это не шибко эффективно

In [None]:
data

Unnamed: 0,wage,exper,union,goodhlth,black,female,married,service,educ,looks
0,5.73,30,0,1,0,1,1,1,14,4
1,4.28,28,0,1,0,1,1,0,12,3
2,7.96,35,0,1,0,1,0,0,10,4
3,11.57,38,0,1,0,0,1,1,16,3
4,11.42,27,0,1,0,0,1,0,16,3
...,...,...,...,...,...,...,...,...,...,...
1255,1.61,25,0,1,1,1,0,1,12,3
1256,1.68,4,0,1,0,1,1,1,12,2
1257,3.29,35,0,1,1,1,0,1,12,3
1258,2.31,15,0,1,1,1,1,1,10,3


### Информация о DataFrame

Посмотреть сколько у нас данных можно намного эффективней через функцию:

In [None]:
data.shape

(1260, 10)

Через неё мы видим, что у нас данные по 10-ти признакам для 1260 объектов

Также очень полезен следующий метод

In [None]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1260 entries, 0 to 1259
Data columns (total 10 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   wage      1260 non-null   float64
 1   exper     1260 non-null   int64  
 2   union     1260 non-null   int64  
 3   goodhlth  1260 non-null   int64  
 4   black     1260 non-null   int64  
 5   female    1260 non-null   int64  
 6   married   1260 non-null   int64  
 7   service   1260 non-null   int64  
 8   educ      1260 non-null   int64  
 9   looks     1260 non-null   int64  
dtypes: float64(1), int64(9)
memory usage: 98.6 KB


Данный метод показывает нам сколько записей есть для каждого признака, сколько пропущенных записей, а также типы признаков, в данном датасете мы можем видет 1 объект типа float64 и 9 объектов типа int64. Также показано сколько места занимает данный датасет в памяти

Далее очень важный метод

In [None]:
data.describe()

Unnamed: 0,wage,exper,union,goodhlth,black,female,married,service,educ,looks
count,1260.0,1260.0,1260.0,1260.0,1260.0,1260.0,1260.0,1260.0,1260.0,1260.0
mean,6.30669,18.206349,0.272222,0.933333,0.07381,0.346032,0.69127,0.27381,12.563492,3.185714
std,4.660639,11.963485,0.44528,0.249543,0.261564,0.475892,0.462153,0.446089,2.624489,0.684877
min,1.02,0.0,0.0,0.0,0.0,0.0,0.0,0.0,5.0,1.0
25%,3.7075,8.0,0.0,1.0,0.0,0.0,0.0,0.0,12.0,3.0
50%,5.3,15.0,0.0,1.0,0.0,0.0,1.0,0.0,12.0,3.0
75%,7.695,27.0,1.0,1.0,0.0,1.0,1.0,1.0,13.0,4.0
max,77.72,48.0,1.0,1.0,1.0,1.0,1.0,1.0,17.0,5.0


Данный метод выдаёт нам краткую статистику по каждому признаку.
* среднее значение
* стандатное отклонение
* минимальное значение
* 1 и 3 квартили, а также медиана
* Максимальное значение

Следующий метод применяет какую-то функцию ко всему датасету. Например

In [None]:
data.apply(np.mean)

wage         6.306690
exper       18.206349
union        0.272222
goodhlth     0.933333
black        0.073810
female       0.346032
married      0.691270
service      0.273810
educ        12.563492
looks        3.185714
is_rich      0.250000
dtype: float64

## Индексация


Индексация столбчатая. Каждый столбец - отдельный объект тпа Series. Мы можем доставать из ДатаСета эти объекты пользуясь индексацией


In [None]:
data['exper'] # Вытащили из датасета признак опыта работы

0       30
1       28
2       35
3       38
4       27
        ..
1255    25
1256     4
1257    35
1258    15
1259    24
Name: exper, Length: 1260, dtype: int64

In [None]:
type(data['exper']) # Как видим тип Series

pandas.core.series.Series

Пока нам хватит информации, что Series - это индексированный список с меткой

## loc и iloc

Данные методы передают некоторую подматрицу по индексам. iloc передаёт по числовым индексам. loc по названиям признаков

Допустим, мы хотим вывести подматрицу, на которой показаны доход и пол первых пяти людей. Нет ничего проще

In [None]:
data.loc[0:5, ['wage', 'female']]

Unnamed: 0,wage,female
0,5.73,1
1,4.28,1
2,7.96,1
3,11.57,0
4,11.42,0
5,3.91,1


Вот такая вот у нас миленькая подматрица

Если же мы хотим пройтись по этому в цикле, тогда нам понадобится iloc в котором используется геометрическая индексация. Допустем, выведем матрицу из 3-го и 4-го столбцов для всех элементов:

In [None]:
data.iloc[:, 2:4].head()

Unnamed: 0,union,goodhlth
0,0,1
1,0,1
2,0,1
3,0,1
4,0,1


## Логические маски

Теперь давайте рассмотрим, как мы можем давать нашему ДатаСету вопросы и какие он может выдавать ответы

### Одно условие

Давайте попробуем сравнить доход мужчин и женщин по этой выборке. Для начала найдём женщин в данном датасете

In [None]:
data['female'] == 1

0        True
1        True
2        True
3       False
4       False
        ...  
1255     True
1256     True
1257     True
1258     True
1259     True
Name: female, Length: 1260, dtype: bool

Если мы подадим это как индек в DataFrame - он отберёт все строчки со значением True

In [None]:
data[data['female'] == 1]

Unnamed: 0,wage,exper,union,goodhlth,black,female,married,service,educ,looks
0,5.73,30,0,1,0,1,1,1,14,4
1,4.28,28,0,1,0,1,1,0,12,3
2,7.96,35,0,1,0,1,0,0,10,4
5,3.91,20,0,0,0,1,1,0,12,3
8,5.00,5,0,1,0,1,0,0,16,3
...,...,...,...,...,...,...,...,...,...,...
1255,1.61,25,0,1,1,1,0,1,12,3
1256,1.68,4,0,1,0,1,1,1,12,2
1257,3.29,35,0,1,1,1,0,1,12,3
1258,2.31,15,0,1,1,1,1,1,10,3


В данном DataFrame мы уже можем глянуть на доход. Получим объект Series в котором расписан признак wage для всех строчек, где female = 1.

In [None]:
data[data['female'] == 1]['wage']

0       5.73
1       4.28
2       7.96
5       3.91
8       5.00
        ... 
1255    1.61
1256    1.68
1257    3.29
1258    2.31
1259    1.92
Name: wage, Length: 436, dtype: float64

Ну и осталось применить метод среднего значения. Так мы получим среднее значение дохода всех женщин в датасете

In [None]:
data[data['female'] == 1]['wage'].mean()

4.299357798165136

Давайте сравним это с мужчинами:


In [None]:
data[data['female'] == 1]['wage'].mean(), \
data[data['female'] == 0]['wage'].mean()

(4.299357798165136, 7.3688228155339734)

### Несколько условий

Сколько зарабатывают женатые мужчины

Для начала получим нужную нам серию

In [None]:
(data['female'] == 0) & (data['married'] == 1).head()

0       False
1       False
2       False
3        True
4        True
        ...  
1255    False
1256    False
1257    False
1258    False
1259    False
Length: 1260, dtype: bool

А далее выполняем всё те же действия с ней

In [None]:
data[(data['female'] == 0) & (data['married'] == 1)].head() # Находим искомый DataSet

Unnamed: 0,wage,exper,union,goodhlth,black,female,married,service,educ,looks
3,11.57,38,0,1,0,0,1,1,16,3
4,11.42,27,0,1,0,0,1,0,16,3
6,8.76,12,0,1,0,0,1,0,16,3
11,4.03,6,0,1,0,0,1,0,16,4
12,5.14,19,0,1,0,0,1,1,17,2


In [None]:
data[(data['female'] == 0) & (data['married'] == 1)]['wage'].head() # Из него добывем интересующую нас серию

3     11.57
4     11.42
6      8.76
11     4.03
12     5.14
Name: wage, dtype: float64

In [None]:
data[(data['female'] == 0) & (data['married'] == 1)]['wage'].mean() # Пробиваем среднее значение

7.716778115501519

Ну и сравниваем наконец значение женатых и неженатых

In [None]:
data[(data['female'] == 0) & (data['married'] == 1)]['wage'].mean(), \
data[(data['female'] == 0) & (data['married'] == 0)]['wage'].mean()

(7.716778115501519, 5.989578313253011)

Однако среднее не очень честно считать из-за выбросов, так что давайте сравним медианы

In [None]:
data[(data['female'] == 0) & (data['married'] == 1)]['wage'].median(), \
data[(data['female'] == 0) & (data['married'] == 0)]['wage'].median()

(6.710000000000001, 5.0649999999999995)

## Метод groupby

Рассмотрим как этот метод работает на практическом примере. Например посмотрим разные признаки для всех уникальных значений признака looks


In [None]:
data.groupby('looks')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f90db9e7590>

Как мы видим, у нас просто создался объект итератор. Однако, мы можем пройтись по нему в цикле

In [None]:
for i in data.groupby('looks'):
  print(type(i)) # Напечатаем тип объекта хранящегося в итераторе

<class 'tuple'>
<class 'tuple'>
<class 'tuple'>
<class 'tuple'>
<class 'tuple'>


Давайте посмотрим, что лежит внутри кортежа


In [None]:
for look, sub_df in data.groupby('looks'):
  print(look) # Значения признака looks

1
2
3
4
5


In [None]:
for look, sub_df in data.groupby('looks'):
  print(sub_df.head()) # Датафреймы сформированные по данному признаку

      wage  exper  union  goodhlth  ...  married  service  educ  looks
28    8.35     41      0         0  ...        1        1    16      1
200   3.75     36      0         1  ...        0        0    12      1
248  10.99     40      0         1  ...        1        0    12      1
327   1.65     24      0         1  ...        0        1    13      1
751   7.93     39      1         1  ...        1        0    12      1

[5 rows x 10 columns]
    wage  exper  union  goodhlth  black  female  married  service  educ  looks
12  5.14     19      0         1      0       0        1        1    17      2
33  8.17     18      0         1      0       0        1        0    16      2
35  9.62     37      0         1      0       0        1        0    13      2
37  7.69     10      1         1      0       0        1        0    13      2
57  6.56     17      0         1      0       0        1        0    13      2
    wage  exper  union  goodhlth  black  female  married  service  educ  look

Давайте посмотрим сколько в среднем зарабатывают люди в зависимост от своей привлекательности

In [None]:
for look, sub_df in data.groupby('looks'):
  print(look, ':', sep='')
  print(sub_df['wage'].median(), '\n')

1:
3.46 

2:
4.595000000000001 

3:
5.635 

4:
5.24 

5:
4.81 



Данную операцию можно выполнять для категориальных призаков, т.е. тех признаков, у которых значение счётно (не бесконечно)

Простые операции можно выполнять проще через функцию агрегирования. Например давайте посмотрим на значения признаков wage и exper

In [None]:
import numpy as np # для этой задачи импортирую numpy
data.groupby('looks')[['wage', 'exper']].agg(np.mean)

Unnamed: 0_level_0,wage,exper
looks,Unnamed: 1_level_1,Unnamed: 2_level_1
1,4.621538,27.0
2,5.328803,18.922535
3,6.504598,19.49169
4,6.299341,15.406593
5,7.388421,11.631579


## Сводные таблицы


Построим сводную таблицу, показывающую как связаны признаки female и married

In [None]:
pd.crosstab(data['female'], data['married'])

married,0,1
female,Unnamed: 1_level_1,Unnamed: 2_level_1
0,166,658
1,223,213


Мы видим сколько объектов относится к каждой комбинации признаков


Смотрим как другие признаки зависят от целевого

In [None]:
pd.crosstab(data['female'], data['looks'])

looks,1,2,3,4,5
female,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,8,88,489,228,11
1,5,54,233,136,8


## Добавление признаков


### Добавление столбца в DataFrame

Предположим, я хочу поделить наших людей на бедных и богатых. Воспользуемся 3-ей квартилью

In [None]:
data['wage'].describe()

count    1260.000000
mean        6.306690
std         4.660639
min         1.020000
25%         3.707500
50%         5.300000
75%         7.695000
max        77.720000
Name: wage, dtype: float64

Для начала создадим новый Serias в который запихнём значения True если доход больше 3-ей квартили и False в обратном случае

In [None]:
data['is_rich'] = data['wage'] > data['wage'].quantile(.75)

Заменим это на нули и едиицы

In [None]:
data['is_rich'] = data['wage'] > data['wage'].quantile(.75).astype('int64')

Ну и в итоге создаём новый признак

In [None]:
data['is_rich'] = (data['wage'] > data['wage'].quantile(.75)).astype('int64')

Теперь этот признак вписан в наши данные

In [None]:
data.head()

Unnamed: 0,wage,exper,union,goodhlth,black,female,married,service,educ,looks,is_rich
0,5.73,30,0,1,0,1,1,1,14,4,0
1,4.28,28,0,1,0,1,1,0,12,3,0
2,7.96,35,0,1,0,1,0,0,10,4,1
3,11.57,38,0,1,0,0,1,1,16,3,1
4,11.42,27,0,1,0,0,1,0,16,3,1


Допустим мы хотим сделать новый признак на основе признака female. Мы можем сделать это через apply

Сначала опишем функцию

In [None]:
def string_gender(female):
  return 'female' if female else 'male'

Теперь применим её

In [None]:
data['female'].apply(string_gender)

0       female
1       female
2       female
3         male
4         male
         ...  
1255    female
1256    female
1257    female
1258    female
1259    female
Name: female, Length: 1260, dtype: object

Теперь из этого можем построить признак

Однако мы делали отдельную функцию, которая слишком примитивная, а это не очень хорошо. Сделаем лямбда функцию

In [None]:
data['female'].apply(lambda female: 'female' if female else 'male')

0       female
1       female
2       female
3         male
4         male
         ...  
1255    female
1256    female
1257    female
1258    female
1259    female
Name: female, Length: 1260, dtype: object

Если мы хотим создать признак на основе словаря, то следует использовать метод map. Допустим у нас есть словарь

In [None]:
d = {1: "union", 0: 'non-union'}

In [None]:
data['union'].map(d).head()

0    non-union
1    non-union
2    non-union
3    non-union
4    non-union
Name: union, dtype: object

## Сортировка

Отсортируем данные по доходу по возрастанию

In [None]:
data.sort_values(by='wage')

Unnamed: 0,wage,exper,union,goodhlth,black,female,married,service,educ,looks,is_rich
1214,1.02,11,0,1,0,1,1,1,13,3,0
1009,1.05,29,0,1,1,0,1,0,5,3,0
1226,1.09,8,0,1,0,1,1,1,10,2,0
462,1.16,2,0,1,0,1,0,0,13,4,0
597,1.16,5,0,1,0,1,1,1,10,3,0
...,...,...,...,...,...,...,...,...,...,...,...
290,31.09,32,0,0,0,0,1,0,13,3,1
69,32.79,33,0,1,0,0,1,1,16,4,1
415,38.86,29,0,1,0,0,1,0,13,3,1
269,41.67,16,0,0,0,0,1,0,13,4,1


По убыванию

In [None]:
data.sort_values(by='wage', ascending=False)

Unnamed: 0,wage,exper,union,goodhlth,black,female,married,service,educ,looks,is_rich
602,77.72,9,1,1,1,1,1,1,13,4,1
269,41.67,16,0,0,0,0,1,0,13,4,1
415,38.86,29,0,1,0,0,1,0,13,3,1
69,32.79,33,0,1,0,0,1,1,16,4,1
290,31.09,32,0,0,0,0,1,0,13,3,1
...,...,...,...,...,...,...,...,...,...,...,...
597,1.16,5,0,1,0,1,1,1,10,3,0
462,1.16,2,0,1,0,1,0,0,13,4,0
1226,1.09,8,0,1,0,1,1,1,10,2,0
1009,1.05,29,0,1,1,0,1,0,5,3,0
