# Анализ данных с Pandas
## Часть 1
Автор: Хужина Вария   
Репозиторий курса: https://github.com/VariyaKh/ML_21school

**pandas** — программная библиотека на языке Python для обработки и анализа данных. Работа pandas с данными строится поверх библиотеки NumPy, являющейся инструментом более низкого уровня.`pandas` предоставляет специальные структуры данных и операции для манипулирования числовыми таблицами и временны́ми рядами. Название библиотеки происходит от эконометрического термина «панельные данные», используемого для описания многомерных структурированных наборов информации. 

Подключим библиотеку. Стандартаня практика использовать для этой библиотеки сокращение pd.

In [1]:
import pandas as pd

Загрузим данные. Например мы хотим считать данные из файла csv. Это можно сделать с помощью функции read_csv из библиотеки pandas. Считаем датасет WHO Suicide Statistics, содержащий данные о суицдах. Множество других позитивных датасетов вы можите найти на [kaggle](https://www.kaggle.com/datasets).

Напоминаю, что команды командной строки начинаются с восклицательного знака. Посмотрим на данные

In [4]:
!head -3 'data/who_suicide_statistics.csv'

country,year,sex,age,suicides_no,population
Albania,1985,female,15-24 years,,277900
Albania,1985,female,25-34 years,,246800


In [5]:
data = pd.read_csv("data/who_suicide_statistics.csv", sep=',')

Часто в read_csv нужно указать:
   - разделитель полей sep (по умолчанию таб '\t')
   - кодировку encoding (например, 'utf8')
   - разделитель дробей delimiter
   - usecols - какие колонки нужно загрузить (бывает, что нужны не все)
   - и т д

У read_csv множество параметров. Чтобы посмотреть полный список можно воспользоваться справкой: знак вопроса и имя функции или найти описание на [сайте документации](https://pandas.pydata.org/pandas-docs/stable/)

In [6]:
pd.read_csv?

Итак мы считали данные в объект типа DataFrame:

In [7]:
type(data)

pandas.core.frame.DataFrame

Посмотрим первые 5 строк таблицы

In [8]:
data.head()

Unnamed: 0,country,year,sex,age,suicides_no,population
0,Albania,1985,female,15-24 years,,277900.0
1,Albania,1985,female,25-34 years,,246800.0
2,Albania,1985,female,35-54 years,,267500.0
3,Albania,1985,female,5-14 years,,298300.0
4,Albania,1985,female,55-74 years,,138700.0


В таблице есть данные по количеству суицидов (suicides_no) для страны (country) по годам (year) и в разрезе возрастов (age) и пола (sex).

Если нужно посмотреть первые 10 строк, то нужно просто это явно указать. Не забываем использовать подсказку (навидите курсор на функцию и нажмите shift+tab)

In [9]:
data.head(10)

Unnamed: 0,country,year,sex,age,suicides_no,population
0,Albania,1985,female,15-24 years,,277900.0
1,Albania,1985,female,25-34 years,,246800.0
2,Albania,1985,female,35-54 years,,267500.0
3,Albania,1985,female,5-14 years,,298300.0
4,Albania,1985,female,55-74 years,,138700.0
5,Albania,1985,female,75+ years,,34200.0
6,Albania,1985,male,15-24 years,,301400.0
7,Albania,1985,male,25-34 years,,264200.0
8,Albania,1985,male,35-54 years,,296700.0
9,Albania,1985,male,5-14 years,,325800.0


Размер данных

In [12]:
data.shape

(43776, 6)

Чтобы получить описание по численным данным, можно воспользоваться методом describe()

In [13]:
data.describe()

Unnamed: 0,year,suicides_no,population
count,43776.0,41520.0,38316.0
mean,1998.502467,193.31539,1664091.0
std,10.338711,800.589926,3647231.0
min,1979.0,0.0,259.0
25%,1990.0,1.0,85112.75
50%,1999.0,14.0,380655.0
75%,2007.0,91.0,1305698.0
max,2016.0,22338.0,43805210.0


Чтобы посмотреть какие есть признаки, какой у них тип данных в таблице и сколько есть заполненных ячеек, вызовем метод info()

In [14]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 43776 entries, 0 to 43775
Data columns (total 6 columns):
country        43776 non-null object
year           43776 non-null int64
sex            43776 non-null object
age            43776 non-null object
suicides_no    41520 non-null float64
population     38316 non-null float64
dtypes: float64(2), int64(1), object(3)
memory usage: 2.0+ MB


## Обращение к элементу таблицы

Общий подход
- Индекс + столбцы
 - элемент  data.loc[index, column]   
 - подтаблица data.loc[list of index, list of columns]
- По нумерации строк и столбцов
 - элемент  data.iloc[i, j]   
 - подтаблица data.iloc[list of i, list of j]

Наш DataFrame похож на двумерный массив. Как обратиться к его элементам? У DataFrame есть колонки (columns) и индексы (index). columns - это те названия полей, которые вы видите, а index это некий идентификатор строки, по умолчанию если ничего не указано то индекс это просто нумерация строк от 1 до n.

In [15]:
data.columns

Index(['country', 'year', 'sex', 'age', 'suicides_no', 'population'], dtype='object')

In [16]:
data.index

RangeIndex(start=0, stop=43776, step=1)

Чтобы обратиться к элементу таблицы пользуясь колонками и индексами нужно воспользоваться методом `loc[index,column]`. Например посмотрим, что хранится в первой строчке в поле age:

In [17]:
data.loc[0, 'age']

'15-24 years'

Но бывает удобно обращаться к элементу по его порядковому номеру, тогда нужно использовать `iloc[i, j]`. Нумерация начитается с 0.

In [18]:
data.iloc[0, 3]

'15-24 years'

## pd.Serires

Каждая колонка в DataFrame это объект Series, у этого объекта тоже есть индексы. Чтобы получить всю колонку 'age' нужно просто указать ее в квадратных схобках.

In [19]:
data['age'].head()

0    15-24 years
1    25-34 years
2    35-54 years
3     5-14 years
4    55-74 years
Name: age, dtype: object

In [20]:
data['age'].index

RangeIndex(start=0, stop=43776, step=1)

In [21]:
type(data['age'])

pandas.core.series.Series

Чтобы получить строку из данных можно вызвать метод loc указав индекс строки (не НОМЕР) запомните, что loc это обращение по индексу, в частном случае индекс и нумерация совпадают как и в нашем примере. Строка это тоже Series у которого индексы - это названия столбцов.

In [22]:
data.loc[0]

country            Albania
year                  1985
sex                 female
age            15-24 years
suicides_no            NaN
population          277900
Name: 0, dtype: object

In [23]:
type(data.loc[0])

pandas.core.series.Series

In [24]:
tmp_serires = data.loc[0]

In [25]:
tmp_serires['age']

'15-24 years'

In [26]:
data.loc[0]['age']

'15-24 years'

Теперь вы понимаете, что `data.loc[0]['age']` на самом деле работает так `data.loc[0]` это `Serires` и потом вы берете индекс 'age' у объекта Series: `data.loc[0]['age']`

### Отбор данных по столбцам

Например, нас интересуют не все поля\признаки\столбцы, а только страна и год.   
data_sub = data[list_of_cols]

In [27]:
data_sub = data[['country', 'year']]

In [28]:
data_sub.head()

Unnamed: 0,country,year
0,Albania,1985
1,Albania,1985
2,Albania,1985
3,Albania,1985
4,Albania,1985


Давайте изменим индекс. По умолчанию изменение индекса происходит не для исходных данных, а создается новый дата фрэйм с измененным индексом. Если нужно применить изменение к исходному дата фрэйму, то нужно указать `inplace=True`

In [29]:
data_sub.set_index('country', inplace=True)

In [30]:
data_sub.head()

Unnamed: 0_level_0,year
country,Unnamed: 1_level_1
Albania,1985
Albania,1985
Albania,1985
Albania,1985
Albania,1985


### Отбор данных по строкам

Отбор по индексам

In [31]:
data_sub_row = data.loc[[0, 1, 2]]

In [32]:
data_sub_row

Unnamed: 0,country,year,sex,age,suicides_no,population
0,Albania,1985,female,15-24 years,,277900.0
1,Albania,1985,female,25-34 years,,246800.0
2,Albania,1985,female,35-54 years,,267500.0


### Отбор по строкам и по столбцам

Индексы + названия колонок, так

In [33]:
data.loc[[0, 1, 2]][['country', 'year']]

Unnamed: 0,country,year
0,Albania,1985
1,Albania,1985
2,Albania,1985


или так

In [34]:
data.loc[[0, 1, 2], ['country', 'age']]

Unnamed: 0,country,age
0,Albania,15-24 years
1,Albania,25-34 years
2,Albania,35-54 years


In [35]:
data.loc[:5, 'country':'age']

Unnamed: 0,country,year,sex,age
0,Albania,1985,female,15-24 years
1,Albania,1985,female,25-34 years
2,Albania,1985,female,35-54 years
3,Albania,1985,female,5-14 years
4,Albania,1985,female,55-74 years
5,Albania,1985,female,75+ years


По нумерации строк и столбцов

In [36]:
data.iloc[[0, 1, 2], [0, 1]]

Unnamed: 0,country,year
0,Albania,1985
1,Albania,1985
2,Albania,1985


До 4ой строки (нумерация с 0) и по столбацам с  нулевого до третьего

In [37]:
data.iloc[:4, 0:3]

Unnamed: 0,country,year,sex
0,Albania,1985,female
1,Albania,1985,female
2,Albania,1985,female
3,Albania,1985,female


## Отбор данных по условию

Посмотрим какие есть страны в данных

In [38]:
data['country'].unique()

array(['Albania', 'Anguilla', 'Antigua and Barbuda', 'Argentina',
       'Armenia', 'Aruba', 'Australia', 'Austria', 'Azerbaijan',
       'Bahamas', 'Bahrain', 'Barbados', 'Belarus', 'Belgium', 'Belize',
       'Bermuda', 'Bolivia', 'Bosnia and Herzegovina', 'Brazil',
       'British Virgin Islands', 'Brunei Darussalam', 'Bulgaria',
       'Cabo Verde', 'Canada', 'Cayman Islands', 'Chile', 'Colombia',
       'Costa Rica', 'Croatia', 'Cuba', 'Cyprus', 'Czech Republic',
       'Denmark', 'Dominica', 'Dominican Republic', 'Ecuador', 'Egypt',
       'El Salvador', 'Estonia', 'Falkland Islands (Malvinas)', 'Fiji',
       'Finland', 'France', 'French Guiana', 'Georgia', 'Germany',
       'Greece', 'Grenada', 'Guadeloupe', 'Guatemala', 'Guyana', 'Haiti',
       'Honduras', 'Hong Kong SAR', 'Hungary', 'Iceland',
       'Iran (Islamic Rep of)', 'Iraq', 'Ireland', 'Israel', 'Italy',
       'Jamaica', 'Japan', 'Jordan', 'Kazakhstan', 'Kiribati', 'Kuwait',
       'Kyrgyzstan', 'Latvia', 'Lithuania

Отберем данные только по России. Общая схема отбора такая: data[макска]. Макска - это например Serires со значениями True и False

In [39]:
mask = data['country'] == 'Russian Federation'

In [40]:
mask.head()

0    False
1    False
2    False
3    False
4    False
Name: country, dtype: bool

In [41]:
data_ru = data[mask]

In [42]:
data_ru.head()

Unnamed: 0,country,year,sex,age,suicides_no,population
32952,Russian Federation,1980,female,15-24 years,869.0,11983700.0
32953,Russian Federation,1980,female,25-34 years,1203.0,11013000.0
32954,Russian Federation,1980,female,35-54 years,3859.0,19316800.0
32955,Russian Federation,1980,female,5-14 years,39.0,9507900.0
32956,Russian Federation,1980,female,55-74 years,3076.0,14083800.0


Можно писать более сложные условия

In [43]:
data[(data['country'] == 'Russian Federation') & (data['age'] == '15-24 years')].head()

Unnamed: 0,country,year,sex,age,suicides_no,population
32952,Russian Federation,1980,female,15-24 years,869.0,11983700.0
32958,Russian Federation,1980,male,15-24 years,4907.0,12517600.0
32964,Russian Federation,1981,female,15-24 years,762.0,11683700.0
32970,Russian Federation,1981,male,15-24 years,4521.0,12181200.0
32976,Russian Federation,1982,female,15-24 years,723.0,11364100.0
