# Часть 1 - Введение в pandas

In [1]:
import pandas as pd

## Содержание

### 1 Знакомство с pandas
- Знакомство с миром pandas
- Изучение истории и эволюции pandas
- Компоненты и приложения pandas
- Понимание основных концепций pandas
- Задание 1.01 - сравнение данных о продажах в двух магазинах
- Резюме

### 2 Работа со структурами данных
- Введение в структуры данных
- Зачем нужны структуры данных
- Индексы и столбцы
- Series
- Задание 2.01 - Работа со структурами данных pandas
- Резюме

### 3 Ввод/вывод данных
- Мир данных
- Изучение источников данных
- Основные форматы
- Дополнительные текстовые форматы
- Манипулирование данными SQL
- Задание 3.01 - использование данных SQL для аналитики pandas
- Резюме

### 4 Типы данных Pandas
- Знакомство с pandas dtypes
- Отсутствующие типы данных
- Задание 4.01 - оптимизация использования памяти путем преобразования в соответствующие dtypes
- Подмножество по типам данных
- Резюме


## 1 Знакомство с pandas

### Знакомство с миром pandas

### Изучение истории и эволюции pandas

### Компоненты и приложения pandas

- pandas/core [pd.Series, pd.DataFrame]
- pandas/src 
- pandas/io 
- pandas/tools
- pandas/sparse 
- pandas/stats 
- pandas/util 
- pandas/rpy [R]

### Понимание основных концепций pandas

#### Series

In [3]:
ser1 = pd.Series([10,20, 30, 40])
ser1

0    10
1    20
2    30
3    40
dtype: int64

In [4]:
ser1.index

RangeIndex(start=0, stop=4, step=1)

In [6]:
ser1.values

array([10, 20, 30, 40])

In [11]:
ser1.name = 'series 1'
ser1

0    10
1    20
2    30
3    40
Name: series 1, dtype: int64

In [14]:
ser2 = pd.Series(
    [
        [1, 2],
        [10, 20],
        [100, 200],
        {'Name1': '1', 'Name2':'2'}
    ]
)
ser2


0                          [1, 2]
1                        [10, 20]
2                      [100, 200]
3    {'Name1': '1', 'Name2': '2'}
dtype: object

#### Задание
Создать серию из 7 названий дней недели. 

Задать ей индексы в виде названий дней недели на другом языке. 

Задать название серии. 

Вывести все основные составные части серии: имя, значения и т.д.

In [2]:
df= pd.DataFrame([10, 12, 14])
df

Unnamed: 0,0
0,10
1,12
2,14


In [3]:
df.shape

(3, 1)

In [5]:
type(df.columns)

pandas.core.indexes.range.RangeIndex

In [6]:
df.index

RangeIndex(start=0, stop=3, step=1)

In [8]:
df.columns = ['V1']
df

Unnamed: 0,V1
0,10
1,12
2,14


In [9]:
type(df.columns)

pandas.core.indexes.base.Index

In [14]:
df = pd.DataFrame([[10,12], [14, 'a'], ['b', 'c']])
df

Unnamed: 0,0,1
0,10,12
1,14,a
2,b,c


In [15]:
df = pd.DataFrame(
    [[10,12], [14, 'a'], ['b', 'c']],
    columns=['v1', 'v2'],
    index=['R1', 'R2', 'R3']
)
df

Unnamed: 0,v1,v2
R1,10,12
R2,14,a
R3,b,c


### Чтение данных из csv

In [21]:
student_por = pd.read_csv('../../data/student-por.csv', delimiter=';')
student_por

Unnamed: 0,school,sex,age,address,famsize,Pstatus,Medu,Fedu,Mjob,Fjob,...,famrel,freetime,goout,Dalc,Walc,health,absences,G1,G2,G3
0,GP,F,18,U,GT3,A,4,4,at_home,teacher,...,4,3,4,1,1,3,4,0,11,11
1,GP,F,17,U,GT3,T,1,1,at_home,other,...,5,3,3,1,1,3,2,9,11,11
2,GP,F,15,U,LE3,T,1,1,at_home,other,...,4,3,2,2,3,3,6,12,13,12
3,GP,F,15,U,GT3,T,4,2,health,services,...,3,2,2,1,1,5,0,14,14,14
4,GP,F,16,U,GT3,T,3,3,other,other,...,4,3,2,1,2,5,0,11,13,13
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
644,MS,F,19,R,GT3,T,2,3,services,other,...,5,4,2,1,2,5,4,10,11,10
645,MS,F,18,U,LE3,T,3,1,teacher,services,...,4,3,4,1,1,1,4,15,15,16
646,MS,F,18,U,GT3,T,1,1,other,other,...,1,1,1,1,1,5,6,11,12,9
647,MS,M,17,U,LE3,T,3,1,services,services,...,2,4,5,3,4,2,6,10,10,10


In [28]:
student_por.tail()

Unnamed: 0,school,sex,age,address,famsize,Pstatus,Medu,Fedu,Mjob,Fjob,...,famrel,freetime,goout,Dalc,Walc,health,absences,G1,G2,G3
644,MS,F,19,R,GT3,T,2,3,services,other,...,5,4,2,1,2,5,4,10,11,10
645,MS,F,18,U,LE3,T,3,1,teacher,services,...,4,3,4,1,1,1,4,15,15,16
646,MS,F,18,U,GT3,T,1,1,other,other,...,1,1,1,1,1,5,6,11,12,9
647,MS,M,17,U,LE3,T,3,1,services,services,...,2,4,5,3,4,2,6,10,10,10
648,MS,M,18,R,LE3,T,3,2,services,other,...,4,4,1,3,4,5,4,10,11,11


In [35]:
# student_por.tail().to_csv('../../temp/student-por.csv')

In [36]:
student_por.columns

Index(['school', 'sex', 'age', 'address', 'famsize', 'Pstatus', 'Medu', 'Fedu',
       'Mjob', 'Fjob', 'reason', 'guardian', 'traveltime', 'studytime',
       'failures', 'schoolsup', 'famsup', 'paid', 'activities', 'nursery',
       'higher', 'internet', 'romantic', 'famrel', 'freetime', 'goout', 'Dalc',
       'Walc', 'health', 'absences', 'G1', 'G2', 'G3'],
      dtype='object')

In [45]:
student_por.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 649 entries, 0 to 648
Data columns (total 33 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   school      649 non-null    object
 1   sex         649 non-null    object
 2   age         649 non-null    int64 
 3   address     649 non-null    object
 4   famsize     649 non-null    object
 5   Pstatus     649 non-null    object
 6   Medu        649 non-null    int64 
 7   Fedu        649 non-null    int64 
 8   Mjob        649 non-null    object
 9   Fjob        649 non-null    object
 10  reason      649 non-null    object
 11  guardian    649 non-null    object
 12  traveltime  649 non-null    int64 
 13  studytime   649 non-null    int64 
 14  failures    649 non-null    int64 
 15  schoolsup   649 non-null    object
 16  famsup      649 non-null    object
 17  paid        649 non-null    object
 18  activities  649 non-null    object
 19  nursery     649 non-null    object
 20  higher    

In [46]:
student_por.school.unique()

array(['GP', 'MS'], dtype=object)

In [49]:
student_por.Mjob.unique()

array(['at_home', 'health', 'other', 'services', 'teacher'], dtype=object)

In [51]:
student_por.dtypes

school        object
sex           object
age            int64
address       object
famsize       object
Pstatus       object
Medu           int64
Fedu           int64
Mjob          object
Fjob          object
reason        object
guardian      object
traveltime     int64
studytime      int64
failures       int64
schoolsup     object
famsup        object
paid          object
activities    object
nursery       object
higher        object
internet      object
romantic      object
famrel         int64
freetime       int64
goout          int64
Dalc           int64
Walc           int64
health         int64
absences       int64
G1             int64
G2             int64
G3             int64
dtype: object

In [54]:
student_por.age = student_por.age.astype('float')
student_por

Unnamed: 0,school,sex,age,address,famsize,Pstatus,Medu,Fedu,Mjob,Fjob,...,famrel,freetime,goout,Dalc,Walc,health,absences,G1,G2,G3
0,GP,F,18.0,U,GT3,A,4,4,at_home,teacher,...,4,3,4,1,1,3,4,0,11,11
1,GP,F,17.0,U,GT3,T,1,1,at_home,other,...,5,3,3,1,1,3,2,9,11,11
2,GP,F,15.0,U,LE3,T,1,1,at_home,other,...,4,3,2,2,3,3,6,12,13,12
3,GP,F,15.0,U,GT3,T,4,2,health,services,...,3,2,2,1,1,5,0,14,14,14
4,GP,F,16.0,U,GT3,T,3,3,other,other,...,4,3,2,1,2,5,0,11,13,13
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
644,MS,F,19.0,R,GT3,T,2,3,services,other,...,5,4,2,1,2,5,4,10,11,10
645,MS,F,18.0,U,LE3,T,3,1,teacher,services,...,4,3,4,1,1,1,4,15,15,16
646,MS,F,18.0,U,GT3,T,1,1,other,other,...,1,1,1,1,1,5,6,11,12,9
647,MS,M,17.0,U,LE3,T,3,1,services,services,...,2,4,5,3,4,2,6,10,10,10


### Выборка данных

In [58]:
age = student_por['age']
age

0      18.0
1      17.0
2      15.0
3      15.0
4      16.0
       ... 
644    19.0
645    18.0
646    18.0
647    17.0
648    18.0
Name: age, Length: 649, dtype: float64

In [59]:
subset1 = student_por[['age', 'address', 'famsize']]
subset1

Unnamed: 0,age,address,famsize
0,18.0,U,GT3
1,17.0,U,GT3
2,15.0,U,LE3
3,15.0,U,GT3
4,16.0,U,GT3
...,...,...,...
644,19.0,R,GT3
645,18.0,U,LE3
646,18.0,U,GT3
647,17.0,U,LE3


In [67]:
subset2 = subset1.loc[:7, ['age', 'address']]
subset2

Unnamed: 0,age,address
0,18.0,U
1,17.0,U
2,15.0,U
3,15.0,U
4,16.0,U
5,16.0,U
6,16.0,U
7,17.0,U


In [69]:
student_por.groupby(['famsize'])['famsize'].agg('count')

famsize
GT3    457
LE3    192
Name: famsize, dtype: int64

### Задание 1.00

1. Вывести количество учеников по возрастам
2. Переименовать столбцы на русский: "Возраст" и "Адресс"
3. Переименовать индексы русским алфавитом 

### Задание 1.01 - сравнение данных о продажах в двух магазинах

### Резюме

## 2 Работа со структурами данных

### Введение в структуры данных

### Зачем нужны структуры данных

### Индексы и столбцы

### Series

### Задание 2.01 - Работа со структурами данных pandas

### Резюме

## 3 Ввод/вывод данных


### Мир данных

### Изучение источников данных

### Основные форматы

### Дополнительные текстовые форматы

### Манипулирование данными SQL

### Задание 3.01 - использование данных SQL для аналитики pandas

### Резюме

## 4 Типы данных Pandas

### Знакомство с pandas dtypes

### Отсутствующие типы данных

### Задание 4.01 - оптимизация использования памяти путем преобразования в соответствующие dtypes

### Подмножество по типам данных

### Резюме