## Настройка библиотеки pandas

In [1]:
# импортируем numpy и pandas
import numpy as np
import pandas as pd

# импортируем datetime
import datetime
from datetime import datetime, date

# импортируем matplotlib для построения графиков
import matplotlib.pyplot as plt
%matplotlib inline

###  Создание объекта DataFrame на основе результатов функций NumPy

Создаем датафрейм из одномерного массива NumPy:

In [2]:
pd.DataFrame(np.arange(1, 6))

Unnamed: 0,0
0,1
1,2
2,3
3,4
4,5


Создаем датафрейм из двумерного массива NumPy:

In [4]:
df = pd.DataFrame(np.array([[10, 11], [20, 21]]))
df

Unnamed: 0,0,1
0,10,11
1,20,21


In [5]:
df.columns # получаем индекс столбцов

RangeIndex(start=0, stop=2, step=1)

In [6]:
df = pd.DataFrame(np.array([[70, 71], [90, 91]]),
                  columns=['Russia', 'USA']) # задаем имена столбцов
df

Unnamed: 0,Russia,USA
0,70,71
1,90,91


In [7]:
len(df) # сколько строк?

2

In [8]:
df.shape # какова размерность датафрейма?

(2, 2)

## Создание объекта DataFrame с помощью питоновского словаря и объектов Series

In [9]:
temperatures = {'Moscow': [3, 1],
                'SPb': [2, -1]}
pd.DataFrame(temperatures)

Unnamed: 0,Moscow,SPb
0,3,2
1,1,-1


Создаем датафрейм для списка объектов Series:

In [10]:
temps_at_time0 = pd.Series([0, 2])
temps_at_time1 = pd.Series([1, 3])
df = pd.DataFrame([temps_at_time0, temps_at_time1])
df

Unnamed: 0,0,1
0,0,2
1,1,3


In [11]:
df = pd.DataFrame([temps_at_time0, temps_at_time1],
                  columns=['Moscow', 'SPb'])  # попытаемся задать имена столбцов
df

Unnamed: 0,Moscow,SPb
0,,
1,,


In [12]:
df = pd.DataFrame([temps_at_time0, temps_at_time1])
df.columns = ['Moscow', 'SPb'] # задаем имена столбцов после создания датафрейма
df

Unnamed: 0,Moscow,SPb
0,0,2
1,1,3


## Создание объекта DataFrame на основе CSV-файла

Считываем данные и выводим первые пять строк. 

Используем столбец Symbol в качестве индекса и считываем только те столбцы, у которых позиции 0, 2, 3, 7.

In [16]:
kino = pd.read_csv("Data/new_year_film.csv", 
                    index_col='name')

In [17]:
kino.head() # взглянем на первые 5 строк данных

Unnamed: 0_level_0,country,time,ranking,type,year,director
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Невеста,Россия,74,766,фильм,2006,Билли Уайлдер
Кто приходит в зимний вечер,Россия,90,6038,фильм,2006,Билли Уайлдер
Моя мама Снегурочка,Россия,90,6828,фильм,2007,Билли Уайлдер
Набережная Орфевр,Франция,106,7597,фильм,1947,Билли Уайлдер
Лузер,Россия,104,6065,фильм,2007,Билли Уайлдер


In [18]:
len(kino) # сколько строк данных?

150

In [19]:
kino.shape # какова форма?

(150, 6)

In [20]:
kino.size # каков размер?

900

In [21]:
kino.index # исследуем индекс

Index(['Невеста', 'Кто приходит в зимний вечер', 'Моя мама Снегурочка',
       'Набережная Орфевр', 'Лузер ', 'Крепкий орешек', 'Морозко',
       'Крепкий орешек 2', 'Кунг-фу Панда: Праздничный выпуск ',
       'Любители игрушек',
       ...
       'Ирония судьбы, или С легким паром! (мини-сериал)',
       'Исчезновение Харухи Судзумии', 'Как Гринч украл Рождество! ',
       'Как ежик и медвежонок встречали Новый год', 'Капитан Крюк',
       'Карнавальная ночь', 'Квартира', 'Когда зажигаются елки',
       'Кошмар перед Рождеством',
       'Красавица и чудовище: Чудесное Рождество (видео)'],
      dtype='object', name='name', length=150)

In [22]:
kino.columns # получаем столбцы

Index(['country', 'time', 'ranking', 'type', 'year', 'director'], dtype='object')

## Отбор столбцов в объекте DataFrame

In [23]:
kino['ranking'].head() # извлекаем столбец ranking

name
Невеста                         7,66
Кто приходит в зимний вечер    6,038
Моя мама Снегурочка            6,828
Набережная Орфевр              7,597
Лузер                          6,065
Name: ranking, dtype: object

In [24]:
type(kino['ranking'])

pandas.core.series.Series

In [25]:
kino[['director', 'country']].head() # извлекаем столбцы 

Unnamed: 0_level_0,director,country
name,Unnamed: 1_level_1,Unnamed: 2_level_1
Невеста,Билли Уайлдер,Россия
Кто приходит в зимний вечер,Билли Уайлдер,Россия
Моя мама Снегурочка,Билли Уайлдер,Россия
Набережная Орфевр,Билли Уайлдер,Франция
Лузер,Билли Уайлдер,Россия


In [26]:
type(kino[['director', 'country']])

pandas.core.frame.DataFrame

In [27]:
kino.director # атрибутивный доступ к столбцу по имени

name
Невеста                                             Билли Уайлдер
Кто приходит в зимний вечер                         Билли Уайлдер
Моя мама Снегурочка                                 Билли Уайлдер
Набережная Орфевр                                   Билли Уайлдер
Лузер                                               Билли Уайлдер
                                                        ...      
Карнавальная ночь                                             NaN
Квартира                                                      NaN
Когда зажигаются елки                                         NaN
Кошмар перед Рождеством                                       NaN
Красавица и чудовище: Чудесное Рождество (видео)              NaN
Name: director, Length: 150, dtype: object

## Отбор строк в объекте DataFrame

Получаем строку с меткой индекса Карнавальная ночь, которая возвращается в виде объекта Series:

In [28]:
kino.loc['Карнавальная ночь']

country      СССР
time           78
ranking     7,929
type        фильм
year         1956
director      NaN
Name: Карнавальная ночь, dtype: object

In [31]:
kino.loc[['Карнавальная ночь', 'Невеста']]

Unnamed: 0_level_0,country,time,ranking,type,year,director
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Карнавальная ночь,СССР,78,7929,фильм,1956,
Невеста,Россия,74,766,фильм,2006,Билли Уайлдер


In [32]:
kino.iloc[[0, 2]] # получаем строки, имеющие позиции 0 и 2

Unnamed: 0_level_0,country,time,ranking,type,year,director
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Невеста,Россия,74,766,фильм,2006,Билли Уайлдер
Моя мама Снегурочка,Россия,90,6828,фильм,2007,Билли Уайлдер


In [34]:
i1 = kino.index.get_loc('Невеста') # получаем позиции меток в индексе
i2 = kino.index.get_loc('Моя мама Снегурочка')
(i1, i2)

(0, 2)

In [35]:
kino.iloc[[i1, i2]] # и извлекаем строки

Unnamed: 0_level_0,country,time,ranking,type,year,director
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Невеста,Россия,74,766,фильм,2006,Билли Уайлдер
Моя мама Снегурочка,Россия,90,6828,фильм,2007,Билли Уайлдер


## Поиск скалярного значения по метке и позиции с помощью .at[] и .iat[]

Ищем скалярное значение по метке строки и метке (имени) столбца:

In [37]:
#kino.at['Невеста', 'Моя мама Снегурочка']

In [38]:
# ищем скалярное значение по позиции строки и позиции столбца извлекаем значение в строке 0, столбце 1
kino.iat[0, 1]

74

## Создание среза датафрейма с помощью оператора []

In [39]:
kino[:5] # первые пять строк

Unnamed: 0_level_0,country,time,ranking,type,year,director
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Невеста,Россия,74,766,фильм,2006,Билли Уайлдер
Кто приходит в зимний вечер,Россия,90,6038,фильм,2006,Билли Уайлдер
Моя мама Снегурочка,Россия,90,6828,фильм,2007,Билли Уайлдер
Набережная Орфевр,Франция,106,7597,фильм,1947,Билли Уайлдер
Лузер,Россия,104,6065,фильм,2007,Билли Уайлдер


In [41]:
# извлекаем строки по меткам:
#kino['Невеста':'Лузер']

## Логический отбор строк

In [43]:
kino.ranking < 10

In [45]:
kino[kino.ranking < 10]

In [None]:
r = kino[(kino.ranking < 10) & (kino.year > 2002)]['country']
r

In [None]:
r = kino[(kino.country == 'Россия') & (kino.ranking > 10)] [['director', 'type']]
r

## Одновременный отбор строк и столбцов

In [48]:
kino.loc[['Моя мама Снегурочка', 'Набережная Орфевр']][['director', 'type']]

Unnamed: 0_level_0,director,type
name,Unnamed: 1_level_1,Unnamed: 2_level_1
Моя мама Снегурочка,Билли Уайлдер,фильм
Набережная Орфевр,Билли Уайлдер,фильм
