Pandas - это библиотека Python, предоставляющая широкие возможности для анализа данных. С ее помощью очень удобно загружать, обрабатывать и анализировать табличные данные с помощью SQL-подобных запросов. 

In [1]:
#Для начала работы импортируем модуль pandas
import pandas as pd #создадим краткий псевдоним при импорте модуля
import numpy as np

Основными структурами данных в Pandas являются классы Series и DataFrame. Первый из них представляет собой одномерный индексированный массив данных некоторого фиксированного типа. Второй - это двухмерная структура данных, представляющая собой таблицу, каждый столбец которой содержит данные одного типа. Можно представлять её как словарь объектов типа Series. Структура DataFrame отлично подходит для представления реальных данных: строки соответствуют признаковым описаниям отдельных объектов, а столбцы соответствуют признакам.

Для начала рассмотрим простые примеры создания таких объектов и возможных операций над ними.

### Series 

Структура/объект Series представляет из себя объект, похожий на одномерный массив (питоновский список, например), но отличительной его чертой является наличие ассоциированных меток, т.н. индексов, вдоль каждого элемента из списка. Такая особенность превращает его в ассоциативный массив или словарь в Python.

In [2]:
my_series = pd.Series([5, 6, 7, 8, 9, 10])
my_series

0     5
1     6
2     7
3     8
4     9
5    10
dtype: int64

В строковом представлении объекта Series, индекс находится слева, а сам элемент справа. Если индекс явно не задан, то pandas автоматически создаёт RangeIndex от 0 до N-1, где N общее количество элементов. Также стоит обратить, что у Series есть тип хранимых элементов, в нашем случае это int64, т.к. мы передали целочисленные значения.

In [3]:
my_series.index

RangeIndex(start=0, stop=6, step=1)

In [4]:
my_series.values

array([ 5,  6,  7,  8,  9, 10], dtype=int64)

Доступ к элементам объекта Series возможны по их индексу (вспоминается аналогия со словарем и доступом по ключу).

In [5]:
my_series[4]

9

**Индексы можно задавать явно:**

In [6]:
my_series2 = pd.Series([5, 6, 7, 8, 9, 10], index=['a', 'b', 'c', 'd', 'e', 'f'])
my_series2

a     5
b     6
c     7
d     8
e     9
f    10
dtype: int64

In [7]:
my_series2['e']

9

**Делать выборку по нескольким индексам и осуществлять групповое присваивание:**

In [10]:
my_series2[['a', 'b', 'f']]

a     5
b     6
f    10
dtype: int64

In [11]:
my_series2[['a', 'b', 'f']] = 0
my_series2

a    0
b    0
c    7
d    8
e    9
f    0
dtype: int64

**Фильтровать Series как душе заблагорассудится, а также применять математические операции и многое другое:**

In [12]:
my_series2[my_series2 > 0]

c    7
d    8
e    9
dtype: int64

In [13]:
my_series2[my_series2 > 0] * 2

c    14
d    16
e    18
dtype: int64

**Если Series напоминает нам словарь, где ключом является индекс, а значением сам элемент, то можно сделать так:**

In [14]:
my_series3 = pd.Series({'a': 5, 'b': 6, 'c': 7, 'd': 8})
my_series3

a    5
b    6
c    7
d    8
dtype: int64

In [17]:
'd' in my_series3

True

**Индекс можно поменять "на лету", присвоив список атрибуту index объекта Series**

In [18]:
my_series3.index = ['A', 'B', 'C', 'D']
my_series3

A    5
B    6
C    7
D    8
dtype: int64

Имейте в виду, что список с индексами по длине должен совпадать с количеством элементов в Series.

### DataFrame 

Объект DataFrame лучше всего представлять себе в виде обычной таблицы и это правильно, ведь DataFrame является табличной структурой данных. В любой таблице всегда присутствуют строки и столбцы. Столбцами в объекте DataFrame выступают объекты Series, строки которых являются их непосредственными элементами.

DataFrame проще всего сконструировать на примере питоновского словаря:

In [19]:
df = pd.DataFrame({'country': ['Kazakhstan', 'Russia', 'Belarus', 'Ukraine'],
                   'population': [17.04, 143.5, 9.5, 45.5],
                   'square': [2724902, 17125191, 207600, 603628]
                  })

In [20]:
df

Unnamed: 0,country,population,square
0,Kazakhstan,17.04,2724902
1,Russia,143.5,17125191
2,Belarus,9.5,207600
3,Ukraine,45.5,603628


Чтобы убедиться, что столбец в DataFrame это Series, извлекаем любой:

In [21]:
df['country']

0    Kazakhstan
1        Russia
2       Belarus
3       Ukraine
Name: country, dtype: object

In [22]:
type(df['country'])

pandas.core.series.Series

Объект DataFrame имеет 2 индекса: по строкам и по столбцам. Если индекс по строкам явно не задан (например, колонка по которой нужно их строить), то pandas задаёт целочисленный индекс RangeIndex от 0 до N-1, где N это количество строк в таблице.

In [23]:
df.columns

Index(['country', 'population', 'square'], dtype='object')

In [24]:
df.index

RangeIndex(start=0, stop=4, step=1)

В таблице у нас 4 элемента от 0 до 3. 

**Доступ по индексу в DataFrame**

Индекс по строкам можно задать разными способами, например, при формировании самого объекта DataFrame или "на лету":

In [25]:
df = pd.DataFrame({'country': ['Kazakhstan', 'Russia', 'Belarus', 'Ukraine'],
                   'population': [17.04, 143.5, 9.5, 45.5],
                   'square': [2724902, 17125191, 207600, 603628]}, 
                  index=['KZ', 'RU', 'BY', 'UA'])

In [26]:
df

Unnamed: 0,country,population,square
KZ,Kazakhstan,17.04,2724902
RU,Russia,143.5,17125191
BY,Belarus,9.5,207600
UA,Ukraine,45.5,603628


In [39]:
df.index = ['KZ', 'RU', 'BY', 'UA']

In [42]:
df.index.name = 'Country Code'

In [31]:
df

Unnamed: 0_level_0,country,population,square
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
KZ,Kazakhstan,17.04,2724902
RU,Russia,143.5,17125191
BY,Belarus,9.5,207600
UA,Ukraine,45.5,603628


In [32]:
df['country']

Country Code
KZ    Kazakhstan
RU        Russia
BY       Belarus
UA       Ukraine
Name: country, dtype: object

**Доступ к строкам по индексу возможен несколькими способами:**

.loc - используется для доступа по строковой метке

.iloc - используется для доступа по числовому значению (начиная от 0)

In [33]:
df.loc['KZ']

country       Kazakhstan
population         17.04
square           2724902
Name: KZ, dtype: object

In [34]:
df.iloc[0]

country       Kazakhstan
population         17.04
square           2724902
Name: KZ, dtype: object

**Можно делать выборку по индексу и интересующим колонкам:**

In [35]:
df.loc[['KZ', 'RU'], 'population']

Country Code
KZ     17.04
RU    143.50
Name: population, dtype: float64

**Сбросить индексы можно вот так:**

In [43]:
df

Unnamed: 0_level_0,country,population,square
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
KZ,Kazakhstan,17.04,2724902
RU,Russia,143.5,17125191
BY,Belarus,9.5,207600
UA,Ukraine,45.5,603628


In [44]:
df = df.reset_index(drop = True)
df

Unnamed: 0,country,population,square
0,Kazakhstan,17.04,2724902
1,Russia,143.5,17125191
2,Belarus,9.5,207600
3,Ukraine,45.5,603628


In [45]:
del df['Country Code']

KeyError: 'Country Code'

In [38]:
df

Unnamed: 0,country,population,square
0,Kazakhstan,17.04,2724902
1,Russia,143.5,17125191
2,Belarus,9.5,207600
3,Ukraine,45.5,603628


**Добавим новый столбец, в котором население (в миллионах) поделим на площадь страны, получив тем самым плотность:**

In [46]:
df['density'] = df['population'] / df['square'] * 1000000

In [47]:
df

Unnamed: 0,country,population,square,density
0,Kazakhstan,17.04,2724902,6.253436
1,Russia,143.5,17125191,8.379469
2,Belarus,9.5,207600,45.761079
3,Ukraine,45.5,603628,75.37755


**Не нравится новый столбец? Не проблема, удалим его:**

In [None]:
df = df.drop(['density'], axis='columns')
df

**Переименовывать столбцы нужно через метод rename:**

In [48]:
df = df.rename(columns={'population': 'kol-vo', 'density': 'плотность'})
df

Unnamed: 0,country,kol-vo,square,плотность
0,Kazakhstan,17.04,2724902,6.253436
1,Russia,143.5,17125191,8.379469
2,Belarus,9.5,207600,45.761079
3,Ukraine,45.5,603628,75.37755


### Чтение и запись данных

pandas поддерживает все самые популярные форматы хранения данных: csv, excel, sql, буфер обмена, html и многое другое:

In [49]:
df.to_csv('filename.csv', index = False, sep = ';', encoding = 'utf-8')

In [51]:
df = pd.read_csv('filename.csv', sep=';')
df

Unnamed: 0,country,kol-vo,square,плотность
0,Kazakhstan,17.04,2724902,6.253436
1,Russia,143.5,17125191,8.379469
2,Belarus,9.5,207600,45.761079
3,Ukraine,45.5,603628,75.37755


In [53]:
df.head()

Unnamed: 0,country,kol-vo,square,плотность
0,Kazakhstan,17.04,2724902,6.253436
1,Russia,143.5,17125191,8.379469
2,Belarus,9.5,207600,45.761079
3,Ukraine,45.5,603628,75.37755


### Пример первичного анализа данных с Pandas 

Pandas - это библиотека для работы с данными в виде таблице. Пандас напоминает нам таблицу Excel, где есть столбцы их имена и строки, куда пишутся значения столбцов. Однако главной абстракцией пандас является то, что столбцы-это признаки, а строких их значения. Получается, что каждая строка - это пример для обучения модели, а столбцы это признаки каждого примера.


В данном разделе мы рассмотрим работу с пандас на примере данных с рейтингового агенства TMDB - оно оценивает популярность фильмов. Нам дан файл с портала facebook в котором описаны посты с фильмами, их режиссеры, год создания, количество "лайков" под фильмом и много другое.

Описание колонок данных: https://www.kaggle.com/anandakshay44/linear-regression-analysis-of-imdb-dataset/data

In [54]:
data=pd.read_csv('movie_metadata.csv', sep=',') #загрузка данных с разделителем ','

In [56]:
pd.set_option('display.max_columns', 500)

In [59]:
data.head(2) #покажем первые 10 строк таблицы с "головы", тоже можно делать и с отдельным столбцом или их набором

Unnamed: 0,color,director_name,num_critic_for_reviews,duration,director_facebook_likes,actor_3_facebook_likes,actor_2_name,actor_1_facebook_likes,gross,genres,actor_1_name,movie_title,num_voted_users,cast_total_facebook_likes,actor_3_name,facenumber_in_poster,plot_keywords,movie_imdb_link,num_user_for_reviews,language,country,content_rating,budget,title_year,actor_2_facebook_likes,imdb_score,aspect_ratio,movie_facebook_likes
0,Color,James Cameron,723.0,178.0,0.0,855.0,Joel David Moore,1000.0,760505847.0,Action|Adventure|Fantasy|Sci-Fi,CCH Pounder,Avatar,886204,4834,Wes Studi,0.0,avatar|future|marine|native|paraplegic,http://www.imdb.com/title/tt0499549/?ref_=fn_t...,3054.0,English,USA,PG-13,237000000.0,2009.0,936.0,7.9,1.78,33000
1,Color,Gore Verbinski,302.0,169.0,563.0,1000.0,Orlando Bloom,40000.0,309404152.0,Action|Adventure|Fantasy,Johnny Depp,Pirates of the Caribbean: At World's End,471220,48350,Jack Davenport,0.0,goddess|marriage ceremony|marriage proposal|pi...,http://www.imdb.com/title/tt0449088/?ref_=fn_t...,1238.0,English,USA,PG-13,300000000.0,2007.0,5000.0,7.1,2.35,0


In [68]:
len(data[data.director_name.notnull()])

4939

In [60]:
#Можно не только посмотреть структуру данных но и типы данных, число заполненых полей
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5043 entries, 0 to 5042
Data columns (total 28 columns):
color                        5024 non-null object
director_name                4939 non-null object
num_critic_for_reviews       4993 non-null float64
duration                     5028 non-null float64
director_facebook_likes      4939 non-null float64
actor_3_facebook_likes       5020 non-null float64
actor_2_name                 5030 non-null object
actor_1_facebook_likes       5036 non-null float64
gross                        4159 non-null float64
genres                       5043 non-null object
actor_1_name                 5036 non-null object
movie_title                  5043 non-null object
num_voted_users              5043 non-null int64
cast_total_facebook_likes    5043 non-null int64
actor_3_name                 5020 non-null object
facenumber_in_poster         5030 non-null float64
plot_keywords                4890 non-null object
movie_imdb_link              5043 non-

**Замечания по данным**
1. Внизу мы видим число полей типа float-13, int-3 и объект (обычно строка или набор символов) -12
2. Колонка слева - имена столбцов
3. Колонка справа - число не нулевых значений по соответствующему признаку
4. Сверху общее число колонок и строк:
        RangeIndex: 5043 entries, 0 to 5042, Data columns (total 28 columns)

**Итого сразу видим:** 
число строк-записей 5043, число столбцов 28, есть столбцы разных типов, а так же имеются пропуски.
Как работать с пропусками и разными типами данных рассмотрим в будущих уроках

In [62]:
#Обращаться к data frame можно по имени столбца, посмотрим на заголовки фильмов
data['movie_title'].head()

0                                              Avatar 
1            Pirates of the Caribbean: At World's End 
2                                             Spectre 
3                               The Dark Knight Rises 
4    Star Wars: Episode VII - The Force Awakens    ...
Name: movie_title, dtype: object

In [63]:
#Обращение к строке в data по индексу строки при помощи срезов и .iloc[,]
data.iloc[0,:]

color                                                                    Color
director_name                                                    James Cameron
num_critic_for_reviews                                                     723
duration                                                                   178
director_facebook_likes                                                      0
actor_3_facebook_likes                                                     855
actor_2_name                                                  Joel David Moore
actor_1_facebook_likes                                                    1000
gross                                                              7.60506e+08
genres                                         Action|Adventure|Fantasy|Sci-Fi
actor_1_name                                                       CCH Pounder
movie_title                                                            Avatar 
num_voted_users                                     

In [64]:
#Обращение к строке в data по названию колонки, индекса и .ix[,]
data.ix[0,'movie_title']

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  


'Avatar\xa0'

In [65]:
#ix схож с .loc
data.loc[0,'movie_title']

'Avatar\xa0'

In [69]:
"""
Cоздать новый столбец просто, как в словаре нам достаточно написать новое имя 
и передать значение нию столбца для которого вызывается метод присваивает результат функции lambda

"""

data['is_liked']=data['movie_facebook_likes'].apply(lambda x: 'yes' if x>0 else 'no') #если число лайков у фильма больше 0 - он лайкнут

data[['is_liked', 'movie_facebook_likes']].head() #пример вывода двух столбцов отдельно от всех

Unnamed: 0,is_liked,movie_facebook_likes
0,yes,33000
1,no,0
2,yes,85000
3,yes,164000
4,no,0


**Необходимо подсчитать, сколько черно-белых и цветных фильмов снимал режиссер. В этом нам поможет метод .groupby.**

In [70]:
data.groupby(['director_name', 'color'])['director_name'].count()

director_name               color           
A. Raven Cruz               Color                1
Aaron Hann                  Color                1
Aaron Schneider             Color                1
Aaron Seltzer               Color                1
Abel Ferrara                Color                1
Adam Brooks                 Color                1
Adam Carolla                Color                1
Adam Goldberg               Color                1
Adam Green                  Color                1
Adam Jay Epstein            Color                1
Adam Marcus                 Color                1
Adam McKay                  Color                6
Adam Rapp                   Color                1
Adam Rifkin                 Color                2
Adam Shankman               Color                8
Adrian Lyne                 Color                4
Adrienne Shelly             Color                1
Agnieszka Holland           Color                1
Agnieszka Wojtowicz-Vosloo  Color    

**Индексация**

In [71]:
# Показать все фильмы, которые снимал Adam McKay

data[data.director_name == 'Adam McKay']

Unnamed: 0,color,director_name,num_critic_for_reviews,duration,director_facebook_likes,actor_3_facebook_likes,actor_2_name,actor_1_facebook_likes,gross,genres,actor_1_name,movie_title,num_voted_users,cast_total_facebook_likes,actor_3_name,facenumber_in_poster,plot_keywords,movie_imdb_link,num_user_for_reviews,language,country,content_rating,budget,title_year,actor_2_facebook_likes,imdb_score,aspect_ratio,movie_facebook_likes,is_liked
294,Color,Adam McKay,265.0,116.0,285.0,107.0,Will Ferrell,12000.0,119219978.0,Action|Comedy|Crime,Dwayne Johnson,The Other Guys,189806,20233,Derek Jeter,2.0,capitalist|detective|investigation|new york ci...,http://www.imdb.com/title/tt1386588/?ref_=fn_t...,316.0,English,USA,PG-13,100000000.0,2010.0,8000.0,6.7,2.35,16000,yes
571,Color,Adam McKay,164.0,122.0,285.0,989.0,Leslie Bibb,8000.0,148213377.0,Action|Comedy|Sport,Will Ferrell,Talladega Nights: The Ballad of Ricky Bobby,130776,12410,Gary Cole,5.0,car racing|french|friend|nascar|racing,http://www.imdb.com/title/tt0415306/?ref_=fn_t...,437.0,English,USA,PG-13,73000000.0,2006.0,1000.0,6.6,2.35,0,no
660,Color,Adam McKay,173.0,106.0,285.0,105.0,Adam Scott,8000.0,100468793.0,Comedy,Will Ferrell,Step Brothers,212499,11264,Andrea Savage,2.0,dream|friendship|karaoke|love|slacker,http://www.imdb.com/title/tt0838283/?ref_=fn_t...,277.0,English,USA,R,65000000.0,2008.0,3000.0,6.9,2.35,0,no
934,Color,Adam McKay,272.0,143.0,285.0,7000.0,Will Ferrell,11000.0,2175312.0,Comedy,Harrison Ford,Anchorman 2: The Legend Continues,131227,28176,Steve Carell,2.0,fame|father son relationship|interracial kiss|...,http://www.imdb.com/title/tt1229340/?ref_=fn_t...,346.0,English,USA,PG-13,50000000.0,2013.0,8000.0,6.3,2.35,41000,yes
1756,Color,Adam McKay,426.0,130.0,285.0,767.0,Christian Bale,33000.0,70235322.0,Biography|Comedy|Drama|History,Ryan Gosling,The Big Short,182983,57308,Charlie Talbert,4.0,bank|banking|finance|fraud|mortgage,http://www.imdb.com/title/tt1596363/?ref_=fn_t...,374.0,English,USA,R,28000000.0,2015.0,23000.0,7.8,2.35,99000,yes
1902,Color,Adam McKay,181.0,98.0,285.0,7000.0,Will Ferrell,640000.0,84136909.0,Comedy,Darcy Donavan,Anchorman: The Legend of Ron Burgundy,267921,656730,Steve Carell,5.0,1970s|anchorman|news anchor|newsroom|tv station,http://www.imdb.com/title/tt0357413/?ref_=fn_t...,577.0,English,USA,PG-13,26000000.0,2004.0,8000.0,7.2,1.85,0,no


In [72]:
# Показать все фильмы, которые снимал Adam McKay и длительность которых больше 120 минут

data[(data['duration']>120) & (data.director_name == 'Adam McKay')]

Unnamed: 0,color,director_name,num_critic_for_reviews,duration,director_facebook_likes,actor_3_facebook_likes,actor_2_name,actor_1_facebook_likes,gross,genres,actor_1_name,movie_title,num_voted_users,cast_total_facebook_likes,actor_3_name,facenumber_in_poster,plot_keywords,movie_imdb_link,num_user_for_reviews,language,country,content_rating,budget,title_year,actor_2_facebook_likes,imdb_score,aspect_ratio,movie_facebook_likes,is_liked
571,Color,Adam McKay,164.0,122.0,285.0,989.0,Leslie Bibb,8000.0,148213377.0,Action|Comedy|Sport,Will Ferrell,Talladega Nights: The Ballad of Ricky Bobby,130776,12410,Gary Cole,5.0,car racing|french|friend|nascar|racing,http://www.imdb.com/title/tt0415306/?ref_=fn_t...,437.0,English,USA,PG-13,73000000.0,2006.0,1000.0,6.6,2.35,0,no
934,Color,Adam McKay,272.0,143.0,285.0,7000.0,Will Ferrell,11000.0,2175312.0,Comedy,Harrison Ford,Anchorman 2: The Legend Continues,131227,28176,Steve Carell,2.0,fame|father son relationship|interracial kiss|...,http://www.imdb.com/title/tt1229340/?ref_=fn_t...,346.0,English,USA,PG-13,50000000.0,2013.0,8000.0,6.3,2.35,41000,yes
1756,Color,Adam McKay,426.0,130.0,285.0,767.0,Christian Bale,33000.0,70235322.0,Biography|Comedy|Drama|History,Ryan Gosling,The Big Short,182983,57308,Charlie Talbert,4.0,bank|banking|finance|fraud|mortgage,http://www.imdb.com/title/tt1596363/?ref_=fn_t...,374.0,English,USA,R,28000000.0,2015.0,23000.0,7.8,2.35,99000,yes


In [74]:
# Показать сумму, затраченную на все фильмы, которые снимал Adam McKay и длительность которых больше 120 минут

sum(data['budget'][(data['duration']>120) & (data.director_name == 'Adam McKay')])

151000000.0

In [75]:
# Показать фильм с максимальным imdb_score

data[data.imdb_score == max(data.imdb_score)]

Unnamed: 0,color,director_name,num_critic_for_reviews,duration,director_facebook_likes,actor_3_facebook_likes,actor_2_name,actor_1_facebook_likes,gross,genres,actor_1_name,movie_title,num_voted_users,cast_total_facebook_likes,actor_3_name,facenumber_in_poster,plot_keywords,movie_imdb_link,num_user_for_reviews,language,country,content_rating,budget,title_year,actor_2_facebook_likes,imdb_score,aspect_ratio,movie_facebook_likes,is_liked
2765,Color,John Blanchard,,65.0,0.0,176.0,Andrea Martin,770.0,,Comedy,Martin Short,Towering Inferno,10,1125,Joe Flaherty,2.0,,http://www.imdb.com/title/tt0691996/?ref_=fn_t...,,English,Canada,,,,179.0,9.5,1.33,0,no


### Практическое задание. Анализ данных пассажиров "Титаника"

Считаем данные из файла в память в виде объекта Pandas.DataFrame

In [None]:
titanic_df = pd.read_csv('titanic.csv', sep = ',')

**1. Данные представлены в виде таблицы. Посмотрим на первые 5 строк:**

In [None]:
# Ваш код здесь

**2. Возьмем первые 10 элементов столбца Parch - количество родителей и детей пассажира на борту:**

In [None]:
# Ваш код здесь

**3. Отберем пассажиров, которые сели в Cherbourg (Embarked=C) и заплатили более 200 у.е. (fare > 200).**

Убедитесь, что Вы понимаете, как эта конструкция работает. <br />
Если нет - посмотрите, как вычисляется выражение в квадратных в скобках.

In [None]:
# Ваш код здесь

**4. Сколько мужчин / жещин находилось на борту?**

In [None]:
# Ваш код здесь

In [None]:
# Ваш код здесь

**5. Сколько в среднем заплатил один пассажир? Сколько все пассажиры заплатили в сумме?**

In [None]:
# Ваш код здесь

In [None]:
# Ваш код здесь

**6. Необходимо подсчитать, сколько женщин и мужчин выжило, а сколько нет. В этом нам поможет метод .groupby.**

In [None]:
# Ваш код здесь

**7. А теперь проанализируем в разрезе класса кабины:**

In [None]:
# Ваш код здесь