<a href="https://colab.research.google.com/github/dm-fedorov/pandas_basic/blob/master/кейсы%20по%20анализу%20данных/Кино_про_НГ_столбцы.ipynb" target="_blank"><img align="left" src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open in Colab" title="Open and Execute in Google Colaboratory"></a>

In [1]:
import numpy as np
import pandas as pd

In [2]:
url = "https://raw.githubusercontent.com/dm-fedorov/pandas_basic/master/data/new_year_film.csv"

In [3]:
df_kino = pd.read_csv(url, index_col='name')
df_kino.head()

Unnamed: 0_level_0,country,time,ranking,type,year,director
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Невеста,Россия,74,766,фильм,2006,Билли Уайлдер
Кто приходит в зимний вечер,Россия,90,6038,фильм,2006,Билли Уайлдер
Моя мама Снегурочка,Россия,90,6828,фильм,2007,Билли Уайлдер
Набережная Орфевр,Франция,106,7597,фильм,1947,Билли Уайлдер
Лузер,Россия,104,6065,фильм,2007,Билли Уайлдер


### Переименование столбцов

[Примеры из официальной документации](https://pandas.pydata.org/pandas-docs/stable/user_guide/basics.html#basics-rename)

Полезно, когда хотим убрать пробелы из названий столбцов.

Программный код возращает копию датафрейма с переименованным столбцом ([pandas.DataFrame.rename](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.rename.html)).

In [4]:
kino_rename = df_kino.rename(columns={'time': 'time_film'})
kino_rename.head(2)

Unnamed: 0_level_0,country,time_film,ranking,type,year,director
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Невеста,Россия,74,766,фильм,2006,Билли Уайлдер
Кто приходит в зимний вечер,Россия,90,6038,фильм,2006,Билли Уайлдер


In [5]:
kino_rename = df_kino.rename(columns={'time': 'time_film', 'country':'country_film'})
kino_rename.head(2)

Unnamed: 0_level_0,country_film,time_film,ranking,type,year,director
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Невеста,Россия,74,766,фильм,2006,Билли Уайлдер
Кто приходит в зимний вечер,Россия,90,6038,фильм,2006,Билли Уайлдер


Переименовывает столбец "на месте":

In [6]:
df_kino.rename(columns={'time': 'time_film'},                   
               inplace=True)  
df_kino.columns

Index(['country', 'time_film', 'ranking', 'type', 'year', 'director'], dtype='object')

### Добавление новых столбцов с помощью оператора [] и метода .insert()

In [7]:
kino_copy = df_kino.copy()

Переводим столбец со строками в числа с плавающей точкой:

In [8]:
kino_copy.ranking = kino_copy.ranking.str.replace(',','.')
kino_copy.ranking = kino_copy.ranking.astype(float)
kino_copy.ranking

name
Невеста                                             7.660
Кто приходит в зимний вечер                         6.038
Моя мама Снегурочка                                 6.828
Набережная Орфевр                                   7.597
Лузер                                               6.065
                                                    ...  
Карнавальная ночь                                   7.929
Квартира                                            8.021
Когда зажигаются елки                               7.940
Кошмар перед Рождеством                             8.049
Красавица и чудовище: Чудесное Рождество (видео)    6.814
Name: ranking, Length: 150, dtype: float64

Добавляем столбец, содержащий округленную оценку рейтинга:

In [9]:
kino_copy['rounded_ranking'] = kino_copy.ranking.round()
kino_copy.head(2)

Unnamed: 0_level_0,country,time_film,ranking,type,year,director,rounded_ranking
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Невеста,Россия,74,7.66,фильм,2006,Билли Уайлдер,8.0
Кто приходит в зимний вечер,Россия,90,6.038,фильм,2006,Билли Уайлдер,6.0


In [10]:
kino_copy = df_kino.copy()

Заменяем содержимое столбца:

In [11]:
kino_copy.ranking = kino_copy.ranking.str.replace(',','.')
kino_copy.ranking = kino_copy.ranking.astype(float)

Вставляем столбец rounded_ranking в качестве второго столбца датафрейма:

In [12]:
kino_copy.insert(1, 'rounded_ranking', kino_copy.ranking.round())
kino_copy.head(2)

Unnamed: 0_level_0,country,rounded_ranking,time_film,ranking,type,year,director
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Невеста,Россия,8.0,74,7.66,фильм,2006,Билли Уайлдер
Кто приходит в зимний вечер,Россия,6.0,90,6.038,фильм,2006,Билли Уайлдер


### Добавление столбцов за счет расширения датафрейма

In [13]:
kino_copy = df_kino[:3].copy()

Добавляем столбец с нулевыми значениями:

In [14]:
kino_copy.loc[:,'imdb'] = 0 
kino_copy

Unnamed: 0_level_0,country,time_film,ranking,type,year,director,imdb
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Невеста,Россия,74,766,фильм,2006,Билли Уайлдер,0
Кто приходит в зимний вечер,Россия,90,6038,фильм,2006,Билли Уайлдер,0
Моя мама Снегурочка,Россия,90,6828,фильм,2007,Билли Уайлдер,0


In [15]:
kino_copy = df_kino[:3].copy()

Добавляем новый столбец со случайно сгенерированными значениями:

In [16]:
kino_copy.loc[:,'imdb'] = pd.Series(np.random.randint(1, 10), index=kino_copy.index) # индекс должен совпадать
kino_copy

Unnamed: 0_level_0,country,time_film,ranking,type,year,director,imdb
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Невеста,Россия,74,766,фильм,2006,Билли Уайлдер,3
Кто приходит в зимний вечер,Россия,90,6038,фильм,2006,Билли Уайлдер,3
Моя мама Снегурочка,Россия,90,6828,фильм,2007,Билли Уайлдер,3


### Переупорядочивание столбцов

Возвращаем новый объект со столбцами в обратном порядке:

In [17]:
df_kino.columns[::-1]

Index(['director', 'year', 'type', 'ranking', 'time_film', 'country'], dtype='object')

In [18]:
df_kino[df_kino.columns[::-1]].head()

Unnamed: 0_level_0,director,year,type,ranking,time_film,country
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Невеста,Билли Уайлдер,2006,фильм,766,74,Россия
Кто приходит в зимний вечер,Билли Уайлдер,2006,фильм,6038,90,Россия
Моя мама Снегурочка,Билли Уайлдер,2007,фильм,6828,90,Россия
Набережная Орфевр,Билли Уайлдер,1947,фильм,7597,106,Франция
Лузер,Билли Уайлдер,2007,фильм,6065,104,Россия


### Удаление столбцов

Пример использования del для удаления столбца "на месте": 

In [19]:
kino_copy = df_kino.copy()
del kino_copy['director']
kino_copy.head(2)

Unnamed: 0_level_0,country,time_film,ranking,type,year
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Невеста,Россия,74,766,фильм,2006
Кто приходит в зимний вечер,Россия,90,6038,фильм,2006


Пример использования drop для удаления столбца из датафрейма:

In [20]:
kino_copy = df_kino.copy()

Эта строка вернет новый датафрейм с удаленным столбцом 'director' копия датафрейма не изменится:

In [21]:
afterdrop = kino_copy.drop(['director'], axis=1) # axis=0 для строки
afterdrop.head(5)

Unnamed: 0_level_0,country,time_film,ranking,type,year
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Невеста,Россия,74,766,фильм,2006
Кто приходит в зимний вечер,Россия,90,6038,фильм,2006
Моя мама Снегурочка,Россия,90,6828,фильм,2007
Набережная Орфевр,Франция,106,7597,фильм,1947
Лузер,Россия,104,6065,фильм,2007


Рассмотрим работу метода pop():

In [22]:
kino_copy = df_kino.copy()

In [23]:
popped = kino_copy.pop('director')
popped # можем взглянуть на удаленные столбцы

name
Невеста                                             Билли Уайлдер
Кто приходит в зимний вечер                         Билли Уайлдер
Моя мама Снегурочка                                 Билли Уайлдер
Набережная Орфевр                                   Билли Уайлдер
Лузер                                               Билли Уайлдер
                                                        ...      
Карнавальная ночь                                             NaN
Квартира                                                      NaN
Когда зажигаются елки                                         NaN
Кошмар перед Рождеством                                       NaN
Красавица и чудовище: Чудесное Рождество (видео)              NaN
Name: director, Length: 150, dtype: object

### Присоединение строк из других объектов DataFrame с помощью метода .append()

Документация [pandas.DataFrame.append](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.append.html)

In [24]:
df1 = df_kino.iloc[0:3].copy() # копируем первые три строки датафрейма
df1

Unnamed: 0_level_0,country,time_film,ranking,type,year,director
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Невеста,Россия,74,766,фильм,2006,Билли Уайлдер
Кто приходит в зимний вечер,Россия,90,6038,фильм,2006,Билли Уайлдер
Моя мама Снегурочка,Россия,90,6828,фильм,2007,Билли Уайлдер


In [25]:
df2 = df_kino.iloc[[10, 11, 2]] # копируем строки в позициях 10, 11 и 2
df2

Unnamed: 0_level_0,country,time_film,ranking,type,year,director
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Магазинчик за углом,США,99,7921,фильм,1940,Билли Уайлдер
Мужчина в моей голове,Россия,113,7143,фильм,2009,Билли Уайлдер
Моя мама Снегурочка,Россия,90,6828,фильм,2007,Билли Уайлдер


Присоединяем к датафрейму df1 датафрейм df2:

In [26]:
appended = df1.append(df2)

В результате к строкам первого датафрейма будут присоединены строки второго датафрейма:

In [27]:
appended

Unnamed: 0_level_0,country,time_film,ranking,type,year,director
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Невеста,Россия,74,766,фильм,2006,Билли Уайлдер
Кто приходит в зимний вечер,Россия,90,6038,фильм,2006,Билли Уайлдер
Моя мама Снегурочка,Россия,90,6828,фильм,2007,Билли Уайлдер
Магазинчик за углом,США,99,7921,фильм,1940,Билли Уайлдер
Мужчина в моей голове,Россия,113,7143,фильм,2009,Билли Уайлдер
Моя мама Снегурочка,Россия,90,6828,фильм,2007,Билли Уайлдер


### Конкатенация строк

Копируем первые три строки датафрейма: 

In [28]:
df1 = df_kino.iloc[0:3].copy()
df1

Unnamed: 0_level_0,country,time_film,ranking,type,year,director
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Невеста,Россия,74,766,фильм,2006,Билли Уайлдер
Кто приходит в зимний вечер,Россия,90,6038,фильм,2006,Билли Уайлдер
Моя мама Снегурочка,Россия,90,6828,фильм,2007,Билли Уайлдер


Копируем строки в позициях 10, 11 и 2:

In [29]:
df2 = df_kino.iloc[[10, 11, 2]]
df2

Unnamed: 0_level_0,country,time_film,ranking,type,year,director
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Магазинчик за углом,США,99,7921,фильм,1940,Билли Уайлдер
Мужчина в моей голове,Россия,113,7143,фильм,2009,Билли Уайлдер
Моя мама Снегурочка,Россия,90,6828,фильм,2007,Билли Уайлдер


Передаем их в виде списка:

In [30]:
pd.concat([df1, df2])

Unnamed: 0_level_0,country,time_film,ranking,type,year,director
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Невеста,Россия,74,766,фильм,2006,Билли Уайлдер
Кто приходит в зимний вечер,Россия,90,6038,фильм,2006,Билли Уайлдер
Моя мама Снегурочка,Россия,90,6828,фильм,2007,Билли Уайлдер
Магазинчик за углом,США,99,7921,фильм,1940,Билли Уайлдер
Мужчина в моей голове,Россия,113,7143,фильм,2009,Билли Уайлдер
Моя мама Снегурочка,Россия,90,6828,фильм,2007,Билли Уайлдер


### Добавление строк

In [31]:
df_kino.loc["Очень смешное кино"] = ["Россия", 90, "3,9", "фильм", 2009, "Том Круз"]
df_kino.tail(1)

Unnamed: 0_level_0,country,time_film,ranking,type,year,director
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Очень смешное кино,Россия,90,39,фильм,2009,Том Круз


### Удаление строк с помощью метода .drop()

In [32]:
kino_copy = df_kino[:5]
kino_copy

Unnamed: 0_level_0,country,time_film,ranking,type,year,director
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Невеста,Россия,74,766,фильм,2006,Билли Уайлдер
Кто приходит в зимний вечер,Россия,90,6038,фильм,2006,Билли Уайлдер
Моя мама Снегурочка,Россия,90,6828,фильм,2007,Билли Уайлдер
Набережная Орфевр,Франция,106,7597,фильм,1947,Билли Уайлдер
Лузер,Россия,104,6065,фильм,2007,Билли Уайлдер


In [33]:
afterdrop = kino_copy.drop(['Моя мама Снегурочка', 'Набережная Орфевр'])
afterdrop.head(5)

Unnamed: 0_level_0,country,time_film,ranking,type,year,director
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Невеста,Россия,74,766,фильм,2006,Билли Уайлдер
Кто приходит в зимний вечер,Россия,90,6038,фильм,2006,Билли Уайлдер
Лузер,Россия,104,6065,фильм,2007,Билли Уайлдер


### Удаление строк с помощью логического отбора

In [34]:
df_kino.ranking = df_kino.ranking.str.replace(',','.')
df_kino.ranking = df_kino.ranking.astype(float)

Определяем строки, в которых ranking > 6:

In [35]:
selection = df_kino.ranking > 6

Выводим информацию о количестве строк и количестве строк, которые будут удалены:

In [36]:
(len(selection), selection.sum())

(151, 136)

Для фильтрации применим побитовое отрицание к выражению selection:

In [37]:
not_selection = df_kino[~selection]
not_selection.head()

Unnamed: 0_level_0,country,time_film,ranking,type,year,director
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
"Ой, мороз, мороз!",РСФСР,95,5.775,фильм,2005,Джиллиан Армстронг
Новогодний детектив,Россия,90,5.981,фильм,2010,Джиллиан Армстронг
"Откройте, Дед Мороз!",РСФСР,98,5.318,фильм,2007,Джиллиан Армстронг
Приключения Снеговика Фрости,США,25,5.677,мультфильм,1969,Майк Митчелл
Сверчок за очагом,Россия,107,5.86,фильм,2001,Майкл Саймон


### Удаление строк с помощью среза

Отбираем лишь первые три строки:

In [38]:
only_first_three = df_kino[:3]
only_first_three

Unnamed: 0_level_0,country,time_film,ranking,type,year,director
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Невеста,Россия,74,7.66,фильм,2006,Билли Уайлдер
Кто приходит в зимний вечер,Россия,90,6.038,фильм,2006,Билли Уайлдер
Моя мама Снегурочка,Россия,90,6.828,фильм,2007,Билли Уайлдер


In [39]:
only_first_three = df_kino[:3].copy()
only_first_three

Unnamed: 0_level_0,country,time_film,ranking,type,year,director
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Невеста,Россия,74,7.66,фильм,2006,Билли Уайлдер
Кто приходит в зимний вечер,Россия,90,6.038,фильм,2006,Билли Уайлдер
Моя мама Снегурочка,Россия,90,6.828,фильм,2007,Билли Уайлдер
