<a href="https://colab.research.google.com/github/dm-fedorov/pandas_basic/blob/master/кейсы%20по%20анализу%20данных/Кино_про_НГ_столбцы.ipynb" target="_blank"><img align="left" src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open in Colab" title="Open and Execute in Google Colaboratory"></a>

In [None]:
import numpy as np
import pandas as pd

In [None]:
url = "https://raw.githubusercontent.com/dm-fedorov/pandas_basic/master/data/new_year_film.csv"

In [None]:
df_kino = pd.read_csv(url, index_col='name')
df_kino.head()

### Переименование столбцов

[Примеры из официальной документации](https://pandas.pydata.org/pandas-docs/stable/user_guide/basics.html#basics-rename)

Полезно, когда хотим убрать пробелы из названий столбцов.

Программный код возращает копию датафрейма с переименованным столбцом ([pandas.DataFrame.rename](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.rename.html)).

In [None]:
kino_rename = df_kino.rename(columns={'time': 'time_film'})
kino_rename.head(2)

In [None]:
kino_rename = df_kino.rename(columns={'time': 'time_film', 'country':'country_film'})
kino_rename.head(2)

Переименовывает столбец "на месте":

In [None]:
df_kino.rename(columns={'time': 'time_film'},                   
               inplace=True)  
df_kino.columns

### Добавление новых столбцов с помощью оператора [] и метода .insert()

In [None]:
kino_copy = df_kino.copy()

Переводим столбец со строками в числа с плавающей точкой:

In [None]:
kino_copy.ranking = kino_copy.ranking.str.replace(',','.')
kino_copy.ranking = kino_copy.ranking.astype(float)
kino_copy.ranking

Добавляем столбец, содержащий округленную оценку рейтинга:

In [None]:
kino_copy['rounded_ranking'] = kino_copy.ranking.round()
kino_copy.head(2)

In [None]:
kino_copy = df_kino.copy()

Заменяем содержимое столбца:

In [None]:
kino_copy.ranking = kino_copy.ranking.str.replace(',','.')
kino_copy.ranking = kino_copy.ranking.astype(float)

Вставляем столбец rounded_ranking в качестве второго столбца датафрейма:

In [None]:
kino_copy.insert(1, 'rounded_ranking', kino_copy.ranking.round())
kino_copy.head(2)

### Добавление столбцов за счет расширения датафрейма

In [None]:
kino_copy = df_kino[:3].copy()

Добавляем столбец с нулевыми значениями:

In [None]:
kino_copy.loc[:,'imdb'] = 0 
kino_copy

In [None]:
kino_copy = df_kino[:3].copy()

Добавляем новый столбец со случайно сгенерированными значениями:

In [None]:
kino_copy.loc[:,'imdb'] = pd.Series(np.random.randint(1, 10), index=kino_copy.index) # индекс должен совпадать
kino_copy

### Переупорядочивание столбцов

Возвращаем новый объект со столбцами в обратном порядке:

In [None]:
df_kino.columns[::-1]

In [None]:
df_kino[df_kino.columns[::-1]].head()

### Удаление столбцов

Пример использования del для удаления столбца "на месте": 

In [None]:
kino_copy = df_kino.copy()
del kino_copy['director']
kino_copy.head(2)

Пример использования drop для удаления столбца из датафрейма:

In [None]:
kino_copy = df_kino.copy()

Эта строка вернет новый датафрейм с удаленным столбцом 'director' копия датафрейма не изменится:

In [None]:
afterdrop = kino_copy.drop(['director'], axis=1) # axis=0 для строки
afterdrop.head(5)

Рассмотрим работу метода pop():

In [None]:
kino_copy = df_kino.copy()

In [None]:
popped = kino_copy.pop('director')
popped # можем взглянуть на удаленные столбцы

### Присоединение строк из других объектов DataFrame с помощью метода .append()

Документация [pandas.DataFrame.append](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.append.html)

In [None]:
df1 = df_kino.iloc[0:3].copy() # копируем первые три строки датафрейма
df1

In [None]:
df2 = df_kino.iloc[[10, 11, 2]] # копируем строки в позициях 10, 11 и 2
df2

Присоединяем к датафрейму df1 датафрейм df2:

In [None]:
appended = df1.append(df2)

В результате к строкам первого датафрейма будут присоединены строки второго датафрейма:

In [None]:
appended

### Конкатенация строк

Копируем первые три строки датафрейма: 

In [None]:
df1 = df_kino.iloc[0:3].copy()
df1

Копируем строки в позициях 10, 11 и 2:

In [None]:
df2 = df_kino.iloc[[10, 11, 2]]
df2

Передаем их в виде списка:

In [None]:
pd.concat([df1, df2])

### Добавление строк

In [None]:
df_kino.loc["Очень смешное кино"] = ["Россия", 90, "3,9", "фильм", 2009, "Том Круз"]
df_kino.tail(1)

### Удаление строк с помощью метода .drop()

In [None]:
kino_copy = df_kino[:5]
kino_copy

In [None]:
afterdrop = kino_copy.drop(['Моя мама Снегурочка', 'Набережная Орфевр'])
afterdrop.head(5)

### Удаление строк с помощью логического отбора

In [None]:
df_kino.ranking = df_kino.ranking.str.replace(',','.')
df_kino.ranking = df_kino.ranking.astype(float)

Определяем строки, в которых ranking > 6:

In [None]:
selection = df_kino.ranking > 6

Выводим информацию о количестве строк и количестве строк, которые будут удалены:

In [None]:
(len(selection), selection.sum())

Для фильтрации применим побитовое отрицание к выражению selection:

In [None]:
not_selection = df_kino[~selection]
not_selection.head()

### Удаление строк с помощью среза

Отбираем лишь первые три строки:

In [None]:
only_first_three = df_kino[:3]
only_first_three

In [None]:
only_first_three = df_kino[:3].copy()
only_first_three