# Pandas

Специальная библиотека которая позволяет удобно работать с данными обрабатывать их и получать полезную информацию

Для того чтобы импортировать библиотеку используется оператор import

`import pandas as pd`

## Объекты pandas

Pandas управляет dataframe-ами и объектами класса series

DataFrame-ом является словарь состоящий из ключей (наименования колонок) и значений (списки значений)

In [2]:
# импортируем библиотеку
import pandas as pd

# для того чтобы создать dataframe используется специальный класс
df = pd.DataFrame({
    'name':['John','Sam','Max']
})

# создали объект класса dataframe которая содержит колонку с именем name в которой содержаться значения John, Sam, Max
print(df)

# мы можем добавить колонку используя простую конструкцию как в словарях
df['age'] = [10,20,30]

# появилась новая колонка с именем age которая содержит возраст
print(df)

   name
0  John
1   Sam
2   Max
   name  age
0  John   10
1   Sam   20
2   Max   30


### Очень важно длинна всех колонок для создания DataFrame должна быть одинаковой

In [3]:
# Также dataframe можно создать и используя другую конструкцию где сначала указываются список из каждой строки, а далее в параметр columns указаывается список с наименованием колонок
df2 = pd.DataFrame([
    ['John', 20, 'Street 1'],
    ['Sam', 21, 'Street 2'],
    ['Alex', 31, 'Street 3']
], columns=['name','age','address'])

print(df2)

   name  age   address
0  John   20  Street 1
1   Sam   21  Street 2
2  Alex   31  Street 3


## Чтение файлов csv с помощью pandas

У библиотеки padnas есть специальный метод который позволяет сформироваться dataframe из файла

`pd.read_csv(path_to_csv_file)`

In [4]:
# попробуем сформировать dataframe из файла csv
import pandas as pd

df_from_file = pd.read_csv('./files/sample.csv')

print(df_from_file)

            City  Population  Median Age
0      Maplewood      100000          40
1          Wayne      350000          33
2  Forrest Hills      300000          35
3        Paramus      400000          55
4     Hackensack      290000          39


## Методы pandas

### info()

Данный метод предоставялет общую информацию по dataframe такую как:
- column - наименования колонок
- Non-Null Count - кол-во строк данных которые не содержат Null
- Dtype - тип данных колонки

### head()

Метод который позволяет просмотреть первые n (5 строк по умолчанию) переданных методу

In [6]:
# для того чтобы посмотреть информацию о dataframe используется метод info()

import pandas as pd

df_from_imdb = pd.read_csv('./files/imdb.csv')
print(df_from_imdb.head())
print(df_from_imdb.info())

   id                                       name   genre  year  imdb_rating
0   1                                     Avatar  action  2009          7.9
1   2                             Jurassic World  action  2015          7.3
2   3                               The Avengers  action  2012          8.1
3   4                            The Dark Knight  action  2008          9.0
4   5  Star Wars: Episode I - The Phantom Menace  action  1999          6.6
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 220 entries, 0 to 219
Data columns (total 5 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   id           220 non-null    int64  
 1   name         220 non-null    object 
 2   genre        220 non-null    object 
 3   year         220 non-null    int64  
 4   imdb_rating  220 non-null    float64
dtypes: float64(1), int64(2), object(2)
memory usage: 8.7+ KB
None


### Выбор колонок

Для того чтобы выбрать колонку достаточно передать ее наименование в поле индекса

Либо в случае если наименование колонки является один словом то можно вызвать ее через точку после наименования dataframe

In [8]:
print('NAME')
print(df_from_imdb['name'])
print('\nID')
print(df_from_imdb.id)

NAME
0                                         Avatar
1                                 Jurassic World
2                                   The Avengers
3                                The Dark Knight
4      Star Wars: Episode I - The Phantom Menace
                         ...                    
215                                     Hannibal
216                          Catch Me If You Can
217                                    Big Daddy
218                                        Se7en
219                                        Seven
Name: name, Length: 220, dtype: object

ID
0        1
1        2
2        3
3        4
4        5
      ... 
215    216
216    217
217    218
218    219
219    220
Name: id, Length: 220, dtype: int64


In [14]:
# В случае если мы присвоим значение колонки другой переменной то ее тип данных измениться с dataframe на series
names = df_from_imdb.name
print(type(df_from_imdb))
print(type(names))

<class 'pandas.core.frame.DataFrame'>
<class 'pandas.core.series.Series'>


In [17]:
# Для того чтобы выбрать несколько колонок в поле индекса указывается список с наименованием колонок
mult_columns = df_from_imdb[['id','name']]
print(mult_columns.head())
# тип данных при этом сохраняется
print(type(mult_columns))

   id                                       name
0   1                                     Avatar
1   2                             Jurassic World
2   3                               The Avengers
3   4                            The Dark Knight
4   5  Star Wars: Episode I - The Phantom Menace
<class 'pandas.core.frame.DataFrame'>


### Выбор строк

Для того чтобы выбрать строку по определенному индексы или срез строк используется метод **iloc** в который по правилам индексирования списков указываются среды или индекс отдельной строки

Структура метода .iloc[]

`df.iloc[row_index | row_ind_start:row_ind_stop:row_ind_step, column_index | col_ind_start:col_ind_stop:col_ind_step]`

Где:
- row_index - возможность указать только одно значение которое будет обозначать индекс интересующей строки
- row_ind_start - индекс первой строки среза (включая ее)
- row_ind_stop - индекс крайней строки среза (НЕ включая ее)
- row_ind_step - шаг иттарации по индексам строк
- column_index - возможность указать только одно значение которое будет обозначать индекс интересующей колонки
- col_ind_start - индекс первой колонки среза (включая ее)
- col_ind_stop - индекс крайней колонки среза (НЕ включая ее)
- col_ind_step - шаг иттерации по индексам колонки

### Важно метод iloc должен принимать минимум одно значение
### В случае если нужно указать только срез из столбцов то срез указывается по запятой

In [26]:
# вывести на экран первые три строки
print(df_from_imdb.iloc[:3])
# вывести на экран строку с индексом 7
print(df_from_imdb.iloc[7])
# вывести на экран каждую вторую строку
print(df_from_imdb.iloc[::2])

# все строки но только первые две колонки
print(df_from_imdb.iloc[:,:2])

   id            name   genre  year  imdb_rating
0   1          Avatar  action  2009          7.9
1   2  Jurassic World  action  2015          7.3
2   3    The Avengers  action  2012          8.1
id                                 8
name           The Dark Knight Rises
genre                         action
year                            2012
imdb_rating                      8.5
Name: 7, dtype: object
      id                                       name   genre  year  imdb_rating
0      1                                     Avatar  action  2009          7.9
2      3                               The Avengers  action  2012          8.1
4      5  Star Wars: Episode I - The Phantom Menace  action  1999          6.6
6      7                    Avengers: Age of Ultron  action  2015          7.9
8      9  Pirates of the Caribbean: Dead Mans Chest  action  2006          7.3
..   ...                                        ...     ...   ...          ...
210  211                           A Beauti

### Выбор строк с логикой

Для выбора строк с логикой, т.е. другими словами выбрать только те строки которые соответствуют какому либо условию, используется конструкция 

`df[df.column condition value]`

Более подробней рассмотри далее на примерах

In [31]:
# посмотрим первые несколько строк df_from_imdb чтобы решить какое условие можно проверить
print(df_from_imdb.head())

# Допустим мы хотим получить только те строки год выпуска фильма которого равен 2009 году
print('-' * 10)
print('Year 2009')
print(df_from_imdb[df_from_imdb.year == 2009])

# Или получить набор данных состоящий из фильмов рейтинг imdb которых между 5 и 7
print(df_from_imdb[(df_from_imdb.imdb_rating >= 5) & (df_from_imdb.imdb_rating <= 7)])

   id                                       name   genre  year  imdb_rating
0   1                                     Avatar  action  2009          7.9
1   2                             Jurassic World  action  2015          7.3
2   3                               The Avengers  action  2012          8.1
3   4                            The Dark Knight  action  2008          9.0
4   5  Star Wars: Episode I - The Phantom Menace  action  1999          6.6
----------
Year 2009
      id                                     name    genre  year  imdb_rating
0      1                                   Avatar   action  2009          7.9
11    12      Transformers: Revenge of the Fallen   action  2009          6.0
37    38                                Star Trek   action  2009          8.0
58    59                                       Up   comedy  2009          8.3
62    63                             The Hangover   comedy  2009          7.8
78    79  Alvin and the Chipmunks: The Squeakquel   com

#### Важно обратите внимание когда я использовал комплексное условие что рейтинг фильма должен быть между 5 и 7 я использовал скобки и это условие обязательное каждое отдельное условие должно быть обрамленно круглыми скобками. Между условиями можно использовать логические операторы в виде символов:
- | - pipeline / or / ИЛИ
- & - амперсант / and / И

#### Также очень важно понимать какой тип данных используется при сравнении

Также есть специальные методы которые позволяют отфильтровать данные в строках
- isin(list | tuple | dict) - проверяет вхождение значения каждого элемента в передаваемый объект
- isna - проверяет является ли значение элемента NaN
- notna - проверяет не является ли значение элемента NaN (not NaN)

In [33]:
print(df_from_imdb[df_from_imdb.year.isin([2009, 2010])])

      id                                     name    genre  year  imdb_rating
0      1                                   Avatar   action  2009          7.9
11    12      Transformers: Revenge of the Fallen   action  2009          6.0
22    23                               Iron Man 2   action  2010          7.1
29    30                                Inception   action  2010          8.8
37    38                                Star Trek   action  2009          8.0
51    52                              Toy Story 3   comedy  2010          8.4
58    59                                       Up   comedy  2009          8.3
62    63                             The Hangover   comedy  2009          7.8
67    68                            Despicable Me   comedy  2010          7.7
73    74                      Shrek Forever After   comedy  2010          6.4
78    79  Alvin and the Chipmunks: The Squeakquel   comedy  2009          4.4
92    93                                  Tangled   comedy  2010

In [34]:
print(df_from_imdb[df_from_imdb.year.isna()])

Empty DataFrame
Columns: [id, name, genre, year, imdb_rating]
Index: []


In [36]:
print(df_from_imdb[df_from_imdb.year.notna()])

      id                                       name   genre  year  imdb_rating
0      1                                     Avatar  action  2009          7.9
1      2                             Jurassic World  action  2015          7.3
2      3                               The Avengers  action  2012          8.1
3      4                            The Dark Knight  action  2008          9.0
4      5  Star Wars: Episode I - The Phantom Menace  action  1999          6.6
..   ...                                        ...     ...   ...          ...
215  216                                   Hannibal   drama  2001          6.7
216  217                        Catch Me If You Can   drama  2002          8.0
217  218                                  Big Daddy   drama  1999          6.4
218  219                                      Se7en   drama  1995          8.6
219  220                                      Seven   drama  1979          6.1

[220 rows x 5 columns]


### Установка индекса

Не редко происходят случаи когда при формировании нового DataFrame из имеющегося получается что его индексы сохранились или даже присвоенны другие индексы поверх индексов старого набора

В таких случаях лучшей практикой будет сбрасывать индекс и переназначать его

Для этого используется специальный метод **.reset_index()** с параметрами **drop** который принимает булевые значения и **inplace** который также принимает булевые значения

In [44]:
# создадим новый dataframe путем выборки строк из старого набора по условию
new_df = df_from_imdb[df_from_imdb.year.isin([2009, 2012, 2015])]
# выведем несколько первых строк нового df
print(new_df.head())
# как можно заметить колонка индекса которая расположена слева от колонки id не верно пронумерована
# Используем метод reset_index() пока без параметров
new_df.reset_index()
print(new_df.head())
# как можно заметить из вывода ничего не поменялось
# попробуем переназначить переменную
new_df = new_df.reset_index()
print(new_df.head())
# теперь мы видем что слева появилась еще одна колонка которая теперь стала index-ом нового df но это не есть хорошо так как добавляет нам большей действий и увеличивает df в объеме

   id                     name   genre  year  imdb_rating
0   1                   Avatar  action  2009          7.9
1   2           Jurassic World  action  2015          7.3
2   3             The Avengers  action  2012          8.1
6   7  Avengers: Age of Ultron  action  2015          7.9
7   8    The Dark Knight Rises  action  2012          8.5
   id                     name   genre  year  imdb_rating
0   1                   Avatar  action  2009          7.9
1   2           Jurassic World  action  2015          7.3
2   3             The Avengers  action  2012          8.1
6   7  Avengers: Age of Ultron  action  2015          7.9
7   8    The Dark Knight Rises  action  2012          8.5
   index  id                     name   genre  year  imdb_rating
0      0   1                   Avatar  action  2009          7.9
1      1   2           Jurassic World  action  2015          7.3
2      2   3             The Avengers  action  2012          8.1
3      6   7  Avengers: Age of Ultron  actio

In [45]:
# снова переназначим переменную
new_df = df_from_imdb[df_from_imdb.year.isin([2009, 2012, 2015])]
# и при методе reset_index() укажем параметр inplace = True
print(new_df.head())

new_df.reset_index(inplace=True)
print(new_df.head())
# ИЗ результата можно сделать вывод что параметр inplace позволяет нам переназначать индекс сразу в новом DF без необходимости переназначать переменную

   id                     name   genre  year  imdb_rating
0   1                   Avatar  action  2009          7.9
1   2           Jurassic World  action  2015          7.3
2   3             The Avengers  action  2012          8.1
6   7  Avengers: Age of Ultron  action  2015          7.9
7   8    The Dark Knight Rises  action  2012          8.5
   index  id                     name   genre  year  imdb_rating
0      0   1                   Avatar  action  2009          7.9
1      1   2           Jurassic World  action  2015          7.3
2      2   3             The Avengers  action  2012          8.1
3      6   7  Avengers: Age of Ultron  action  2015          7.9
4      7   8    The Dark Knight Rises  action  2012          8.5


In [46]:
# Теперь добавим второй параметр и посмотрим на результат
# снова переназначим переменную
new_df = df_from_imdb[df_from_imdb.year.isin([2009, 2012, 2015])]
# и при методе reset_index() укажем параметр inplace = True и drop = True
print(new_df.head())

new_df.reset_index(inplace=True, drop=True)
print(new_df.head())
# Теперь у нас получился идеальный результат
# Параметр drop позволил нам избавить от старых индексов и вместо них обозначил новые значения

   id                     name   genre  year  imdb_rating
0   1                   Avatar  action  2009          7.9
1   2           Jurassic World  action  2015          7.3
2   3             The Avengers  action  2012          8.1
6   7  Avengers: Age of Ultron  action  2015          7.9
7   8    The Dark Knight Rises  action  2012          8.5
   id                     name   genre  year  imdb_rating
0   1                   Avatar  action  2009          7.9
1   2           Jurassic World  action  2015          7.3
2   3             The Avengers  action  2012          8.1
3   7  Avengers: Age of Ultron  action  2015          7.9
4   8    The Dark Knight Rises  action  2012          8.5
