# Pandas

**Pandas** это высокоуровневая Python библиотека для анализа данных.

В экосистеме Python, pandas является наиболее продвинутой и быстроразвивающейся библиотекой для обработки и анализа данных.

Pandas добавляет в Python новые структуры данных — **Series** и **DataFrame**.

Для подключения и использования библиотеки, её необходимо подключить следующей командой:


```
import pandas as pd
```

Конструкция `as`  позволяет переименовать библиотеку в более короткое название для удобства в дальнейшем при обращении к этой библиотеке и ее методам.



In [None]:
import pandas as pd
import numpy as np

# pip install pandas

##Структура данных Series

In [None]:

0 1 2 3 4 N-1
[1,4,5,2,8] # list(), np.array(), tuple()
-N -(N-1) ... -1

**Series** - одномерные массивы данных. Они очень похожи на списки, но отличаются по поведению — например, операции применяются к списку целиком, а в **Series** — поэлементно.

Конструктор класса Series выглядит следующим образом:



```
pd.Series(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False)
```
- **data** – массив, словарь или скалярное значение, на базе которого будет построен Series;

- **index** – список меток, который будет использоваться для доступа к элементам Series. Длина списка должна быть равна длине data;

- **dtype** – объект numpy.dtype, определяющий тип данных;

- **copy** – создает копию массива данных, если параметр равен True в ином случае ничего не делает.

Создать структуру Series можно на базе различных типов данных:

- словари Python;
- списки Python;
- массивы из numpy: ndarray;
- скалярные величины.

###Создание Series из списка Python

In [None]:
lst = [1, 2, 3, 4, 5] # создание списка Python (list)

arr = np.array(lst)

s = pd.Series(data=lst) # создание Series

# Если индекс явно не задан,
# то pandas автоматически создаёт RangeIndex от 0 до N-1,
# где N общее количество элементов.

s

Unnamed: 0,0
0,1
1,2
2,3
3,4
4,5


In [None]:
type(s)

pandas.core.series.Series

In [None]:
lst = ['Мария', 'Петр', 'Иван'] # создание списка Python

s = pd.Series(data=lst,  index=['name', 'age', 'smt'])
# создание Series с заданием меток (именованые метки - a, b, c)

s

Unnamed: 0,0
name,Мария
age,Петр
smt,Иван


###Создание Series из ndarray массива из numpy

In [None]:
import numpy as np

ndarr = np.array([1, 2, 3, 4, 5])
type(ndarr)

numpy.ndarray

In [None]:
!python --version

Python 3.10.12


In [None]:
import pandas as pd

s2 = pd.Series(ndarr, ['a', 'b', 'c', 'd', 'e'])
s2

Unnamed: 0,0
a,1
b,2
c,3
d,4
e,5


###Создание Series из словаря (dict)

In [None]:
d = {'a': 1, 'b':2, 'c':3, 'a': 9, 8: 'j'}
d

{'a': 9, 'b': 2, 'c': 3, 8: 'j'}

In [None]:
d = {'a':1, 'b':2, 'c':3, 'a': 9}
pd.Series([1,5,6,3], ['a', 'c', 'd', 'a'])

Unnamed: 0,0
a,1
c,5
d,6
a,3


###Создание Series с использованием константы

In [None]:
import pandas as pd

In [None]:
d = {'a':1, 'b':2, 'c':3, 'a': 9}
d

{'a': 9, 'b': 2, 'c': 3}

In [None]:
a = 7

s4 = pd.Series(6, ['a', 'b', 'c', 'a', 'a'])

s4

Unnamed: 0,0
a,6
b,6
c,6
a,6
a,6


In [None]:
type(s4)

pandas.core.series.Series

У объекта **Series** есть атрибуты через которые можно получить список элементов и индексы, это **values** и **index** соответственно.

In [None]:
print(s4.index)
print('_'*10)
print(s4.values)

Index(['a', 'b', 'c', 'a', 'a'], dtype='object')
__________
[6 6 6 6 6]


In [None]:
s4.shape

(5,)

###Работа с элементами Series

К элементам Series можно обращаться по численному индексу, при таком подходе работа со структурой не отличается от работы со списками в Python.

In [None]:
import pandas as pd

l = [1,5,6,7]

l[0], l[-1], l[1:3]

(1, 7, [5, 6])

In [None]:
# Создание Series из списка Python
s5 = pd.Series(['Иван', 'Петр', 'Мария', 'Анастасия', 'Федор'],
                ['a', 'b', 'c', 'd', 'a'])
s5

Unnamed: 0,0
a,Иван
b,Петр
c,Мария
d,Анастасия
a,Федор


In [None]:
# Обращание ко третьему элементу Series (нумерация начинается с 0)
print(s5[2])
print(s5['c'])
print(s5[-3])

Мария
Мария
Мария


  print(s5[2])
  print(s5[-3])


In [None]:
print(s5['a'])

a     Иван
a    Федор
dtype: object


Можно использовать метку, тогда работа с **Series** будет похожа на работу со словарем (dict) в Python.

In [None]:
# Обращание ко третьему элементу Series по заданному индексу (нумерация начинается с 0)
print(s5['c'])

Мария


In [None]:
# Создание Series из списка Python
s5 = pd.Series(['Иван', 'Петр', 'Мария', 'Анастасия', 'Федор', 'Надя'],
                [1, 2, 4, 2, 6, 6])
s5

Unnamed: 0,0
1,Иван
2,Петр
4,Мария
2,Анастасия
6,Федор
6,Надя


In [None]:
s5[6]

Unnamed: 0,0
6,Федор
6,Надя


In [None]:
s5[-1]

KeyError: -1

**Ещё раз Доступ к элементам Series можно получить используя квадратные скобки `[]`**:
1. В скобках нужно передать либо целочисленный индекс.
2. Либо именованную метку,если такие имеются в Series.

P.s.: численный индекс - системный, и он есть даже если индексы заданы в виде именованной метки

**Доступ к элементам по условию**

В поле для индекса можно поместить условное выражение. Тогда результат будет - все элементы, которые удовляетворяют условия.

Любая логическая операция возвращает булевскую маску из `True/False`, и по сути это она передается в качестве индексов и беруться те элементы, где на соответсвущих местах маски стоят значения `True`.

In [None]:
s6 = pd.Series([0, -13, 1, -5, 0], ['a', 'b', 'c', 'd', 'e'])

# Выведет все значения в Series меньше трех
t = s6[s6 == 0]
t

Unnamed: 0,0
a,0
e,0


In [None]:
s6 == 0 # МАСКА

Unnamed: 0,0
a,False
b,False
c,False
d,False
e,False


In [None]:
l = [10, 0, 13, 1, 5, 0] # list

for i in l:
    if i == 0:
        print(i)

0
0


In [None]:
s6

a    10
b    13
c     1
d     5
e     0
dtype: int64

In [None]:
# Получение элементов с метками 'a', 'c' и 'e':
s6[['a', 'c', 'e']]

a    10
c     1
e     0
dtype: int64

In [None]:
s6

a    10
b    13
c     1
d     5
e     0
dtype: int64

Обращение по слайсу (срезу) меток.

Получение элементов структуры с метками от 'a' до 'd':

In [None]:
s6 = pd.Series([10, 13, 1, 5, 0, 6, 4, 8], ['a', 'd', 'c', 'b', 'c', 'f','g', 'h'])
s6

Unnamed: 0,0
a,10
d,13
c,1
b,5
c,0
f,6
g,4
h,8


In [None]:
type(s6[0])

list

In [None]:
# s6[0]

In [None]:
s6['a'::2]
# s6[1:4]
# s6[-1:2:-1]
s6['a':'c']

Unnamed: 0,0
a,10
d,13
c,1


Получение элементов стурктуры с индексами от 0 до 4:

In [None]:
s6[::-1]  #s6

Unnamed: 0,0
e,0
b,5
c,1
d,13
a,10


###Работа с Series

Со структурами Series можно работать как с векторами: складывать, умножать вектор на число и т.п.

In [None]:
s7 = pd.Series([10, 2, 30, 40, 50, 8], ['a', 'b', 'c', 'd', 'e', 'a'])
s7

Unnamed: 0,0
a,10
b,2
c,30
d,40
e,50
a,8


In [None]:
s7['a'] # 10
s7[0] # 10
s7[-6] # 10

  s7[0]
  s7[-6]


10

In [None]:
# list - медлено! и плохо!
# numpy array - быстро и хорошо!
# pandas series - хорошо!

s7 = s7 ** 2
s7

Unnamed: 0,0
a,10000
b,16
c,900
d,1600
e,2500
a,64


In [None]:
l1 = [1,2,3]
l2 = [4,5,6]

l1+l2

[1, 2, 3, 4, 5, 6]

In [None]:
s7 = pd.Series([10, 20, 30, 40, 50], ['a', 'a', 'c', 'd', 'e'])
s8 = pd.Series([1, 1, 1, 1, 0], ['a', 'b', 'c', 'h', 'd'])

s7 + s8

# 10+1 = 11
# 20+1 = 21
# 31
# 41
# 50
# 'e' + ?? = 50 + Nan = NaN

Unnamed: 0,0
a,11.0
a,21.0
b,
c,31.0
d,40.0
e,
h,


In [None]:
s7 = pd.Series([10, 20, 30, 40, 50], ['a', 'a', 'c', 'd', 'e'])
s8 = pd.Series([1, 1, 1, 1, 0], ['a', 'b', 'c', 'h', 'd'])
# 10+1
# 20+1
# 30+1
# 40+1
# 50+??? = Nan
# ???+0 = Nan
# сложение
# к каждому элементу s7 прибавляется каждый элемент s8
# для корректного сложения необходимо, чтобы длинна Series совпадла
s9 = s7 + s8
s9

Unnamed: 0,0
a,11.0
a,21.0
b,
c,31.0
d,40.0
e,
h,


In [None]:
l = [1, 2, 4]
l*3

[1, 2, 4, 1, 2, 4, 1, 2, 4]

In [None]:
# Каждый элемент s7 увеличится в 3 раза
s9 = s7 * 3

s9

a     30
b     60
c     90
d    120
e    150
dtype: int64

##Структура данных DataFrame

Если **Series** представляет собой одномерную структуру, которую для себя можно представить как таблицу с одной строкой, то **DataFrame** – это уже двумерная структура – полноценная таблица с множеством строк и столбцов.

Конструктор класса DataFrame выглядит так:



```
pd.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)
```

- **data** – массив ndarray, словарь (dict) или другой DataFrame;

- **index** – список меток для записей (имена строк таблицы);

- **columns** – список меток для полей (имена столбцов таблицы);

- **dtype** – объект numpy.dtype, определяющий тип данных;

- **copy** – создает копию массива данных, если параметр равен True в ином случае ничего не делает.

Cтруктуру **DataFrame** можно создать на базе:

- словаря (dict) в качестве элементов которого должны выступать: одномерные - ndarray, списки, другие словари, структуры Series;
- двумерные ndarray;
- структуры Series;
- структурированные ndarray;
- другие DataFrame.



###Создание DataFrame из словаря

In [None]:
import pandas as pd

d = {"Name":pd.Series(['Виктор', 'Мария', 'Иван']),
     "Age": pd.Series([18, 21, 21])}

# l = [18, 21, 21] list
# pd.Series(l)

df = pd.DataFrame(d)
df

Unnamed: 0,Name,Age
0,Виктор,18
1,Мария,21
2,Иван,21


###Создание DataFrame из списка словарей

In [None]:
d = [{"Name": "Виктор", "Age": 18},
     {"Name": "Мария", "Age": 21},
     {"Name": "Иван", "Age": 19}]

df = pd.DataFrame(d)
df

Unnamed: 0,Name,Age
0,Виктор,18.0
1,Мария,21.0
2,Иван,


###Создание DataFrame из двумерного массива

In [None]:
import numpy as np

nda = np.array([[1, 2, 3], [10, 20, 30]])

df = pd.DataFrame(nda) #, columns=['col1', 'cols2', 'cols3'])
df

Unnamed: 0,0,1,2
0,1,2,3
1,10,20,30


###Работа с элементами DataFrame

**Обращение к столбцу DataFrame можно осуществлять 2 способами**:

- `df['Название столбца']`
- `df.название_столбца`

In [None]:
d = [{"Name": "Виктор", "Age": 18},
     {"Name": "Мария", "Age": 21},
     {"Name": "Иван", "Age": 19}]

df = pd.DataFrame(d)

df

Unnamed: 0,Name,Age
0,Виктор,18
1,Мария,21
2,Иван,19


In [None]:
df['Name']

Unnamed: 0,Name
0,Виктор
1,Мария
2,Иван


In [None]:
df.Name

Unnamed: 0,Name
0,Виктор
1,Мария
2,Иван


Также для работы со строками и столбцами существуют методы:

**DataFrame.loc[]**- Доступ к группе строк и столбцов (или только к столбцам, или только к строкам) по меткам или логическому массиву.

Допустимые входы:
- Одиночная метка, например 5 или 'a', (обратите внимание, что 5 - интерпретируется как метка индекса, а не как целочисленная позиция по индексу).
- Список или массив меток, например ['a', 'b', 'c']
- Объект среза с метками, например 'a':'f'.

**DataFrame.iloc[]** - позволяет получить доступ к элементам DataFrame по целочисленном индексам.

Допустимые входы:
- Целое число, например 5.
- Список или массив целых чисел, например .[4, 3, 0]
- Объект среза с целыми числами, например 1:7.

In [None]:
df

Unnamed: 0,Name,Age
0,Виктор,18
1,Мария,21
2,Иван,19


In [None]:
# df.iloc[строка, столбца] - столбец системные индексы
# df.loc[строка, столбца] - столбец - названия (str)

In [None]:
df.iloc[-1] # по индексу вернет 0 строку DataFrame

Unnamed: 0,2
Name,Иван
Age,19


In [None]:
df.iloc[2, 1] # элемент на пересечении строки 2 и столбца 1

19

**Для доступа к элементам и по строке и по столбцу используется следующая конструкция**:

- `DataFrame.iloc[строка, столбец]`
- `DataFrame.iloc[срез, срез]`
- `DataFrame.iloc[срез, столбец]`
- `DataFrame.iloc[строка, срез]`

**Напомню, как задается срез:**

`df[start, stop-1, step]`

У среза три параметра:

- START — индекс первого элемента в выборке
- STOP — индекс элемента списка, перед которым срез должен закончиться. Сам элемент с индексом STOP не будет входить в выборку (потому что берется -1)
- STEP — шаг выбираемых индексов

In [None]:
df

Unnamed: 0,Name,Age
0,Виктор,18
1,Мария,21
2,Иван,19


In [None]:
df.iloc[0:, 0:-1:-1]

0
1
2


In [None]:
df

Unnamed: 0,Name,Age
0,Виктор,18
1,Мария,21
2,Иван,19


In [None]:
df.iloc[0, 1] # по индексу вернет элемент DataFrame на пересечении 0 строки и 1 столбца [строка, столбца]

df.iloc[:, 1] # вернет все элементы 1 столбца для всех строк
df.iloc[0:2, :]

Unnamed: 0,Name,Age
0,Виктор,18
1,Мария,21


In [None]:
df.loc[:, 'Name'] # доступ по метке: вернет значения всех элементов в столбце Name для всех строк

df.loc[0:1, 'Name'] # доступ по метке: вернет значения всех элементов в столбце Name для 0 и 1 строк

Unnamed: 0,Name
0,Виктор
1,Мария


In [None]:
df.iloc[:, 1] = -100

df

Unnamed: 0,Name,Age
0,Виктор,-100
1,Мария,-100
2,Иван,-100


Методы `.loc[]`, `.iloc[]` также применимы к структуре Series.

Также в поле для индекса можно писать **логические условия** для фильтрации значений.

In [None]:
d = [{"Name": "Виктор", "Age": 18, 'Пол': 'м'},
     {"Name": "Мария", "Age": 21, 'Пол': 'ж'},
     {"Name": "Иван", "Age": 19, 'Пол': 'м'},
     {"Name": "Надя", "Age": 22, 'Пол': 'ж'},
     {"Name": "Варя", "Age": 18, 'Пол': 'ж'},
     {"Name": "Максим", "Age": 23, 'Пол': 'м'}]

df = pd.DataFrame(d)

df

Unnamed: 0,Name,Age,Пол
0,Виктор,18,м
1,Мария,21,ж
2,Иван,19,м
3,Надя,22,ж
4,Варя,18,ж
5,Максим,23,м


In [None]:
df[df['Age'] >= 20]

Unnamed: 0,Name,Age,Пол
1,Мария,21,ж
3,Надя,22,ж
5,Максим,23,м


In [None]:
df.loc[~(df['Пол'] == 'ж') & (df['Age'] >= 20), ['Name', 'Age']]

Unnamed: 0,Name,Age,Пол
5,Максим,23,м


In [None]:
#  Вывести все строки, в которых значение в столбце Age больше и равно 20
df[~(df['Age'] >= 20)]

Unnamed: 0,Name,Age
0,Виктор,18
2,Иван,19


In [None]:
df.loc[df['Age'] >= 20, 'Name'] = 'GREATER'

df

Unnamed: 0,Name,Age,Пол
0,Виктор,18,м
1,GREATER,21,ж
2,Иван,19,м
3,GREATER,22,ж
4,Варя,18,ж
5,GREATER,23,м


In [None]:
df = pd.DataFrame({
    'country': ['Kazakhstan', 'Russia', 'Belarus', 'Ukraine'],
    'population': [17.04, 143.5, 9.5, 45.5],
    'square': [2724902, 17125191, 207600, 603628]},
                  index=['KZ', 'RU', 'BY', 'UA'])
df

Unnamed: 0,country,population,square
KZ,Kazakhstan,17.04,2724902
RU,Russia,143.5,17125191
BY,Belarus,9.5,207600
UA,Ukraine,45.5,603628


In [None]:
df.population
df['population']

In [None]:
df[df.population > 10]['country']

Unnamed: 0,country
KZ,Kazakhstan
RU,Russia
UA,Ukraine


In [None]:
df.loc[df.population > 10, 'country']

Unnamed: 0,country
KZ,Kazakhstan
RU,Russia
UA,Ukraine


In [None]:
df.reset_index()

# df - НЕ ИЗМЕНИТЬСЯ!

Unnamed: 0,index,country,population,square
0,KZ,Kazakhstan,17.04,2724902
1,RU,Russia,143.5,17125191
2,BY,Belarus,9.5,207600
3,UA,Ukraine,45.5,603628


In [None]:
df = df.reset_index() # УЖЕ ВЫДЕЛЕНА

df.reset_index(inplace=True)

Unnamed: 0,index,country,population,square
0,KZ,Kazakhstan,17.04,2724902
1,RU,Russia,143.5,17125191
2,BY,Belarus,9.5,207600
3,UA,Ukraine,45.5,603628


In [None]:
df

Unnamed: 0,country,population,square
KZ,Kazakhstan,17.04,2724902
RU,Russia,143.5,17125191
BY,Belarus,9.5,207600
UA,Ukraine,45.5,603628


In [None]:
df['New_COL'] = df['square'] / df['population']

df

Unnamed: 0,country,population,square,New_COL
KZ,Kazakhstan,17.04,2724902,159912.089202
RU,Russia,143.5,17125191,119339.310105
BY,Belarus,9.5,207600,21852.631579
UA,Ukraine,45.5,603628,13266.549451


In [None]:
l = [1, 2, 3, 4]
df['New_COL_2'] = l

df

Unnamed: 0,country,population,square,New_COL,New_COL_2
KZ,Kazakhstan,17.04,2724902,159912.089202,1
RU,Russia,143.5,17125191,119339.310105,2
BY,Belarus,9.5,207600,21852.631579,3
UA,Ukraine,45.5,603628,13266.549451,4


In [None]:
df['New_COL_NaN'] = 0

df

Unnamed: 0,country,population,square,New_COL_NaN
KZ,Kazakhstan,17.04,2724902,0
RU,Russia,143.5,17125191,0
BY,Belarus,9.5,207600,0
UA,Ukraine,45.5,603628,0


In [None]:
df['density'] = df['population'] / df['square'] * 1000000

In [None]:
df['New_COL_2'] = df['New_COL_2']*1000

In [None]:
df

Unnamed: 0,country,population,square,New_COL,New_COL_2,New_COL_NaN,density
KZ,Kazakhstan,17.04,2724902,0,1000,,6.253436
RU,Russia,143.5,17125191,0,2000,,8.379469
BY,Belarus,9.5,207600,0,3000,,45.761079
UA,Ukraine,45.5,603628,0,5000,,75.37755


In [None]:
df = df.rename(columns={'Country Code': 'country_code'})

**Доступ к элементам и их перебор также можно осуществлять с помощью цикла.**

Один из подходов – использовать метод `.iterrows()`. Этот метод возвращает итератор, который генерирует индекс каждой строки и данные этой строки в виде объекта `Series`.

In [None]:
d = [{"Name": "Виктор", "Age": 18},
     {"Name": "Мария", "Age": 21},
     {"Name": "Иван", "Age": 19}]

df = pd.DataFrame(d)

for index, row in df.iterrows():
    print(row)
    print('_________________________')
    row['Name'] = row['Name'].upper() # НЕ ИЗМЕНЯЕТ ИСХОДНЫЙ DF
    df.loc[index, 'Name'] = row['Name'].upper() # ИЗМЕНЯЕТ

df

Name    Виктор
Age         18
Name: 0, dtype: object
_________________________
Name    Мария
Age        21
Name: 1, dtype: object
_________________________
Name    Иван
Age       19
Name: 2, dtype: object
_________________________


Unnamed: 0,Name,Age
0,ВИКТОР,18
1,МАРИЯ,21
2,ИВАН,19


In [None]:
for index, row in df.iterrows():
    print(row)
    print('_________________')

Name    Виктор
Age         18
Name: 0, dtype: object
_________________
Name    Мария
Age        21
Name: 1, dtype: object
_________________
Name    Иван
Age       19
Name: 2, dtype: object
_________________


В этом примере `index` будет индексом строки, а `row` – объектом `Series`, который содержит данные строки. Обращение к значениям ячеек осуществляется по имени столбца (в данном случае `'c1'` и `'c2'`).

Есть и другой подход – это использовать метод `.itertuples()`. Этот метод возвращает итератор, который генерирует именованный кортеж с индексом строки и данными.

In [None]:
for row in df.itertuples():
    print(row.Name, row.Age)

Виктор 18
Мария 21
Иван 19


В этом случае row будет именованным кортежем, и обращение к значениям ячеек осуществляется через атрибуты именованного кортежа, которые соответствуют именам столбцов.

Оба этих метода позволяют итерироваться по строкам DataFrame, но важно помнить, что **они не предназначены для изменения данных**. Если есть необходимость изменить данные в процессе итерации, то лучше использовать другие подходы, например, векторизованные операции.

In [None]:
# как изменять значения, если мы итерируемся по строкам
# использовать .loc или .iloc

for index, row in df.iterrows():
    df.loc[index, 'Name'] = row['Name'] + ' Hi' # явно пишу в какую ячейку внеси изменения df.loc[index, 'Name']

df

Unnamed: 0,Name,Age
0,Виктор Hi,18
1,Мария Hi,21
2,Иван Hi,19


###Методы и атрибуты DataFrame

У объекта DataFrame (также как и у Series) есть атрибуты через которые можно получить индексы, а также метод позволяющий получить названия колонок.

In [None]:
d = [{"Name": "Виктор", "Age": 18},
     {"Name": "Мария", "Age": 21},
     {"Name": "Иван", "Age": 19},
     {"Name": "Петя", "Age": 34}]

df = pd.DataFrame(d)
df

Unnamed: 0,Name,Age
0,Виктор,18
1,Мария,21
2,Иван,19
3,Петя,34


In [None]:
df.loc[0]

Unnamed: 0,0
Name,Виктор
Age,18


In [None]:
df.shape

(4, 2)

In [None]:
print(df.index) # возвращает индексы DataFrame для строк

RangeIndex(start=0, stop=4, step=1)


In [None]:
print(df.columns) # возвращает названия колонок

Index(['Name', 'Age'], dtype='object')


In [None]:
df.columns = ['NAME', 'AGE']
# df

In [None]:
df.head(7) # вывод первых двух строчек DataFrame

Unnamed: 0,Name,Age
0,Виктор,18
1,Мария,21
2,Иван,19


In [None]:
df.tail(5) # вывод последних двух строчек DataFrame

Unnamed: 0,Name,Age
0,Виктор,18
1,Мария,21
2,Иван,19
3,Петя,34


DataFrame - это двумерная структура, напоминающая таблицу размерностью NxM, где N - это количество строк, M - количество стобцов.

**shape** - атрибут DataFrame, который возвращает его размерность.

In [None]:
df

Unnamed: 0,Name,Age
0,Виктор,18
1,Мария,21
2,Иван,19


In [None]:
df.shape

(3, 2)

In [None]:
df.info() # метод возвращает полную информацию о данном DataFrame

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Name    4 non-null      object
 1   Age     4 non-null      int64 
dtypes: int64(1), object(1)
memory usage: 192.0+ bytes


In [None]:
# 78  + nan = nan

Часто при работе с данными, их необходимо проверять на пропуски (NaN).

Для этого существуют методы - **isna()**, **isnull()**.

Они возвращают два объекта DataFrame с булевыми значениями, где True для значений NaN в DataFrame, а False — на его отсутствие. Эти функции часто используются в фильтрах для создания условий.

In [None]:
d = [{"Name": "Виктор", "Age": 18},
     {"Name": "Мария", "Age": np.nan},
     {"Name": "Иван", "Age": 19},
     {"Name": "Надя"}]

df = pd.DataFrame(d)

df

Unnamed: 0,Name,Age
0,Виктор,18.0
1,Мария,
2,Иван,19.0
3,Надя,


In [None]:
df.isnull()

Unnamed: 0,Name,Age
0,False,False
1,False,True
2,False,False
3,False,True


In [None]:
df.isnull().sum()

Unnamed: 0,0
Name,0
Age,2


In [None]:
df.isna()

Unnamed: 0,Name,Age
0,False,False
1,False,True
2,False,False
3,False,True


In [None]:
# Фильтр, который вернет все строки, в которых отсутсвуют пустые значения в колонке Age

df[df['Age'].isnull()==False]

Unnamed: 0,Name,Age
0,Виктор,18.0
2,Иван,19.0
3,Иван,25.0


In [None]:
# подсчет пустых значений в каждой колонке DataFrame
# False = 0
# True = 1
df.isna().sum()

Name    0
Age     1
dtype: int64

In [None]:
d = [{"Name": "Виктор", "Age": 18},
     {"Name": "Мария", "Age": np.nan},
     {"Name": "Иван", "Age": 19},
     {"Name": "Иван", "Age": 25}]

df = pd.DataFrame(d)
df

Unnamed: 0,Name,Age
0,Виктор,18.0
1,Мария,
2,Иван,19.0
3,Иван,25.0


In [None]:
# Подсчет уникальных значений в стобце
df['Name'].unique() # set()

array(['Виктор', 'Мария', 'Иван'], dtype=object)

In [None]:
df['Name'].nunique()

3

In [None]:
# Подсчет количества для каждого значения в столбце
df['Name'].value_counts()

Иван      2
Виктор    1
Мария     1
Name: Name, dtype: int64

Удаление значений из DataFrame.

Существуют различные методы, позволяющие удалять сроки или столбцы из DataFrame.

`DataFrame.drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise')`

- labels - Метки индекса или столбца, которые нужно удалить
- axis - {0 или 'index', 1 или 'columns'}
- index - Альтернатива указанию оси (эквивалент axis=0)
- columns - Альтернатива указанию оси (эквивалент axis=1)
- level - Для MultiIndex - уровень, с которого будут удалены метки
- inplace - Если False, вернет копию DataFrame. В противном случае перезапишет изменения в этот же DataFrame.


In [None]:
d = [{"Name": "Виктор", "Age": 18},
     {"Name": "Мария", "Age": np.nan},
     {"Name": "Иван", "Age": 19},
     {"Name": "Иван", "Age": 25}]

df = pd.DataFrame(d)
df

Unnamed: 0,Name,Age
0,Виктор,18.0
1,Мария,
2,Иван,19.0
3,Иван,25.0


In [None]:
# Удалить столбцы
# df.drop(['Age'], axis=1)
df.drop(columns = ['Age'])

Unnamed: 0,Name
0,Виктор
1,Мария
2,Иван
3,Иван


In [None]:
df

Unnamed: 0,Name,Age
0,Виктор,18.0
1,Мария,
2,Иван,19.0
3,Иван,25.0


In [None]:
# Удалить столбцы
# df = df.drop(['Age'], axis=1)
df.drop(columns = ['Age'], inplace=True)

In [None]:
# Удалить строки
df.drop(2, axis=0)
# df.drop(index = [0,1])

Unnamed: 0,Name,Age
0,Виктор,18.0
1,Мария,
3,Иван,25.0


In [None]:
df.drop(0, axis=0)

Unnamed: 0,Name,Age
0,Виктор,18.0
1,Мария,
2,Иван,19.0
3,Иван,25.0


In [None]:
# по умолчанию inplace = False, поэтому в предыдущей ячейке
# операция drop() вернула копию измененного DataFrame
# исходный DataFrame остался без изменений
df

Unnamed: 0,Name,Age
0,Виктор,18.0
1,Мария,
2,Иван,19.0
3,Иван,25.0


In [None]:
df.drop(['Age'], axis=1, inplace=True)
df

Unnamed: 0,Name
0,Виктор
1,Мария
2,Иван
3,Иван


In [None]:
d = [{"Name": "Виктор", "Age": 18},
     {"Name": "Мария", "Age": np.NaN},
     {"Name": "Иван", "Age": 19},
     {"Name": "Иван", "Age": 25}]

df = pd.DataFrame(d)

In [None]:
df.drop([0, 1])
# две строки удалились 0,1

Unnamed: 0,Name,Age
2,Иван,19.0
3,Иван,25.0


Также существует метод dropna(), который позволяет удалять строки или столбцы, содержащие пустые значения.

`DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)`

- axis - {0 или 'index', 1 или 'columns'}, по умолчанию 0. Определяет, удаляются строки или столбцы, содержащие отсутствующие значения. 0 или «index»: удалить строки, содержащие пропущенные значения. 1 или «columns»: удалить столбцы, содержащие отсутствующее значение.
- how - Определяет, удаляется ли строка или столбец из DataFrame, когда у нас есть хотя бы одно NA или все NA. 'any': если присутствуют какие-либо значения NA, отбросьте эту строку или столбец. 'all': если все значения - NA, отбросьте эту строку или столбец.

In [None]:
d = [{"Name": "Виктор", "Age": 18},
     {"Name": "Мария", "Age": np.nan},
     {"Name": "Иван", "Age": 19},
     {"Name": "Иван", "Age": 25},
     {"Name": 'Надя', "Age": np.nan}]

df = pd.DataFrame(d)
df.dropna(axis=1)

Unnamed: 0,Name
0,Виктор
1,Мария
2,Иван
3,Иван
4,Надя


In [None]:
df

Unnamed: 0,Name,Age
0,Виктор,18.0
1,Мария,
2,Иван,19.0
3,Иван,25.0
4,Надя,


In [None]:
df.isna().sum()

Name    1
Age     2
dtype: int64

In [None]:
# удалить строки (axis=0), которые содержат хотя бы одно пропущенное значение
df.dropna(axis=0, how='any')

Unnamed: 0,Name,Age
0,Виктор,18.0
2,Иван,19.0
3,Иван,25.0


In [None]:
# удалить столбцы (axis=1), которые содержат хотя бы одно пропущенное значение
df.dropna(axis=1, how='any')

In [None]:
#
df.dropna(axis=0, how='all')

Unnamed: 0,Name,Age
0,Виктор,18.0
1,Мария,
2,Иван,19.0
3,Иван,25.0


In [None]:
# удалить столбцы (axis=1), которые содержат хотя бы одно пропущенное значение
df.dropna(axis=1, how='all')

Добавление строк или столбцов в существующий DataFrame.

Добавить новый столбец в существующий DataFrame можно воспользовавшись следующей конструкцией:

`df['new_column'] = values`

- values - значения в новом столбце (числов, список, Series)


In [None]:
d = [{"Name": "Виктор", "Age": 18},
     {"Name": "Мария", "Age": 21},
     {"Name": "Иван", "Age": 19},
     {"Name": "Иван", "Age": 25},
     {"Name": "Алексей", "Age": 20}]

df = pd.DataFrame(d)

df

Unnamed: 0,Name,Age
0,Виктор,18
1,Мария,21
2,Иван,19
3,Иван,25
4,Алексей,20


In [None]:
# Добавление нового столбца - значения которого переданы в виде списка
df['University'] = ['NRNU MEPhI', 'MIPT', 'MITP', 'NRNU MEPhI', 'BMSTU']

df

Unnamed: 0,Name,Age,University
0,Виктор,18,NRNU MEPhI
1,Мария,21,MIPT
2,Иван,19,MITP
3,Иван,25,NRNU MEPhI
4,Алексей,20,BMSTU


In [None]:
# Добавление нового столбца - все значения будут одинаковы и равны 'bachelor'
df['level'] = 'bachelor'
df

Unnamed: 0,Name,Age,University,level
0,Виктор,18,NRNU MEPhI,bachelor
1,Мария,21,MIPT,bachelor
2,Иван,19,MITP,bachelor
3,Иван,25,NRNU MEPhI,bachelor
4,Алексей,20,BMSTU,bachelor


Также существует метод позволяющий объединять объекты Series и DataFrame.

`pandas.concat( objs , axis = 0 , join = 'outer' , ignore_index = False , keys = None , levels = None , names = None , verify_integrity = False , sort = False , copy = True )`

- objs последовательность или сопоставление объектов Series или DataFrame
- ось {0 / 'index', 1 / 'columns'}, по умолчанию 0. Ось для объединения (объединение по столбцам или по строкам).


In [None]:
# Объединение двух Series
# так как параметр ignore_index по умолчанию False
# то сохраняется старая нумерация в Series
s1 = pd.Series(['a', 'b'])
s2 = pd.Series(['c', 'd'])
pd.concat([s1, s2])

Unnamed: 0,0
0,a
1,b
0,c
1,d


In [None]:
# Объединение двух Series
# очистить существующий индекс и сбросить его в результате
# можно задав ignore_index=True
s1 = pd.Series(['a', 'b'])
s2 = pd.Series(['c', 'd'])
pd.concat([s1, s2], ignore_index=True)

Unnamed: 0,0
0,a
1,b
2,c
3,d


In [None]:
# Объединений двух DataFrame
df1 = pd.DataFrame([['Петр', 19], ['Иван', 22]],
                   columns=['Name', 'Возраст'])
df1

Unnamed: 0,Name,Возраст
0,Петр,19
1,Иван,22


In [None]:
df2 = pd.DataFrame([['Мария', 20], ['Анастасия', 18]], columns=['Name', 'Age'])
df2

Unnamed: 0,Name,Age
0,Мария,20
1,Анастасия,18


In [None]:
#  объединение по строкам
tmp = pd.concat([df1, df2], axis=1)
tmp

Unnamed: 0,Name,Возраст,Name.1,Age
0,Петр,19,Мария,20
1,Иван,22,Анастасия,18


In [None]:
df.iloc[df['Age'] > 20, 5:15]

In [None]:
# объединение по столбцам
pd.concat([df1, df2], axis=1)

Unnamed: 0,Name,Age,Name.1,Age.1
0,Петр,19,Мария,20
1,Иван,22,Анастасия,18


In [None]:
df1 = pd.DataFrame([['Петр', 19], ['Иван', 22]], columns=['Name', 'Age'])
df2 = pd.DataFrame([['MIPT'], ['MIPT']], columns=['University'])

pd.concat([df1, df2], axis=1)

Unnamed: 0,Name,Age,University
0,Петр,19,MIPT
1,Иван,22,MIPT
