# Лекция 3 Pandas

In [2]:
import numpy as np 
import pandas as pd


Pandas - расширение Numpy (структурные массивы). Строки и столбцы индексируются метками, а не только числовыми значениями.

Три основных структуры Pandas: Series, DataFrame, Index

## Series

In [3]:
data = pd.Series([0.25, 0.5, 0.75, 1])
print(data)
print(type(data))

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64
<class 'pandas.core.series.Series'>


В элементе data присутствует два внутринных элемента данных: Values и Index. Values - данные внутри массива, Index - то, по чему мы будем к этим 
данным обращаться, они хранятся отдельно.

In [4]:
data = pd.Series([0.25, 0.5, 0.75, 1])
print(data.values)
print(data.index)
print()
print(type(data.values))
print(type(data.index))

[0.25 0.5  0.75 1.  ]
RangeIndex(start=0, stop=4, step=1)

<class 'numpy.ndarray'>
<class 'pandas.core.indexes.range.RangeIndex'>


Как обращаться к объектам класса библиотеки Pandas?

In [15]:
data = pd.Series([0.25, 0.5, 0.75, 1])
print(data[0])
print(data[1:3])
print(type(data.index))

0.25
1    0.50
2    0.75
dtype: float64
<class 'pandas.core.indexes.range.RangeIndex'>


Основное различие между Numpy и Pandas заключается в том, что индексы, на которые мы ссылаемся, мы можем определить явно так как мы захотим (в прошлом примере они были заданы автоматически при создании Series)

In [14]:
data = pd.Series([0.25, 0.5, 0.75, 1], index=('a', 'b', 'c', 'd'))
print(data)
print(data['a'])
print(data['b':'d'])

print(type(data.index))


a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64
0.25
b    0.50
c    0.75
d    1.00
dtype: float64
<class 'pandas.core.indexes.base.Index'>


В прошлом примере index был range (объект, аналогичный range в Python), теперь это другой объект index, у него другое содержание и другое поведение. 
В качестве index не обязательно выбирать объекты одного типа, и не обязательно, чтобы они шли по порядку.

In [5]:
data = pd.Series([0.25, 0.5, 0.75, 1], index=(1, 10, 7, 'd'))
print(data)

print(data[1])
print(data[10: 'd'])

1     0.25
10    0.50
7     0.75
d     1.00
dtype: float64
0.25
10    0.50
7     0.75
d     1.00
dtype: float64


Другой пример задания данных и index - через словарь. Ключи автоматически станут index, значения из значений словаря

In [6]:
population_dict = {
    'city_1' : 1001,
    'city_2' : 1002,
    'city_3' : 1003,
    'city_4' : 1004,
    'city_5' : 1005
}

population = pd.Series(population_dict)
print(population)

print(population['city_4'])
print(population['city_4':'city_5'])

city_1    1001
city_2    1002
city_3    1003
city_4    1004
city_5    1005
dtype: int64
1004
city_4    1004
city_5    1005
dtype: int64


Для создания объектов Series можно использовать:
1. списки Python или массивы Numpy
2. скалярные значения из Python
3. словари из Python


In [22]:
#1 
a = np.array([0.1, 1, 10, 100, 1000])
b = [-1, 0, 1, 2, 3]
degree = pd.Series(a, index=b)

print(degree)
print(degree[1])
print(degree[-1:2])

-1       0.1
 0       1.0
 1      10.0
 2     100.0
 3    1000.0
dtype: float64
10.0
Series([], dtype: float64)


In [27]:
names_dict = {
    1: 'Adele',
    2: 'Brandon',
    3: 'Cecile',
    4: 'Dick',
    5: 'Eva'
}

names = pd.Series(names_dict)

print(names)
print(names[1])
print(names[3:5])

1      Adele
2    Brandon
3     Cecile
4       Dick
5        Eva
dtype: object
Adele
4    Dick
5     Eva
dtype: object


## DataFrame
Двумерный массив, с явно определёнными индексами. Индексы соответственно идут по одной и другой оси координат.
Индексы по оси x называются columns, индексы по y - index.

Т.е. DataFrame - это последовательность согласованных по индексам объектов Series.

In [11]:
population_dict = {
    'city_1' : 1001,
    'city_2' : 1002,
    'city_3' : 1003,
    'city_4' : 1004,
    'city_5' : 1005
}

area_dict = {
    'city_1' : 9991,
    'city_2' : 9992,
    'city_3' : 9993,
    'city_4' : 9994,
    'city_5' : 9995 
}

population = pd.Series(population_dict)
area = pd.Series(area_dict)
states = pd.DataFrame({
    'population1': population,
    'area1': area
})

print(states)
print(type(states))
print()
print(type(states.values))
print(type(states.index))
print(type(states.columns))

        population1  area1
city_1         1001   9991
city_2         1002   9992
city_3         1003   9993
city_4         1004   9994
city_5         1005   9995
<class 'pandas.core.frame.DataFrame'>

<class 'numpy.ndarray'>
<class 'pandas.core.indexes.base.Index'>
<class 'pandas.core.indexes.base.Index'>


In [8]:
population_dict = {
    'city_1' : 1001,
    'city_2' : 1002,
    'city_3' : 1003,
    'city_4' : 1004,
    'city_5' : 1005
}

area_dict = {
    'city_1' : 9991,
    'city_2' : 9992,
    'city_3' : 9993,
    'city_4' : 9994,
    'city_5' : 9995 
}

population = pd.Series(population_dict)
area = pd.Series(area_dict)
states = pd.DataFrame({
    'population1': population,
    'area1': area
})

print(states)
print(states['area1'])

        population1  area1
city_1         1001   9991
city_2         1002   9992
city_3         1003   9993
city_4         1004   9994
city_5         1005   9995
city_1    9991
city_2    9992
city_3    9993
city_4    9994
city_5    9995
Name: area1, dtype: int64


## Способы создания DataFrame 

1. Через объекты Series
2. Списки словарей
3. Словари объектов Series
4. Двумерный массив Numpy
5. Структурированный массив Numpy

In [36]:
# 1. Через объекты Series

names = pd.Series(['Adele', 'Brandon', 'Cecile'])
scores = pd.Series([5, 13, 9])

full = pd.DataFrame(names, scores)

print(full)

       0        1       2
0  Adele  Brandon  Cecile
1      5       13       9


In [40]:
# 2. Списки словарей

names_dict = {
    1: 'Adele',
    2: 'Brandon',
    3: 'Cecile'
}

scores_dict = {
    1: 5,
    2: 13,
    3: 9
}

full = pd.DataFrame({
    'Names': names_dict,
    'Score': scores_dict
})

print(full)

     Names  Score
1    Adele      5
2  Brandon     13
3   Cecile      9


## Index
Способ организации ссылки на данные объектов Series и DataFrame.

Index как объект - неизменяем, упорядочен (не по значениям, а по смыслу как ссылки), является мультимножеством (могут быть повторяющиеся значения). На элементы индекса можно ссылаться, как на массивы NumPy, можно строить сложного вида срезы. Но тем не менее, изменять объект Index нельзя.


In [12]:
ind = pd.Index([2, 3, 4, 5, 7, 11])

print(ind)
print(ind[::2])

Index([2, 3, 4, 5, 7, 11], dtype='int64')
Index([2, 4, 7], dtype='int64')


Index следует соглашениям объекта set (Python). То есть к ниму применимы те же операции, что к set

In [13]:
indA = pd.Index([1, 2, 3, 4, 5])
indB = pd.Index([2, 3, 4, 5, 6])

print(indA.intersection(indB))

Index([2, 3, 4, 5], dtype='int64')


## Выборка данных из Series
Индексы позволяют обращаться к Series через операторы in или например через методы keys, items

In [14]:
data = pd.Series([0.25, 0.5, 0.75, 1], index=['a', 'b', 'c', 'd'])

print('a' in data)
print('z' in data)

print(data.keys())
print(list(data.items()))

True
False
Index(['a', 'b', 'c', 'd'], dtype='object')
[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]


Добавление и изменение значений в Series как в словарь Python

In [15]:
data = pd.Series([0.25, 0.5, 0.75, 1], index=['a', 'b', 'c', 'd'])

data['a'] = 100
data['z'] = 1000

print(data)

a     100.00
b       0.50
c       0.75
d       1.00
z    1000.00
dtype: float64


Или можно работать с ним как с одномерным массивом

In [16]:
data = pd.Series([0.25, 0.5, 0.75, 1], index=['a', 'b', 'c', 'd'])

# Явно заданные индексы (в таком случае последний включительно)
print(data['a':'c'])
# Неявно заданные индексы (правая граница не включительно)
print(data[0:2])
print(data[(data > 0.5)  & (data < 1)])
# Векторизованная индексация
print(data[['a', 'd']])

a    0.25
b    0.50
c    0.75
dtype: float64
a    0.25
b    0.50
dtype: float64
c    0.75
dtype: float64
a    0.25
d    1.00
dtype: float64


Из-за того, что индексы могут быть любыми, возникает проблема: выбирается явное значение индекса, а не порядковый номер (например если использоваться как индексы целые числа).

## Атрибуты индексаторы

In [17]:
data = pd.Series([0.25, 0.5, 0.75, 1], index=[1, 3, 10, 15])

print(data[1]) # По умолчанию - к значению

print(data.loc[1]) # К значению
print(data.iloc[1]) # К порядковому номеру

0.25
0.25
0.5


# Выборка данных из DataFrame

In [9]:
pop = pd.Series({
    'city_1' : 1001,
    'city_2' : 1002,
    'city_3' : 1003,
    'city_4' : 1004,
    'city_5' : 1005
})
area = pd.Series({
    'city_1' : 9991,
    'city_2' : 9992,
    'city_3' : 9993,
    'city_4' : 9994,
    'city_5' : 9995 
})
data = pd.DataFrame({'area1' : area, 'pop1' : pop})

print(data)
print(data['area1']) # По имени
print(data.area1) # Как атрибут, если название может быть атрибутом

print(data.pop1 is data['pop1']) # Проверка на соответствие имени

        area1  pop1
city_1   9991  1001
city_2   9992  1002
city_3   9993  1003
city_4   9994  1004
city_5   9995  1005
city_1    9991
city_2    9992
city_3    9993
city_4    9994
city_5    9995
Name: area1, dtype: int64
city_1    9991
city_2    9992
city_3    9993
city_4    9994
city_5    9995
Name: area1, dtype: int64
True


In [10]:
pop = pd.Series({
    'city_1' : 1001,
    'city_2' : 1002,
    'city_3' : 1003,
    'city_4' : 1004,
    'city_5' : 1005
})
area = pd.Series({
    'city_1' : 9991,
    'city_2' : 9992,
    'city_3' : 9993,
    'city_4' : 9994,
    'city_5' : 9995 
})
data = pd.DataFrame({'area1' : area, 'pop1' : pop, 'pop' : pop})

print(data.pop is data['pop'])

False


## Присваивание новых columns

In [12]:
pop = pd.Series({
    'city_1' : 1001,
    'city_2' : 1002,
    'city_3' : 1003,
    'city_4' : 1004,
    'city_5' : 1005
})
area = pd.Series({
    'city_1' : 9991,
    'city_2' : 9992,
    'city_3' : 9993,
    'city_4' : 9994,
    'city_5' : 9995 
})
data = pd.DataFrame({'area1' : area, 'pop1' : pop})

data['new'] = data['area1']

data['new1'] = data['area1'] / data['pop1']
print(data)

        area1  pop1   new      new1
city_1   9991  1001  9991  9.981019
city_2   9992  1002  9992  9.972056
city_3   9993  1003  9993  9.963111
city_4   9994  1004  9994  9.954183
city_5   9995  1005  9995  9.945274


Обращение к DataFrame как к двумерному NumPy массиву

In [16]:
pop = pd.Series({
    'city_1' : 1001,
    'city_2' : 1002,
    'city_3' : 1003,
    'city_4' : 1004,
    'city_5' : 1005
})
area = pd.Series({
    'city_1' : 9991,
    'city_2' : 9992,
    'city_3' : 9993,
    'city_4' : 9994,
    'city_5' : 9995 
})
data = pd.DataFrame({'area1' : area, 'pop1' : pop})
print(data)
print(data.values)
print(data.T) # Пример использования как к массиву - транспонирование

        area1  pop1
city_1   9991  1001
city_2   9992  1002
city_3   9993  1003
city_4   9994  1004
city_5   9995  1005
[[9991 1001]
 [9992 1002]
 [9993 1003]
 [9994 1004]
 [9995 1005]]
       city_1  city_2  city_3  city_4  city_5
area1    9991    9992    9993    9994    9995
pop1     1001    1002    1003    1004    1005


## Обращение к строкам и столбцам

In [18]:
pop = pd.Series({
    'city_1' : 1001,
    'city_2' : 1002,
    'city_3' : 1003,
    'city_4' : 1004,
    'city_5' : 1005
})
area = pd.Series({
    'city_1' : 9991,
    'city_2' : 9992,
    'city_3' : 9993,
    'city_4' : 9994,
    'city_5' : 9995 
})
data = pd.DataFrame({'area1' : area, 'pop1' : pop})

print(data['area1']) # Обращение к column
print(data.values[0])# Обращение к строкам (через values) 
print(data.values[0:3])

city_1    9991
city_2    9992
city_3    9993
city_4    9994
city_5    9995
Name: area1, dtype: int64
[9991 1001]
[[9991 1001]
 [9992 1002]
 [9993 1003]]


## Атрибуты-индексаторы (снова)

In [19]:
pop = pd.Series({
    'city_1' : 1001,
    'city_2' : 1002,
    'city_3' : 1003,
    'city_4' : 1004,
    'city_5' : 1005
})
area = pd.Series({
    'city_1' : 9991,
    'city_2' : 9992,
    'city_3' : 9993,
    'city_4' : 9994,
    'city_5' : 9995 
})
data = pd.DataFrame({'area1' : area, 'pop1' : pop, 'pop': pop})

print(data)
print(data.iloc[:3, 1:2])
print(data.loc[:'city_4', 'pop1':'pop']) # Правая граница включительно
print(data.loc[data['pop'] > 1002, ['area1', 'pop']]) # Индексация по строкам и столбцам сложным образом

        area1  pop1   pop
city_1   9991  1001  1001
city_2   9992  1002  1002
city_3   9993  1003  1003
city_4   9994  1004  1004
city_5   9995  1005  1005
        pop1
city_1  1001
city_2  1002
city_3  1003
        pop1   pop
city_1  1001  1001
city_2  1002  1002
city_3  1003  1003
city_4  1004  1004
        area1   pop
city_3   9993  1003
city_4   9994  1004
city_5   9995  1005


## Присваивание значений по индексам

In [20]:
pop = pd.Series({
    'city_1' : 1001,
    'city_2' : 1002,
    'city_3' : 1003,
    'city_4' : 1004,
    'city_5' : 1005
})
area = pd.Series({
    'city_1' : 9991,
    'city_2' : 9992,
    'city_3' : 9993,
    'city_4' : 9994,
    'city_5' : 9995 
})
data = pd.DataFrame({'area1' : area, 'pop1' : pop, 'pop': pop})

print(data)

data.iloc[0,2] = 999999
print(data)

        area1  pop1   pop
city_1   9991  1001  1001
city_2   9992  1002  1002
city_3   9993  1003  1003
city_4   9994  1004  1004
city_5   9995  1005  1005
        area1  pop1     pop
city_1   9991  1001  999999
city_2   9992  1002    1002
city_3   9993  1003    1003
city_4   9994  1004    1004
city_5   9995  1005    1005


## Универсальные функции

In [21]:
# Сгененрируем 4 случайных целых числа

rng = np.random.default_rng()
s = pd.Series(rng.integers(0, 10, 4))

print(s)
print(np.exp(s))

0    2
1    0
2    6
3    5
dtype: int64
0      7.389056
1      1.000000
2    403.428793
3    148.413159
dtype: float64


## Объединение Series

При объединении двух Series с различающимися индексами пустоты в той Series, где таких индексов нет, заполняются типом NaN (Not a Number)

In [25]:
pop = pd.Series({
    'city_1' : 1001,
    'city_2' : 1002,
    'city_3' : 1003,
    'city_41' : 1004,
    'city_51' : 1005
})
area = pd.Series({
    'city_1' : 9991,
    'city_2' : 9992,
    'city_3' : 9993,
    'city_42' : 9994,
    'city_52' : 9995 
})

data = pd.DataFrame({'area1' : area, 'pop1' : pop})
print(data)

          area1    pop1
city_1   9991.0  1001.0
city_2   9992.0  1002.0
city_3   9993.0  1003.0
city_41     NaN  1004.0
city_42  9994.0     NaN
city_51     NaN  1005.0
city_52  9995.0     NaN


## Объединение DataFrame

In [27]:
dfA = pd.DataFrame(rng.integers(0, 10, (2,2)), columns=['a', 'b'])
dfB = pd.DataFrame(rng.integers(0, 10, (3,3)), columns=['a', 'b', 'c'])

print(dfA)
print(dfB)

print(dfA + dfB)

   a  b
0  3  4
1  8  9
   a  b  c
0  6  7  1
1  6  8  5
2  3  6  1
      a     b   c
0   9.0  11.0 NaN
1  14.0  17.0 NaN
2   NaN   NaN NaN


В тех ячейках, где существовали значения, числа сложились. Там, где индекса не было, получилось NaN, даже если одно из чисел было (NaN + 8 = NaN)

## Транслирование в Pandas

In [23]:
rng = np.random.default_rng(1)

A = rng.integers(0, 10, (3, 4))
print(A)
print(A[0])
print(A - A[0])

[[4 5 7 9]
 [0 1 8 9]
 [2 3 8 4]]
[4 5 7 9]
[[ 0  0  0  0]
 [-4 -4  1  0]
 [-2 -2  1 -5]]


In [25]:
df = pd.DataFrame(A, columns=['a', 'b', 'c', 'd'])
print(df)
print()
print(df.iloc[0])
print(df - df.iloc[0])
print()
print(df.iloc[0, ::2])
print(df - df.iloc[0, ::2]) ## Происходит согласование индексов
# на месте отсутствующих индексов получились NaN

   a  b  c  d
0  4  5  7  9
1  0  1  8  9
2  2  3  8  4

a    4
b    5
c    7
d    9
Name: 0, dtype: int64
   a  b  c  d
0  0  0  0  0
1 -4 -4  1  0
2 -2 -2  1 -5

a    4
c    7
Name: 0, dtype: int64
     a   b    c   d
0  0.0 NaN  0.0 NaN
1 -4.0 NaN  1.0 NaN
2 -2.0 NaN  1.0 NaN


NA - значения: NaN (Not a Number), null, -99999

Pandas. Два способа хранения отсутствующих значений:
1. Индикаторы NaN, None
2. null

None - объект, его использование может привести к накладным расходам. Этот типа не работает с sum, min (вообще не работает)

In [35]:
vall = np.array([1, 2, 3])
print(vall.sum())

vall2 = np.array([1, None, 2, 3])
print(vall2.sum())

6


TypeError: unsupported operand type(s) for +: 'int' and 'NoneType'

NaN(np.nan) позволяет использовать суммы (с суммой NaN), а также считается равным нулю с (nan...)

In [37]:
vall = np.array([1, np.nan, 2, 3])

print(vall.sum())
print(np.sum(vall))
print(np.nansum(vall))

nan
nan
6.0


In [28]:
x = pd.Series(range(5), dtype=int)
print(x)

x[0] = None
x[1] = np.nan

print(x)

0    0
1    1
2    2
3    3
4    4
dtype: int32
0    NaN
1    NaN
2    2.0
3    3.0
4    4.0
dtype: float64


In [31]:
x1 = pd.Series(['a', 'b', 'c'])
print(x1)

x1[0] = None # Так как строки в значениях, то None остается, а не заменяется на NaN
x1[1] = np.nan
print(x1)

0    a
1    b
2    c
dtype: object
0    None
1     NaN
2       c
dtype: object


### Отдельный NA-элемент в Pandas

При создании Series можно указывать тип данных

In [41]:
x2 = pd.Series([1, 2, 3, np.nan, None, pd.NA], dtype='Int32')
print(x2)

0       1
1       2
2       3
3    <NA>
4    <NA>
5    <NA>
dtype: Int32


Выделение NA элементов

In [32]:
x2 = pd.Series([1, 2, 3, np.nan, None, pd.NA], dtype='Int32')
print(x2.isnull())
print(x2[x2.isnull()])
print(x2[x2.notnull()])

0    False
1    False
2    False
3     True
4     True
5     True
dtype: bool
3    <NA>
4    <NA>
5    <NA>
dtype: Int32
0    1
1    2
2    3
dtype: Int32


Удаление NA элементов

In [44]:
x2 = pd.Series([1, 2, 3, np.nan, None, pd.NA], dtype='Int32')
print(x2.dropna())

0    1
1    2
2    3
dtype: Int32


Для DataFrame:

In [34]:
df = pd.DataFrame([
    [1, 2, 3, np.nan, None, pd.NA],
    [1, 2, 3, 4, 5, 6],
    [1, np.nan, 3, 4, np.nan, 6]
])

print(df, "\n")
print(df.dropna(), "\n")
print(df.dropna(axis=0), "\n")
print(df.dropna(axis=1), "\n")

   0    1  2    3    4     5
0  1  2.0  3  NaN  NaN  <NA>
1  1  2.0  3  4.0  5.0     6
2  1  NaN  3  4.0  NaN     6 

   0    1  2    3    4  5
1  1  2.0  3  4.0  5.0  6 

   0    1  2    3    4  5
1  1  2.0  3  4.0  5.0  6 

   0  2
0  1  3
1  1  3
2  1  3 



У операции drop есть переменная how, которая может принимать разные значения:
- all - строка/столбец выбрасывается, если в ней/нем все значения NA
- any - если в ней/нем хотя бы одно значение NaN
- thresh = x, строка/столбец остаётся, если присутствует минимум х непустых значений

In [50]:
df = pd.DataFrame([
    [1, 2, 3, np.nan, None, pd.NA],
    [1, 2, 3, None, 5, 6],
    [1, np.nan, 3, None, np.nan, 6]
])

print(df.dropna(axis=1, how='all'))
print(df.dropna(axis=1, how='any'))
print(df.dropna(axis=1, thresh=2))

   0    1  2    4     5
0  1  2.0  3  NaN  <NA>
1  1  2.0  3  5.0     6
2  1  NaN  3  NaN     6
   0  2
0  1  3
1  1  3
2  1  3
   0    1  2     5
0  1  2.0  3  <NA>
1  1  2.0  3     6
2  1  NaN  3     6
