# Основы Pandas!

- работа с табличными данными

In [2]:
import pandas as pd

In [3]:
import numpy as np

## Структуры данных Series и DataFrame

### Series

In [4]:
series1 = pd.Series([14,18,20,33,38]) # создание series на основе списка
print(series1)
series1[1:4]

0    14
1    18
2    20
3    33
4    38
dtype: int64


1    18
2    20
3    33
dtype: int64

In [8]:
a = series1.array   # обёртывание массива numpy 
a

<PandasArray>
[14, 18, 20, 33, 38]
Length: 5, dtype: int64

In [9]:
arr1 = np.array([1,2,3,4,5])   # взаимодействие с ndarray
x = pd.array(arr1) 
x

<IntegerArray>
[1, 2, 3, 4, 5]
Length: 5, dtype: Int32

- values
- index 

In [10]:
series1.values   # представление значений series

array([14, 18, 20, 33, 38], dtype=int64)

In [11]:
series1.index  # представление индексов

RangeIndex(start=0, stop=5, step=1)

In [13]:
series2 = pd.Series([72,86,138,140,120], index=[1,'alex',(1,2),'i','o'])  # создание series с заведомо прописанными индексами
series2

1          72
alex       86
(1, 2)    138
i         140
o         120
dtype: int64

In [14]:
dict1 = {'alex':162, 'slavik':184, 'ivan':183, 'kpss':187, 'oxxxy':179}

series3 = pd.Series(dict1)  # создание series на основе словаря
series3

alex      162
slavik    184
ivan      183
kpss      187
oxxxy     179
dtype: int64

In [15]:
names = ['slavik', 'ivan', 'oxxxy','kpss','alex'] # создание series с измененным порядком индексов (NaN - значение не найдено) 
pd.Series(dict1, index=names)

slavik    184
ivan      183
oxxxy     179
kpss      187
alex      162
dtype: int64

In [16]:
series2

1          72
alex       86
(1, 2)    138
i         140
o         120
dtype: int64

In [18]:
pd.Series(series2,index=['i','alex',1])  # на основе series

i       140
alex     86
1        72
dtype: int64

In [19]:
series1

0    14
1    18
2    20
3    33
4    38
dtype: int64

In [21]:
series1.index = ['alex','slavik','ivan','kpss','oxxxy']  # изменение индексов
series1

alex      14
slavik    18
ivan      20
kpss      33
oxxxy     38
dtype: int64

In [22]:
series1.index[-2:]

Index(['kpss', 'oxxxy'], dtype='object')

In [23]:
info = [series1,series2,series3]   # преобразование одинаковых индексов для данных с помощью цикла
for inf in info:
    inf.index = names

In [24]:
print(series1,series2,series3,sep='\n\n')

slavik    14
ivan      18
oxxxy     20
kpss      33
alex      38
dtype: int64

slavik     72
ivan       86
oxxxy     138
kpss      140
alex      120
dtype: int64

slavik    162
ivan      184
oxxxy     183
kpss      187
alex      179
dtype: int64


In [26]:
# название series

series1.name = 'age'
series2.name = 'iq'
series3.name = 'high'

series1

slavik    14
ivan      18
oxxxy     20
kpss      33
alex      38
Name: age, dtype: int64

In [27]:
# установить названия индексов в series
for inf in info:
    inf.index.name = 'name'
print(series1,series2,series3,sep='\n\n')

name
slavik    14
ivan      18
oxxxy     20
kpss      33
alex      38
Name: age, dtype: int64

name
slavik     72
ivan       86
oxxxy     138
kpss      140
alex      120
Name: iq, dtype: int64

name
slavik    162
ivan      184
oxxxy     183
kpss      187
alex      179
Name: high, dtype: int64


In [28]:
series2 = pd.Series(series2, index=[*names,'einstein'])  # добавим индекс, которого нет (его значение - NaN)
series2

slavik       72.0
ivan         86.0
oxxxy       138.0
kpss        140.0
alex        120.0
einstein      NaN
Name: iq, dtype: float64

- NaN

In [29]:
series2.isna()  # метод экземляра, показывающий есть ли отсутствующие значение / notna()

slavik      False
ivan        False
oxxxy       False
kpss        False
alex        False
einstein     True
Name: iq, dtype: bool

In [30]:
pd.notna(series2)  # то же самое, но функция показывает, является ли не NaN

slavik       True
ivan         True
oxxxy        True
kpss         True
alex         True
einstein    False
Name: iq, dtype: bool

- операции

In [31]:
series2['alex'] # взять значение по индексу

120.0

In [32]:
series2[0]  # нумерация с нуля всегда сохраняется

72.0

In [33]:
series2['ivan'] = 132  # изменить значение по индексу
series2

slavik       72.0
ivan        132.0
oxxxy       138.0
kpss        140.0
alex        120.0
einstein      NaN
Name: iq, dtype: float64

In [36]:
mask = series2>130
mask  # возврат булевской маски series

slavik      False
ivan         True
oxxxy        True
kpss         True
alex        False
einstein    False
Name: iq, dtype: bool

In [39]:
series2[mask]   # применение фильрации по логической маске

ivan     132.0
oxxxy    138.0
kpss     140.0
Name: iq, dtype: float64

In [40]:
series2[series2>130]

ivan     132.0
oxxxy    138.0
kpss     140.0
Name: iq, dtype: float64

In [43]:
series1 + 10 # увеличение данных в series на 10

name
slavik    24
ivan      28
oxxxy     30
kpss      43
alex      48
Name: age, dtype: int64

In [44]:
np.square(series1)  # применение функций нампай к данным series

name
slavik     196
ivan       324
oxxxy      400
kpss      1089
alex      1444
Name: age, dtype: int64

- многие функции, ожидающие словарь работают и с Series

In [45]:
'ivan' in series2  # проверка на вхождение 

True

In [46]:
series2['messi'] = 135  # добавление значений в series
series3['messi'] = 169

In [47]:
series2.unique()   # массив уникальных значений Series

array([ 72., 132., 138., 140., 120.,  nan, 135.])

In [48]:
series1.isin([20])   # есть ли указанные значения в списке (булевая маска) 

name
slavik    False
ivan      False
oxxxy      True
kpss      False
alex      False
Name: age, dtype: bool

In [49]:
series2.isnull()  # поиск отсутствующих значений

slavik      False
ivan        False
oxxxy       False
kpss        False
alex        False
einstein     True
messi       False
Name: iq, dtype: bool

In [50]:
series2.value_counts()   # краткая статистика по количеству всех значений 

72.0     1
132.0    1
138.0    1
140.0    1
120.0    1
135.0    1
Name: iq, dtype: int64

In [52]:
print(arr1, type(arr1))

arr1[arr1>2] # series очень похожи на массивы numpy

[1 2 3 4 5] <class 'numpy.ndarray'>


array([3, 4, 5])

In [53]:
series2[:2]   # срезы по series

slavik     72.0
ivan      132.0
Name: iq, dtype: float64

In [54]:
pd.Series([10,20,30],['a','b','c'])  # можно создавать и так

a    10
b    20
c    30
dtype: int64

### атрибуты Series
- .values - массив элементов
- .index - массив индексов в series
- .size - количество значений
- .is_unique - уникальные ли значения в series

In [57]:
series2

slavik       72.0
ivan        132.0
oxxxy       138.0
kpss        140.0
alex        120.0
einstein      NaN
messi       135.0
Name: iq, dtype: float64

In [55]:
series2.is_unique

True

In [56]:
series2.size

7

### Методы (функции) Series
- .sum() - сумма объектов Series
- .max() / .min() 
- .product() - произведение элементов
- .mean() - среднее значение
- и тд

In [58]:
series2.head(3)  # первые n элементов сверху

slavik     72.0
ivan      132.0
oxxxy     138.0
Name: iq, dtype: float64

In [59]:
series2.tail(2)# последние 2 элемента снизу

einstein      NaN
messi       135.0
Name: iq, dtype: float64

In [60]:
series2[[1,3]]

ivan    132.0
kpss    140.0
Name: iq, dtype: float64

In [61]:
series2.take([2,3])

oxxxy    138.0
kpss     140.0
Name: iq, dtype: float64

In [62]:
print(len(series2))   # размер
series2.size

7


7

In [65]:
series2.iloc[-1] # значение по индексу (номер ряда)

135.0

In [67]:
series2.iloc[[2,1,-1]] # возвращение нескольких рядов

oxxxy    138.0
ivan     132.0
messi    135.0
Name: iq, dtype: float64

In [71]:
series2.loc['slavik']  # значение по МЕТКЕ (названию индекса)

72.0

In [73]:
series2.loc[ ['ivan', 'alex'] ]

ivan    132.0
alex    120.0
Name: iq, dtype: float64

In [74]:
series_dubl = pd.Series([-3,-2,0,2,2,3], [1,1,2,2,3,2]) # метки дублируются
series_dubl

1   -3
1   -2
2    0
2    2
3    2
2    3
dtype: int64

In [75]:
series_dubl.iloc[0]   # по индексу 

-3

In [76]:
series_dubl.loc[2]  # несколько значений по МЕТКАМ (они одинаковые)

2    0
2    2
2    3
dtype: int64

In [77]:
series_dubl.loc[[2,1]] = 0
series_dubl

1    0
1    0
2    0
2    0
3    2
2    0
dtype: int64

- сортировка 

In [78]:
series3

name
slavik    162
ivan      184
oxxxy     183
kpss      187
alex      179
messi     169
Name: high, dtype: int64

In [79]:
series3.sort_values() # сортировка по значениям ascending = False сортирует по убыванию

name
slavik    162
messi     169
alex      179
oxxxy     183
ivan      184
kpss      187
Name: high, dtype: int64

In [80]:
series3.sort_index() # сортировка по индексам (меткам) inplace = True делает сортировку на месте

name
alex      179
ivan      184
kpss      187
messi     169
oxxxy     183
slavik    162
Name: high, dtype: int64

- метод apply()

In [81]:
def how_high(h):
    if h>=180:
        return 'Высокий'
    return 'Низкий'

In [82]:
series3.apply(how_high)   # применяет кастомную функцию к серии

name
slavik     Низкий
ivan      Высокий
oxxxy     Высокий
kpss      Высокий
alex       Низкий
messi      Низкий
Name: high, dtype: object

In [83]:
series2.apply(lambda x: 1 if x>=100 else 0)   # используя лямбда-функцию

slavik      0
ivan        1
oxxxy       1
kpss        1
alex        1
einstein    0
messi       1
Name: iq, dtype: int64

- Преобразование данных

In [84]:
s = pd.Series([5,5,5,4,4,3,4])

# Преобразование Series в список
s_list = s.tolist()
print(s_list, end='\n\n')

# Преобразование Series в словарь
s_dict = s.to_dict()
print(s_dict, end='\n\n')

# Преобразование типов данных
s = s.astype(float)
print(s)

[5, 5, 5, 4, 4, 3, 4]

{0: 5, 1: 5, 2: 5, 3: 4, 4: 4, 5: 3, 6: 4}

0    5.0
1    5.0
2    5.0
3    4.0
4    4.0
5    3.0
6    4.0
dtype: float64


## DataFrame


In [106]:
data1 = pd.DataFrame({'player':['messi','ronaldo','neymar'], 'speed':[7,7,8], 'dribling':[9,7,8],'shoot':[9,8,6]})
data1  # создание DataFrame на основе словаря списков (или массивов numpy)

Unnamed: 0,player,speed,dribling,shoot
0,messi,7,9,9
1,ronaldo,7,7,8
2,neymar,8,8,6


In [107]:
data1.head(2)   # первые n элементов

Unnamed: 0,player,speed,dribling,shoot
0,messi,7,9,9
1,ronaldo,7,7,8


In [108]:
pd.DataFrame(data1, columns=['player','shoot','dribling','speed','rating'])  # смена порядка колонок

Unnamed: 0,player,shoot,dribling,speed,rating
0,messi,9,9,7,
1,ronaldo,8,7,7,
2,neymar,6,8,8,


In [109]:
data1.columns   # список названий колонок

Index(['player', 'speed', 'dribling', 'shoot'], dtype='object')

In [110]:
data1[['player', 'shoot']]   # взять определенное количество колонок

Unnamed: 0,player,shoot
0,messi,9
1,ronaldo,8
2,neymar,6


In [111]:
data1['player']   # series - одна колонка из датафрейма

0      messi
1    ronaldo
2     neymar
Name: player, dtype: object

In [112]:
data1.player   # то же самое, что и data1['player']

0      messi
1    ronaldo
2     neymar
Name: player, dtype: object

In [113]:
print(data1.iloc[0])  # series столбца
data1.loc[0] 

player      messi
speed           7
dribling        9
shoot           9
Name: 0, dtype: object


player      messi
speed           7
dribling        9
shoot           9
Name: 0, dtype: object

In [114]:
data1.iloc[[0,2]]   # dataframe по индексам (список индексов!)

Unnamed: 0,player,speed,dribling,shoot
0,messi,7,9,9
2,neymar,8,8,6


In [115]:
data1['position'] = 'нап'    # создание нового столбца 
data1

Unnamed: 0,player,speed,dribling,shoot,position
0,messi,7,9,9,нап
1,ronaldo,7,7,8,нап
2,neymar,8,8,6,нап


In [116]:
print(series1)

data1['name'] = series1 
data1

name
slavik    14
ivan      18
oxxxy     20
kpss      33
alex      38
Name: age, dtype: int64


Unnamed: 0,player,speed,dribling,shoot,position,name
0,messi,7,9,9,нап,
1,ronaldo,7,7,8,нап,
2,neymar,8,8,6,нап,


In [117]:
del data1['name']
data1

Unnamed: 0,player,speed,dribling,shoot,position
0,messi,7,9,9,нап
1,ronaldo,7,7,8,нап
2,neymar,8,8,6,нап


In [118]:
data1.index = ['m','r','n']  # название строк
data1

Unnamed: 0,player,speed,dribling,shoot,position
m,messi,7,9,9,нап
r,ronaldo,7,7,8,нап
n,neymar,8,8,6,нап


In [119]:
data1.T   # транспонирование датафрейма

Unnamed: 0,m,r,n
player,messi,ronaldo,neymar
speed,7,7,8
dribling,9,7,8
shoot,9,8,6
position,нап,нап,нап


In [120]:
data1

Unnamed: 0,player,speed,dribling,shoot,position
m,messi,7,9,9,нап
r,ronaldo,7,7,8,нап
n,neymar,8,8,6,нап


In [121]:
# название фрейма и редактирование
data1.index.name = 'DATAFRAME_FOOTBALL'
data1.columns.name = 'Характеристики:'
data1 = data1.set_index('player')
data1

Характеристики:,speed,dribling,shoot,position
player,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
messi,7,9,9,нап
ronaldo,7,7,8,нап
neymar,8,8,6,нап


In [122]:
data2 = pd.DataFrame(series1)
data2['iq'] = series2
data2['high']=series3

In [123]:
data2

Unnamed: 0_level_0,age,iq,high
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
slavik,14,72.0,162
ivan,18,132.0,184
oxxxy,20,138.0,183
kpss,33,140.0,187
alex,38,120.0,179


In [124]:
data2.index  # список всех индексов data2

Index(['slavik', 'ivan', 'oxxxy', 'kpss', 'alex'], dtype='object', name='name')

In [125]:
'alex' in data2.index   # проверка на вхождение индекса в датафрейм

True

In [126]:
'iq' in data2.columns  # проверка на вхождение названия столбца в датафрейм

True

In [None]:
index_list = data2.index.delete([2,3])   # удаление инлекса i
index_list   # это объект Index, имеет много разных свойств