# Intro to data structures

In [2]:
import numpy as np
import pandas as pd

# Series
Серии - это 1-мерный проименнованный массив, с одним типом данных. Является расширением np.array.
Индексы это метки (labels)
Может создаваться из:

In [26]:
# ndarray
s1 = pd.Series(np.random.randn(5), index=["a", "b", "c", "d", "e"])

# Словарей
s2 = pd.Series({'a': 10, 'b': 20, 'c': 30})

# Скаляров
s3 = pd.Series(5, index=[3, 2, 7])

print(s1, '\n\n', s2, '\n\n', s3, sep='')

a   -0.976909
b    0.835328
c    0.423344
d    0.909003
e    0.420183
dtype: float64

a    10
b    20
c    30
dtype: int64

3    5
2    5
7    5
dtype: int64


При этом поддерживаются неуникальные значения индексов. При обращении будет выброшена ошибка KeyError

In [6]:
a = pd.Series(np.random.randn(3), index=['a', 'a', 'b'])
a[a]

KeyError: "None of [Float64Index([-1.4380902747731994, -0.07748790730810533, 0.2645366286493213], dtype='float64')] are in the [index]"

Серии в основном ведут себя так же, как и массивы numpy

In [14]:
s1[0]

-1.5066776131646245

In [15]:
s1[1:-1]

b    0.931368
c   -0.028896
d   -0.710738
dtype: float64

In [17]:
s1[[1, 1, 4]]

b    0.931368
b    0.931368
e    0.959306
dtype: float64

In [18]:
s1 + 3

a    1.493322
b    3.931368
c    2.971104
d    2.289262
e    3.959306
dtype: float64

Можно получить массив без меток, при помощи поля array
Можно преобразовать в массив numpy при помощи метода to_numpy

У серий работают многие из методов словарей, обращение происходит по меткам

In [21]:
print('a' in s1)
print(s1['b'])

True
0.9313682821886341


При помощи метода get можно задать значение, которое будет возвращено, при отсутствии данных.

In [22]:
s1.get('k', True)

True

Опреации серии с серией будут происходить по меткам серий. При несовпадении меток, будет выдано NaN

In [23]:
s1 - s2

a   -11.506678
b   -19.068632
c   -30.028896
d          NaN
e          NaN
dtype: float64

In [24]:
s1 - s3

2   NaN
3   NaN
7   NaN
a   NaN
b   NaN
c   NaN
d   NaN
e   NaN
dtype: float64

У серий есть атрибут name, по стандарту пустой. При изменении имени будет создан новый объект.

In [32]:
s1.name = 'adfsd'
s1.name

'adfsd'

# DataFrame

Это двумерный массив с потенциально разными колонками, состоящий из Series.
Можно создать из:

-Словарь одномерных ndarray, lists, dicts, Series
-Двумерный массив numpy
-Структурированный ndarray
-Серии, в этом случае за колонку будут взяты имена серий либо range(n)
-Другого dataframe, в таком случае можно выбрать какие колонки или столбцы нужно взять
-Список словарей
-Список кортежей
-Список именованных кортежей
-Из датакласса

In [93]:
# Словарь одномерных ndarray, lists, dicts, Series
s11 = pd.DataFrame({'Column 1':s1, 'Column 2':s2})
s11.name = 'First DF'
s11

Unnamed: 0,Column 1,Column 2
a,-0.976909,10.0
b,0.835328,20.0
c,0.423344,30.0
d,0.909003,
e,0.420183,


In [89]:
# Двумерный массив numpy
np_2d_array = np.random.random((10,4))
s22 = pd.DataFrame(np_2d_array, columns=['one', 'two']*2, index=['one', 'two']*5)
s22

Unnamed: 0,one,two,one.1,two.1
one,0.456155,0.3613,0.667272,0.878643
two,0.932005,0.083074,0.159094,0.865084
one,0.462722,0.688861,0.470734,0.422835
two,0.277556,0.657238,0.405902,0.735972
one,0.266648,0.316,0.239279,0.543339
two,0.578348,0.168526,0.004558,0.419015
one,0.48637,0.567445,0.923302,0.680375
two,0.306621,0.950531,0.263832,0.338007
one,0.232934,0.960394,0.720431,0.459186
two,0.341859,0.766155,0.78684,0.289742


In [90]:
# Структурированный ndarray
np_struct_array = np.array([('Rex', 9, 81.0), ('Fido', 3, 27.0)],
                           dtype=[('name', 'U10'), ('age', 'i4'), ('weight', 'f4')])
s33 =pd.DataFrame(np_struct_array)
s33

Unnamed: 0,name,age,weight
0,Rex,9,81.0
1,Fido,3,27.0


In [92]:
# Серии, в этом случае за колонку будут взяты имена серий либо range(n)
s44 = pd.DataFrame(s1)
s44

Unnamed: 0,adfsd
a,-0.976909
b,0.835328
c,0.423344
d,0.909003
e,0.420183


In [91]:
# Другого dataframe, в таком случае можно выбрать какие колонки или столбцы нужно взять
s55 = pd.DataFrame(s33, columns=['name', 'age'], index=[1])
s55

Unnamed: 0,name,age
1,Fido,3


Так же:

In [87]:
# Список словарей
data2 = [{"a": 1, "b": 2}, {"a": 5, "b": 10, "c": 20}]
print(pd.DataFrame(data2), end='\n\n')
print(pd.DataFrame(data2, index=["first", "second"]), end='\n\n')
print(pd.DataFrame(data2, columns=["a", "b"]), end='\n\n')

   a   b     c
0  1   2   NaN
1  5  10  20.0

        a   b     c
first   1   2   NaN
second  5  10  20.0

   a   b
0  1   2
1  5  10



In [99]:
# Из списка кортежей
pd.DataFrame(
    {
        ('Group 1', 'Column 1'): 1,
        ('Group 2', 'Column 2'): 2,
        ('Group 3', 'Column 1'): 3,
        ('Group 1', 'Column 2'): 4,
    },
    index=['i1', 'i2', 'i3', 'i4', 'i6']
)

Unnamed: 0_level_0,Group 1,Group 2,Group 3,Group 1
Unnamed: 0_level_1,Column 1,Column 2,Column 1,Column 2
i1,1,2,3,4
i2,1,2,3,4
i3,1,2,3,4
i4,1,2,3,4
i6,1,2,3,4


In [133]:
# Из списка кортежей
pd.DataFrame(
    {
        ('cGroup 1', 'Column 1'): {('iGroup1', 'i1'): 1, ('iGroup1', 'i2'): 11},
        ('cGroup 1', 'Column 3'): {('iGroup3', 'i1'): 5, ('iGroup1', 'i2'): 55},
        ('cGroup 2', 'Column 2'): {('iGroup1', 'i2'): 2, ('iGroup1', 'i2'): 22},
        ('cGroup 3', 'Column 1'): {('iGroup2', 'i1'): 3, ('iGroup1', 'i2'): 33},
        ('cGroup 1', 'Column 2'): {('iGroup3', 'i1'): 4, ('iGroup1', 'i2'): 44},
    },
)

Unnamed: 0_level_0,Unnamed: 1_level_0,cGroup 1,cGroup 1,cGroup 2,cGroup 3,cGroup 1
Unnamed: 0_level_1,Unnamed: 1_level_1,Column 1,Column 3,Column 2,Column 1,Column 2
iGroup1,i1,1.0,,,,
iGroup1,i2,11.0,55.0,22.0,33.0,44.0
iGroup3,i1,,5.0,,,4.0
iGroup2,i1,,,,3.0,


In [114]:
pd.DataFrame(
    {
        ("a", "b"): {("A", "B"): 1, ("A", "C"): 2},
        ("a", "a"): {("A", "C"): 3, ("A", "B"): 4},
        ("a", "c"): {("A", "B"): 5, ("A", "C"): 6},
        ("b", "a"): {("A", "C"): 7, ("A", "B"): 8},
        ("b", "b"): {("A", "D"): 9, ("A", "B"): 10},
        ("a", "l"): {("A", "D"): 9, ("A", "B"): 10},
    }
)

Unnamed: 0_level_0,Unnamed: 1_level_0,a,a,a,b,b,a
Unnamed: 0_level_1,Unnamed: 1_level_1,b,a,c,a,b,l
A,B,1.0,4.0,5.0,8.0,10.0,10.0
A,C,2.0,3.0,6.0,7.0,,
A,D,,,,,9.0,9.0


In [135]:
# Список именованных кортежей
from collections import namedtuple
Point = namedtuple("Point", "x y")
pd.DataFrame([Point(10, 12), Point(20, 30)], index=['first point', 'second point'])

Unnamed: 0,x,y
first point,10,12
second point,20,30


При помощи методов columns, index можно получить названия колонок и индексов соответственно

In [62]:
print(s1.index)
print(s11.index)
print(s11.columns)

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
Index(['Column 1', 'Column 2'], dtype='object')


# Alternate constructors

Можно создать через словари датасет так, чтобы ключ в словаре попал в индексы, а не в столбцы.

In [139]:
pd.DataFrame.from_dict(
    dict([("A", [1, 2, 3]), ("B", [4, 5, 6])]),
    orient="index",
    columns=["one", "two", "three"],
)

Unnamed: 0,one,two,three
A,1,2,3
B,4,5,6


Еще можно создать датафрейм используя DataFrame.from_records(), тогда индексы могут быть специфичными полями.