In [2]:
import pandas as pd
import numpy as np

# Часть 2 - Структуры данных

## Series, DataFrame, Index

### Series

#### Конструктор

https://pandas.pydata.org/docs/reference/api/pandas.Series.html#pandas-series

```python
Series(data=None, index=None, dtype=None, name=None, copy=None, fastpath=<no_default>)
```

In [9]:
pd.Series(1)

0    1
dtype: int64

In [8]:
pd.Series().index

RangeIndex(start=0, stop=0, step=1)

In [13]:
pd.Series(index=[1, 2, 3])

Series([], dtype: object)

In [18]:
pd.Series(index=pd.RangeIndex(1, 11, 1), dtype='float')

1    NaN
2    NaN
3    NaN
4    NaN
5    NaN
6    NaN
7    NaN
8    NaN
9    NaN
10   NaN
dtype: float64

#### Атрибуты

https://pandas.pydata.org/docs/reference/series.html#attributes

- index
- array
- values
- dtype
- shape
- ndim
- size
- T
- memory_usage
- empty
- dtypes
- name

- at
- iat
- loc
- iloc
- axes
- is_monotonic_decreasing
- is_monotonic_increasing
- is_unique

In [26]:
ser2 = pd.Series(
    {'a': 1, 'b': 2}
)
ser2

a    1
b    2
dtype: int64

In [27]:
ser2.index

Index(['a', 'b'], dtype='object')

In [30]:
ser3 = pd.Series(
    {1: 1.5, 2: 2.5}
)
ser3.index, ser3

(Index([1, 2], dtype='int64'),
 1    1.5
 2    2.5
 dtype: float64)

In [33]:
pd.Series(['1', [2, 4], 3]).array

<PandasArray>
['1', [2, 4], 3]
Length: 3, dtype: object

In [34]:
ser3.values

array([1.5, 2.5])

In [37]:
ser3.dtype, ser3.dtypes

(dtype('float64'), dtype('float64'))

In [39]:
pd.Series(['1', [2, 4], 3]).dtypes

dtype('O')

In [44]:
ser3.shape

(2,)

In [45]:
ser3.size

2

In [46]:
ser3.T

1    1.5
2    2.5
dtype: float64

In [54]:
ser3.memory_usage()  # Ранее это был атрибут

32

In [55]:
ser3.empty

False

In [57]:
ser3.size

2

In [56]:
pd.Series().empty

True

In [58]:
pd.Series().size

0

In [61]:
pd.Series(index=[1, 2]).empty

1   NaN
2   NaN
dtype: float64

In [62]:
pd.Series(index=[1, 2]).size

2

In [5]:
ser4 = pd.Series(
    {'a': 1, 'b': 2}
)
ser4.axes

[Index(['a', 'b'], dtype='object')]

#### Задание 2.001

- Создать максимально разными способами несколько сериий
- Определить что серия пустая
- Сравнить длину двух любых серий

#### Преобразования

- .astype()
- .convert_dtypes()
- .infer_objects()
- .copy()
- .bool()
- .to_numpy()
- .to_period()
- .to_timestanp()
- .to_list()
- .\__array\__()

##### Series.astype()

```python
Series.astype(dtype, copy=None, errors='raise')
```

In [7]:
df5 = pd.DataFrame(
    {'a': [1, 2], 'b': [2, 3]}
)
df5.dtypes

a    int64
b    int64
dtype: object

In [8]:
df5.astype('int32').dtypes

a    int32
b    int32
dtype: object

In [9]:
df5.astype({'b': 'int32'}).dtypes

a    int64
b    int32
dtype: object

In [10]:
ser5 = pd.Series([1, 2, 3], dtype='int32')
ser5

0    1
1    2
2    3
dtype: int32

In [11]:
ser5.astype('category')

0    1
1    2
2    3
dtype: category
Categories (3, int32): [1, 2, 3]

In [12]:
from pandas.api.types import CategoricalDtype

cat_dtype = CategoricalDtype(
    categories=[3, 2], ordered=True
)

ser5.astype(cat_dtype)

0    NaN
1      2
2      3
dtype: category
Categories (2, int64): [3 < 2]

In [15]:
serdate = pd.Series(pd.date_range('20200101', periods=3))
serdate

0   2020-01-01
1   2020-01-02
2   2020-01-03
dtype: datetime64[ns]

##### Series.convert_dtypes()

```python
Series.convert_dtypes(
    infer_objects=True, 
    convert_string=True, 
    convert_integer=True, 
    convert_boolean=True, 
    convert_floating=True, 
    dtype_backend='numpy_nullable'
)
```

In [17]:
df6 = pd.DataFrame(
    {
        "a": pd.Series([1, 2, 3], dtype=np.dtype("int32")),
        "b": pd.Series(["x", "y", "z"], dtype=np.dtype("O")),
        "c": pd.Series([True, False, np.nan], dtype=np.dtype("O")),
        "d": pd.Series(["h", "i", np.nan], dtype=np.dtype("O")),
        "e": pd.Series([10, np.nan, 20], dtype=np.dtype("float")),
        "f": pd.Series([np.nan, 100.5, 200], dtype=np.dtype("float")),
    }
)
df6

Unnamed: 0,a,b,c,d,e,f
0,1,x,True,h,10.0,
1,2,y,False,i,,100.5
2,3,z,,,20.0,200.0


In [18]:
df6.dtypes

a      int32
b     object
c     object
d     object
e    float64
f    float64
dtype: object

In [19]:
dfn = df.convert_dtypes()
dfn

Unnamed: 0,a,b,c,d,e,f
0,1,x,True,h,10.0,
1,2,y,False,i,,100.5
2,3,z,,,20.0,200.0


In [20]:
dfn.dtypes

a             Int32
b    string[python]
c           boolean
d    string[python]
e             Int64
f           Float64
dtype: object

In [21]:
ser6 = pd.Series(['a', 'b', np.nan])
ser6

0      a
1      b
2    NaN
dtype: object

In [22]:
ser6.convert_dtypes()

0       a
1       b
2    <NA>
dtype: string

##### Series.infer_objects()

```python
Series.infer_objects(copy=None)
```

In [29]:
df7 = pd.DataFrame({'A': ['a', 1, 2, 3]})
df7

Unnamed: 0,A
0,a
1,1
2,2
3,3


In [30]:
df7 = df7.iloc[1:]
df7

Unnamed: 0,A
1,1
2,2
3,3


In [33]:
df7.dtypes

A    object
dtype: object

In [34]:
df7.infer_objects().dtypes

A    int64
dtype: object

##### Series.copy()

In [35]:
ser7 = ser6.copy()  # pd.Series(ser6)
ser7

0      a
1      b
2    NaN
dtype: object

##### Series.bool()

In [44]:
pd.Series([True]).bool(), pd.Series([False]).bool()

(True, False)

In [50]:
df8 = pd.DataFrame({'col': [True]})
df8

Unnamed: 0,col
0,True


In [52]:
df8.bool()

True

##### Задание 2.002

- .astype()
- .convert_dtypes()
- .infer_objects()
- .copy()
- .bool()

- Из датасета "data/part2/cat_food_orders.csv" создать серии из каждого столбца. Преобразовать серии с типом данных float64 - float32; int64 - int32. Преобразование выполнить несколькими способами:
    - вручную
    - автоматически

- Добавить в серию "wholesale_price" элемент типа "строка". Поисследовать возможность добавления такого элемента и преобразование типа данных серии вместе с этим элементом и без него (удалив его).

##### Series.to_numpy()

```python
Series.to_numpy(dtype=None, copy=False, na_value=<no_default>, **kwargs)
```

In [4]:
ser = pd.Series(pd.Categorical(['a', 'b', 'a']))
ser

0    a
1    b
2    a
dtype: category
Categories (2, object): ['a', 'b']

In [5]:
ser.to_numpy()

array(['a', 'b', 'a'], dtype=object)

In [8]:
ser = pd.Series(pd.date_range('2000', periods=2, tz='CET'))
ser

0   2000-01-01 00:00:00+01:00
1   2000-01-02 00:00:00+01:00
dtype: datetime64[ns, CET]

In [10]:
ser.to_numpy('datetime64[ns]')

array(['1999-12-31T23:00:00.000000000', '2000-01-01T23:00:00.000000000'],
      dtype='datetime64[ns]')

##### Series.to_period()

```python
Series.to_period(freq=None, copy=None)
```

In [12]:
idx = pd.DatetimeIndex(['2023', '2024', '2025'])
idx

DatetimeIndex(['2023-01-01', '2024-01-01', '2025-01-01'], dtype='datetime64[ns]', freq=None)

In [22]:
s = pd.Series([1, 2, 3], index=idx)
s

2023-01-01    1
2024-01-01    2
2025-01-01    3
dtype: int64

In [23]:
s.index

DatetimeIndex(['2023-01-01', '2024-01-01', '2025-01-01'], dtype='datetime64[ns]', freq=None)

In [24]:
s = s.to_period()
s

2023    1
2024    2
2025    3
Freq: A-DEC, dtype: int64

In [25]:
s.index

PeriodIndex(['2023', '2024', '2025'], dtype='period[A-DEC]')

##### Series.to_timestamp()

```python
Series.to_timestamp(freq=None, how='start', copy=None)
```

how: {'s', 'e', 'start', 'end'}

In [30]:
idx = pd.PeriodIndex(['2023', '2024', '2025'], freq='Y')
idx

PeriodIndex(['2023', '2024', '2025'], dtype='period[A-DEC]')

In [31]:
ser = pd.Series([1, 2, 3], idx)
ser

2023    1
2024    2
2025    3
Freq: A-DEC, dtype: int64

In [None]:
ser = ser.to_timestamp()
ser

2023-01-01    1
2024-01-01    2
2025-01-01    3
Freq: AS-JAN, dtype: int64

In [34]:
ser2 = pd.Series([1, 2, 3], index=idx)
ser2

2023    1
2024    2
2025    3
Freq: A-DEC, dtype: int64

In [35]:
ser2 = ser2.to_timestamp(freq='M')
ser2

2023-01-31    1
2024-01-31    2
2025-01-31    3
Freq: A-JAN, dtype: int64

##### Series.to_list()

In [36]:
s = pd.Series([1, 2, 3])
s

0    1
1    2
2    3
dtype: int64

In [37]:
s.to_list()

[1, 2, 3]

In [38]:
list(s)

[1, 2, 3]

#### Индексация и итерация

- .get()
- .at
- .iat
- .loc
- .iloc
- .\__iter__()
- .items()
- .item()
- .keys()
- .pop()
- .xs()

##### Series.get()

```python
Series.get(key, default=None)
```

In [40]:
df = pd.DataFrame(
    [
        [24.3, 75.7, 'high'],
        [31, 87.8, 'high'],
        [22, 71.6, 'medium'],
        [35, 95, 'medium'],
    ],
    columns=['temp_celc', 'temp_faren', 'windspeed'],
    index=pd.date_range(start='2014-02-12', end='2014-02-15', freq='D')
)
df

Unnamed: 0,temp_celc,temp_faren,windspeed
2014-02-12,24.3,75.7,high
2014-02-13,31.0,87.8,high
2014-02-14,22.0,71.6,medium
2014-02-15,35.0,95.0,medium


In [44]:
df.get(['temp_celc', 'windspeed'])

Unnamed: 0,temp_celc,windspeed
2014-02-12,24.3,high
2014-02-13,31.0,high
2014-02-14,22.0,medium
2014-02-15,35.0,medium


In [45]:
df.get(['windspeed'])

Unnamed: 0,windspeed
2014-02-12,high
2014-02-13,high
2014-02-14,medium
2014-02-15,medium


In [51]:
df.get(['wind'], default='...')

'...'

##### Series.at

```python
Series.at[index]
DataFrame.at[row, column]
```

In [52]:
df = pd.DataFrame(
    [
        [0, 2, 3],
        [0, 4, 1],
        [10, 20, 30],
    ],
    index=[4, 5, 6],
    columns=['A', 'B', 'C']
)
df

Unnamed: 0,A,B,C
4,0,2,3
5,0,4,1
6,10,20,30


In [53]:
df.at[4, 'B']

2

In [55]:
df.at[4, 'B'] = 111
df

Unnamed: 0,A,B,C
4,0,111,3
5,0,4,1
6,10,20,30


In [58]:
df.B, df.B.at[5]

(4    111
 5      4
 6     20
 Name: B, dtype: int64,
 4)

##### Series.iat

```python
Series.iat[index]
DateFrame.iat[row_id, column_id]
```

In [59]:
df = pd.DataFrame(
    [
        [0, 2, 3],
        [0, 4, 1],
        [10, 20, 30],
    ],
    index=[4, 5, 6],
    columns=['A', 'B', 'C']
)
df

Unnamed: 0,A,B,C
4,0,2,3
5,0,4,1
6,10,20,30


In [60]:
df.iat[2, 2]

30

In [62]:
df.iat[2, 2] = 333
df

Unnamed: 0,A,B,C
4,0,2,3
5,0,4,1
6,10,20,333


In [63]:
df.C.iat[2]

333

##### Подробнее про атрибуты и срезы/индексы аттрибутов

In [64]:
df = pd.DataFrame(
    [
        [0, 2, 3],
        [0, 4, 1],
        [10, 20, 30],
    ],
    index=[4, 5, 6],
    columns=['A', 'B', 'C']
)
df

Unnamed: 0,A,B,C
4,0,2,3
5,0,4,1
6,10,20,30


In [76]:
df.T

Unnamed: 0,4,5,6
A,0,0,10
B,2,4,20
C,3,1,30


In [68]:
class my_class:
    def __init__(self, a, b):
        self.a = a
        self.b = b

my_object = my_class(1, 3)
my_object.a = 2
my_object.a

2

##### Задание 2.003

Дана серия данных о температуре в течение недели. Необходимо преобразовать эту серию в массив numpy и выполнить следующие операции с этим массивом:
- Найдите максимальную температуру
- Найдите минимальную температуру
- Вычислите среднюю температуру за неделю

```python
temperatures = pd.Series(
    [22, 24, 19, 23, 21, 25, 20], 
    index=['Mon', 'Tue', 'Wed', 'Thu', 'Fri', 'Sat', 'Sun']
)
```

##### Задание 2.004

Создайте серию данных, исходный вид которой показан ниже. Серия представляет количество проданных товаров по дням. 

Необходимо преобразовать эту серию в периоды (недели) и вывести общее количество продаж за каждую неделю.

Исходный вид серии:

```txt
2024-01-01     30
2024-01-02     25
2024-01-03     50
2024-01-04     45
2024-01-05     60
2024-01-06     75
2024-01-07     90
2024-01-08     55
2024-01-09     35
2024-01-10     40
2024-01-11     65
2024-01-12     70
2024-01-13     20
2024-01-14     85
2024-01-15     95
2024-01-16     80
2024-01-17    100
2024-01-18    110
2024-01-19     55
2024-01-20     35
Freq: D, dtype: int64
```

##### Задание 2.005

Создайте серию данных, исходный вид которой показан ниже. Серия представляет количество проданных товаров по месяцам. 

Необходимо преобразовать эту серию в временные метки (timestamp) и выполнить следующие операции:
- Выведите общие продажи за весь период.
- Выведите продажи за один любой месяц.

Исходный вид серии:

```txt
2024-01    500
2024-02    600
2024-03    450
2024-04    700
2024-05    800
Freq: M, dtype: int64
```

##### Задание 2.006

Создайте серию данных с оценками студентов, исходный вид которой показан ниже. 

Необходимо преобразовать эту серию в список и выполнить следующие операции:
- Найдите максимальную оценку.
- Найдите минимальную оценку.
- Вычислите среднюю оценку.
- Добавьте новую оценку в список.

Исходный вид серии:

```txt
Alice      85
Bob        90
Charlie    78
David      92
Eva        88
dtype: int64
```

##### Задание 2.007

Создайте серию данных с оценками студентов, исходный вид которой показан ниже. 

Необходимо:
- извлечь оценки для определенных студентов, используя метод get()
- обработать случаи, когда оценка отсутствует (например, 0, для студента Frank).

Исходный вид серии:

```txt
Alice      8.5
Bob        9.0
Charlie    7.8
David      9.2
Eva        8.8
dtype: float64
```

##### Задание 2.008

Ниже дана серия данных с оценками студентов. 

Необходимо использовать **Series.at** для доступа к оценкам отдельных студентов и изменения их значений.

Выполните следующие операции:
- Извлеките оценку Alice.
- Измените оценку Bob на 95.
- Извлеките изменённую оценку Bob.
- Добавьте оценку для нового студента Frank с помощью at.

```python
grades = pd.Series({'Alice': 85, 'Bob': 90, 'Charlie': 78, 'David': 92, 'Eva': 88})
```

##### Задание 2.009

Ниже дана серия данных с оценками студентов. 

Необходимо использовать метод **Series.iat** для доступа к оценкам **по их позиции** и изменения значений.

Выполните следующие операции:
- Извлеките оценку третьего студента (Charlie).
- Измените оценку второго студента (Bob) на 95.
- Извлеките изменённую оценку второго студента (Bob).
- Добавьте оценку для нового студента Frank в конец списка (например, 80) и подтвердите, что позиция учитывает порядок.

```python
grades = pd.Series([85, 90, 78, 92, 88], index=['Alice', 'Bob', 'Charlie', 'David', 'Eva'])
```

# MultiIndex, Categorical, Scalar