In [1]:
import pandas as pd
import numpy as np

# Часть 2 - Структуры данных

## Series, DataFrame, Index

### Series

#### Конструктор

https://pandas.pydata.org/docs/reference/api/pandas.Series.html#pandas-series

```python
Series(data=None, index=None, dtype=None, name=None, copy=None, fastpath=<no_default>)
```

In [9]:
pd.Series(1)

0    1
dtype: int64

In [8]:
pd.Series().index

RangeIndex(start=0, stop=0, step=1)

In [13]:
pd.Series(index=[1, 2, 3])

Series([], dtype: object)

In [18]:
pd.Series(index=pd.RangeIndex(1, 11, 1), dtype='float')

1    NaN
2    NaN
3    NaN
4    NaN
5    NaN
6    NaN
7    NaN
8    NaN
9    NaN
10   NaN
dtype: float64

#### Атрибуты

https://pandas.pydata.org/docs/reference/series.html#attributes

- index
- array
- values
- dtype
- shape
- ndim
- size
- T
- memory_usage
- empty
- dtypes
- name

- at
- iat
- loc
- iloc
- axes
- is_monotonic_decreasing
- is_monotonic_increasing
- is_unique

In [26]:
ser2 = pd.Series(
    {'a': 1, 'b': 2}
)
ser2

a    1
b    2
dtype: int64

In [27]:
ser2.index

Index(['a', 'b'], dtype='object')

In [30]:
ser3 = pd.Series(
    {1: 1.5, 2: 2.5}
)
ser3.index, ser3

(Index([1, 2], dtype='int64'),
 1    1.5
 2    2.5
 dtype: float64)

In [33]:
pd.Series(['1', [2, 4], 3]).array

<PandasArray>
['1', [2, 4], 3]
Length: 3, dtype: object

In [34]:
ser3.values

array([1.5, 2.5])

In [37]:
ser3.dtype, ser3.dtypes

(dtype('float64'), dtype('float64'))

In [39]:
pd.Series(['1', [2, 4], 3]).dtypes

dtype('O')

In [44]:
ser3.shape

(2,)

In [45]:
ser3.size

2

In [46]:
ser3.T

1    1.5
2    2.5
dtype: float64

In [54]:
ser3.memory_usage()  # Ранее это был атрибут

32

In [55]:
ser3.empty

False

In [57]:
ser3.size

2

In [56]:
pd.Series().empty

True

In [58]:
pd.Series().size

0

In [61]:
pd.Series(index=[1, 2]).empty

1   NaN
2   NaN
dtype: float64

In [62]:
pd.Series(index=[1, 2]).size

2

In [5]:
ser4 = pd.Series(
    {'a': 1, 'b': 2}
)
ser4.axes

[Index(['a', 'b'], dtype='object')]

#### Задание 2.001

- Создать максимально разными способами несколько сериий
- Определить что серия пустая
- Сравнить длину двух любых серий

#### Преобразования

- .astype()
- .convert_dtypes()
- .infer_objects()
- .copy()
- .bool()
- .to_numpy()
- .to_period()
- .to_timestanp()
- .to_list()
- .\__array\__()

```python
Series.astype(dtype, copy=None, errors='raise')
```

In [7]:
df5 = pd.DataFrame(
    {'a': [1, 2], 'b': [2, 3]}
)
df5.dtypes

a    int64
b    int64
dtype: object

In [8]:
df5.astype('int32').dtypes

a    int32
b    int32
dtype: object

In [9]:
df5.astype({'b': 'int32'}).dtypes

a    int64
b    int32
dtype: object

In [10]:
ser5 = pd.Series([1, 2, 3], dtype='int32')
ser5

0    1
1    2
2    3
dtype: int32

In [11]:
ser5.astype('category')

0    1
1    2
2    3
dtype: category
Categories (3, int32): [1, 2, 3]

In [12]:
from pandas.api.types import CategoricalDtype

cat_dtype = CategoricalDtype(
    categories=[3, 2], ordered=True
)

ser5.astype(cat_dtype)

0    NaN
1      2
2      3
dtype: category
Categories (2, int64): [3 < 2]

In [15]:
serdate = pd.Series(pd.date_range('20200101', periods=3))
serdate

0   2020-01-01
1   2020-01-02
2   2020-01-03
dtype: datetime64[ns]

```python
Series.convert_dtypes(
    infer_objects=True, 
    convert_string=True, 
    convert_integer=True, 
    convert_boolean=True, 
    convert_floating=True, 
    dtype_backend='numpy_nullable'
)
```

In [17]:
df6 = pd.DataFrame(
    {
        "a": pd.Series([1, 2, 3], dtype=np.dtype("int32")),
        "b": pd.Series(["x", "y", "z"], dtype=np.dtype("O")),
        "c": pd.Series([True, False, np.nan], dtype=np.dtype("O")),
        "d": pd.Series(["h", "i", np.nan], dtype=np.dtype("O")),
        "e": pd.Series([10, np.nan, 20], dtype=np.dtype("float")),
        "f": pd.Series([np.nan, 100.5, 200], dtype=np.dtype("float")),
    }
)
df6

Unnamed: 0,a,b,c,d,e,f
0,1,x,True,h,10.0,
1,2,y,False,i,,100.5
2,3,z,,,20.0,200.0


In [18]:
df6.dtypes

a      int32
b     object
c     object
d     object
e    float64
f    float64
dtype: object

In [19]:
dfn = df.convert_dtypes()
dfn

Unnamed: 0,a,b,c,d,e,f
0,1,x,True,h,10.0,
1,2,y,False,i,,100.5
2,3,z,,,20.0,200.0


In [20]:
dfn.dtypes

a             Int32
b    string[python]
c           boolean
d    string[python]
e             Int64
f           Float64
dtype: object

In [21]:
ser6 = pd.Series(['a', 'b', np.nan])
ser6

0      a
1      b
2    NaN
dtype: object

In [22]:
ser6.convert_dtypes()

0       a
1       b
2    <NA>
dtype: string

```python
Series.infer_objects(copy=None)
```

In [29]:
df7 = pd.DataFrame({'A': ['a', 1, 2, 3]})
df7

Unnamed: 0,A
0,a
1,1
2,2
3,3


In [30]:
df7 = df7.iloc[1:]
df7

Unnamed: 0,A
1,1
2,2
3,3


In [33]:
df7.dtypes

A    object
dtype: object

In [34]:
df7.infer_objects().dtypes

A    int64
dtype: object

In [35]:
ser7 = ser6.copy()  # pd.Series(ser6)
ser7

0      a
1      b
2    NaN
dtype: object

In [44]:
pd.Series([True]).bool(), pd.Series([False]).bool()

(True, False)

In [50]:
df8 = pd.DataFrame({'col': [True]})
df8

Unnamed: 0,col
0,True


In [52]:
df8.bool()

True

#### Задание 2.002

- .astype()
- .convert_dtypes()
- .infer_objects()
- .copy()
- .bool()

- Из датасета "data/part2/cat_food_orders.csv" создать серии из каждого столбца. Преобразовать серии с типом данных float64 - float32; int64 - int32. Преобразование выполнить несколькими способами:
    - вручную
    - автоматически

- Добавить в серию "wholesale_price" элемент типа "строка". Поисследовать возможность добавления такого элемента и преобразование типа данных серии вместе с этим элементом и без него (удалив его).

# MultiIndex, Categorical, Scalar