In [220]:
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt

# Pandas

### Series 
это одномерный помеченный массив, способный хранить данные любого типа (целые числа, строки, числа с плавающей запятой, объекты Python и т. д.). \
Метки осей вместе называются индексом. Основной метод создания серии \
 `s = pd.Series(data, index=index)`

 data: \
- `ndarray`
 - `dict`
 - `скаляр`

- __ExtensionArray__
Абстрактный базовый класс для пользовательских типов одномерных массивов.\
pandas распознает экземпляры этого класса как правильные массивы специального типа и не будет пытаться привязать их к объектам.\
Они могут храниться непосредственно внутри DataFrame или Series.

- __Index__ 
- __getattr__ 
- __MaskedArray__ 
- __ArrayLike__ 
 

In [234]:
# ndarray
n = pd.Series(np.random.randn(5), index=["a", "b", "c", "d", "e"], name='array')
print(n)
n.index

a   -0.958787
b    1.216859
c    0.008036
d   -0.860577
e   -0.377253
Name: array, dtype: float64


Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [244]:
hash(tuple(n.view())) == hash(tuple(n))

True

In [142]:
print(
n.iloc[0],
'--------',
n[n > n.median()],
'--------',
np.exp(n),
'--------',
n.dtype,
'--------',
type(n.array),
'--------',
type(n.to_numpy()),
sep='\n')

1.4196353589394375
--------
a    1.419635
e    1.009655
dtype: float64
--------
a    4.135612
b    1.297352
c    0.685988
d    0.134773
e    2.744654
dtype: float64
--------
float64
--------
<class 'pandas.core.arrays.numpy_.NumpyExtensionArray'>
--------
<class 'numpy.ndarray'>


In [245]:
dir(n)

['T',
 '_AXIS_LEN',
 '_AXIS_ORDERS',
 '_AXIS_TO_AXIS_NUMBER',
 '_HANDLED_TYPES',
 '__abs__',
 '__add__',
 '__and__',
 '__annotations__',
 '__array__',
 '__array_priority__',
 '__array_ufunc__',
 '__bool__',
 '__class__',
 '__column_consortium_standard__',
 '__contains__',
 '__copy__',
 '__deepcopy__',
 '__delattr__',
 '__delitem__',
 '__dict__',
 '__dir__',
 '__divmod__',
 '__doc__',
 '__eq__',
 '__finalize__',
 '__float__',
 '__floordiv__',
 '__format__',
 '__ge__',
 '__getattr__',
 '__getattribute__',
 '__getitem__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__iadd__',
 '__iand__',
 '__ifloordiv__',
 '__imod__',
 '__imul__',
 '__init__',
 '__init_subclass__',
 '__int__',
 '__invert__',
 '__ior__',
 '__ipow__',
 '__isub__',
 '__iter__',
 '__itruediv__',
 '__ixor__',
 '__le__',
 '__len__',
 '__lt__',
 '__matmul__',
 '__mod__',
 '__module__',
 '__mul__',
 '__ne__',
 '__neg__',
 '__new__',
 '__nonzero__',
 '__or__',
 '__pandas_priority__',
 '__pos__',
 '__pow__',
 '__radd__',
 '__rand__

In [132]:
# dict
d = pd.Series({"b": 1, "a": 0, "c": 2})
print(d)
d.index

b    1
a    0
c    2
dtype: int64


Index(['b', 'a', 'c'], dtype='object')

In [144]:
d.get('a')

0

In [141]:
d.array

<NumpyExtensionArray>
[1, 0, 2]
Length: 3, dtype: int64

In [133]:
# scalar value
s = pd.Series(5.0, index=["a", "b", "c", "d", "e"])
print(s)
s.index

a    5.0
b    5.0
c    5.0
d    5.0
e    5.0
dtype: float64


Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [216]:
# Python object
from __future__ import annotations

class Point:
    def __init__(self, x, y):
        self.x: int = x
        self.y: int = y

    def __add__(self, obj: Point):
        if not isinstance(obj, Point):
            raise TypeError(f'unsupported operand type(s) for +: {type(self).__name__} and {type(obj).__name__}')
        return Point(self.x + obj.x, self.y + obj.y)

    
    def __repr__(self):
       return f"Point({self.x}, {self.y})"


point_array = pd.Series([Point(*i) for i in [(1, 2), (2, 2), (3, 2)]])
point_array.info

<bound method Series.info of 0    Point(1, 2)
1    Point(2, 2)
2    Point(3, 2)
dtype: object>

In [219]:
point_array[0] + point_array[1]

Point(3, 4)

### DataFrame - двумерная структура данных, содержащая данные, такие как двумерный массив или таблица со строками и столбцами.

In [118]:
s = pd.Series([1, 3, 5, np.inf, np.nan, 6, 8])

print(type(s))
print(type(s.sort_values(ascending=False).to_numpy()))

<class 'pandas.core.series.Series'>
<class 'numpy.ndarray'>


In [106]:
s.xs(1)

3.0

In [3]:
df_raw = pd.read_csv('data.csv')

In [6]:
df_raw.head() # or .tail()

Unnamed: 0,year,month,week,sales_category,territory_name,city_population_type,value
0,2022,7,30,0нЛайн,11. див. Северо-Западный,300<500,9 127 641 руб.
1,2022,4,17,0нЛайн,05. див. Юг,100<300,3 164 205 руб.
2,2022,2,8,0нЛайн,03. див. Западная Сибирь,МЛН>,13 239 665 руб.
3,2021,12,48,Офлайн,11. див. Северо-Западный,МЛН>,80 732 365 руб.
4,2022,12,49,0нЛайн,06. див. Средняя Волга,500<900,21 838 793 руб.


In [120]:
# Transposing
df_raw.head().T

Unnamed: 0,0,1,2,3,4
year,2022,2022,2022,2021,2022
month,7,4,2,12,12
week,30,17,8,48,49
sales_category,0нЛайн,0нЛайн,0нЛайн,Офлайн,0нЛайн
territory_name,11. див. Северо-Западный,05. див. Юг,03. див. Западная Сибирь,11. див. Северо-Западный,06. див. Средняя Волга
city_population_type,300<500,100<300,МЛН>,МЛН>,500<900
value,9 127 641 руб.,3 164 205 руб.,13 239 665 руб.,80 732 365 руб.,21 838 793 руб.


In [41]:
df_raw.index

RangeIndex(start=0, stop=108333, step=1)

In [42]:
df_raw.values

array([[2022, 7, 30, ..., '11. див. Северо-Западный', '300<500',
        '9 127 641 руб.'],
       [2022, 4, 17, ..., '05. див. Юг', '100<300', '3 164 205 руб.'],
       [2022, 2, 8, ..., '03. див. Западная Сибирь', 'МЛН>',
        '13 239 665 руб.'],
       ...,
       [2021, 9, 35, ..., '05. див. Юг', '500<900', '3 397 852 руб.'],
       [2022, 12, 50, ..., '04. див. Урал', '<100', '112 049 796 руб.'],
       [2021, 12, 52, ..., '07. див. Верхняя Волга', '100<300',
        '15 881 083 руб.']], dtype=object)

In [43]:
df_raw.axes

[RangeIndex(start=0, stop=108333, step=1),
 Index(['year', 'month', 'week', 'sales_category', 'territory_name',
        'city_population_type', 'value'],
       dtype='object')]

In [45]:
for i in df_raw.keys():
    print(i)

year
month
week
sales_category
territory_name
city_population_type
value


In [51]:
list(df_raw.keys()) == list(df_raw.columns)

True

In [52]:
df_raw.columns == df_raw.keys()

array([ True,  True,  True,  True,  True,  True,  True])

In [221]:
# dir(df_raw)

In [9]:
df_raw.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 108333 entries, 0 to 108332
Data columns (total 7 columns):
 #   Column                Non-Null Count   Dtype 
---  ------                --------------   ----- 
 0   year                  108333 non-null  int64 
 1   month                 108333 non-null  int64 
 2   week                  108333 non-null  int64 
 3   sales_category        108333 non-null  object
 4   territory_name        108333 non-null  object
 5   city_population_type  108333 non-null  object
 6   value                 108333 non-null  object
dtypes: int64(3), object(4)
memory usage: 5.8+ MB


In [21]:
df_raw.describe(include='all')

Unnamed: 0,year,month,week,sales_category,territory_name,city_population_type,value
count,108333.0,108333.0,108333.0,108333,108333,108333,108333
unique,,,,4,11,5,107514
top,,,,ОнЛайн,05. див. Юг,<100,0 руб.
freq,,,,53161,14373,38101,32
mean,2021.507666,6.527983,26.996123,,,,
std,0.499944,3.429283,14.963268,,,,
min,2021.0,1.0,1.0,,,,
25%,2021.0,4.0,14.0,,,,
50%,2022.0,7.0,27.0,,,,
75%,2022.0,10.0,39.0,,,,


In [66]:
df_raw['sales_category'].value_counts()

sales_category
ОнЛайн    53161
Офлайн    52964
0фЛайн     2097
0нЛайн      111
Name: count, dtype: int64

In [37]:
df_raw['territory_name'].value_counts()

territory_name
05. див. Юг                  14373
08. див. Центральный         13022
04. див. Урал                11571
09. див. Черноземье          11204
07. див. Верхняя Волга        9164
03. див. Западная Сибирь      9038
11. див. Северо-Западный      8964
10. див. Приволжский          8530
06. див. Средняя Волга        8300
01. див. Дальний Восток       8102
02. див. Восточная Сибирь     6065
Name: count, dtype: int64

In [38]:
df_raw.loc[
    df_raw['territory_name'] == '01. див. Дальний Восток', 'city_population_type'
    ].value_counts()

city_population_type
<100       3670
100<300    3172
500<900    1260
Name: count, dtype: int64

In [84]:
df_raw[:1]

Unnamed: 0,year,month,week,sales_category,territory_name,city_population_type,value
0,2022,7,30,0нЛайн,11. див. Северо-Западный,300<500,9 127 641 руб.


In [87]:
isinstance([1], (int, float, list)) # getattr

True

In [93]:
df_raw.columns

Index(['year', 'month', 'week', 'sales_category', 'territory_name',
       'city_population_type', 'value'],
      dtype='object')