<a target="_blank" href="https://colab.research.google.com/github/victorlymarev/pandas/blob/main/notebooks/03-create-tables.ipynb">
  <img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/>
</a>

# Создание таблиц
#### [Ссылка на видео](https://youtu.be/B02VfvdXJfA)

In [3]:
import pandas as pd
import numpy as np

## Создание объекта Series

### На основе одного значения

In [4]:
pd.Series(1)

0    1
dtype: int64

In [5]:
pd.Series('pandas')

0    pandas
dtype: object

### На основе списка

In [6]:
['Аня', 'Маша', 'Вася', 'Катя', 'Аня']

['Аня', 'Маша', 'Вася', 'Катя', 'Аня']

In [7]:
pd.Series(['Аня', 'Маша', 'Вася', 'Катя', 'Аня'])

0     Аня
1    Маша
2    Вася
3    Катя
4     Аня
dtype: object

In [8]:
pd.Series(['Аня', 'Маша', 'Вася', 'Катя', 'Аня']).value_counts()

Аня     2
Маша    1
Вася    1
Катя    1
Name: count, dtype: int64

### На основе словаря

In [9]:
pd.Series({3:"Катя", 9:"Света", 34: "Паша"})

3      Катя
9     Света
34     Паша
dtype: object

## Создание датафреймов

### На основе словаря

In [11]:
people_dict = {
    'Имя': ['Екатерина', 'Евгений', 'Андрей', 'Виктория', 'Анастасия', 'Данил'],
    
    'Фамилия': [pd.NA, 'Бубликов', 'Васильев', 'Леонова', 'Долгова',
                'Новиков'],
    
    'Дата рождения': pd.to_datetime(['1992-06-25', '1995-09-09', '2000-02-29',
                                     '1999-06-15', '2003-04-06', '1995-06-03']),
    
    'Количество детей': 0,
    
    'Дата увольнения': pd.Timestamp('12-06-2023')
}

In [12]:
pd.DataFrame(people_dict)

Unnamed: 0,Имя,Фамилия,Дата рождения,Количество детей,Дата увольнения
0,Екатерина,,1992-06-25,0,2023-12-06
1,Евгений,Бубликов,1995-09-09,0,2023-12-06
2,Андрей,Васильев,2000-02-29,0,2023-12-06
3,Виктория,Леонова,1999-06-15,0,2023-12-06
4,Анастасия,Долгова,2003-04-06,0,2023-12-06
5,Данил,Новиков,1995-06-03,0,2023-12-06


## Функции для создания периодических чисел или дат

### np.arange

Генерирует целые числа

#### Синтаксис

1. np.arange(первое число в массиве, последнее число в массиве невключительно, шаг (по умолчанию равен 1))
2. np.arange(последнее число в массиве невключительно)

In [13]:
np.arange(5)

array([0, 1, 2, 3, 4])

In [14]:
np.arange(2, 5)

array([2, 3, 4])

In [15]:
np.arange(2, 10, 2)

array([2, 4, 6, 8])

In [16]:
np.arange(-50, 10, 1.5)

array([-50. , -48.5, -47. , -45.5, -44. , -42.5, -41. , -39.5, -38. ,
       -36.5, -35. , -33.5, -32. , -30.5, -29. , -27.5, -26. , -24.5,
       -23. , -21.5, -20. , -18.5, -17. , -15.5, -14. , -12.5, -11. ,
        -9.5,  -8. ,  -6.5,  -5. ,  -3.5,  -2. ,  -0.5,   1. ,   2.5,
         4. ,   5.5,   7. ,   8.5])

In [17]:
np.arange(100, 0, -1)

array([100,  99,  98,  97,  96,  95,  94,  93,  92,  91,  90,  89,  88,
        87,  86,  85,  84,  83,  82,  81,  80,  79,  78,  77,  76,  75,
        74,  73,  72,  71,  70,  69,  68,  67,  66,  65,  64,  63,  62,
        61,  60,  59,  58,  57,  56,  55,  54,  53,  52,  51,  50,  49,
        48,  47,  46,  45,  44,  43,  42,  41,  40,  39,  38,  37,  36,
        35,  34,  33,  32,  31,  30,  29,  28,  27,  26,  25,  24,  23,
        22,  21,  20,  19,  18,  17,  16,  15,  14,  13,  12,  11,  10,
         9,   8,   7,   6,   5,   4,   3,   2,   1])

### np.linspace

Делит отрезок на равные части

#### Синтаксис:

np.linspace(нначало отрезка, конц отрезка, число точек на отрезке)

In [18]:
np.linspace(0, 10, 11)

array([ 0.,  1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10.])

In [19]:
np.linspace(5, 6, 8)

array([5.        , 5.14285714, 5.28571429, 5.42857143, 5.57142857,
       5.71428571, 5.85714286, 6.        ])

### pd.date_range(start, end, periods, freq)

__start__ - начало периода генерации дат

__end__ - конец периода генерации дат

__periods__ - количество дат для генерации

__freq__ - период, с которым даты будут генерироваться

In [20]:
pd.date_range('2020-09-06', '2023-05-18', periods=15)

DatetimeIndex([          '2020-09-06 00:00:00',
               '2020-11-15 06:51:25.714285714',
               '2021-01-24 13:42:51.428571428',
               '2021-04-04 20:34:17.142857144',
               '2021-06-14 03:25:42.857142856',
               '2021-08-23 10:17:08.571428568',
               '2021-11-01 17:08:34.285714288',
                         '2022-01-11 00:00:00',
               '2022-03-22 06:51:25.714285712',
               '2022-05-31 13:42:51.428571424',
               '2022-08-09 20:34:17.142857136',
               '2022-10-19 03:25:42.857142856',
               '2022-12-28 10:17:08.571428576',
               '2023-03-08 17:08:34.285714288',
                         '2023-05-18 00:00:00'],
              dtype='datetime64[ns]', freq=None)

In [21]:
pd.date_range('2020-09-06', '2023-05-18', periods=15).normalize()

DatetimeIndex(['2020-09-06', '2020-11-15', '2021-01-24', '2021-04-04',
               '2021-06-14', '2021-08-23', '2021-11-01', '2022-01-11',
               '2022-03-22', '2022-05-31', '2022-08-09', '2022-10-19',
               '2022-12-28', '2023-03-08', '2023-05-18'],
              dtype='datetime64[ns]', freq=None)

In [22]:
pd.date_range('2020-09-06 15:00', '2023-05-18', freq='2d 6h')

DatetimeIndex(['2020-09-06 15:00:00', '2020-09-08 21:00:00',
               '2020-09-11 03:00:00', '2020-09-13 09:00:00',
               '2020-09-15 15:00:00', '2020-09-17 21:00:00',
               '2020-09-20 03:00:00', '2020-09-22 09:00:00',
               '2020-09-24 15:00:00', '2020-09-26 21:00:00',
               ...
               '2023-04-27 15:00:00', '2023-04-29 21:00:00',
               '2023-05-02 03:00:00', '2023-05-04 09:00:00',
               '2023-05-06 15:00:00', '2023-05-08 21:00:00',
               '2023-05-11 03:00:00', '2023-05-13 09:00:00',
               '2023-05-15 15:00:00', '2023-05-17 21:00:00'],
              dtype='datetime64[ns]', length=438, freq='54H')

In [23]:
pd.date_range('2020-09-06 15:00', freq='2d 6h', periods=15)

DatetimeIndex(['2020-09-06 15:00:00', '2020-09-08 21:00:00',
               '2020-09-11 03:00:00', '2020-09-13 09:00:00',
               '2020-09-15 15:00:00', '2020-09-17 21:00:00',
               '2020-09-20 03:00:00', '2020-09-22 09:00:00',
               '2020-09-24 15:00:00', '2020-09-26 21:00:00',
               '2020-09-29 03:00:00', '2020-10-01 09:00:00',
               '2020-10-03 15:00:00', '2020-10-05 21:00:00',
               '2020-10-08 03:00:00'],
              dtype='datetime64[ns]', freq='54H')

### Список всех сокращений (регистр их записи не важен)

| Сокращение   | Расшифровка                              | Сокращение   | Расшифровка                    |
|:-------------|:-----------------------------------------|:-------------|:-------------------------------|
| B            | Последний рабочий день в неделе          | QS           | Начало квартала                |
| C            | Пользовательский последний день в неделе | BQS          | Первый рабочий день квартала   |
| D            | День                                     | A, Y         | Конец года                     |
| W            | Неделя                                   | BA, BY       | Последний рабочий день в году  |
| M            | Конец месяца                             | AS, YS       | Начало года                    |
| SM           | 15 число месяца                          | BAS, BYS     | Первый рабочий день в году     |
| BM           | Последний рабочий день в месяце          | BH           | Рабочий час (от 9:00 до 17:00) |
| CBM          | Пользовательский конец месяца            | H            | Час                            |
| MS           | Первое число месяца                      | T, min       | Минута                         |
| SMS          | 1 и 15 число месяца                      | S            | Секунда                        |
| BMS          | Первый рабочий день месяца               | L, ms        | Миллисекунда                   |
| CBMS         | Пользовательский первый день месяца      | U, us        | Микросекунда                   |
| Q            | Конец квартала                           | N            | Наносекунда                    |
| BQ           | Последний рабочий день квартала          

In [24]:
pd.date_range('2020-08-06 15:00', '2023-05-18', freq='M')

DatetimeIndex(['2020-08-31 15:00:00', '2020-09-30 15:00:00',
               '2020-10-31 15:00:00', '2020-11-30 15:00:00',
               '2020-12-31 15:00:00', '2021-01-31 15:00:00',
               '2021-02-28 15:00:00', '2021-03-31 15:00:00',
               '2021-04-30 15:00:00', '2021-05-31 15:00:00',
               '2021-06-30 15:00:00', '2021-07-31 15:00:00',
               '2021-08-31 15:00:00', '2021-09-30 15:00:00',
               '2021-10-31 15:00:00', '2021-11-30 15:00:00',
               '2021-12-31 15:00:00', '2022-01-31 15:00:00',
               '2022-02-28 15:00:00', '2022-03-31 15:00:00',
               '2022-04-30 15:00:00', '2022-05-31 15:00:00',
               '2022-06-30 15:00:00', '2022-07-31 15:00:00',
               '2022-08-31 15:00:00', '2022-09-30 15:00:00',
               '2022-10-31 15:00:00', '2022-11-30 15:00:00',
               '2022-12-31 15:00:00', '2023-01-31 15:00:00',
               '2023-02-28 15:00:00', '2023-03-31 15:00:00',
               '2023-04-

In [25]:
pd.date_range('2020-08-06 15:00', '2023-05-18', freq='MS')

DatetimeIndex(['2020-09-01 15:00:00', '2020-10-01 15:00:00',
               '2020-11-01 15:00:00', '2020-12-01 15:00:00',
               '2021-01-01 15:00:00', '2021-02-01 15:00:00',
               '2021-03-01 15:00:00', '2021-04-01 15:00:00',
               '2021-05-01 15:00:00', '2021-06-01 15:00:00',
               '2021-07-01 15:00:00', '2021-08-01 15:00:00',
               '2021-09-01 15:00:00', '2021-10-01 15:00:00',
               '2021-11-01 15:00:00', '2021-12-01 15:00:00',
               '2022-01-01 15:00:00', '2022-02-01 15:00:00',
               '2022-03-01 15:00:00', '2022-04-01 15:00:00',
               '2022-05-01 15:00:00', '2022-06-01 15:00:00',
               '2022-07-01 15:00:00', '2022-08-01 15:00:00',
               '2022-09-01 15:00:00', '2022-10-01 15:00:00',
               '2022-11-01 15:00:00', '2022-12-01 15:00:00',
               '2023-01-01 15:00:00', '2023-02-01 15:00:00',
               '2023-03-01 15:00:00', '2023-04-01 15:00:00',
               '2023-05-

### Метод shift

In [26]:
pd.date_range('2020-08-06 15:00', '2023-05-18', freq='MS').shift(5, 'd')

DatetimeIndex(['2020-09-06 15:00:00', '2020-10-06 15:00:00',
               '2020-11-06 15:00:00', '2020-12-06 15:00:00',
               '2021-01-06 15:00:00', '2021-02-06 15:00:00',
               '2021-03-06 15:00:00', '2021-04-06 15:00:00',
               '2021-05-06 15:00:00', '2021-06-06 15:00:00',
               '2021-07-06 15:00:00', '2021-08-06 15:00:00',
               '2021-09-06 15:00:00', '2021-10-06 15:00:00',
               '2021-11-06 15:00:00', '2021-12-06 15:00:00',
               '2022-01-06 15:00:00', '2022-02-06 15:00:00',
               '2022-03-06 15:00:00', '2022-04-06 15:00:00',
               '2022-05-06 15:00:00', '2022-06-06 15:00:00',
               '2022-07-06 15:00:00', '2022-08-06 15:00:00',
               '2022-09-06 15:00:00', '2022-10-06 15:00:00',
               '2022-11-06 15:00:00', '2022-12-06 15:00:00',
               '2023-01-06 15:00:00', '2023-02-06 15:00:00',
               '2023-03-06 15:00:00', '2023-04-06 15:00:00',
               '2023-05-

In [27]:
(pd.date_range('2020-08-06 15:00', '2023-05-18', freq='Y')
    .shift(5, 'M')
    .shift(-2, 'h')
)

DatetimeIndex(['2021-05-31 13:00:00', '2022-05-31 13:00:00',
               '2023-05-31 13:00:00'],
              dtype='datetime64[ns]', freq=None)

###  Атрибут shape

In [28]:
pd.DataFrame(people_dict)

Unnamed: 0,Имя,Фамилия,Дата рождения,Количество детей,Дата увольнения
0,Екатерина,,1992-06-25,0,2023-12-06
1,Евгений,Бубликов,1995-09-09,0,2023-12-06
2,Андрей,Васильев,2000-02-29,0,2023-12-06
3,Виктория,Леонова,1999-06-15,0,2023-12-06
4,Анастасия,Долгова,2003-04-06,0,2023-12-06
5,Данил,Новиков,1995-06-03,0,2023-12-06


In [29]:
pd.DataFrame(people_dict).shape

(6, 5)

In [30]:
pd.DataFrame(people_dict).shape[0]

6

In [31]:
len(pd.DataFrame(people_dict))

6

# Задания

#### Описание таблиц лежит [здесь](https://github.com/victorlymarev/pandas/tree/main/tables#%D0%BE%D0%BF%D0%B8%D1%81%D0%B0%D0%BD%D0%B8%D0%B5-%D1%82%D0%B0%D0%B1%D0%BB%D0%B8%D1%86)

Некоторые таблицы занимают много памяти, поэтому каждые 5-10 заданий лучше перезапускайте ноутбук.

В формулировке некоторых заданий может содержаться вариативность. Если у вас есть сомнения, что требуется в задании, попробуйте решить несколько вариантов. Если вы не понимаете задание, можете написать об этом в комментариях под видео.

В большинстве случаев внешний вид итоговой таблицы не определен. Выведите на экран наиболее адекватный вариант. То есть таблицу, из которой можно будет сделать выводы.

Курс пока находится в разработке. Вы можете помочь другим людям добавив свое решение [сюда](https://docs.google.com/forms/d/1HYTBz_KfssY3Jps2dC3n0YnEqa6WBb5OIhLo1d32Xzw/edit).

Посмотреть решения других людей можно [здесь](https://docs.google.com/spreadsheets/d/1pMDYO-9UneLbPPnEuQ2shig0TOJdQTU-zipifyAnZMk/edit?resourcekey#gid=1998648012)

### Задание 1
Создайте объект Series, в котором будут лежать последовательно имена Аня, Наташа, Таня, Оля, Настя

In [None]:
import pandas as pd

# напишите свой код здесь

### Задание 2
Создавать объекты Series можно на основе словарей. В этом случае ключ пойдет в индекс, а значение в тело колонки.

In [None]:
import pandas as pd

height = {'Кирилл': 178, 'Андрей': 189, 'Тимур': 159, 'Ярослав': 190}
pd.Series(height)

Создайте на основе словаря объект Series. В индексе словаря пусть лежат имена Никита, Артур, Паша, а в значениях колонки номера телефонов 123456, 654321, 123321. 

In [None]:
# напишите свой код здесь

### Задание 3
Создайте таблицу, состоящую из двух колонок. В перовой колонке должны быть имена Саша, Маша, Лера, Руслан. Во второй колонке пусть лежат фамилии Сидоров, Петрова, Иванова, Уткин

In [None]:
import pandas as pd

# напишите свой код здесь

### Задание 4

В таблице marks_6d лежат оценки школьников в классе 6Д. Какое количество школьников в классе?

In [None]:
import os
import pandas as pd
path_marks_6d = '../tables/оценки 6Д.csv' if os.path.exists('../tables/оценки 6Д.csv') else 'https://drive.google.com/uc?id=1aMvwur2zrISbVPRo86qWgbHPEpw5km0n'
marks_6d = pd.read_csv(path_marks_6d)
marks_6d

In [None]:
# напишите свой код здесь

### Задание 5

Создайте набор точек от 1 до 150 с интервалом 2

In [None]:
import numpy as np

# напишите свой код здесь

### Задание 6

Создайте набор точек от 0 до 15 включительно с интервалом 1.5

In [None]:
import numpy as np

# напишите свой код здесь

### Задание 7

На отрезке от 100 до 150 создайте 80 равноудаленных друг от друга точек

In [None]:
import numpy as np

# напишите свой код здесь

### Задание 8

Создайте набор дат с 18 марта 1999 года до 28 февраля 2021 года с частотой в 1 день

In [None]:
import pandas as pd

# напишите свой код здесь

### Задание 9

Создайте набор дат с даты вашего рождения и до сегодняшнего дня с частотой в 1 день. При помощи функции len посчитайте длинну массива

In [None]:
import pandas as pd

# напишите свой код здесь

### Задание 10

Создайте набор дат с 18 марта 2009 года до 28 февраля 2021 года с частотой в 4 дня 19 часов

In [None]:
import pandas as pd

# напишите свой код здесь

### Задание 11

Создайте набор дат с 18 марта 2009 года до 18 февраля 2021 года с частотой в 1 месяц

In [None]:
import pandas as pd

# напишите свой код здесь

### Задание 12

Создайте 8 дат с частотой в 3 часа начиная от 9 часов утра 21 декабря 1999 года

In [None]:
import pandas as pd

# напишите свой код здесь

In [2]:
from IPython.core.display import display, HTML
display(HTML("<style>.container { width:100% !important; }</style>"))

  from IPython.core.display import display, HTML
