In [1]:

import numpy as np
import pandas as pd
from warnings import filterwarnings
filterwarnings('ignore')

### Сегодня мы вкратце познакомитесь с библиотекой pandas, это является своего рода надстройкой numpy.
### Надеюсь, у вас получилось изобразить многомерный массив, а если и не получилось, то они нам совершенно не понадобятся, так как pandas — это библиотека для работы с двухмерными и одномерными массивами, библиотека для работы с таблицами и с отдельными столбцами. Благодаря множеству функций и методов мы получаем возможность легко, интуитивно понятно обрабатывать данные. Два ключевых объекта — это DataFrame и Series.  


### Давайте поговорим о плюсах и минусах этой библиотеки. Для этого сравним её с двумя другими популярными инструментами для работы с таблицами — это Excel и SQL.

### 1) Наличие графического интерфейса: из этих троих он есть только у Excel.

### 2) Максимальное число строк и столбцов: здесь ограничения есть только у Excel.

### 3) Скорость: Excel — низкая, pandas — средняя, SQL — высокая.

### 4) Excel позволяет работать сразу, без навыков и знания языков программирования , а для pandas и SQL нужно всё-таки поучиться.

Series-Это одномерный массив, который может иметь не более одного столбца, количество index при этом не ограничено. Также имеет одну ось — нулевую; зарезервированный индекс вдоль этой оси расположены индексы строк. Series — это столбец с данными, каждая строка которого имеет свой индекс, кстати, не обязательно уникальный.


`pd.Series` Можно рассматривать как расширенный массив NumPy с индексами.

### Создание экземпляра pd.Series

Для создания экземпляра `pd.Series` используется конструктор `pd.Series()`.  Основные аргументы:

* **`data`**:  Данные для серии.  Может быть:
    * Список, массив NumPy, словарь, скалярное значение.
    * Если это словарь, ключи становятся индексами.

* **`index`**:  Индексы для элементов серии.  Если не указан, создается индекс по умолчанию (0, 1, 2,...).  Должен быть той же длины, что и `data`.

* **`dtype`**:  Тип данных для серии.  Если не указан, Pandas пытается вывести тип данных из данных.

* **`name`**:  Имя для серии.

* **`copy`**:  (по умолчанию None) Использовать если входящие данные Series или np.array.


### Примеры:



In [2]:
# 1. Из списка:

s = pd.Series([10, 20, 30], index=['a', 'b', 'c'], dtype='int32', name='Numbers')
print(s)

a    10
b    20
c    30
Name: Numbers, dtype: int32


In [3]:
# 2. Из словаря:

s = pd.Series({'a': 10, 'b': 20, 'c': 30})
print(s)

a    10
b    20
c    30
dtype: int64


In [4]:
# Из np.array
series=pd.Series(np.random.randint(5,20, 15), name='numbers')
series

0     19
1      9
2     15
3     12
4     11
5      8
6     11
7     18
8     11
9     17
10    19
11    14
12    15
13    14
14    18
Name: numbers, dtype: int64

In [5]:
# 1. Давайте попробуем сделать тип данных int32 и отправить на вход float:
# Ожидается что будет ошибка
try:
    s = pd.Series([10, 20, 30.44 ], index=['a', 'b', 'c'], dtype='int32', name='Numbers')
except ValueError as error:
    print(error)
    print("попытка привести значения с плавающей запятой к целым числам")


Trying to coerce float values to integers
попытка привести значения с плавающей запятой к целым числам


In [6]:
# Например у нас есть np.array из него сделаем pd.Series
my_array=np.array([1,2,3,4,5,6,7,8])
my_array

array([1, 2, 3, 4, 5, 6, 7, 8])

In [7]:
series=pd.Series(my_array)

In [8]:
#Сделаем изменение в нём
series[4]=48

In [9]:
my_array

array([ 1,  2,  3,  4, 48,  6,  7,  8])

In [10]:
# Как видим изменился и np.array , и это не то что мы хотели 
# чтобы такого не было надо передать в pd.Series аргумент copy=True 

In [11]:
series=pd.Series(my_array, copy=True)
series

0     1
1     2
2     3
3     4
4    48
5     6
6     7
7     8
dtype: int64

In [12]:
series[6]=1000
series

0       1
1       2
2       3
3       4
4      48
5       6
6    1000
7       8
dtype: int64

In [13]:
# Тут уже изменение не коснулось my_array
my_array

array([ 1,  2,  3,  4, 48,  6,  7,  8])

### рассмотрим арифметические операторы

In [14]:
series=pd.Series(np.random.randint(1,10,5))
series

0    7
1    5
2    1
3    3
4    5
dtype: int64

In [15]:
series+40

0    47
1    45
2    41
3    43
4    45
dtype: int64

In [16]:
series-100

0   -93
1   -95
2   -99
3   -97
4   -95
dtype: int64

In [17]:
series*10

0    70
1    50
2    10
3    30
4    50
dtype: int64

In [18]:
series/10

0    0.7
1    0.5
2    0.1
3    0.3
4    0.5
dtype: float64

In [19]:
series%10

0    7
1    5
2    1
3    3
4    5
dtype: int64

In [20]:
series+np.nan

0   NaN
1   NaN
2   NaN
3   NaN
4   NaN
dtype: float64

In [21]:
series+[1,2,3,4,5]

0     8
1     7
2     4
3     7
4    10
dtype: int64


# DataFrame — это двухмерный массив в виде таблицы, и это своего рода таблица, состоящая из Series. Первая ось имеет зарезервированное имя columns , а вторая index.

In [22]:
df=pd.DataFrame({f"numbers_{index}":array for index,array in enumerate(np.random.randint(5,20,(5, 20)))})
df

Unnamed: 0,numbers_0,numbers_1,numbers_2,numbers_3,numbers_4
0,5,19,16,9,7
1,13,7,16,12,16
2,10,17,6,11,9
3,17,10,18,17,15
4,8,17,7,6,6
5,19,10,5,14,18
6,12,6,16,11,19
7,19,16,16,11,7
8,8,10,8,6,7
9,5,18,16,10,18


Можно получить np.array используя команду values или просто передать в функцию np.array

In [23]:
np.array(df)

array([[ 5, 19, 16,  9,  7],
       [13,  7, 16, 12, 16],
       [10, 17,  6, 11,  9],
       [17, 10, 18, 17, 15],
       [ 8, 17,  7,  6,  6],
       [19, 10,  5, 14, 18],
       [12,  6, 16, 11, 19],
       [19, 16, 16, 11,  7],
       [ 8, 10,  8,  6,  7],
       [ 5, 18, 16, 10, 18],
       [18, 16, 15,  6, 10],
       [18, 18, 13, 18,  5],
       [12, 17,  8,  9, 13],
       [ 8,  5,  5, 19, 15],
       [13, 15, 18, 15,  8],
       [10, 12, 14, 15, 12],
       [11, 13,  6, 11,  7],
       [10, 14, 15, 15,  6],
       [19, 13, 13,  8,  6],
       [16, 11,  7, 15, 19]])

In [24]:
df.values

array([[ 5, 19, 16,  9,  7],
       [13,  7, 16, 12, 16],
       [10, 17,  6, 11,  9],
       [17, 10, 18, 17, 15],
       [ 8, 17,  7,  6,  6],
       [19, 10,  5, 14, 18],
       [12,  6, 16, 11, 19],
       [19, 16, 16, 11,  7],
       [ 8, 10,  8,  6,  7],
       [ 5, 18, 16, 10, 18],
       [18, 16, 15,  6, 10],
       [18, 18, 13, 18,  5],
       [12, 17,  8,  9, 13],
       [ 8,  5,  5, 19, 15],
       [13, 15, 18, 15,  8],
       [10, 12, 14, 15, 12],
       [11, 13,  6, 11,  7],
       [10, 14, 15, 15,  6],
       [19, 13, 13,  8,  6],
       [16, 11,  7, 15, 19]])

Тип данных определяется для каждого столбца отдельно. Если данные в столбце целочисленные, то тип данных столбца будет int. Если данные в столбце вещественные, то тип данных всего столбца будет float.


In [25]:
df['numbers_0'].dtype

dtype('int64')


Если в столбце находятся смешанные числовые данные, например, и int, и float, то тип данных столбца будет float. При этом все элементы в столбце будут приведены к типу float данных.


In [26]:
df['numbers_1'][4]=0.5
df['numbers_1'].dtype


dtype('float64')

In [27]:
# Эта функция отоброжает первые несколько индексов , по default там 5
df.head()

Unnamed: 0,numbers_0,numbers_1,numbers_2,numbers_3,numbers_4
0,5,19.0,16,9,7
1,13,7.0,16,12,16
2,10,17.0,6,11,9
3,17,10.0,18,17,15
4,8,0.5,7,6,6


In [28]:
# А эта функция отоброжает последние несколько индексов , по default там 5
df.tail()

Unnamed: 0,numbers_0,numbers_1,numbers_2,numbers_3,numbers_4
15,10,12.0,14,15,12
16,11,13.0,6,11,7
17,10,14.0,15,15,6
18,19,13.0,13,8,6
19,16,11.0,7,15,19



Дело в том, что в данных бывают пропуски. Если у нас есть int значения и во второй строке пропуск, то все данные в столбце будут приведены к типу вещественных, и тип данных столбца тоже будет float. 

In [29]:
df['numbers_4'][2]=np.nan
df.head()

Unnamed: 0,numbers_0,numbers_1,numbers_2,numbers_3,numbers_4
0,5,19.0,16,9,7.0
1,13,7.0,16,12,16.0
2,10,17.0,6,11,
3,17,10.0,18,17,15.0
4,8,0.5,7,6,6.0


In [30]:
df.dtypes

numbers_0      int64
numbers_1    float64
numbers_2      int64
numbers_3      int64
numbers_4    float64
dtype: object

Если в строке есть хотя бы один строковый элемент, то этот столбец будет автоматически определён как тип object.

In [31]:
df['numbers_0'][4]='строка'
df.head()

Unnamed: 0,numbers_0,numbers_1,numbers_2,numbers_3,numbers_4
0,5,19.0,16,9,7.0
1,13,7.0,16,12,16.0
2,10,17.0,6,11,
3,17,10.0,18,17,15.0
4,строка,0.5,7,6,6.0


In [32]:
df.dtypes

numbers_0     object
numbers_1    float64
numbers_2      int64
numbers_3      int64
numbers_4    float64
dtype: object

In [33]:
df.head()

Unnamed: 0,numbers_0,numbers_1,numbers_2,numbers_3,numbers_4
0,5,19.0,16,9,7.0
1,13,7.0,16,12,16.0
2,10,17.0,6,11,
3,17,10.0,18,17,15.0
4,строка,0.5,7,6,6.0


In [34]:
# Сделаем выборку из df в df_1 напишем 2 columns ,index которые есть в нём и 2 которые отсутствуют .
df_1=pd.DataFrame(data=df,
                  index=[1,2,111, 222],
                  columns=[ 'names', 'numbers_0','surnames','numbers_1'])


In [35]:
#Ошибки не было и pandas сам создал колонки (names ,surnames), и индексы (111,222) и заполнил их NaN 
df_1

Unnamed: 0,names,numbers_0,surnames,numbers_1
1,,13.0,,7.0
2,,10.0,,17.0
111,,,,
222,,,,


In [36]:
# А теперь посмотрим как pandas выравнивает индексы
# для этого создадим два Series c разными индексами и попробуем из них получить DataFrame

In [37]:
series_1=pd.Series(data=[21,23,25,33,24,25],
                   index=[1,3,6,7,8,9],
                   name='series_1')

series_2=pd.Series(data=[45,66,77,88,67,90],
                   index=[2,34,55,6,8,22],
                   name='series_2')
print(series_1, series_2, sep="\n\n")

1    21
3    23
6    25
7    33
8    24
9    25
Name: series_1, dtype: int64

2     45
34    66
55    77
6     88
8     67
22    90
Name: series_2, dtype: int64


In [38]:
pd.DataFrame({'series_1':series_1, 'series_2':series_2})

Unnamed: 0,series_1,series_2
1,21.0,
2,,45.0
3,23.0,
6,25.0,88.0
7,33.0,
8,24.0,67.0
9,25.0,
22,,90.0
34,,66.0
55,,77.0
