In [1]:
import numpy as np
import pandas as pd

## DataFrame

### Создаем DataFrame

#### 1. Создаем через **dict серий**

In [2]:
data = {
    'feature_1': pd.Series([1, 2, 3], index=['a', 'b', 'c']),
    'feature_2': pd.Series([1, 2, 3, 4, 5], index=['e', 'd', 'c', 'b', 'a']),
}

In [3]:
pd.DataFrame(data)

Unnamed: 0,feature_1,feature_2
a,1.0,5
b,2.0,4
c,3.0,3
d,,2
e,,1


В результате индексы серий состывовались и отсортировались по порядку

**А если передать индексы?**

In [4]:
pd.DataFrame(data, index=['a', 'c', 'e'])

Unnamed: 0,feature_1,feature_2
a,1.0,5
c,3.0,3
e,,1


Остались только значения, соответствующие заданным индексам

**Передадим названия колонок**

In [5]:
pd.DataFrame(data, index=['a', 'c', 'e'], columns=['feature_2', 'feature_3'])

Unnamed: 0,feature_2,feature_3
a,5,
c,3,
e,1,


Выводятся только колонки с заданными названиями. Если среди ключей словаря нет такого названия колонки, то она заполняется значениями **NaN**

#### 2. Создаем через **dict np.arrays/lists**

In [6]:
data = {
    'feature_1': [1, 2, 3],
    'feature_2': np.array([5, 4, 3, 2, 1])
}
# pd.DataFrame(data) -> Выдаст ошибку: ValueError: All arrays must be of the same length

**Важно**, чтобы размеры списков и массивов были одинаковыми!

In [7]:
data = {
    'feature_1': [1, 2, 3],
    'feature_2': np.array([5, 4, 3])
}

In [8]:
pd.DataFrame(data)

Unnamed: 0,feature_1,feature_2
0,1,5
1,2,4
2,3,3


Индексы должны тоже соответствовать этой длине!

In [9]:
pd.DataFrame(data, index=['a', 'b', 'c'])

Unnamed: 0,feature_1,feature_2
a,1,5
b,2,4
c,3,3


#### 3. Создаем через **список dicts**

In [10]:
data = [
    {'feature_1': 1, 'feature_2': 2},
    {'feature_1': 5, 'feature_2': 10, 'feature_3': 20}
]

pd.DataFrame(data)

Unnamed: 0,feature_1,feature_2,feature_3
0,1,2,
1,5,10,20.0


**Передадим индексы и названия колонок**

In [11]:
pd.DataFrame(data, index=['index_1', 'index_2'], columns=['feature_1', 'feature_3'])

Unnamed: 0,feature_1,feature_3
index_1,1,
index_2,5,20.0


### Задача на сегодня

In [12]:
!wget 'https://drive.google.com/uc?id=17xDAUwRdJVbpZNi1toPbAQitVrBVHFt6' -O data.txt

--2024-03-24 18:13:25--  https://drive.google.com/uc?id=17xDAUwRdJVbpZNi1toPbAQitVrBVHFt6
Распознаётся drive.google.com (drive.google.com)… 216.58.215.110, 2a00:1450:401b:80d::200e
Подключение к drive.google.com (drive.google.com)|216.58.215.110|:443... соединение установлено.
HTTP-запрос отправлен. Ожидание ответа… 303 See Other
Адрес: https://drive.usercontent.google.com/download?id=17xDAUwRdJVbpZNi1toPbAQitVrBVHFt6 [переход]
--2024-03-24 18:13:25--  https://drive.usercontent.google.com/download?id=17xDAUwRdJVbpZNi1toPbAQitVrBVHFt6
Распознаётся drive.usercontent.google.com (drive.usercontent.google.com)… 142.250.186.193, 2a00:1450:401b:80d::2001
Подключение к drive.usercontent.google.com (drive.usercontent.google.com)|142.250.186.193|:443... соединение установлено.
HTTP-запрос отправлен. Ожидание ответа… 200 OK
Длина: 10000 (9,8K) [application/octet-stream]
Сохранение в: «data.txt»


2024-03-24 18:13:26 (20,2 MB/s) - «data.txt» сохранён [10000/10000]



#### Загрузим тесктовые данные в numpy.array

In [13]:
data = np.loadtxt('data.txt')
type(data)

numpy.ndarray

In [14]:
data.shape

(100, 4)

#### Создадим датафрейм

In [15]:
df = pd.DataFrame(data)
df

Unnamed: 0,0,1,2,3
0,38.0,741.0,2.0,0.0
1,32.0,630.0,11.0,0.0
2,52.0,2730.0,7.0,1.0
3,33.0,552.0,2.0,0.0
4,35.0,409.0,5.0,0.0
...,...,...,...,...
95,40.0,1088.0,10.0,0.0
96,31.0,745.0,3.0,0.0
97,31.0,782.0,4.0,0.0
98,38.0,793.0,4.0,0.0


#### Изменим названия колонок

In [16]:
pd.set_option('display.max_rows', 6)

In [17]:
df.columns = ['age', 'sum', 'num_purchases', 'is_interested']
df

Unnamed: 0,age,sum,num_purchases,is_interested
0,38.0,741.0,2.0,0.0
1,32.0,630.0,11.0,0.0
2,52.0,2730.0,7.0,1.0
...,...,...,...,...
97,31.0,782.0,4.0,0.0
98,38.0,793.0,4.0,0.0
99,38.0,800.0,8.0,0.0


### Полезные методы

In [18]:
df.head()

Unnamed: 0,age,sum,num_purchases,is_interested
0,38.0,741.0,2.0,0.0
1,32.0,630.0,11.0,0.0
2,52.0,2730.0,7.0,1.0
3,33.0,552.0,2.0,0.0
4,35.0,409.0,5.0,0.0


In [19]:
df.tail()

Unnamed: 0,age,sum,num_purchases,is_interested
95,40.0,1088.0,10.0,0.0
96,31.0,745.0,3.0,0.0
97,31.0,782.0,4.0,0.0
98,38.0,793.0,4.0,0.0
99,38.0,800.0,8.0,0.0


In [20]:
df.sample()

Unnamed: 0,age,sum,num_purchases,is_interested
56,34.0,407.0,9.0,0.0


In [21]:
df.sample(frac=.5)

Unnamed: 0,age,sum,num_purchases,is_interested
21,29.0,1156.0,4.0,0.0
93,30.0,992.0,4.0,0.0
94,30.0,893.0,3.0,0.0
...,...,...,...,...
67,34.0,373.0,2.0,0.0
79,33.0,543.0,3.0,0.0
61,41.0,1272.0,5.0,0.0


In [22]:
df.describe()

Unnamed: 0,age,sum,num_purchases,is_interested
count,100.000000,100.000000,100.000000,100.000000
mean,35.140000,1030.400000,4.360000,0.170000
std,6.576696,586.787729,2.263099,0.377525
...,...,...,...,...
50%,34.000000,900.500000,4.000000,0.000000
75%,40.000000,1328.750000,5.000000,0.000000
max,52.000000,3159.000000,11.000000,1.000000


In [23]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 4 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   age            100 non-null    float64
 1   sum            100 non-null    float64
 2   num_purchases  100 non-null    float64
 3   is_interested  100 non-null    float64
dtypes: float64(4)
memory usage: 3.3 KB


### Атрибуты датафрейма

In [24]:
df.shape

(100, 4)

In [25]:
df.columns

Index(['age', 'sum', 'num_purchases', 'is_interested'], dtype='object')

In [26]:
df.index

RangeIndex(start=0, stop=100, step=1)

In [27]:
df.empty

False

In [28]:
df.dtypes

age              float64
sum              float64
num_purchases    float64
is_interested    float64
dtype: object

### Как изменить тип данных признаки в датафрейме?

#### Возьмём одну колонку из нашего датафрейма и поменяем в ней тип данных на **int**

In [29]:
df['is_interested']

0     0.0
1     0.0
2     1.0
     ... 
97    0.0
98    0.0
99    0.0
Name: is_interested, Length: 100, dtype: float64

Поменяем тип данных признака **is_interested** на целочисленный

In [30]:
df['is_interested'].astype('int')

0     0
1     0
2     1
     ..
97    0
98    0
99    0
Name: is_interested, Length: 100, dtype: int64

In [31]:
df.dtypes

age              float64
sum              float64
num_purchases    float64
is_interested    float64
dtype: object

Почему тип данных в колонке остался прежний? А потому, что мы явно не переопределили эту колонку

In [32]:
df['is_interested'] = df['is_interested'].astype('int')
df['is_interested']

0     0
1     0
2     1
     ..
97    0
98    0
99    0
Name: is_interested, Length: 100, dtype: int64

In [33]:
df.dtypes

age              float64
sum              float64
num_purchases    float64
is_interested      int64
dtype: object

Теперь всё в порядке

#### Изменим тип данных сразу в двух колонках датафрейма

In [34]:
df[['num_purchases', 'age']]

Unnamed: 0,num_purchases,age
0,2.0,38.0
1,11.0,32.0
2,7.0,52.0
...,...,...
97,4.0,31.0
98,4.0,38.0
99,8.0,38.0


In [35]:
df[['num_purchases', 'age']].astype('int')

Unnamed: 0,num_purchases,age
0,2,38
1,11,32
2,7,52
...,...,...
97,4,31
98,4,38
99,8,38


In [36]:
df.dtypes

age              float64
sum              float64
num_purchases    float64
is_interested      int64
dtype: object

In [37]:
df[['num_ruchases', 'age']] = df[['num_purchases', 'age']].astype('int')

In [38]:
df.dtypes

age                int64
sum              float64
num_purchases    float64
is_interested      int64
num_ruchases       int64
dtype: object

И вернем всё как было...

In [39]:
df[['num_ruchases', 'age']] = df[['num_purchases', 'age']].astype('float')
df.dtypes

age              float64
sum              float64
num_purchases    float64
is_interested      int64
num_ruchases     float64
dtype: object

### Полезные методы датафрейма и серии

#### unique()

In [40]:
df['num_purchases'].unique()

array([ 2., 11.,  7.,  5.,  8.,  4.,  3., 10.,  6.,  9.])

#### nunique()

In [42]:
df['num_purchases'].nunique()

10

Возвращает количество уникальных значений в столбце. Проверим:

In [44]:
df['num_purchases'].unique().__len__()

10

Точно. Длина массива, полученного при помощи метода **unique()** равна 10

#### value_counts()

Применим к датафрейму:

In [45]:
df.value_counts('num_purchases')

num_purchases
2.0     23
3.0     22
4.0     17
        ..
9.0      5
10.0     2
11.0     1
Name: count, Length: 10, dtype: int64

Применим к серии:

In [47]:
df['num_purchases'].value_counts()

num_purchases
2.0     23
3.0     22
4.0     17
        ..
9.0      5
10.0     2
11.0     1
Name: count, Length: 10, dtype: int64

Подсчитае долю признака в столбце:

In [49]:
df['num_purchases'].value_counts(normalize=True)

num_purchases
2.0     0.23
3.0     0.22
4.0     0.17
        ... 
9.0     0.05
10.0    0.02
11.0    0.01
Name: proportion, Length: 10, dtype: float64

### Методы агрегации

In [50]:
df['sum'].sum()

103040.0

In [51]:
df['age'].min()

14.0

In [53]:
df['num_purchases'].max()

11.0

In [52]:
df['age'].mean()

35.14

In [56]:
df['age'].median()

34.0

In [55]:
idx = df['num_purchases'].argmax()
idx

1

In [58]:
idx = df['num_purchases'].argmin()
idx

0

### Взятие объекта по индексу

Используем метод **loc[]**

In [60]:
df.loc[idx]

age               38.0
sum              741.0
num_purchases      2.0
is_interested      0.0
num_ruchases       2.0
Name: 0, dtype: float64

Для примера создадим игрушечный датафрейм:

In [71]:
toy_df = pd.DataFrame({
    'feature_1': [1, 2, 3],
    'feature_2': ['one', 'two', 'three']
}, index=[9, 5, 2])

toy_df

Unnamed: 0,feature_1,feature_2
9,1,one
5,2,two
2,3,three


In [72]:
toy_df.loc[9]

feature_1      1
feature_2    one
Name: 9, dtype: object

Если индекса в датафрейме нат, то вернется ошибка: **KeyError**

In [73]:
try:
    print(toy_df.loc[8])
except:
    print("KeyError")

KeyError


In [79]:
toy_df.loc[:5]

Unnamed: 0,feature_1,feature_2
9,1,one
5,2,two


In [80]:
toy_df.loc[5, 'feature_2']

'two'

In [82]:
print(toy_df.loc[[2, 9], ['feature_2', 'feature_1']])

  feature_2  feature_1
2     three          3
9       one          1
