In [1]:
import numpy as np
import pandas as pd
from warnings import filterwarnings
filterwarnings('ignore')


### pd.Index — это структура данных, представляющая метки (индексы) строк или столбцов. Индексы могут быть числовыми, строковыми или временными. Они позволяют эффективно управлять и манипулировать данными по меткам.


### pd.DataFrame.columns — это атрибут объекта DataFrame, который хранит метки столбцов в виде объекта Index. Он позволяет быстро получить список всех столбцов в DataFrame.


In [2]:
df=pd.DataFrame(np.random.uniform(low=5, high=20, size=(10,5)),
                columns=['I','II','III','IV', 'V'],
                index=np.random.randint(1,10,10),
                dtype=np.float32,
                copy=False)
df

Unnamed: 0,I,II,III,IV,V
7,6.400074,10.297555,14.720169,7.399305,5.429269
4,17.548164,8.179955,15.571919,13.60536,18.947832
6,7.57994,10.768259,12.983621,9.673013,9.5659
8,9.874266,8.544559,16.556242,12.334605,18.732513
7,13.408651,12.292692,19.243092,14.892474,7.545341
4,14.595319,10.209979,18.254545,13.461069,9.132015
8,10.877937,16.389803,12.474153,9.615272,7.927493
9,11.630205,16.523863,17.31509,19.366201,17.415979
6,19.007597,17.878527,7.515573,14.724349,18.556816
6,7.306487,16.72508,12.817711,18.766956,17.401619


мы получили DataFrame c индексами целочисленных рандомных генерации, почему это не удобно ?
Потомучто выйти на одно значение становиться проблематичным , вот что можно сделать 

In [3]:
# смена индексов используя range или np.arange
df.index=np.arange(len(df.index))
df.head()

Unnamed: 0,I,II,III,IV,V
0,6.400074,10.297555,14.720169,7.399305,5.429269
1,17.548164,8.179955,15.571919,13.60536,18.947832
2,7.57994,10.768259,12.983621,9.673013,9.5659
3,9.874266,8.544559,16.556242,12.334605,18.732513
4,13.408651,12.292692,19.243092,14.892474,7.545341


In [4]:
# Но есть и такой вариант через встроеную функцию pandas, но в этом случае мы не теряем прошлые индексы
# А получаем их как столбец , если не изменить аргумент drop=True.
# Также ставим inplace=True чтобы изменения вступили в силу без использования присваивание
df.reset_index(drop=True, inplace=True)
df.head()

Unnamed: 0,I,II,III,IV,V
0,6.400074,10.297555,14.720169,7.399305,5.429269
1,17.548164,8.179955,15.571919,13.60536,18.947832
2,7.57994,10.768259,12.983621,9.673013,9.5659
3,9.874266,8.544559,16.556242,12.334605,18.732513
4,13.408651,12.292692,19.243092,14.892474,7.545341


In [5]:
# вернёт pd.Series
df['I'].head()


0     6.400074
1    17.548164
2     7.579940
3     9.874266
4    13.408651
Name: I, dtype: float32

In [6]:
# вернёт pd.DataFrame
df[['I']].head()

Unnamed: 0,I
0,6.400074
1,17.548164
2,7.57994
3,9.874266
4,13.408651


In [7]:
# Можно сразу несколько
df[['IV', 'I', 'II']].head()

Unnamed: 0,IV,I,II
0,7.399305,6.400074,10.297555
1,13.60536,17.548164,8.179955
2,9.673013,7.57994,10.768259
3,12.334605,9.874266,8.544559
4,14.892474,13.408651,12.292692


In [8]:
# Можно сразу несколько
df_1=df[['IV', 'I', 'II']].copy()
df_1.head()


Unnamed: 0,IV,I,II
0,7.399305,6.400074,10.297555
1,13.60536,17.548164,8.179955
2,9.673013,7.57994,10.768259
3,12.334605,9.874266,8.544559
4,14.892474,13.408651,12.292692


In [9]:
df

Unnamed: 0,I,II,III,IV,V
0,6.400074,10.297555,14.720169,7.399305,5.429269
1,17.548164,8.179955,15.571919,13.60536,18.947832
2,7.57994,10.768259,12.983621,9.673013,9.5659
3,9.874266,8.544559,16.556242,12.334605,18.732513
4,13.408651,12.292692,19.243092,14.892474,7.545341
5,14.595319,10.209979,18.254545,13.461069,9.132015
6,10.877937,16.389803,12.474153,9.615272,7.927493
7,11.630205,16.523863,17.31509,19.366201,17.415979
8,19.007597,17.878527,7.515573,14.724349,18.556816
9,7.306487,16.72508,12.817711,18.766956,17.401619


In [10]:
df_1

Unnamed: 0,IV,I,II
0,7.399305,6.400074,10.297555
1,13.60536,17.548164,8.179955
2,9.673013,7.57994,10.768259
3,12.334605,9.874266,8.544559
4,14.892474,13.408651,12.292692
5,13.461069,14.595319,10.209979
6,9.615272,10.877937,16.389803
7,19.366201,11.630205,16.523863
8,14.724349,19.007597,17.878527
9,18.766956,7.306487,16.72508


In [11]:
# Давайте сделаем изменения всех значений в двух столбцах на число 5
df_1[['IV', 'II']]=5
df_1.head()

Unnamed: 0,IV,I,II
0,5,6.400074,5
1,5,17.548164,5
2,5,7.57994,5
3,5,9.874266,5
4,5,13.408651,5



## Для изменения имен столбцов и индексов в pandas можно использовать метод rename(), передав словарь, где ключи — это текущие имена, которые нужно изменить, а значения — новые имена. Это позволяет гибко переименовывать только те элементы, которые необходимо изменить, не затрагивая остальные.

In [12]:
df.columns

Index(['I', 'II', 'III', 'IV', 'V'], dtype='object')

In [13]:

df.rename(index={1:'A',
                 3:'C',
                 8:'K'},
          columns={
                 'I':'one',
                 'IV':'four'
                      } ,inplace=False)

Unnamed: 0,one,II,III,four,V
0,6.400074,10.297555,14.720169,7.399305,5.429269
A,17.548164,8.179955,15.571919,13.60536,18.947832
2,7.57994,10.768259,12.983621,9.673013,9.5659
C,9.874266,8.544559,16.556242,12.334605,18.732513
4,13.408651,12.292692,19.243092,14.892474,7.545341
5,14.595319,10.209979,18.254545,13.461069,9.132015
6,10.877937,16.389803,12.474153,9.615272,7.927493
7,11.630205,16.523863,17.31509,19.366201,17.415979
K,19.007597,17.878527,7.515573,14.724349,18.556816
9,7.306487,16.72508,12.817711,18.766956,17.401619


In [14]:
df.head()

Unnamed: 0,I,II,III,IV,V
0,6.400074,10.297555,14.720169,7.399305,5.429269
1,17.548164,8.179955,15.571919,13.60536,18.947832
2,7.57994,10.768259,12.983621,9.673013,9.5659
3,9.874266,8.544559,16.556242,12.334605,18.732513
4,13.408651,12.292692,19.243092,14.892474,7.545341


In [15]:

df=pd.DataFrame({
    'age':np.random.randint(12,35,size=9),
    'car':np.random.choice([True, False], size=9),
    'money':np.random.randint(200, 1000, size=9)
        }
    )
df

Unnamed: 0,age,car,money
0,27,False,639
1,33,False,952
2,15,False,391
3,18,False,991
4,32,False,517
5,20,True,946
6,33,True,446
7,14,False,330
8,21,True,588


# ОПЕРАЦИИ СРАВНЕНИЯ

In [16]:
df['age']>18

0     True
1     True
2    False
3    False
4     True
5     True
6     True
7    False
8     True
Name: age, dtype: bool

### Вернулась Series в виде булевой маски где по элементно было сравнение


### Можно использовать это как маску для фильтрации

Здесь нельзя использовать операторы (not, and, or) Вместо них нужно использовать битовые (~, & , |)  


In [17]:
df[(df['age']>18) & (df['money']<=600)]

Unnamed: 0,age,car,money
4,32,False,517
6,33,True,446
8,21,True,588


In [18]:
df[df['car']==True]

Unnamed: 0,age,car,money
5,20,True,946
6,33,True,446
8,21,True,588


In [19]:
df[~~df['car']==True]

Unnamed: 0,age,car,money
5,20,True,946
6,33,True,446
8,21,True,588


Также можно передавать столбец со значением True и False как маску .  Останутся те строки у которых значение было True.Ответ будет таким же.
Важно помнить что у операторов (&, |, ~)  приоритет выше чем у (>, ==, <)
Чтобы их сделать более приоритетными использовать нужно скобки.



In [20]:
df[ ~df['car'] & (df['money']<500) ]

Unnamed: 0,age,car,money
2,15,False,391
7,14,False,330


Метод isin также используется для фильтрации и смотрит и находит внутри дата фрейма или Series нужны значения 


In [21]:
df.isin([17, False])

Unnamed: 0,age,car,money
0,False,True,False
1,False,True,False
2,False,True,False
3,False,True,False
4,False,True,False
5,False,False,False
6,False,False,False
7,False,True,False
8,False,False,False


In [22]:
df.isin([17, True, 633])

Unnamed: 0,age,car,money
0,False,False,False
1,False,False,False
2,False,False,False
3,False,False,False
4,False,False,False
5,False,True,False
6,False,True,False
7,False,False,False
8,False,True,False


Здесь нельзя использовать операторы (not, and, or) Вместо них нужно использовать (~, & , |)  


In [23]:
df[df.age.isin([17, 44, 32, 863, 633])]

Unnamed: 0,age,car,money
4,32,False,517


# Метод query

При использовании этого метода мы передаем в качестве аргумента строку с заброса по этой строке логической операторы (not and or)  а также операторы сравнения используется стандартно точно так же как и при использовании их в условном операторе их при этом используется только название столбцов Также можно использовать название столбцов которые не являются допустимыми именами переменных языка python , но их нужно заключить в обратные "эта кнопка с буквой ё на английской раскладке” . Давайте разберём вот это пример.



In [24]:
#Здесь мы получили все строки в которых нету машины а возраст больше 18
df.query("not car and age>18")

Unnamed: 0,age,car,money
0,27,False,639
1,33,False,952
4,32,False,517


В строку с запросом можно передавать переменную создадим переменную min_age имеющую значение пять чтобы эту переменную использовать в запросе перед именем переменной мы должны прописать символ собачку выполним эту ячейку и видим что всё у нас работало каретным 

In [25]:
min_age=5

In [26]:
df.query('not car and age>@min_age')

Unnamed: 0,age,car,money
0,27,False,639
1,33,False,952
2,15,False,391
3,18,False,991
4,32,False,517
7,14,False,330


# Теперь давайте поговорим о пропусках


In [27]:
df

Unnamed: 0,age,car,money
0,27,False,639
1,33,False,952
2,15,False,391
3,18,False,991
4,32,False,517
5,20,True,946
6,33,True,446
7,14,False,330
8,21,True,588


In [28]:
df['gender']=np.nan
df

Unnamed: 0,age,car,money,gender
0,27,False,639,
1,33,False,952,
2,15,False,391,
3,18,False,991,
4,32,False,517,
5,20,True,946,
6,33,True,446,
7,14,False,330,
8,21,True,588,


In [29]:
# df['age'][[3,7]]=np.nan
# df['money'][[5,1]]=np.nan

In [30]:
df

Unnamed: 0,age,car,money,gender
0,27,False,639,
1,33,False,952,
2,15,False,391,
3,18,False,991,
4,32,False,517,
5,20,True,946,
6,33,True,446,
7,14,False,330,
8,21,True,588,


Давайте добавим колонку в которой все данные отсутствуют например gender(пол человека) 
Используем метод loc чтобы написать вручную пропуски в данных (этот метод и iloc мы обсудим в дальнейшем)


In [31]:
df.loc[8,'age']=np.nan
df.loc[4,'money']=np.nan
# df.iloc[1, 1]=np.nan

In [32]:
df

Unnamed: 0,age,car,money,gender
0,27.0,False,639.0,
1,33.0,False,952.0,
2,15.0,False,391.0,
3,18.0,False,991.0,
4,32.0,False,,
5,20.0,True,946.0,
6,33.0,True,446.0,
7,14.0,False,330.0,
8,,True,588.0,


Обратите внимание DataFrame имеет пропуск в том числе и целый столбец, чтобы удалить все строки имеющие пропуски достаточно вызвать метод dropna . Данный метод по умолчанию не меняет DataFrame , а возвращает новый. Метод вернул нам пустой DataFrame, так как во всех строках нашего DataFrame есть пропуски.

In [33]:
df.dropna()

Unnamed: 0,age,car,money,gender




 возьмём только вот эти три столбца и вызовем метод. Теперь мы получили вот такой DataFrame, здесь были удалены строки (4,8) так как в них есть пропуски 


In [34]:
df[['age','car', 'money']].dropna()

Unnamed: 0,age,car,money
0,27.0,False,639.0
1,33.0,False,952.0
2,15.0,False,391.0
3,18.0,False,991.0
5,20.0,True,946.0
6,33.0,True,446.0
7,14.0,False,330.0


In [35]:
df

Unnamed: 0,age,car,money,gender
0,27.0,False,639.0,
1,33.0,False,952.0,
2,15.0,False,391.0,
3,18.0,False,991.0,
4,32.0,False,,
5,20.0,True,946.0,
6,33.0,True,446.0,
7,14.0,False,330.0,
8,,True,588.0,


Рассмотрим аргумент axis по умолчанию стоит нулевая ось поэтому удаляются строки с пропуска , если выполнить эти строки то получим тот же самый результат,  что и выше. Если же нам нужно удалить столбцы с пропусками в аргумент axis пишем 1 . 

In [36]:
df.dropna(axis=1)

Unnamed: 0,car
0,False
1,False
2,False
3,False
4,False
5,True
6,True
7,False
8,True


Рассмотрим следующий аргумент how по умолчанию имеет значение ‘any’ , если в данной аргумент передать значение ‘all’ будут удалены только те строки или столбцы , которых все элементы являются пропусками . Выполним эту ячейку нам был возвращен наш DataFrame в котором  ни одна из строк не удалены так как у нас нет строк которые полностью состоят из пропуска.



Теперь попробуем удалить столбцы в которых есть все пропуски для этого в аргумент axis передадим единицу выполним эту ячейку и видим что столбец gender был удалён так как он полностью состоит из пропусков.


In [37]:
df.dropna(how='all', axis=1)

Unnamed: 0,age,car,money
0,27.0,False,639.0
1,33.0,False,952.0
2,15.0,False,391.0
3,18.0,False,991.0
4,32.0,False,
5,20.0,True,946.0
6,33.0,True,446.0
7,14.0,False,330.0
8,,True,588.0


Рассмотрим следующий аргумент subset с помощью этого аргумента мы указываем строки или столбцы в которых мы будем искать пропуски. При этом если мы удаляем строки то в аргумент subset нужно передавать столбцы, если мы удаляем cтолбцы то в аргумент subset нужно передавать строки .


In [38]:
df

Unnamed: 0,age,car,money,gender
0,27.0,False,639.0,
1,33.0,False,952.0,
2,15.0,False,391.0,
3,18.0,False,991.0,
4,32.0,False,,
5,20.0,True,946.0,
6,33.0,True,446.0,
7,14.0,False,330.0,
8,,True,588.0,


In [39]:
df.dropna(subset=[4,5,6,7,8], axis=1)

Unnamed: 0,car
0,False
1,False
2,False
3,False
4,False
5,True
6,True
7,False
8,True


In [40]:
df.dropna(subset=['money', 'age'], axis=0)

Unnamed: 0,age,car,money,gender
0,27.0,False,639.0,
1,33.0,False,952.0,
2,15.0,False,391.0,
3,18.0,False,991.0,
5,20.0,True,946.0,
6,33.0,True,446.0,
7,14.0,False,330.0,


По умолчанию метод dropna не изменяет исходный DataFrame. Для того чтобы сразу изменить DataFrame нужно в аргумент inplace передать значение True выполним эту ячейку метод нам уже ничего не возвращает,  при этом DataFrame был изменен.


In [41]:
df.dropna(how='all',axis=1, inplace=True )

In [42]:
df

Unnamed: 0,age,car,money
0,27.0,False,639.0
1,33.0,False,952.0
2,15.0,False,391.0
3,18.0,False,991.0
4,32.0,False,
5,20.0,True,946.0
6,33.0,True,446.0
7,14.0,False,330.0
8,,True,588.0


Следующий метод который мы рассмотрим это fillna, с помощью данного метода значения NAN можно поменять на любое значение.

In [43]:
df.loc[3, 'car']=np.nan

In [44]:
df

Unnamed: 0,age,car,money
0,27.0,False,639.0
1,33.0,False,952.0
2,15.0,False,391.0
3,18.0,,991.0
4,32.0,False,
5,20.0,True,946.0
6,33.0,True,446.0
7,14.0,False,330.0
8,,True,588.0


В первом примере мы поменяем его на значение 6 и видим, что все пропуски были заменены на шестёрку 

In [45]:
df.fillna(value=6)

Unnamed: 0,age,car,money
0,27.0,False,639.0
1,33.0,False,952.0
2,15.0,False,391.0
3,18.0,6,991.0
4,32.0,False,6.0
5,20.0,True,946.0
6,33.0,True,446.0
7,14.0,False,330.0
8,6.0,True,588.0




Если в каждом столбце нужно поменять пропуски на какое-то своё значение то в метод нужно передать словарь в котором ключом является имя столбца а значение ключа это то значение на которое будет производиться замена 


In [46]:
df.fillna(value={
    'age': 0,
    'car': 'no answer',
    'money':df.money.mean()
})

Unnamed: 0,age,car,money
0,27.0,False,639.0
1,33.0,False,952.0
2,15.0,False,391.0
3,18.0,no answer,991.0
4,32.0,False,660.375
5,20.0,True,946.0
6,33.0,True,446.0
7,14.0,False,330.0
8,0.0,True,588.0


Следующий метод isna данный метод возвращает объект того же размера , что и объект которому применяется, но со значениями True и False.  True будет стоять на тех местах на которых в исходном DataFrame стоят пропуск то же самое будет если этот метод применить к Series с помощью этого метода удобно избавляться от строк с пропусками в определенных столбцах.


К примеру мы хотим получить строки, которые не имеют пропусков в столбце , для этого мы передадим для фильтрации вот такой запрос битовых операции где значение False будут изменены на True а True изменено на False выполним эту ячейку и получаем DataFrame в котором только те строки в которых столбце car нет пропусков.


In [47]:
df[~df.car.isna()]

Unnamed: 0,age,car,money
0,27.0,False,639.0
1,33.0,False,952.0
2,15.0,False,391.0
4,32.0,False,
5,20.0,True,946.0
6,33.0,True,446.0
7,14.0,False,330.0
8,,True,588.0


Чтобы не использовать (~)  есть метод notna  который также можно использовать для фильтрации

In [48]:
df[df.car.notna()]

Unnamed: 0,age,car,money
0,27.0,False,639.0
1,33.0,False,952.0
2,15.0,False,391.0
4,32.0,False,
5,20.0,True,946.0
6,33.0,True,446.0
7,14.0,False,330.0
8,,True,588.0


# Метод drop, astype
Вы узнаете,  как удалять строки и столбцы и как менять тип данных столбца. Как правило это делают чтобы упростить работу с данными и сократить объем занимаемой памяти.

Создадим DataFrame в нём пять строк и три столбца метод 

In [53]:
df=pd.DataFrame(data=np.random.randint(4,10, size=(5,3)),
               columns=['col_1', 'col_2', 'col_3'],
               index=['row_1','row_2','row_3','row_4','row_5'])
df

Unnamed: 0,col_1,col_2,col_3
row_1,4,5,9
row_2,9,4,7
row_3,6,8,6
row_4,8,9,4
row_5,7,4,6


### drop - это метод для удаления строк и столбцов он имеет следующие аргументы 
### 1-labels
### 2-axis
### 3-index
### 4-columns
### 5-inplace


первые два аргумента - это labels и axis указывает на то что будем удалять если передать ноль и удаляется строк если передать единицу то будут удаляться столбцы по умолчанию стоит ноль . Писать аргумент labels в принципе не обязательно можно сразу первым аргументом передавать значение. В данном случае строки которую хотим удалить.


In [60]:
df.drop(labels='row_1') #Выполним эту ячейку и видим что строка row_1 была удалена 

Unnamed: 0,col_1,col_2,col_3
row_2,9,4,7
row_3,6,8,6
row_4,8,9,4
row_5,7,4,6


может передавать список со значением в этом случае строки row_1,row_3 были удалены при этом исходный DataFrame не изменился


In [57]:
df.drop(['row_1', 'row_3']) 

Unnamed: 0,col_1,col_2,col_3
row_2,9,4,7
row_4,8,9,4
row_5,7,4,6


Если нам нужно удалить столбцы для этого в аргумент axis передаем единицу в списке указываем столбцы которые хотим удалить, как итог столбцы col_2 и col_3 были удалены


In [59]:
df.drop(['col_2', 'col_3'], axis=1)

Unnamed: 0,col_1
row_1,4
row_2,9
row_3,6
row_4,8
row_5,7


Рассмотрим следующие два аргумента index и columns.

В аргумент индекс передаются имена или индексы строк которые нужно удалить в аргумент имена или метки столбцов можно передавать как один элемент ,так и список с нужными элементами. 


In [61]:
df.drop(index='row_1')

Unnamed: 0,col_1,col_2,col_3
row_2,9,4,7
row_3,6,8,6
row_4,8,9,4
row_5,7,4,6


In [63]:
df.drop(columns=['col_2', 'col_3']) 

Unnamed: 0,col_1
row_1,4
row_2,9
row_3,6
row_4,8
row_5,7


Также можно комбинировать в результате третья строка и третий столбец были удалены , но напомню при этом сам DataFrame не был изменён . Данный метод нам вернул новый DataFrame.



In [64]:
df.drop(columns=['col_3'], index=['row_3']) 

Unnamed: 0,col_1,col_2
row_1,4,5
row_2,9,4
row_4,8,9
row_5,7,4


In [65]:
df

Unnamed: 0,col_1,col_2,col_3
row_1,4,5,9
row_2,9,4,7
row_3,6,8,6
row_4,8,9,4
row_5,7,4,6


Для того чтобы все изменения по исходному DataFrame нужно воспользоваться значения inplace и передать True. В результате этот метод нам уже ничего не возвращает , но исходный DataFrame был изменён.

In [66]:
df.drop(columns=['col_3'], index=['row_3'], inplace=True) 

In [67]:
df

Unnamed: 0,col_1,col_2
row_1,4,5
row_2,9,4
row_4,8,9
row_5,7,4


Метода astype - с помощью этого метода мы можем менять тип данных столбцах 

In [80]:
df['col_3']=np.random.uniform(5,10,4)

In [81]:
df

Unnamed: 0,col_1,col_2,col_3
row_1,4,5,9.270164
row_2,9,4,6.154074
row_4,8,9,6.262897
row_5,7,4,8.161292


In [82]:
df.dtypes

col_1      int64
col_2      int64
col_3    float64
dtype: object

Мы видим какой тип данных имеет каждый столбец с помощью метода memory_usage можно посмотреть какой объём памяти в байтах выделяется под каждый столбец

In [83]:
df.memory_usage()

Index    204
col_1     32
col_2     32
col_3     32
dtype: int64

Для  первых двух это очень много давайте с помощью метода astype поменять тип данных в столбце col_1, col_2 на in8(может содержать только числа от -128 до 127). Мы должны передать словарь ключом здесь является метка столбца о значении ключа - это новый тип в данном столбце данный метод не меняет исходный а возвращает новый измененными типами данных. 

Выполним эту ячейку и посмотрим какой же теперь тип данных столбцах и какой объём памяти они занимают. Видно что типы данных поменялись и объём памяти они занимают меньше, но важно учитывать то что если это сделать там где неуместно можно столкнуться с потерей данных.


In [85]:
new_df=df.astype({'col_1':np.int8,
           'col_2':np.int8})

In [88]:
new_df.dtypes, new_df.memory_usage() 

(col_1       int8
 col_2       int8
 col_3    float64
 dtype: object,
 Index    204
 col_1      4
 col_2      4
 col_3     32
 dtype: int64)