<h1>Переиндексация</h1>

In [1]:
import pandas as pd
import numpy as np

obj = pd.Series([4.5,7.2,-5.3,3.6], index=['d', 'b', 'a', 'c'])
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

In [2]:
obj2 = obj.reindex(['a','b','c','d','e'])
obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

In [3]:
obj3 = pd.Series(['blue','purple','yellow'], index=[0,2,4])
obj3

0      blue
2    purple
4    yellow
dtype: object

In [4]:
obj3.reindex(range(6), method='ffill')

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

In [5]:
frame = pd.DataFrame(np.arange(9).reshape((3, 3)),index=['a', 'c', 'd'],columns=['Ohio', 'Texas', 'California'])
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [6]:
frame2 = frame.reindex(['a','b','c','d'])
frame2

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


In [7]:
states = ['Texas', 'Utah', 'California']
frame.reindex(columns=states)

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


In [8]:
frame.index

Index(['a', 'c', 'd'], dtype='object')

In [9]:
frame.loc[['a','c','d'], states]

KeyError: "['Utah'] not in index"

<h1>Задание 1</h1>

index (индекс): Новый индекс, который будет применен к объекту.

method (метод): Метод интерполяции для заполнения отсутствующих значений. Доступные значения: None (по умолчанию), pad/ffill, backfill/bfill, nearest.

fill_value (значение заполнения): Значение, которым будут заполнены отсутствующие значения.

limit (лимит): Максимальное количество последовательных отсутствующих значений, которые будут заполнены при использовании метода интерполяции.

tolerance (толерантность): Максимальное расстояние между значениями в индексе, чтобы считаться "близкими" и быть сопоставленными при переиндексации.

level (уровень): Уровень в мультииндексе, на котором будет производиться переиндексация.

copy (копия): Булевое значение, указывающее, следует ли создать копию объекта при переиндексации.

In [10]:
import pandas as pd

data = {'A': [1, 2, 3], 'B': [4, 5, 6]}
df = pd.DataFrame(data, index=['a', 'b', 'c'])

new_index = ['a', 'b', 'c', 'd']
df_reindexed = df.reindex(index=new_index)

print(df_reindexed)

     A    B
a  1.0  4.0
b  2.0  5.0
c  3.0  6.0
d  NaN  NaN


In [11]:
import pandas as pd

data = {'A': [1, 2, 3, 4], 'B': [4, 5, 61, 6]}
df = pd.DataFrame(data)

df_reindexed = df.reindex(index=[0, 1, 2, 3, 4], method='ffill')

print(df_reindexed)


   A   B
0  1   4
1  2   5
2  3  61
3  4   6
4  4   6


In [114]:
import pandas as pd

data = {'A': [1, None, 3, 4], 'B': [4, None, None, 7]}
df = pd.DataFrame(data)

df_reindexed = df.reindex(index=[0, 1, 2, 3, 4], fill_value=0)

print(df_reindexed)


     A    B
0  1.0  4.0
1  NaN  NaN
2  3.0  NaN
3  4.0  7.0
4  0.0  0.0


In [15]:
import pandas as pd

data = {'A': [1, None, None, 4, 5], 'B': [5, 6, None, None, 9]}
df = pd.DataFrame(data)

df_reindexed = df.reindex(index=[0, 1, 2, 3, 4], limit=1)

print(df_reindexed)

     A    B
0  1.0  5.0
1  NaN  6.0
2  NaN  NaN
3  4.0  NaN
4  5.0  9.0


In [16]:
import pandas as pd

data = {'A': [1, None, None, 4, 5], 'B': [5, 6, None, None, 9]}
df = pd.DataFrame(data)

df_reindexed = df.reindex(index=[0, 1, 2, 3, 4], tolerance=1)

print(df_reindexed)

     A    B
0  1.0  5.0
1  NaN  6.0
2  NaN  NaN
3  4.0  NaN
4  5.0  9.0


In [17]:
import pandas as pd

data = {'A': [1, None, None, 4], 'B': [5, 6, None, None]}
df = pd.DataFrame(data, index=[('x', 'a'), ('x', 'b'), ('y', 'c'), ('y', 'd')])

df_reindexed = df.reindex(index=[('x', 'a'), ('y', 'c')], level=0)

print(df_reindexed)


AssertionError: 

In [19]:
import pandas as pd

data = {'A': [1, None, None, 4], 'B': [4, None, None, 7]}
df = pd.DataFrame(data)

df_reindexed = df.reindex(index=[0, 1, 2, 3], copy=True)

print(df_reindexed)


     A    B
0  1.0  4.0
1  NaN  NaN
2  NaN  NaN
3  4.0  7.0


<h1>Удаление элементов из оси</h1>

In [20]:
import pandas as pd
import numpy as np

obj = pd.Series(np.arange(5.), index=['a', 'b','c', 'd','e'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [21]:
new_obj = obj.drop('c')
new_obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [22]:
obj.drop(['d', 'c'])

a    0.0
b    1.0
e    4.0
dtype: float64

In [23]:
data = pd.DataFrame(np.arange(16).reshape((4,4)),
                    index=['Ohio', 'Colorado', 'Utah','New York'],
                    columns = ['one','two','three','four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [24]:
data.drop(['Colorado', 'Ohio'])

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


In [25]:
data.drop('two',axis=1)

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


In [26]:
data.drop(['two','four'], axis='columns')

Unnamed: 0,one,three
Ohio,0,2
Colorado,4,6
Utah,8,10
New York,12,14


In [27]:
obj.drop('d', inplace=True)
obj

a    0.0
b    1.0
c    2.0
e    4.0
dtype: float64

<h1>Доступ по индексу, выборка и фильтрация</h1>

In [28]:
import pandas as pd
import numpy as np 

obj = pd.Series(np.arange(4.), index=['a','b','c','d'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

In [29]:
obj['b']

1.0

In [30]:
obj[1]

1.0

In [31]:
obj[2:4]

c    2.0
d    3.0
dtype: float64

In [32]:
obj[['b','a','d']]

b    1.0
a    0.0
d    3.0
dtype: float64

In [33]:
obj[[1,3]]

b    1.0
d    3.0
dtype: float64

In [34]:
obj[obj < 2]

a    0.0
b    1.0
dtype: float64

In [35]:
obj['b':'c']

b    1.0
c    2.0
dtype: float64

In [36]:
obj['b':'c'] = 5
obj

a    0.0
b    5.0
c    5.0
d    3.0
dtype: float64

In [37]:
data = pd.DataFrame(np.arange(16).reshape((4,4)),
                   index=['Ohio', 'Colorado', 'Utah','New York'],
                   columns= ['one', 'two', 'three','four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [38]:
data['two']

Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int32

In [39]:
data[['three','two']]

Unnamed: 0,three,two
Ohio,2,1
Colorado,6,5
Utah,10,9
New York,14,13


In [40]:
data[:2]

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


In [41]:
data[data['three'] > 5]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [42]:
data < 5

Unnamed: 0,one,two,three,four
Ohio,True,True,True,True
Colorado,True,False,False,False
Utah,False,False,False,False
New York,False,False,False,False


In [43]:
data[data < 5] = 0
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


<h1>Выборка с помощью loc и iloc</h1>

In [44]:
data.loc['Colorado', ['two', 'three']]

two      5
three    6
Name: Colorado, dtype: int32

In [45]:
data.iloc[2, [3,0,1]]

four    11
one      8
two      9
Name: Utah, dtype: int32

In [46]:
data.iloc[[1,2], [3,0,1]]

Unnamed: 0,four,one,two
Colorado,7,0,5
Utah,11,8,9


In [47]:
data.loc[:'Utah', 'two']

Ohio        0
Colorado    5
Utah        9
Name: two, dtype: int32

In [48]:
data.iloc[:, :3][data.three > 5]

Unnamed: 0,one,two,three
Colorado,0,5,6
Utah,8,9,10
New York,12,13,14


<h1>Задание 2</h1>

df[val]: выбор столбцов по метке или последовательности меток. Возвращает объект Series или DataFrame.

df.loc[val]: выбор по метке строк и столбцов. Возвращает объект Series или DataFrame.

obj.loc[:, val]: выбор по метке столбцов и всего индекса строк. Возвращает объект Series или DataFrame.

df.iloc[val1, val2]: выбор по целочисленному индексу строк и столбцов. Возвращает объект Series или DataFrame.

df.iloc[where]: выбор по булевой маске для индекса строк. Возвращает объект Series или DataFrame.

obj.iloc[:, where]: выбор по булевой маске для индекса столбцов. Возвращает объект Series или DataFrame.

df.loc[where_i, where_j]: выбор по булевой маске для индекса строк и столбцов. Возвращает объект Series или DataFrame.

df.at[label_i, label_j]: выбор отдельного элемента по метке строки и столбца. Возвращает скалярное значение.

df.iat[label_i, label_j]: выбор отдельного элемента по целочисленным индексам строки и столбца. Возвращает скалярное значение.

Метод reindex: переиндексация объекта DataFrame.

Методы get_value и set_value: выбор и изменение отдельных элементов DataFrame по меткам строки и столбца.

In [76]:
import pandas as pd 
import numpy as np

data = pd.DataFrame(np.arange(9).reshape((3,3)),
                    index=['Ohio', 'Colorado', 'Utah'],
                    columns= ['one', 'two', 'three'])
result = data[['one', 'three']]
result

Unnamed: 0,one,three
Ohio,0,2
Colorado,3,5
Utah,6,8


In [77]:
result1 = data.loc[['Ohio', 'Utah'], ['two','three']]
result1

Unnamed: 0,two,three
Ohio,1,2
Utah,7,8


In [78]:
result2 = data.loc[:, ['one', 'three']]
result2

Unnamed: 0,one,three
Ohio,0,2
Colorado,3,5
Utah,6,8


In [79]:
result3 = data.iloc[[0,2],[0,2]]
result3

Unnamed: 0,one,three
Ohio,0,2
Utah,6,8


In [80]:
result4 = data.iloc[data['one'].notnull().values]
result4

Unnamed: 0,one,two,three
Ohio,0,1,2
Colorado,3,4,5
Utah,6,7,8


In [81]:
mask = [True, False, True]
result5 = data.iloc[mask]
result5

Unnamed: 0,one,two,three
Ohio,0,1,2
Utah,6,7,8


In [82]:
result6 = data.iloc[:, mask]
result6

Unnamed: 0,one,three
Ohio,0,2
Colorado,3,5
Utah,6,8


In [83]:
mask_i = [True, False, True]
mask_j = [False, True, False]
result7 = data.loc[mask_i, mask_j]
result7

Unnamed: 0,two
Ohio,1
Utah,7


In [84]:
value = data.at['Colorado', 'two']
value

4

In [85]:
value1 = data.iat[1,1]
value1

4

In [93]:
import pandas as pd

data2 = {'A': [1, 2, 3], 'B': [4, 6, None], 'C': [7, 8, None]}
df2 = pd.DataFrame(data2)

new_index = pd.Index([1,2])
result8 = df2.reindex(new_index)
print(result8)


   A    B    C
1  2  6.0  8.0
2  3  NaN  NaN


In [113]:
value2 = df2._get_value(0,'A')
df2._set_value(0,'C',200000)

print(value2)
df2

2


Unnamed: 0,A,B,C
0,2,2.0,200000.0
1,2,6.0,8.0
2,3,,
