In [3]:
import pandas as pd
import numpy as np

# Индексация и выборка данных 

## Выборка данных из объкта Series

In [4]:
data = pd.Series([0.25, 0.5, 0.75, 1], index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [5]:
print(data['b'])
print('a' in data)
print(data.keys())
print(*data.items())
data['e'] = 1.25
data

0.5
True
Index(['a', 'b', 'c', 'd'], dtype='object')
('a', 0.25) ('b', 0.5) ('c', 0.75) ('d', 1.0)


a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

In [6]:
# срез посредством явного индексса
print(data['a':'c'])
print('----------')
# срез посредством неявного целочисленного индекса
print(data[0:2])
print('----------')
# маскирование
print(data[(data > 0.3) & (data < 0.8)])
print('----------')
# "прихотливая" индексация
print(data[['a', 'e']])

a    0.25
b    0.50
c    0.75
dtype: float64
----------
a    0.25
b    0.50
dtype: float64
----------
b    0.50
c    0.75
dtype: float64
----------
a    0.25
e    1.25
dtype: float64


### Индексаторы: loc, iloc, ix 

In [7]:
data = pd.Series(['a', 'b', 'c'], index=[1, 3, 5])
# loc - индексация и срезы с использованием явного индекса
print(data.loc[[3, 5]])
print('----------')
print(data.loc[1:3])

3    b
5    c
dtype: object
----------
1    a
3    b
dtype: object


In [8]:
data = pd.Series(['a', 'b', 'c'], index=[1, 3, 5])
# iloc - индексация и срезы с использованием неявного индекса
print(data.iloc[2])
print('----------')
print(data.iloc[1:3])

c
----------
3    b
5    c
dtype: object


In [9]:
data = pd.Series(['a', 'b', 'c'], index=[1, 3, 5])
# ix - гибрид loc и iloc (эквивалентен индексации с помощью [])

## Выборка данных из объекта DataFrame 

In [10]:
area = pd.Series({'California': 423967, 'Texas': 695662, 'New York': 141297, 'Florida': 170312, 'Illinois': 149995})
pop = pd.Series({'California': 38332521, 'Texas': 26448193, 'New York': 19651127, 'Florida': 19552860, 'Illinois': 12882135})
data = pd.DataFrame({'area' : area, 'population': pop})
data

Unnamed: 0,area,population
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


In [11]:
print(data['area'])
print('-----------')
print(data.area)
print('-----------')
print(data['area'] is data.area)

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64
-----------
California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64
-----------
True


In [12]:
# рассчитаем плотность
data['density'] = data['population'] / data['area']
data

Unnamed: 0,area,population,density
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


In [13]:
print(data.values) # посмотреть все значения в виде двумерного массива
print('---------')
print(data.T) # транспонировать DataFrame
print('---------')

[[4.23967000e+05 3.83325210e+07 9.04139261e+01]
 [6.95662000e+05 2.64481930e+07 3.80187404e+01]
 [1.41297000e+05 1.96511270e+07 1.39076746e+02]
 [1.70312000e+05 1.95528600e+07 1.14806121e+02]
 [1.49995000e+05 1.28821350e+07 8.58837628e+01]]
---------
              California         Texas      New York       Florida  \
area        4.239670e+05  6.956620e+05  1.412970e+05  1.703120e+05   
population  3.833252e+07  2.644819e+07  1.965113e+07  1.955286e+07   
density     9.041393e+01  3.801874e+01  1.390767e+02  1.148061e+02   

                Illinois  
area        1.499950e+05  
population  1.288214e+07  
density     8.588376e+01  
---------


In [14]:
# доступ к строке:
print(data.values[0])
print('-----------')
# доступ к столбцу:
print(data['area'])

[4.23967000e+05 3.83325210e+07 9.04139261e+01]
-----------
California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64


In [15]:
print(data.iloc[:3, :2])
print('-----------')
print(data.loc[:'Illinois', :'population'])
print('-----------')
# print(data.ix[:2, :'population']) # не работает в последних версиях Pandas

              area  population
California  423967    38332521
Texas       695662    26448193
New York    141297    19651127
-----------
              area  population
California  423967    38332521
Texas       695662    26448193
New York    141297    19651127
Florida     170312    19552860
Illinois    149995    12882135
-----------


In [17]:
print(data)

              area  population     density
California  423967    38332521   90.413926
Texas       695662    26448193   38.018740
New York    141297    19651127  139.076746
Florida     170312    19552860  114.806121
Illinois    149995    12882135   85.883763


In [33]:
# Срезы относятся к строкам
print(data['Texas':'Florida'])
print('----------------------------------------')
# можно ссылаться по номеру строки
print(data[1:4])
print('----------------------------------------')
# операции маскирования интерпретируются построчно
print(data[data.density > 100])

            area  population     density
Texas     695662    26448193   38.018740
New York  141297    19651127  139.076746
Florida   170312    19552860  114.806121
----------------------------------------
            area  population     density
Texas     695662    26448193   38.018740
New York  141297    19651127  139.076746
Florida   170312    19552860  114.806121
----------------------------------------
            area  population     density
New York  141297    19651127  139.076746
Florida   170312    19552860  114.806121


## Выравнивание индексов 

In [39]:
area = pd.Series({'Alaska': 1723337, 'California': 423967, 'Texas': 695662, 'Florida': 170312, 'Illinois': 149995})
population = pd.Series({'California': 38332521, 'Texas': 26448193, 'New York': 19651127, 'Florida': 19552860, 'Illinois': 12882135})
population / area # все остутствующие значения = NaN

Alaska               NaN
California     90.413926
Florida       114.806121
Illinois       85.883763
New York             NaN
Texas          38.018740
dtype: float64

In [38]:
# объединение индексов
area.index | population.index

  area.index | population.index


Index(['Alaska', 'California', 'Florida', 'Illinois', 'New York', 'Texas'], dtype='object')

In [40]:
population.divide(area, fill_value = 0) # заменить все остутствующие значения с NaN на 0

Alaska          0.000000
California     90.413926
Florida       114.806121
Illinois       85.883763
New York             inf
Texas          38.018740
dtype: float64

In [62]:
A = pd.DataFrame(np.random.randint(0, 20, (2, 2)), columns=list("AB"))
A

Unnamed: 0,A,B
0,12,0
1,13,15


In [65]:
B = pd.DataFrame(np.random.randint(0, 20, (3, 3)), columns=list("BAC"))
B

Unnamed: 0,B,A,C
0,19,15,12
1,7,13,16
2,7,2,6


In [66]:
A + B

Unnamed: 0,A,B,C
0,27.0,19.0,
1,26.0,22.0,
2,,,


In [69]:
fill = A.stack().mean() # среднее значение A
print(f"fill = {fill}")
A.add(B, fill_value = fill)

fill = 10.0


Unnamed: 0,A,B,C
0,27.0,19.0,22.0
1,26.0,22.0,26.0
2,12.0,17.0,16.0


Операторы Pandas:
+ add()
- sub(), subtract()
* mul(), multiply()
/ truediv(), div(), divide()
// floordiv()
% mod()
** pow()