In [1]:
import pandas as pd
import numpy as np

In [2]:
pd.__version__

'0.23.0'

## Series(Py_WP p.131)

In [3]:
# Одномерный массив
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

In [4]:
data.values # Возвращает массив Numpy  

array([0.25, 0.5 , 0.75, 1.  ])

In [5]:
data.index # массивоподобный объект pd.Index

RangeIndex(start=0, stop=4, step=1)

In [6]:
print(data[1])
print(data[1:3])

0.5
1    0.50
2    0.75
dtype: float64


In [7]:
# объект Series более гибкий чем одномерны массив Numpy
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
print(data)

print(data['c'])

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64
0.75


In [8]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=[2, 500, 'c', 200])
print(data)
print(data[500])

2      0.25
500    0.50
c      0.75
200    1.00
dtype: float64
0.5


In [9]:
# Создание объекта Series из словаря
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}

population = pd.Series(population_dict)  # из словаря
print(population)
print()
print(population['California'])
print()
print(population['California': 'Illinois'])


California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

38332521

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64


In [10]:
pd.Series(5, index=[10, 20, 30])    #  данные могут быть простоскалярным значением, котрое продублируется для каждого значения

10    5
20    5
30    5
dtype: int64

In [11]:
print(pd.Series({2:'a', 3:'b', 1:'c'}))    # index это ключ словаря и он сортируется, если это число
print()
print(pd.Series({2:'a', 3:'b', 1:'c'}, index=[2, 3])) # Индекс можно указать вручную

2    a
3    b
1    c
dtype: object

2    a
3    b
dtype: object


#  Dataframe

In [12]:
# Создаем еще один объект Series
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297, 'Florida': 170312, 'Illinois': 149995}
area = pd.Series(area_dict)
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

In [13]:
# Создаем объект DataFrame из двух объектов Series
states = pd.DataFrame({'population': population,
                       'area': area})
states

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


In [14]:
# Можем просматривать его индексы
print(states.index)   # Объект Index
# Или названия колонок
print(states.columns)

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')
Index(['population', 'area'], dtype='object')


In [15]:
states['population'] # возвращает объект Series

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
Name: population, dtype: int64

In [16]:
# Создание объекта DataFrame из одного объекта Series
pd.DataFrame(population, columns=['population'])

Unnamed: 0,population
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


In [17]:
# СОздание из списка словарей
data = pd.DataFrame({'a': i, 'b': i ** 3} 
                    for i in range(3))
print(data.shape, data.ndim, data.dtypes, sep='\n')
data

(3, 2)
2
a    int64
b    int64
dtype: object


Unnamed: 0,a,b
0,0,0
1,1,1
2,2,8


In [18]:
# При отсутствии некоторых данных они заполняются NaN
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 14}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,14.0


In [19]:
# Создание из двумерного массива NumPy
pd.DataFrame(np.random.randint(2, 3),
             columns=['a', 'b', 'd'],
             index=['my', 'col'])

Unnamed: 0,a,b,d
my,2,2,2
col,2,2,2


In [20]:
# Создание из структурированного масиива NumPy
A = np.zeros(3, dtype=[('A', 'i8'), ('B', 'f8')])
print(A)
pd.DataFrame(A)


[(0, 0.) (0, 0.) (0, 0.)]


Unnamed: 0,A,B
0,0,0.0
1,0,0.0
2,0,0.0


# Index

In [21]:
ind = pd.Index([2, 3, 5, 8, 10])
ind

Int64Index([2, 3, 5, 8, 10], dtype='int64')

In [22]:
ind[1]

3

In [23]:
ind[::2]

Int64Index([2, 5, 10], dtype='int64')

In [24]:
print(ind.size, ind.shape, ind.ndim, ind.dtype)

5 (5,) 1 int64


In [25]:
try:
    ind[0] = 1 # Индексы не изменяемы
except TypeError as e:
    print(e)

TypeError: Index does not support mutable operations

In [26]:
# Index как упорядочное множество
ind2 = pd.Index([1, 2, 3, 4, 5])
print(ind)
print(ind2)
print()
print(ind & ind2, 'пересечение')
print(ind | ind2, 'объединение')
print(ind ^ ind2, 'симетричная разность')

Int64Index([2, 3, 5, 8, 10], dtype='int64')
Int64Index([1, 2, 3, 4, 5], dtype='int64')

Int64Index([2, 3, 5], dtype='int64') пересечение
Int64Index([1, 2, 3, 4, 5, 8, 10], dtype='int64') объединение
Int64Index([1, 4, 8, 10], dtype='int64') симетричная разность


# Индексация

### Series

In [27]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [28]:
# как словарь python
print(data['b'])
print('c' in data)
print(data.keys(), data.index)
print(list(data.items()))

0.5
True
Index(['a', 'b', 'c', 'd'], dtype='object') Index(['a', 'b', 'c', 'd'], dtype='object')
[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]


In [29]:
# Можно модифицировать
data['e'] = 1.25
data

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

In [30]:
data['a': 'c'] # Срез с помощью ЯВНОГО индекса

a    0.25
b    0.50
c    0.75
dtype: float64

In [31]:
data[0: 2]   # Срез посредством НЕЯВНОГО целочисленного индекса
# Вывод различается!!!!! не смотря на одинаковые индексы
# т.к. ЯВНЫЙ - включает закрывающий индекс в выборку,
# а    НЕЯВНЫЙ - его исключает

a    0.25
b    0.50
dtype: float64

In [32]:
# маскирование
data[(data > 0.25) & (data < 0.8)]

b    0.50
c    0.75
dtype: float64

In [33]:
# прихотливая инедксация
data[['e', 'a']]

e    1.25
a    0.25
dtype: float64

## loc, iloc, ix

In [37]:
data = pd.Series(['a', 'b', 'c', 'd'], index=[1, 2, 3, 4]) 
print(data)
print(data[1], "      -       явная индексация")   # использование явного индекса при простой индексации
print(data[1:3], " - неявная индексация") # НО при использовании срезов - неявная индексация

1    a
2    b
3    c
4    d
dtype: object
a       -       явная индексация
2    b
3    c
dtype: object  - неявная индексация


In [39]:
# loc, iloc, ix чпециальные атрибуты индесаторы
print(data.loc[1])      
print(data.loc[1:3])    # позволяет жестко задать тип индексации как явный

a
1    a
2    b
3    c
dtype: object


In [40]:
print(data.iloc[1])    # неявный
print(data.iloc[1:3])

b
2    b
3    c
dtype: object


In [41]:
# ix для их комбинирования. Возможно использовать в DataFrame

### DataFrame

In [42]:
states

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


In [44]:
data = pd.DataFrame({'area': states['area'], 'pop': states.population})
data

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


In [45]:
data['pop'] # индексация как в словаре - возвращает отдельный объект Series

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
Name: pop, dtype: int64

In [46]:
data.area # индексация с помщью атрибутов
# НО при такой индексации нельзя чтобы названия стобцов совпадали с методами DataFrame
# Например вызове pop будет использован метод DataFrame.pop()

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

In [47]:
data.area is data['area']

True

In [49]:
# присвоение как в словаре
data['density'] = data['pop'] / data['area']  # Лучше использовать словарный синтаксис, а не атрибуты(безопаснее)
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


In [50]:
data.values # Возвращает массив данных

array([[4.23967000e+05, 3.83325210e+07, 9.04139261e+01],
       [6.95662000e+05, 2.64481930e+07, 3.80187404e+01],
       [1.41297000e+05, 1.96511270e+07, 1.39076746e+02],
       [1.70312000e+05, 1.95528600e+07, 1.14806121e+02],
       [1.49995000e+05, 1.28821350e+07, 8.58837628e+01]])

In [51]:
# мы можем выполнять привычные для массивов операции над объектом DataFrame
data.T

Unnamed: 0,California,Texas,New York,Florida,Illinois
area,423967.0,695662.0,141297.0,170312.0,149995.0
pop,38332520.0,26448190.0,19651130.0,19552860.0,12882140.0
density,90.41393,38.01874,139.0767,114.8061,85.88376


In [56]:
data.values[0] # при индексации по отдельному индексу в массиве NumPy обращаемся к строкам

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

In [72]:
data['area']  # А в DataFrame к столбцам

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

In [73]:
data.iloc[:3, 1:]   # неявная индексация 

Unnamed: 0,pop,density
California,38332521,90.413926
Texas,26448193,38.01874
New York,19651127,139.076746


In [75]:
data.loc['New York':, 'pop':]  # явная индексация

Unnamed: 0,pop,density
New York,19651127,139.076746
Florida,19552860,114.806121
Illinois,12882135,85.883763


In [77]:
data.ix[:3, :'pop'] # Но видим не стоит его использовать

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  """Entry point for launching an IPython kernel.


Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127


In [83]:
data.loc[data.density < 100, ['pop', 'area']]

Unnamed: 0,pop,area
California,38332521,423967
Texas,26448193,695662
Illinois,12882135,149995


In [84]:
# можно изменять значения с помощью любого синтаксиса
data.iloc[0, 2] = 90
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.0
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


In [85]:
# индексация по столбцам, но срезы по строкам
data['California': 'New York']

Unnamed: 0,area,pop,density
California,423967,38332521,90.0
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746


In [86]:
data[1:3]

Unnamed: 0,area,pop,density
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746


In [87]:
data[data.density < 100]

Unnamed: 0,area,pop,density
California,423967,38332521,90.0
Texas,695662,26448193,38.01874
Illinois,149995,12882135,85.883763
