In [1]:
import numpy as np
import pandas as pd

## Pandas -  библиотека для работы с данными

In [5]:
data = pd.read_csv("data/president_heights.csv")
data.head()

Unnamed: 0,order,name,height(cm)
0,1,George Washington,189
1,2,John Adams,170
2,3,Thomas Jefferson,189
3,4,James Madison,163
4,5,James Monroe,183


In [7]:
data["order"][:5]

0    1
1    2
2    3
3    4
4    5
Name: order, dtype: int64

- Объект класса (типа) **Series**

In [8]:
# Series 1-мерный массив индексированных данных
s1 = pd.Series([10,20,30,40])
s1

0    10
1    20
2    30
3    40
dtype: int64

In [9]:
# значения 
s1.values

array([10, 20, 30, 40], dtype=int64)

In [13]:
data["name"].values

array(['George Washington', 'John Adams', 'Thomas Jefferson',
       'James Madison', 'James Monroe', 'John Quincy Adams',
       'Andrew Jackson', 'Martin Van Buren', 'William Henry Harrison',
       'John Tyler', 'James K. Polk', 'Zachary Taylor',
       'Millard Fillmore', 'Franklin Pierce', 'James Buchanan',
       'Abraham Lincoln', 'Andrew Johnson', 'Ulysses S. Grant',
       'Rutherford B. Hayes', 'James A. Garfield', 'Chester A. Arthur',
       'Benjamin Harrison', 'William McKinley', 'Theodore Roosevelt',
       'William Howard Taft', 'Woodrow Wilson', 'Warren G. Harding',
       'Calvin Coolidge', 'Herbert Hoover', 'Franklin D. Roosevelt',
       'Harry S. Truman', 'Dwight D. Eisenhower', 'John F. Kennedy',
       'Lyndon B. Johnson', 'Richard Nixon', 'Gerald Ford',
       'Jimmy Carter', 'Ronald Reagan', 'George H. W. Bush',
       'Bill Clinton', 'George W. Bush', 'Barack Obama'], dtype=object)

In [14]:
# индексы
data["order"].index

RangeIndex(start=0, stop=42, step=1)

In [15]:
for idx in data["order"].index:
    print(idx)
    if idx ==5:
        break

0
1
2
3
4
5


In [16]:
# Атрибуты numpy 
data["order"].shape, data["order"].dtype, data["order"].nbytes

((42,), dtype('int64'), 336)

In [17]:
# чтение данных
data["name"][0]

'George Washington'

In [18]:
names = data["name"]
names[10:20]



10          James K. Polk
11         Zachary Taylor
12       Millard Fillmore
13        Franklin Pierce
14         James Buchanan
15        Abraham Lincoln
16         Andrew Johnson
17       Ulysses S. Grant
18    Rutherford B. Hayes
19      James A. Garfield
Name: name, dtype: object

In [19]:
# явные индексы
d1 = {10:100, 5:200, 0:50}
s2 = pd.Series(d1)
s2

10    100
5     200
0      50
dtype: int64

In [20]:
# по умолчанию работают явные индексы
s2[0]

50

In [22]:
# Символьные явные индексы
d2 = {'D':100, 'G':200, 'phyton':50}
s3 = pd.Series(d2)
s3

D         100
G         200
phyton     50
dtype: int64

In [23]:
s3["phyton"]

50

In [24]:
# не явные индексы
# iloc - атрибут- индексатор для работы с неявными индексами
s3.iloc[0]

100

In [25]:
s3.iloc[:2]

D    100
G    200
dtype: int64

In [26]:
# Последовательность  с городами Якутии
pop_dict ={
    "Якутск": 318768,
    "Нерюнгри": 57009,
    "Вилюйск": 11095
}
pop_series = pd.Series(pop_dict)
pop_series

Якутск      318768
Нерюнгри     57009
Вилюйск      11095
dtype: int64

In [None]:
# вывести население какого-либо города
# Срез от Нерюнгри до Вилюйска (срез по явным индексам)

In [27]:
pop_series["Нерюнгри"]

57009

In [28]:
pop_series["Нерюнгри":]

Нерюнгри    57009
Вилюйск     11095
dtype: int64

In [29]:
# когда срез выполняется с явными индексами , то последний индекс ВКЛЮЧАЕТСЯ в срез
pop_series["Нерюнгри":"Вилюйск"]

Нерюнгри    57009
Вилюйск     11095
dtype: int64

In [30]:
pop_series.iloc[1:2]

Нерюнгри    57009
dtype: int64

- Объект класса (типа) **DataFrame**

In [31]:
# Многомерный массив (таблица)
d3 ={
    "col_1":{"row_1":100, "row_2":200},
    "col_2":{"row_2":300, "row_3":400}
}
df1 = pd.DataFrame(d3)
df1

Unnamed: 0,col_1,col_2
row_1,100.0,
row_2,200.0,300.0
row_3,,400.0


In [32]:
# NaN - Not a Number 


In [33]:
# данные по площадям городов
area_series = pd.Series({
    "Якутск": 122,
    "Вилюйск": 15,
    "Нерюнгри": 98.9
       
})
area_series

Якутск      122.0
Вилюйск      15.0
Нерюнгри     98.9
dtype: float64

In [38]:
ykt_data = pd.DataFrame({
    "Население": pop_series,
    "Площадь": area_series
})
ykt_data

Unnamed: 0,Население,Площадь
Вилюйск,11095,15.0
Нерюнгри,57009,98.9
Якутск,318768,122.0


In [36]:
# Индексация
ykt_data["Население"]

Вилюйск      11095
Нерюнгри     57009
Якутск      318768
Name: Население, dtype: int64

In [39]:
# добавление новых данных
# Loc- атрибут индексатор для явных индексов
ykt_data.loc["Тикси","Население" ] = 4000
ykt_data

Unnamed: 0,Население,Площадь
Вилюйск,11095.0,15.0
Нерюнгри,57009.0,98.9
Якутск,318768.0,122.0
Тикси,4000.0,


In [40]:
ykt_data.loc[:"Якутск","Население"]

Вилюйск      11095.0
Нерюнгри     57009.0
Якутск      318768.0
Name: Население, dtype: float64