### Series

In [7]:
import pandas as pd
import numpy as np

# series - одномерный массив с метками (индексом)
my_series = pd.Series([1,3,5,4,2,0,7])
my_series

0    1
1    3
2    5
3    4
4    2
5    0
6    7
dtype: int64

In [8]:
my_series.index

RangeIndex(start=0, stop=7, step=1)

In [9]:
my_series.values

array([1, 3, 5, 4, 2, 0, 7])

In [10]:
my_series_2 = pd.Series([1,3,5,4,2,0,7], index = ['a','b','c','d','e','f','g'])
print(my_series_2)

a    1
b    3
c    5
d    4
e    2
f    0
g    7
dtype: int64


In [11]:
# Обращение к элементам идет по индексу
my_series[[4]]

4    2
dtype: int64

In [12]:
my_series_2[[4]]

e    2
dtype: int64

In [13]:
my_series_2[['a']]

a    1
dtype: int64

In [15]:
my_series_2[['a','b','d']]=0
my_series_2

a    0
b    0
c    5
d    0
e    2
f    0
g    7
dtype: int64

In [16]:
my_series_2[my_series_2>0]

c    5
e    2
g    7
dtype: int64

In [17]:
my_series_3 = pd.Series({'a': 1, 'b': 3, 'c': 2, 'd': 4, 'e': 5})
print(my_series_3)

a    1
b    3
c    2
d    4
e    5
dtype: int64


In [18]:
my_series_3.name = 'numbers'
my_series_3.index.name = 'letters'

In [19]:
my_series_3

letters
a    1
b    3
c    2
d    4
e    5
Name: numbers, dtype: int64

In [20]:
my_series_3.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object', name='letters')

### DataFrame

In [23]:
# DataFrame представляет собой табличную структуру
df = pd.DataFrame({
                    'country': ['Kazahstan', 'Russia', 'Belarus', 'Ukrain'], 
                    'population': [17.03, 143.2, 9.5 , 45.5], 
                    'square': [272, 1712, 207, 603]
                    })
print(df)

     country  population  square
0  Kazahstan       17.03     272
1     Russia      143.20    1712
2    Belarus        9.50     207
3     Ukrain       45.50     603


In [24]:
# каждый столбец Pandas DataFrame представляет собой Series
df['country']

0    Kazahstan
1       Russia
2      Belarus
3       Ukrain
Name: country, dtype: object

In [25]:
df.country

0    Kazahstan
1       Russia
2      Belarus
3       Ukrain
Name: country, dtype: object

In [26]:
type(df.country)

pandas.core.series.Series

In [27]:
df.index=['KZ', 'RU', 'BY', 'UA']

In [28]:
df

Unnamed: 0,country,population,square
KZ,Kazahstan,17.03,272
RU,Russia,143.2,1712
BY,Belarus,9.5,207
UA,Ukrain,45.5,603


In [29]:
ml = pd.read_csv('./meteorite-landings.csv', sep = ',')
ml.tail()

Unnamed: 0,name,id,nametype,recclass,mass,fall,year,reclat,reclong,GeoLocation
45711,Zillah 002,31356,Valid,Eucrite,172.0,Found,1990.0,29.037,17.0185,"(29.037000, 17.018500)"
45712,Zinder,30409,Valid,"Pallasite, ungrouped",46.0,Found,1999.0,13.78333,8.96667,"(13.783330, 8.966670)"
45713,Zlin,30410,Valid,H4,3.3,Found,1939.0,49.25,17.66667,"(49.250000, 17.666670)"
45714,Zubkovsky,31357,Valid,L6,2167.0,Found,2003.0,49.78917,41.5046,"(49.789170, 41.504600)"
45715,Zulu Queen,30414,Valid,L3.7,200.0,Found,1976.0,33.98333,-115.68333,"(33.983330, -115.683330)"


In [30]:
mailru = pd.read_html('https://mail.ru')
mailru

[                                                   0                1
 0  Mail.ruПочтаМой МирОдноклассникиВКонтактеИгрыЗ...  РегистрацияВход,
     0      1
 0 NaN  выход,
                  0
 0  РегистрацияВход,
          0                1      2     3     4     5     6        7
 0  Новости  Санкт-Петербург  Спорт  Авто  Кино  Леди  Игры  Hi-Tech,
                                                    0  \
 0  Погода+1, вечером +1завтра -2mr.counter('d1265...   
 
                                                    1  \
 0  Торги ММВБ$68.79−0.16€72.80−0.75mr.counter('d6...   
 
                                                    2  
 0  ГороскопыВодолей — сегодня вам будет особенно ...  ,
               0                                        1  \
 0  ТВ программа  Нефть84.10+1.27mr.counter('d12403154');   
 
                              2  
 0  Начните делать добрые дела!  ]

In [31]:
# Если размер данных очень большой и целиком не помещается в память, можно задать чтение чанками
c_size = 10000

for gm_chunk in pd.read_csv('./meteorite-landings.csv', sep = ',', chunksize=c_size):
    print(gm_chunk.shape)

(10000, 10)
(10000, 10)
(10000, 10)
(10000, 10)
(5716, 10)


In [32]:
gm_chunk.columns

Index(['name', 'id', 'nametype', 'recclass', 'mass', 'fall', 'year', 'reclat',
       'reclong', 'GeoLocation'],
      dtype='object')

### Экспорт данных


In [33]:
# df.to_csv(filename)
# df.to_excel(filename)
# df.to_json(filename)

### Доступ к данным

Доступ к строкам осуществляется 2 способами:
1) .loc - используется для доступа к строковой метке
2) .iloc - используется для доступа по числовому значению, начиная с нуля

In [35]:
df.loc['KZ']

country       Kazahstan
population        17.03
square              272
Name: KZ, dtype: object

In [36]:
df.iloc[0]

country       Kazahstan
population        17.03
square              272
Name: KZ, dtype: object

In [39]:
df.columns

Index(['country', 'population', 'square'], dtype='object')

In [41]:
# индекс + колонки
# сначала указываем строки, затем столбцы
df.loc[['KZ','RU'], 'population']

KZ     17.03
RU    143.20
Name: population, dtype: float64

In [42]:
df.iloc[[0,1],1]

KZ     17.03
RU    143.20
Name: population, dtype: float64

In [43]:
# условия для фильтрации, указывается в первых квадратных скобках
df[df.population>10][['country','square']]

Unnamed: 0,country,square
KZ,Kazahstan,272
RU,Russia,1712
UA,Ukrain,603


In [45]:
df[df.population>10]

Unnamed: 0,country,population,square
KZ,Kazahstan,17.03,272
RU,Russia,143.2,1712
UA,Ukrain,45.5,603


In [47]:
# более сложные фильтры с несколькими условиями
df[(df.square > 10) & (df.country == 'Russia')][['country', 'square']]

Unnamed: 0,country,square
RU,Russia,1712


In [50]:
# на практике задаются фильтры
filters = (df.country == 'Russia') & (df.square>10)
col_names = ['country', 'square']
print(df[filters],'\n')
print(df[filters][col_names])

   country  population  square
RU  Russia       143.2    1712 

   country  square
RU  Russia    1712
