# Семинар 3
## Работа с данными в Python. Pandas

### Основы работы с Pandas
Pandas - это библиотека, основанная на NumPy, которая предоставляет легкие в применении структуры данных и инструменты для анализа данных.  
Рассмотрим такую структуру данных, как Series.  
**Series** - это маркированный одномерный массив, который может хранить данные любого типа. Похож на HashMap.
**ВНИМАНИЕ: для перед выполнением каждого последующего кода следует запустить предыдущие как минимум 1 раз для инициализации переменных в памяти виртуальной среды.**


In [1]:
import pandas as pd

series = pd.Series([1, 0, -5, 10], index=['a', 'b', 'c', 'd'])
print(series)

a     1
b     0
c    -5
d    10
dtype: int64


**Data Frame** - это маркированная двумерная структура данных, где в разных колонках могут быть совершенно разные типы данных. 

In [2]:
data = {'Country': ['Belgium', 'India', 'Brazil', 'Russia'],
        'Capital': ['Brussels', 'New Delhi', 'Brasilia', 'Moscow'],
        'Population': [11190846, 1303171035, 207847528, 145963367]}
data_frame = pd.DataFrame(data,
                          columns=['Country', 'Capital', 'Population'])
print(data_frame)

   Country    Capital  Population
0  Belgium   Brussels    11190846
1    India  New Delhi  1303171035
2   Brazil   Brasilia   207847528
3   Russia     Moscow   145963367


С этими структурами данных можно проводить разные операции. Рассмотрим самые обычные операции выборки:

In [3]:
c_element = series['c']
print("Элемент c из серии: %s" % c_element)

selection = data_frame[-2:]
print("\nПоследние 2 элемента Data Frame: \n%s" % selection)

more_than_200_million_pop = data_frame[data_frame['Population'] > 200_000_000]
print("\nГорода с населением больше 200,000,000: \n%s" % more_than_200_million_pop)



Элемент c из серии: -5

Последние 2 элемента Data Frame: 
  Country   Capital  Population
2  Brazil  Brasilia   207847528
3  Russia    Moscow   145963367

Города с населением больше 200,000,000: 
  Country    Capital  Population
1   India  New Delhi  1303171035
2  Brazil   Brasilia   207847528


В целом работа с массивами в pandas почти идентична, как работа с разномерными массивами в numpy и scipy, но со своими дополнениями в виде индексов.

### Обработка данных в Pandas.

Pandas является гибким инструментом при работе с табличными данными, предоставляя широкий спектр возможностей.  
Большинство методов Pandas возвращают результат в виде DataFrame'а


In [32]:
sorted_by_pop = data_frame.sort_values('Population')
print("Sorted data frame by population:\n\n%s\n------------------------------" 
      % sorted_by_pop)

reverse_sorted_by_pop = data_frame.sort_values('Population', ascending=False)
print("Reverse sorted data frame by population:\n\n%s\n------------------------------" 
      % reverse_sorted_by_pop)

first_two_rows = data_frame.head(2)
print("First two rows: \n\n%s\n------------------------------" 
      % first_two_rows)

last_two_rows = data_frame.tail(2)
print("Last two rows: \n\n%s\n------------------------------" 
      % last_two_rows)

concat_data_frames = pd.concat([first_two_rows, last_two_rows])
print("Concatenated  two previous data frames: \n\n%s\n------------------------------" 
      % concat_data_frames)

print("Where 'Capital' == 'Moscow' statement: \n\n%s\n------------------------------" 
      % data_frame[data_frame['Capital'] == 'Moscow'])

print("Specific field ('Population') selection: \n\n%s\n------------------------------" 
      % data_frame['Population'])

time_zone = pd.DataFrame({'Time Zone': ['UTC +1', 'UTC +5:30', 'UTC −3', 'UTC +3']})
added_time_zone_column = pd.concat([data_frame, time_zone], axis=1)
print("Extended data frame: \n\n%s\n------------------------------" 
      % added_time_zone_column)

pivoted_country = data_frame.pivot(columns='Country', values='Population')
print("Population by countries: \n\n%s\n------------------------------" 
      % pivoted_country)

droped_capital = data_frame.drop(columns=['Capital'])
print("Data frame without 'Capital' column: \n\n%s\n------------------------------" 
      % droped_capital)

Sorted data frame by population:

   Country    Capital  Population
0  Belgium   Brussels    11190846
3   Russia     Moscow   145963367
2   Brazil   Brasilia   207847528
1    India  New Delhi  1303171035
------------------------------
Reverse sorted data frame by population:

   Country    Capital  Population
1    India  New Delhi  1303171035
2   Brazil   Brasilia   207847528
3   Russia     Moscow   145963367
0  Belgium   Brussels    11190846
------------------------------
First two rows: 

   Country    Capital  Population
0  Belgium   Brussels    11190846
1    India  New Delhi  1303171035
------------------------------
Last two rows: 

  Country   Capital  Population
2  Brazil  Brasilia   207847528
3  Russia    Moscow   145963367
------------------------------
Concatenated  two previous data frames: 

   Country    Capital  Population
0  Belgium   Brussels    11190846
1    India  New Delhi  1303171035
2   Brazil   Brasilia   207847528
3   Russia     Moscow   145963367
---------------