<img src = "images/pandas.png" align = "right"><span style="color: darkgreen; font-size: 2.5em">Библиотека Pandas. Часть 2</span>

<p>В SQL можно дополнительно фильтровать сгруппированные данные, используя условие HAVING. В Pandas можно использовать <strong style="color: darkred">.filter()</strong> и предоставить функцию Python (или лямбда-выражение), которая будет возвращать True, если группа данных должна быть включена в результат.
</p>

#### SQL:
<code>select type, count(*) from airports where iso_country = 'US' group by type having count(*) > 1000 order by count(*) desc</code>

#### Pandas:

In [1]:
import pandas as pd
import numpy as np

In [2]:
airports = pd.read_csv('dataSet/airports.csv')
airport_freq = pd.read_csv('dataSet/airport-frequencies.csv')
countries= pd.read_csv('dataSet/countries.csv')
runways = pd.read_csv('dataSet/runways.csv')

In [3]:
airports[airports.iso_country == 'US'].groupby('type').filter(lambda count: len(count) > 1000).groupby('type').size().sort_values(ascending=False)

type
small_airport    13846
heliport          6820
closed            3499
dtype: int64

In [10]:
runways

Unnamed: 0,id,airport_ref,airport_ident,length_ft,width_ft,surface,lighted,closed,le_ident,le_latitude_deg,le_longitude_deg,le_elevation_ft,le_heading_degT,le_displaced_threshold_ft,he_ident,he_latitude_deg,he_longitude_deg,he_elevation_ft,he_heading_degT,he_displaced_threshold_ft
0,269408,6523,00A,80.0,80.0,ASPH-G,1,0,H1,,,,,,,,,,,
1,255155,6524,00AK,2500.0,70.0,GRVL,0,0,N,,,,,,S,,,,,
2,254165,6525,00AL,2300.0,200.0,TURF,0,0,01,,,,,,19,,,,,
3,270932,6526,00AR,40.0,40.0,GRASS,0,0,H1,,,,,,H1,,,,,
4,322128,322127,00AS,1450.0,60.0,Turf,0,0,1,,,,,,19,,,,,
5,257681,6527,00AZ,1700.0,60.0,GRAVEL,0,0,15,,,,,,33,,,,,
6,245528,6528,00CA,6000.0,80.0,ASPH,0,0,04,35.3493,-116.8930,,50.0,,22,35.3603,-116.8780,,,
7,250597,6529,00CO,3900.0,20.0,TURF-G,0,0,16,,,,,,34,,,,,
8,247972,6531,00FA,3200.0,100.0,TURF,0,0,08,,,,,,26,,,,,800.0
9,265037,6532,00FD,74.0,74.0,TURF,0,0,H1,,,,,,,,,,,


### Агрегатные функции: MIN, MAX, MEAN

<p> Рассчитаем минимальную, максимальную и среднюю длину ВПП (взлётно-посадочной полосы)

<h3 style="color:darkblue">SQL: </h3>
<code>select max(length_ft), min(length_ft), mean(length_ft), median(length_ft) from runways;<?code>

In [88]:
runways.agg({'length_ft': ['min', 'max', 'mean', 'median', 'sum']}).T

Unnamed: 0,min,max,mean,median,sum
length_ft,0.0,120000.0,3263.414576,2738.0,136345461.0


### JOIN
Используйте .merge(), чтобы присоединить фреймы данных в Pandas. Необходимо указать, к каким столбцам нужно присоединиться (left_on и right_on), а также тип соединения: inner (по умолчанию), left (соответствует LEFT OUTER в SQL), right (RIGHT OUTER в SQL) или outer (FULL OUTER в SQL).

#### SQL:
<code>select airport_ident, type, description, frequency_mhz from airport_freq join airports on airport_freq.airport_ref = airports.id where airports.ident = 'KLAX'</code>

In [18]:
airport_freq.merge(airports[airports.ident == 'KLAX'][['id']], 
                            left_on='airport_ref', right_on='id', 
                            how='inner')[['airport_ident', 'type', 'description', 'frequency_mhz']]

Unnamed: 0,airport_ident,type,description,frequency_mhz
0,KLAX,APP,SOCAL APP,36.07
1,KLAX,APP,SOCAL APP,124.3
2,KLAX,ATIS,ATIS,133.8
3,KLAX,CLD,CLNC DEL,121.4
4,KLAX,DEP,SOCAL DEP,124.3
5,KLAX,GND,GND,121.65
6,KLAX,MISC,CG,34.5
7,KLAX,MISC,CG,898.4
8,KLAX,OPS,AF,37.22
9,KLAX,TWR,TWR,119.8


In [91]:
airports

Unnamed: 0,id,ident,type,name,latitude_deg,longitude_deg,elevation_ft,continent,iso_country,iso_region,municipality,scheduled_service,gps_code,iata_code,local_code,home_link,wikipedia_link,keywords
0,6523,00A,heliport,Total Rf Heliport,40.070801,-74.933601,11.0,,US,US-PA,Bensalem,no,00A,,00A,,,
1,323361,00AA,small_airport,Aero B Ranch Airport,38.704022,-101.473911,3435.0,,US,US-KS,Leoti,no,00AA,,00AA,,,
2,6524,00AK,small_airport,Lowell Field,59.949200,-151.695999,450.0,,US,US-AK,Anchor Point,no,00AK,,00AK,,,
3,6525,00AL,small_airport,Epps Airpark,34.864799,-86.770302,820.0,,US,US-AL,Harvest,no,00AL,,00AL,,,
4,6526,00AR,closed,Newport Hospital & Clinic Heliport,35.608700,-91.254898,237.0,,US,US-AR,Newport,no,,,,,,00AR
5,322127,00AS,small_airport,Fulton Airport,34.942803,-97.818019,1100.0,,US,US-OK,Alex,no,00AS,,00AS,,,
6,6527,00AZ,small_airport,Cordes Airport,34.305599,-112.165001,3810.0,,US,US-AZ,Cordes,no,00AZ,,00AZ,,,
7,6528,00CA,small_airport,Goldstone (GTS) Airport,35.354740,-116.885329,3038.0,,US,US-CA,Barstow,no,00CA,,00CA,,,
8,324424,00CL,small_airport,Williams Ag Airport,39.427188,-121.763427,87.0,,US,US-CA,Biggs,no,00CL,,00CL,,,
9,322658,00CN,heliport,Kitchen Creek Helibase Heliport,32.727374,-116.459742,3350.0,,US,US-CA,Pine Valley,no,00CN,,00CN,,,


<hr>

### UNION ALL и UNION

pd.concat() — эквивалент UNION ALL в SQL.

#### SQL:
<code>select name, municipality from airports where ident = 'KLAX' union all select name, municipality from airports where ident = 'KLGB'</code>

In [96]:
try:
    df = pd.concat([airports[airports.ident == 'KLAX'][['name', 'type']], 
           airports[airports.ident == 'KLGB'][['name', 'type']]])
except Exception as e:
    print(f"Error: {e}")
df

Unnamed: 0,name,type
32212,Los Angeles International Airport,large_airport
32237,Long Beach Airport (Daugherty Field),medium_airport


<h3 style="color:darkblue">INSERT</h3>


Пока осуществлялась только выборка, но в процессе предварительного анализа данные можно изменить. В Pandas для добавления нужных данных нет эквивалента INSERT в SQL. Вместо этого следует создать новый фрейм данных, содержащий новые записи, а затем объединить два фрейма.

In [4]:
df1 = pd.DataFrame({'id': [1, 2], 'name': ['Harry Potter', 'Ron Weasley']})

In [5]:
df2 = pd.DataFrame({'id': [3], 'name': ['Hermione Granger']})

In [6]:
pd.concat([df1, df2]).reset_index(drop=True)

Unnamed: 0,id,name
0,1,Harry Potter
1,2,Ron Weasley
2,3,Hermione Granger


#### reset_index()
В случае изменения DataFrame нужно переиндексировать строки. Для этого можно использовать метод reset_index(). Например:

In [101]:
runways.sort_values(by=['width_ft'], ascending=False).reset_index()

Unnamed: 0,index,id,airport_ref,airport_ident,length_ft,width_ft,surface,lighted,closed,le_ident,...,le_longitude_deg,le_elevation_ft,le_heading_degT,le_displaced_threshold_ft,he_ident,he_latitude_deg,he_longitude_deg,he_elevation_ft,he_heading_degT,he_displaced_threshold_ft
0,29007,253216,23479,O06,9000.0,9000.0,WATER,0,0,ALL,...,,,,,WAY,,,,,
1,19026,243715,18708,K3J1,4200.0,7075.0,ASPH-F,1,0,36,...,-80.9945,65.0,360.0,,18,32.4959,-80.9902,76.0,180.0,
2,36736,254014,24911,TKE,10000.0,7000.0,WATER,0,0,E,...,,,,,W,,,,,
3,9127,248514,14905,8FA0,7000.0,7000.0,WATER,0,0,ALL,...,,,,,WAY,,,,,
4,27123,257284,22141,MN35,6000.0,6000.0,WATER,0,0,ALL,...,,,,,WAY,,,,,
5,515,255433,6990,08MN,11088.0,6000.0,WATER,0,0,18,...,,,,,36,,,,,
6,38993,252579,25729,WI35,12000.0,5500.0,WATER,0,0,ALL,...,,,,,WAY,,,,,
7,6153,251255,12124,57FA,5280.0,5280.0,WATER,0,0,09W,...,,,,,27W,,,,,
8,6155,251256,12124,57FA,13300.0,5280.0,WATER,0,0,18W,...,,,,,36W,,,,,
9,16310,254737,17317,FD46,17000.0,5000.0,WATER,0,0,13W,...,,,,,31W,,,,,


Можно заметить, что новый DataFrame также хранит старые индексы. Если они не нужны, их можно удалить с помощью параметра <code>drop=True</code> в функции:



In [43]:
runways.sort_values(by = ['width_ft'], ascending = False).reset_index(drop = True)

Unnamed: 0,id,airport_ref,airport_ident,length_ft,width_ft,surface,lighted,closed,le_ident,le_latitude_deg,le_longitude_deg,le_elevation_ft,le_heading_degT,le_displaced_threshold_ft,he_ident,he_latitude_deg,he_longitude_deg,he_elevation_ft,he_heading_degT,he_displaced_threshold_ft
0,253216,23479,O06,9000.0,9000.0,WATER,0,0,ALL,,,,,,WAY,,,,,
1,243715,18708,K3J1,4200.0,7075.0,ASPH-F,1,0,36,32.4895,-80.9945,65.0,360.0,,18,32.4959,-80.9902,76.0,180.0,
2,254014,24911,TKE,10000.0,7000.0,WATER,0,0,E,,,,,,W,,,,,
3,248514,14905,8FA0,7000.0,7000.0,WATER,0,0,ALL,,,,,,WAY,,,,,
4,257284,22141,MN35,6000.0,6000.0,WATER,0,0,ALL,,,,,,WAY,,,,,
5,255433,6990,08MN,11088.0,6000.0,WATER,0,0,18,,,,,,36,,,,,
6,252579,25729,WI35,12000.0,5500.0,WATER,0,0,ALL,,,,,,WAY,,,,,
7,251255,12124,57FA,5280.0,5280.0,WATER,0,0,09W,,,,,,27W,,,,,
8,251256,12124,57FA,13300.0,5280.0,WATER,0,0,18W,,,,,,36W,,,,,
9,254737,17317,FD46,17000.0,5000.0,WATER,0,0,13W,,,,,,31W,,,,,


#### Fillna
fillna — это слова fill( заполнить) и na(не доступно).
В некоторых записях есть значение NaN. Само по себе это значение может отвлекать, поэтому лучше заменять его на что-то более осмысленное. Иногда это может быть 0, в других случаях — строка. Но в этот раз обойдемся unknown. Функция fillna() автоматически найдет и заменит все значения NaN в DataFrame:

In [106]:
airports.merge(countries, how='right').fillna('не известно').tail(15)

Unnamed: 0,id,ident,type,name,latitude_deg,longitude_deg,elevation_ft,continent,iso_country,iso_region,municipality,scheduled_service,gps_code,iata_code,local_code,home_link,wikipedia_link,keywords,code
232,302756,не известно,не известно,Saint Vincent and the Grenadines,не известно,не известно,не известно,не известно,не известно,не известно,не известно,не известно,не известно,не известно,не известно,не известно,https://en.wikipedia.org/wiki/Saint_Vincent_an...,не известно,VC
233,302802,не известно,не известно,Venezuela,не известно,не известно,не известно,SA,не известно,не известно,не известно,не известно,не известно,не известно,не известно,не известно,https://en.wikipedia.org/wiki/Venezuela,Aeropuertos de Venezuela,VE
234,302757,не известно,не известно,British Virgin Islands,не известно,не известно,не известно,не известно,не известно,не известно,не известно,не известно,не известно,не известно,не известно,не известно,https://en.wikipedia.org/wiki/British_Virgin_I...,не известно,VG
235,302758,не известно,не известно,U.S. Virgin Islands,не известно,не известно,не известно,не известно,не известно,не известно,не известно,не известно,не известно,не известно,не известно,не известно,https://en.wikipedia.org/wiki/U.S._Virgin_Islands,не известно,VI
236,302670,не известно,не известно,Vietnam,не известно,не известно,не известно,AS,не известно,не известно,не известно,не известно,не известно,не известно,не известно,не известно,https://en.wikipedia.org/wiki/Vietnam,Các sân bay của Việt Nam,VN
237,302786,не известно,не известно,Vanuatu,не известно,не известно,не известно,OC,не известно,не известно,не известно,не известно,не известно,не известно,не известно,не известно,https://en.wikipedia.org/wiki/Vanuatu,не известно,VU
238,302787,не известно,не известно,Wallis and Futuna,не известно,не известно,не известно,OC,не известно,не известно,не известно,не известно,не известно,не известно,не известно,не известно,https://en.wikipedia.org/wiki/Wallis_and_Futuna,не известно,WF
239,302788,не известно,не известно,Samoa,не известно,не известно,не известно,OC,не известно,не известно,не известно,не известно,не известно,не известно,не известно,не известно,https://en.wikipedia.org/wiki/Samoa,не известно,WS
240,302720,не известно,не известно,Kosovo,не известно,не известно,не известно,EU,не известно,не известно,не известно,не известно,не известно,не известно,не известно,не известно,https://en.wikipedia.org/wiki/Kosovo,Kosova,XK
241,302671,не известно,не известно,Yemen,не известно,не известно,не известно,AS,не известно,не известно,не известно,не известно,не известно,не известно,не известно,не известно,https://en.wikipedia.org/wiki/Yemen,مطارات اليمن,YE


#### UPDATE
Предположим, теперь нужно исправить некоторые неверные данные в исходном фрейме.

### SQL: 
<code>update airports set home_link = 'http://www.lawa.org/welcomelax.aspx' where ident == 'KLAX'</code>

#### DELETE
Самый простой и удобный способ удалить данные из фрейма в Pandas — это разбить фрейм на строки. Затем получить индексы строк и использовать их в методе .drop().

In [70]:
runways.drop(index=[1,5,10])

Unnamed: 0,id,airport_ref,airport_ident,length_ft,width_ft,surface,lighted,closed,le_ident,le_latitude_deg,le_longitude_deg,le_elevation_ft,le_heading_degT,le_displaced_threshold_ft,he_ident,he_latitude_deg,he_longitude_deg,he_elevation_ft,he_heading_degT,he_displaced_threshold_ft
0,269408,6523,00A,80.0,80.0,ASPH-G,1,0,H1,,,,,,,,,,,
2,254165,6525,00AL,2300.0,200.0,TURF,0,0,01,,,,,,19,,,,,
3,270932,6526,00AR,40.0,40.0,GRASS,0,0,H1,,,,,,H1,,,,,
4,322128,322127,00AS,1450.0,60.0,Turf,0,0,1,,,,,,19,,,,,
6,245528,6528,00CA,6000.0,80.0,ASPH,0,0,04,35.3493,-116.8930,,50.0,,22,35.3603,-116.8780,,,
7,250597,6529,00CO,3900.0,20.0,TURF-G,0,0,16,,,,,,34,,,,,
8,247972,6531,00FA,3200.0,100.0,TURF,0,0,08,,,,,,26,,,,,800.0
9,265037,6532,00FD,74.0,74.0,TURF,0,0,H1,,,,,,,,,,,
11,253429,6534,00GA,2600.0,80.0,TURF,0,0,09,,,,,,27,,,,,
12,265038,6535,00GE,125.0,95.0,ASPH,1,0,H1,,,,,,,,,,,


In [72]:
runways.drop(index=2, columns = ['length_ft','lighted'])

Unnamed: 0,id,airport_ref,airport_ident,width_ft,surface,closed,le_ident,le_latitude_deg,le_longitude_deg,le_elevation_ft,le_heading_degT,le_displaced_threshold_ft,he_ident,he_latitude_deg,he_longitude_deg,he_elevation_ft,he_heading_degT,he_displaced_threshold_ft
0,269408,6523,00A,80.0,ASPH-G,0,H1,,,,,,,,,,,
1,255155,6524,00AK,70.0,GRVL,0,N,,,,,,S,,,,,
3,270932,6526,00AR,40.0,GRASS,0,H1,,,,,,H1,,,,,
4,322128,322127,00AS,60.0,Turf,0,1,,,,,,19,,,,,
5,257681,6527,00AZ,60.0,GRAVEL,0,15,,,,,,33,,,,,
6,245528,6528,00CA,80.0,ASPH,0,04,35.3493,-116.8930,,50.0,,22,35.3603,-116.8780,,,
7,250597,6529,00CO,20.0,TURF-G,0,16,,,,,,34,,,,,
8,247972,6531,00FA,100.0,TURF,0,08,,,,,,26,,,,,800.0
9,265037,6532,00FD,74.0,TURF,0,H1,,,,,,,,,,,
10,250414,6533,00FL,100.0,TURF,0,12,,,,,,30,,,,,


<h2>Экспорт во множество форматов</h2>
<pre><code class="language-sql lazy-code">df.to_csv(...)  # в csv-файл
df.to_sql(...)  # в базу данных SQL
df.to_excel(...)  # в файл Excel
df.to_json(...)  # в строку JSON
df.to_html(...)  # отображение в качестве HTML-таблицы
df.to_feather(...)  # в двоичный feather-формат
df.to_latex(...)  # в табличную среду
df.to_stata(...)  # в бинарные файлы данных Stata
df.to_msgpack(...)  # msgpack-объект (сериализация)
df.to_gbq(...)  # в BigQuery-таблицу (Google)
df.to_string(...)  # в консольный вывод
df.to_clipboard(...) # в буфер обмена, который может быть вставлен в Excel</code></pre>

In [73]:
runways.to_excel('runways.xls')

In [119]:
runways2 = pd.read_excel('runways.xls')
runways2

Unnamed: 0.1,Unnamed: 0,id,airport_ref,airport_ident,length_ft,width_ft,surface,lighted,closed,le_ident,...,le_longitude_deg,le_elevation_ft,le_heading_degT,le_displaced_threshold_ft,he_ident,he_latitude_deg,he_longitude_deg,he_elevation_ft,he_heading_degT,he_displaced_threshold_ft
0,0,269408,6523,00A,80.0,80.0,ASPH-G,1,0,H1,...,,,,,,,,,,
1,1,255155,6524,00AK,2500.0,70.0,GRVL,0,0,N,...,,,,,S,,,,,
2,2,254165,6525,00AL,2300.0,200.0,TURF,0,0,01,...,,,,,19,,,,,
3,3,270932,6526,00AR,40.0,40.0,GRASS,0,0,H1,...,,,,,H1,,,,,
4,4,322128,322127,00AS,1450.0,60.0,Turf,0,0,1,...,,,,,19,,,,,
5,5,257681,6527,00AZ,1700.0,60.0,GRAVEL,0,0,15,...,,,,,33,,,,,
6,6,245528,6528,00CA,6000.0,80.0,ASPH,0,0,04,...,-116.8930,,50.0,,22,35.3603,-116.8780,,,
7,7,250597,6529,00CO,3900.0,20.0,TURF-G,0,0,16,...,,,,,34,,,,,
8,8,247972,6531,00FA,3200.0,100.0,TURF,0,0,08,...,,,,,26,,,,,800.0
9,9,265037,6532,00FD,74.0,74.0,TURF,0,0,H1,...,,,,,,,,,,


In [120]:
runways2 = pd.read_excel('runways.xls', index_col=0)
runways2

Unnamed: 0,id,airport_ref,airport_ident,length_ft,width_ft,surface,lighted,closed,le_ident,le_latitude_deg,le_longitude_deg,le_elevation_ft,le_heading_degT,le_displaced_threshold_ft,he_ident,he_latitude_deg,he_longitude_deg,he_elevation_ft,he_heading_degT,he_displaced_threshold_ft
0,269408,6523,00A,80.0,80.0,ASPH-G,1,0,H1,,,,,,,,,,,
1,255155,6524,00AK,2500.0,70.0,GRVL,0,0,N,,,,,,S,,,,,
2,254165,6525,00AL,2300.0,200.0,TURF,0,0,01,,,,,,19,,,,,
3,270932,6526,00AR,40.0,40.0,GRASS,0,0,H1,,,,,,H1,,,,,
4,322128,322127,00AS,1450.0,60.0,Turf,0,0,1,,,,,,19,,,,,
5,257681,6527,00AZ,1700.0,60.0,GRAVEL,0,0,15,,,,,,33,,,,,
6,245528,6528,00CA,6000.0,80.0,ASPH,0,0,04,35.3493,-116.8930,,50.0,,22,35.3603,-116.8780,,,
7,250597,6529,00CO,3900.0,20.0,TURF-G,0,0,16,,,,,,34,,,,,
8,247972,6531,00FA,3200.0,100.0,TURF,0,0,08,,,,,,26,,,,,800.0
9,265037,6532,00FD,74.0,74.0,TURF,0,0,H1,,,,,,,,,,,


In [7]:
xl_writer = pd.ExcelWriter('runways.xls')
runways.to_excel(xl_writer, sheet_name='All')
runways2[runways2.length_ft > 2000].to_excel(xl_writer, sheet_name='gt_2000')
xl_writer.save()

NameError: name 'runways2' is not defined