### Знакомство с библиотекой **pandas**

**pandas** - высокоуровневая библиотека для работы с данными и их анализом. Библиотека построена на numpy, что обеспечивает высокую производительность.

Библиотека pandas содержит два основных "типа" данных **DataFrame** и **Series**

### Объект Series  

Series - одномерный массив данных с метками (индексами). 

In [None]:
import pandas as pd
import numpy as np # будет использоваться для числа pi

Создадим Series:

In [None]:
test_series = pd.Series([5,64,5 ])
test_series

0     5
1    64
2     5
dtype: int64

 Series содержит ассоциативные метки (индексы), значения и тип хранимых элементов.

Если индексы не заданы, то они создаются автоматически в виде последовательность целых чисел (начиная с 0)

Индексы и значения можно извлечь соответствующими  методами:

In [None]:
test_series.index

RangeIndex(start=0, stop=3, step=1)

In [None]:
test_series.values

array([ 5, 64,  5], dtype=int64)

Индексы можно задать при создании Series или присвоить новые индексы уже созданному объекту

In [None]:
test_series = pd.Series([1,2,3 ], index = ["a","b",1])
test_series

a    1
b    2
1    3
dtype: int64

In [None]:
test_series.index = [1,3,"f"]
test_series

1    1
3    2
f    3
dtype: int64

Раcсмотрим использование Series на примере данных о длине рек. В качестве индекса будем использовать названия рек.

In [None]:
river_lengths = pd.Series([7100, 6670, 3660, 5238, 3731, 2510 ], index = ["Амазонка", "Нил", "Обь", "Енисей", "Волга", "Ганг" ])

In [None]:
river_lengths

Амазонка    7100
Нил         6670
Обь         3660
Енисей      5238
Волга       3731
Ганг        2510
dtype: int64

Обращение к данным из Serias происходит по индексу или путем передачи списка индексов:

In [None]:
river_lengths["Нил"]

6670

In [None]:
river_lengths[["Енисей", "Ганг", "Волга"]]

Енисей    5238
Ганг      2510
Волга     3731
dtype: int64

Series поддерживает выполнение числовых операций с использованием векторизации, так же как и массивы NumPy

В качестве примера переведем длину рек м. Изначальные данные представлены в км.

In [None]:
river_lengths = river_lengths * 1000

Поддерживается фильтрация с помощью логических операций

Рассмотрим реки длина которых больше 5000000 м


In [None]:
river_lengths > 5000000

Амазонка     True
Нил          True
Обь         False
Енисей       True
Волга       False
Ганг        False
dtype: bool

In [None]:
river_lengths[river_lengths > 5000000]

Амазонка    7100000
Нил         6670000
Енисей      5238000
dtype: int64

При работе с фильтрами в pandas в качестве логических операции И и ИЛИ вместо **and** и **or** используются & и | соответственно. 

В качестве примера используем два фильтра. Длина рек больше 5000000 и меньше 7000000

In [None]:
river_lengths[ (river_lengths > 5000000) & (river_lengths < 7000000)]

Нил       6670000
Енисей    5238000
dtype: int64

Или более наглядно

In [None]:
filter1 = river_lengths > 5000000
filter2 = river_lengths < 7000000
river_lengths[filter1 & filter2]

Нил       6670000
Енисей    5238000
dtype: int64

In [None]:
url = 'https://en.wikipedia.org/wiki/List_of_rivers_by_length'
data_pd = pd.read_html(url)
len(data_pd)

7

In [None]:
data_pd[5]

Unnamed: 0,Rank,River,Length (km),Length (miles),Drainage area(km2)[citation needed],Average discharge(m3/s)[citation needed],Outflow,Countries in the drainage basin[citation needed]
0,1.0,Nile–White Nile–Kagera–Nyabarongo–Mwogo–Rukara...,"6,650(7,088)","4,130(4,404)",3254555,2800,Mediterranean,"Ethiopia, Eritrea, Sudan, Uganda, Tanzania, Ke..."
1,2.0,Amazon–Ucayali–Tambo–Ene–Mantaro[n 1],"6,400[4](6,992)","3,976(4,345)","7,000,000[4]",209000,Atlantic Ocean,"Brazil, Peru, Bolivia, Colombia, Ecuador, Vene..."
2,3.0,Yangtze–Jinsha–Tongtian–Dangqu (Chang Jiang),"6,300(6,418)","3,917(3,988)",1800000,30166,East China Sea,China
3,4.0,Mississippi–Missouri–Jefferson–Beaverhead–Red ...,6275,3902,2980000,16792,Gulf of Mexico,"United States (98.5%), Canada (1.5%)"
4,5.0,Yenisey–Angara–Selenga–Ider,5539,3445,2580000,18050,Kara Sea,"Russia (97%), Mongolia (2.9%)"
5,6.0,Yellow River(Huang He),5464,3395,745000,2571,Bohai Sea,China
6,7.0,Ob–Irtysh,5410,3364,2990000,12475,Gulf of Ob,"Russia, Kazakhstan, China, Mongolia"
7,8.0,Río de la Plata–Paraná–Rio Grande[12],4880,3030,2582672,22000,Río de la Plata,"Brazil (46.7%), Argentina (27.7%), Paraguay (1..."
8,9.0,Congo–Chambeshi(Zaïre),4700,2922,3680000,41800,Atlantic Ocean,"Democratic Republic of the Congo, Central Afri..."
9,10.0,Amur–Argun–Kherlen(Heilong Jiang),4444,2763,1855000,11400,Sea of Okhotsk,"Russia, China, Mongolia"


Обращение к элементу в series

По индексу:

In [None]:
test_series[1] #в данном случае 1 - индекс

1

Тоже самое с использованием .loc

In [None]:
test_series.loc[1]#в данном случае 1 - индекс

1

По номеру элемента. Для этого используется .iloc Пример вызова по номеру: 





In [None]:
test_series.iloc[0] #в данном случае 0 это номер элемента

1

In [None]:
test_series.iloc[-1] #в данном случае -1 это номер элемента

3

### Объект DataFrame

DataFrame – эта двумерная таблица данных, которую можно интерпретировать как упорядоченный набор столбцов объекта Series с  одинаковым индексом.

В качестве примера рассмотрим данные о планетах солнечной системы.

Подготовим данные:

In [None]:
index = ["Меркурий", "Венера", "Земля", "Марс", "Юпитер", "Сатурн", "Уран", "Нептун", "Плутон"]
mass_kg = [3.302E23, 4.869E24, 5.974E24, 6.419E23, 1.899E27, 5.685E26, 8.685E25, 1.024E26, 1.3E22]
equatorial_radius_km = [2440.,6052.,6378.,3397.,71490.,60270.,25560.,24760.,1151.]

Варианты создания DataFrame:

#### 1) использование словаря с данными. В этом случае ключи станут названиями колонок таблицы

In [None]:
df1 = pd.DataFrame({"mass, kg":mass_kg, "equatorial radius, km":equatorial_radius_km }, index=index)
df1

Unnamed: 0,"mass, kg","equatorial radius, km"
Меркурий,3.302e+23,2440.0
Венера,4.869e+24,6052.0
Земля,5.974e+24,6378.0
Марс,6.419e+23,3397.0
Юпитер,1.899e+27,71490.0
Сатурн,5.685e+26,60270.0
Уран,8.685e+25,25560.0
Нептун,1.024e+26,24760.0
Плутон,1.3e+22,1151.0


#### 2) Явное указание данных и колонок и индексов. Если названия колонок не указать, то они генерируются целочисленной последовательностью начиная от 0. 

In [None]:
df2 = pd.DataFrame(np.array([mass_kg, equatorial_radius_km]).T, columns = ["mass, kg","equatorial radius, km"], index=index )
df2

Unnamed: 0,"mass, kg","equatorial radius, km"
Меркурий,3.302e+23,2440.0
Венера,4.869e+24,6052.0
Земля,5.974e+24,6378.0
Марс,6.419e+23,3397.0
Юпитер,1.899e+27,71490.0
Сатурн,5.685e+26,60270.0
Уран,8.685e+25,25560.0
Нептун,1.024e+26,24760.0
Плутон,1.3e+22,1151.0


#### 3) Создание пустой таблицы и её заполнение

In [None]:
df3 = pd.DataFrame( )
df3

In [None]:
df3["mass, kg"] = mass_kg
df3

Unnamed: 0,"mass, kg"
0,3.302e+23
1,4.869e+24
2,5.974e+24
3,6.419e+23
4,1.899e+27
5,5.685e+26
6,8.685e+25
7,1.024e+26
8,1.3e+22


In [None]:
df3["equatorial radius, km"] = equatorial_radius_km
df3

Unnamed: 0,"mass, kg","equatorial radius, km"
0,3.302e+23,2440.0
1,4.869e+24,6052.0
2,5.974e+24,6378.0
3,6.419e+23,3397.0
4,1.899e+27,71490.0
5,5.685e+26,60270.0
6,8.685e+25,25560.0
7,1.024e+26,24760.0
8,1.3e+22,1151.0


In [None]:
df3.index = index
df3

Unnamed: 0,"mass, kg","equatorial radius, km"
Меркурий,3.302e+23,2440.0
Венера,4.869e+24,6052.0
Земля,5.974e+24,6378.0
Марс,6.419e+23,3397.0
Юпитер,1.899e+27,71490.0
Сатурн,5.685e+26,60270.0
Уран,8.685e+25,25560.0
Нептун,1.024e+26,24760.0
Плутон,1.3e+22,1151.0


#### Создадим новый столбец содержащий среднюю плотность (в предположении что планеты это шары с радиусом equatorial radius). На этом примере видно, что использование данных pandas при вычислении совпадают с использованием numpy

In [None]:
df3["<r>, kg/m**3"] = df3["mass, kg"]/(4./3*np.pi*(df3["equatorial radius, km"]*1000)**3)
df3

Unnamed: 0,"mass, kg","equatorial radius, km","<r>, kg/m**3"
Меркурий,3.302e+23,2440.0,5426.48967
Венера,4.869e+24,6052.0,5243.900072
Земля,5.974e+24,6378.0,5496.966171
Марс,6.419e+23,3397.0,3909.238127
Юпитер,1.899e+27,71490.0,1240.796227
Сатурн,5.685e+26,60270.0,619.923765
Уран,8.685e+25,25560.0,1241.648491
Нептун,1.024e+26,24760.0,1610.495169
Плутон,1.3e+22,1151.0,2035.301591


### Доступ к строкам, столбцам и ячейкам

#### Доступ к  отдельному столбцу можно получить по названию колонки (при этом возвращается объект Serias)

In [None]:
df3["mass, kg"]

Меркурий    3.302000e+23
Венера      4.869000e+24
Земля       5.974000e+24
Марс        6.419000e+23
Юпитер      1.899000e+27
Сатурн      5.685000e+26
Уран        8.685000e+25
Нептун      1.024000e+26
Плутон      1.300000e+22
Name: mass, kg, dtype: float64

#### Доступ к строкам таблицы осуществляется через методы loc, iloc

Методы loc и iloc аналогичны методам serias

In [None]:
df3.loc["Земля"] #по индексу

mass, kg                 5.974000e+24
equatorial radius, km    6.378000e+03
<r>, kg/m**3             5.496966e+03
Name: Земля, dtype: float64

In [None]:
df3.loc[["Земля","Меркурий"]] #по индексу

Unnamed: 0,"mass, kg","equatorial radius, km","<r>, kg/m**3"
Земля,5.974e+24,6378.0,5496.966171
Меркурий,3.302e+23,2440.0,5426.48967


In [None]:
df3.iloc[0] #по номеру

mass, kg                 3.302000e+23
equatorial radius, km    2.440000e+03
<r>, kg/m**3             5.426490e+03
Name: Меркурий, dtype: float64

In [None]:
df3.iloc[1:4] #по номеру

Unnamed: 0,"mass, kg","equatorial radius, km","<r>, kg/m**3"
Венера,4.869e+24,6052.0,5243.900072
Земля,5.974e+24,6378.0,5496.966171
Марс,6.419e+23,3397.0,3909.238127


### Фильтрация таблицы (так же как Serias)

Выбираем планеты масса которых больше массы Земли

In [None]:
df3[ df3["mass, kg"] > df3["mass, kg"]['Земля']  ]

Unnamed: 0,"mass, kg","equatorial radius, km","<r>, kg/m**3"
Юпитер,1.899e+27,71490.0,1240.796227
Сатурн,5.685e+26,60270.0,619.923765
Уран,8.685e+25,25560.0,1241.648491
Нептун,1.024e+26,24760.0,1610.495169


Используем несколько фильтров. Выбираем планеты с массой большей Земли и радиусом меньше Урана

In [None]:
df3[ (df3["mass, kg"] > df3["mass, kg"]['Земля'] ) & (df3["equatorial radius, km"] < df3["equatorial radius, km"]['Уран'] ) ]

Unnamed: 0,"mass, kg","equatorial radius, km","<r>, kg/m**3"
Нептун,1.024e+26,24760.0,1610.495169


### При работе с pandas данные обычно либо загружаются с носителей (жесткий диск) или загружаются удаленно (sql запросы, url, shh удаленный доступ).

Рассмотрим получение данных на примере запроса url

url сайта с которого хотим получить таблицу данных

In [None]:
url = "http://www.allplanets.ru/solar_sistem.htm"

метод read_html(url) возвращает список содержащий таблицы с указанного сайта

In [None]:
data = pd.read_html(url)

проверим сколько таблиц загрузили с сайта

In [None]:
len(data)

1

С сайта скачана 1 таблица, посмотрим её

In [None]:
data[0]

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,Планета,Меркурий,Венера,Земля,Марс,Юпитер,Сатурн,Уран,Нептун,Плутон
1,"Большая полуось, млн.км, а.е.","57,909 или 0,387 а.е.","108,21 или 0,723 а.е.","149,60 или 1,000 а.е.","227,94 или 1,52 а.е.","778,41 или 5,20 а.е.","14294 или 9,54 а.е.","28710 или 19,19 а.е.","44983 или 30,07 а.е.","59064 или 39,48 а.е"
2,Расстояние от Солнца в перигелии,"46,0 или 0,308 а.е.","107,48 или 0,718 а.е.","147,1 или 0,983 а.е.","206,6 или 1,38 а.е.","740,74 или 4,95 а.е.","13495 или 9,02 а.е.","27356 или 18,29 а.е.","44596 или 29,81 а.е.","44368 или 29,66 а.е."
3,Расстояние от Солнца в афелии,"69,82 или 0,467 а.е.","108,94 или 0,728 а.е.","152,1 или 1,017 а.е.","249,2 или 1,67 а.е.","816,08 или 5,46 а.е.","15040 или 10,05 а.е.","30064 или 20,10 а.е.","45369 или 30,33 а.е.","73759 или 49,31 а.е."
4,Эксцентриситет,0206,0007,0017,0093,0048,0054,0047,0009,0249
5,"Наклонение орбиты к плоскости эклиптики, гр.",7,339,0,18,131,248,077,177,1714
6,"Сидерический период, лет","0, 241 или 87,97 дней","0,615 или 224,7 дней","365,24 дней","1,88 или 686,9 дней",11857,294,8402,16479,24792
7,"Средняя скорость движения по орбите, км/сек",4787,3502,2976,2413,1307,967,684,548,475
8,Период вращения вокруг своей оси,"58,646 дня",-243 дня,"0,997 дня или 23,93 часа","1,026 дня или 24,62 часа","0,414 дня или 9,925 часа","0,444 дня или 10,66 часа","-0,720 дня или -17,24 часа","0,671 дня или 16,11 часа","6,387 дней или 153,3 часа"
9,Наклон экватора к плоскости орбиты,0,1773,2345,2519,312,2673,9786,2958,11941


Присвоим полученную таблицу к новой переменной.

In [None]:
planet_data=data[0]

Для удобного отображения небольшого количества строк в pandas используется метод head(n) Где n - количество выводимых строк. По умолчанию n =5

In [None]:
planet_data.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,Планета,Меркурий,Венера,Земля,Марс,Юпитер,Сатурн,Уран,Нептун,Плутон
1,"Большая полуось, млн.км, а.е.","57,909 или 0,387 а.е.","108,21 или 0,723 а.е.","149,60 или 1,000 а.е.","227,94 или 1,52 а.е.","778,41 или 5,20 а.е.","14294 или 9,54 а.е.","28710 или 19,19 а.е.","44983 или 30,07 а.е.","59064 или 39,48 а.е"
2,Расстояние от Солнца в перигелии,"46,0 или 0,308 а.е.","107,48 или 0,718 а.е.","147,1 или 0,983 а.е.","206,6 или 1,38 а.е.","740,74 или 4,95 а.е.","13495 или 9,02 а.е.","27356 или 18,29 а.е.","44596 или 29,81 а.е.","44368 или 29,66 а.е."
3,Расстояние от Солнца в афелии,"69,82 или 0,467 а.е.","108,94 или 0,728 а.е.","152,1 или 1,017 а.е.","249,2 или 1,67 а.е.","816,08 или 5,46 а.е.","15040 или 10,05 а.е.","30064 или 20,10 а.е.","45369 или 30,33 а.е.","73759 или 49,31 а.е."
4,Эксцентриситет,0206,0007,0017,0093,0048,0054,0047,0009,0249


Зачастую, после получения данных по url их нужно редактировать и приводить к рабочему виду

### Пример работы с таблицей

In [None]:
planet_data.columns

Int64Index([0, 1, 2, 3, 4, 5, 6, 7, 8, 9], dtype='int64')

In [None]:
planet_data.index

RangeIndex(start=0, stop=23, step=1)

In [None]:
planet_data.iloc[0].values # метод values возвращает значения из DataFrame и series

array(['Планета', 'Меркурий', 'Венера', 'Земля', 'Марс', 'Юпитер',
       'Сатурн', 'Уран', 'Нептун', 'Плутон'], dtype=object)

In [None]:
planet_data.columns = planet_data.iloc[0].values
planet_data.head()

Unnamed: 0,Планета,Меркурий,Венера,Земля,Марс,Юпитер,Сатурн,Уран,Нептун,Плутон
0,Планета,Меркурий,Венера,Земля,Марс,Юпитер,Сатурн,Уран,Нептун,Плутон
1,"Большая полуось, млн.км, а.е.","57,909 или 0,387 а.е.","108,21 или 0,723 а.е.","149,60 или 1,000 а.е.","227,94 или 1,52 а.е.","778,41 или 5,20 а.е.","14294 или 9,54 а.е.","28710 или 19,19 а.е.","44983 или 30,07 а.е.","59064 или 39,48 а.е"
2,Расстояние от Солнца в перигелии,"46,0 или 0,308 а.е.","107,48 или 0,718 а.е.","147,1 или 0,983 а.е.","206,6 или 1,38 а.е.","740,74 или 4,95 а.е.","13495 или 9,02 а.е.","27356 или 18,29 а.е.","44596 или 29,81 а.е.","44368 или 29,66 а.е."
3,Расстояние от Солнца в афелии,"69,82 или 0,467 а.е.","108,94 или 0,728 а.е.","152,1 или 1,017 а.е.","249,2 или 1,67 а.е.","816,08 или 5,46 а.е.","15040 или 10,05 а.е.","30064 или 20,10 а.е.","45369 или 30,33 а.е.","73759 или 49,31 а.е."
4,Эксцентриситет,0206,0007,0017,0093,0048,0054,0047,0009,0249


In [None]:
planet_data.drop(index=0, inplace=True) #метод drop позволяет удалять данные из таблицы. 
planet_data.head()

Unnamed: 0,Планета,Меркурий,Венера,Земля,Марс,Юпитер,Сатурн,Уран,Нептун,Плутон
1,"Большая полуось, млн.км, а.е.","57,909 или 0,387 а.е.","108,21 или 0,723 а.е.","149,60 или 1,000 а.е.","227,94 или 1,52 а.е.","778,41 или 5,20 а.е.","14294 или 9,54 а.е.","28710 или 19,19 а.е.","44983 или 30,07 а.е.","59064 или 39,48 а.е"
2,Расстояние от Солнца в перигелии,"46,0 или 0,308 а.е.","107,48 или 0,718 а.е.","147,1 или 0,983 а.е.","206,6 или 1,38 а.е.","740,74 или 4,95 а.е.","13495 или 9,02 а.е.","27356 или 18,29 а.е.","44596 или 29,81 а.е.","44368 или 29,66 а.е."
3,Расстояние от Солнца в афелии,"69,82 или 0,467 а.е.","108,94 или 0,728 а.е.","152,1 или 1,017 а.е.","249,2 или 1,67 а.е.","816,08 или 5,46 а.е.","15040 или 10,05 а.е.","30064 или 20,10 а.е.","45369 или 30,33 а.е.","73759 или 49,31 а.е."
4,Эксцентриситет,0206,0007,0017,0093,0048,0054,0047,0009,0249
5,"Наклонение орбиты к плоскости эклиптики, гр.",7,339,0,18,131,248,077,177,1714


**Транспонируем таблицу**

In [None]:
planet_dataT = planet_data.T
planet_dataT.head()

Unnamed: 0,1,2,3,4,5,6,7,8,9,10,...,13,14,15,16,17,18,19,20,21,22
Планета,"Большая полуось, млн.км, а.е.",Расстояние от Солнца в перигелии,Расстояние от Солнца в афелии,Эксцентриситет,"Наклонение орбиты к плоскости эклиптики, гр.","Сидерический период, лет","Средняя скорость движения по орбите, км/сек",Период вращения вокруг своей оси,Наклон экватора к плоскости орбиты,"Масса, кг",...,Сжатие планеты,"Средняя плотность, г/куб.см","Ускорение свободного падения, м/с2",Альбедо,Минимальная видимая величина,"Первооткрыватель, год открытия",Состав атмосферы,"Давление у поверхности, атм","Магнитное поле, Э",Число известных спутников
Меркурий,"57,909 или 0,387 а.е.","46,0 или 0,308 а.е.","69,82 или 0,467 а.е.",0206,7,"0, 241 или 87,97 дней",4787,"58,646 дня",0,"3,302 1023 или 0,055 масс Земли",...,0,543,"3,72 или 0,38 от земного",010,-19,*,-,0,0002,0
Венера,"108,21 или 0,723 а.е.","107,48 или 0,718 а.е.","108,94 или 0,728 а.е.",0007,339,"0,615 или 224,7 дней",3502,-243 дня,1773,"4,869 1024 или 0,815 масс Земли",...,0,524,"8,87 или 0,91 от земного",065,-44,*,"углекислый газ, азот, вода",90,0,0
Земля,"149,60 или 1,000 а.е.","147,1 или 0,983 а.е.","152,1 или 1,017 а.е.",0017,0,"365,24 дней",2976,"0,997 дня или 23,93 часа",2345,"5,974 1024",...,00034,5515,977,037,-,-,"азот, кислород, аргон",1,05,1
Марс,"227,94 или 1,52 а.е.","206,6 или 1,38 а.е.","249,2 или 1,67 а.е.",0093,18,"1,88 или 686,9 дней",2413,"1,026 дня или 24,62 часа",2519,"6,419 1023 или 0,107 масс Земли",...,00052,394,"3,69 или 0,38 от земного",015,-20,*,"углекислый газ, азот, аргон",0006,?,2


In [None]:
print(planet_dataT.index)
print(planet_dataT.columns)

Index(['Планета', 'Меркурий', 'Венера', 'Земля', 'Марс', 'Юпитер', 'Сатурн',
       'Уран', 'Нептун', 'Плутон'],
      dtype='object')
Int64Index([1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19,
            20, 21, 22],
           dtype='int64')


In [None]:
planet_dataT.loc["Планета"].values

array(['Большая полуось, млн.км, а.е.',
       'Расстояние от Солнца в перигелии',
       'Расстояние от Солнца в афелии', 'Эксцентриситет',
       'Наклонение орбиты к плоскости эклиптики, гр.',
       'Сидерический период, лет',
       'Средняя скорость движения по орбите, км/сек',
       'Период вращения вокруг своей оси',
       'Наклон экватора к плоскости орбиты', 'Масса, кг',
       'Экваториальный радиус, км', 'Полярный радиус, км',
       'Сжатие планеты', 'Средняя плотность, г/куб.см',
       'Ускорение свободного падения, м/с2', 'Альбедо',
       'Минимальная видимая величина', 'Первооткрыватель, год открытия',
       'Состав атмосферы', 'Давление у поверхности, атм',
       'Магнитное поле, Э', 'Число известных спутников'], dtype=object)

In [None]:
planet_dataT.columns = planet_dataT.loc["Планета"].values
planet_dataT.drop(index="Планета", inplace=True)
planet_dataT.head()

Unnamed: 0,"Большая полуось, млн.км, а.е.",Расстояние от Солнца в перигелии,Расстояние от Солнца в афелии,Эксцентриситет,"Наклонение орбиты к плоскости эклиптики, гр.","Сидерический период, лет","Средняя скорость движения по орбите, км/сек",Период вращения вокруг своей оси,Наклон экватора к плоскости орбиты,"Масса, кг",...,Сжатие планеты,"Средняя плотность, г/куб.см","Ускорение свободного падения, м/с2",Альбедо,Минимальная видимая величина,"Первооткрыватель, год открытия",Состав атмосферы,"Давление у поверхности, атм","Магнитное поле, Э",Число известных спутников
Меркурий,"57,909 или 0,387 а.е.","46,0 или 0,308 а.е.","69,82 или 0,467 а.е.",206,7,"0, 241 или 87,97 дней",4787,"58,646 дня",0,"3,302 1023 или 0,055 масс Земли",...,0,543,"3,72 или 0,38 от земного",10,-19,*,-,0,0002,0
Венера,"108,21 или 0,723 а.е.","107,48 или 0,718 а.е.","108,94 или 0,728 а.е.",7,339,"0,615 или 224,7 дней",3502,-243 дня,1773,"4,869 1024 или 0,815 масс Земли",...,0,524,"8,87 или 0,91 от земного",65,-44,*,"углекислый газ, азот, вода",90,0,0
Земля,"149,60 или 1,000 а.е.","147,1 или 0,983 а.е.","152,1 или 1,017 а.е.",17,0,"365,24 дней",2976,"0,997 дня или 23,93 часа",2345,"5,974 1024",...,34,5515,977,37,-,-,"азот, кислород, аргон",1,05,1
Марс,"227,94 или 1,52 а.е.","206,6 или 1,38 а.е.","249,2 или 1,67 а.е.",93,18,"1,88 или 686,9 дней",2413,"1,026 дня или 24,62 часа",2519,"6,419 1023 или 0,107 масс Земли",...,52,394,"3,69 или 0,38 от земного",15,-20,*,"углекислый газ, азот, аргон",0006,?,2
Юпитер,"778,41 или 5,20 а.е.","740,74 или 4,95 а.е.","816,08 или 5,46 а.е.",48,131,11857,1307,"0,414 дня или 9,925 часа",312,"1,899 1027 или 317,8 масс Земли",...,648,133,"20,87*** или 2,14 от земного",52,-27,*,"водород, гелий",**,42,62


### Таблица приведена к виду созданному ранее в ручную. Но в данный момент все значения в таблице записаны в текстовом формате, для работы с ними их необходимо обработать и привести к нужному формату. В качестве примера обработаем столбец "Период вращения вокруг своей оси" и приведем его к виду вещественных значений в часах. 

In [None]:
planet_dataT["Период вращения вокруг своей оси"] # посмотрим на данные 

Меркурий                     58,646 дня
Венера                         -243 дня
Земля         0,997 дня  или 23,93 часа
Марс          1,026 дня  или 24,62 часа
Юпитер        0,414 дня  или 9,925 часа
Сатурн        0,444 дня  или 10,66 часа
Уран        -0,720 дня  или -17,24 часа
Нептун        0,671 дня  или 16,11 часа
Плутон       6,387 дней  или 153,3 часа
Name: Период вращения вокруг своей оси, dtype: object

Для удобства обозначим данный столбец новой переменной

In [None]:
Pc = planet_dataT["Период вращения вокруг своей оси"]

Проверим все ли данные содержат "дня" после указания количества дней

In [None]:
Pc.apply(lambda x: 'дня' in x ) #метод apply применяет функцию ко всем данным

Меркурий     True
Венера       True
Земля        True
Марс         True
Юпитер       True
Сатурн       True
Уран         True
Нептун       True
Плутон      False
Name: Период вращения вокруг своей оси, dtype: bool

Так как данных мало, видно, что у Плутона в данных не содержится "дня". Если данных много и не возможно оценить глазами, то необходимо пользоваться методами .any .all

In [None]:
Pc.apply(lambda x: 'дня' in x ).all() #возвращает False если хоть одно значение ложное (убедились, что не везде есть "дня")

False

In [None]:
Pc[Pc.apply(lambda x: 'дня' in x )==False] #посмотрим на эти данные используя фильтр

Плутон    6,387 дней  или 153,3 часа
Name: Период вращения вокруг своей оси, dtype: object

Значение для Плутона вместо 'дня' содержит 'дней'. Это приемлемо, в дальнейшем будет использоваться сочетание 'дн' для обработки текста.

Проверим что если в данных содержится "часа" то содержится и 'или'

In [None]:
Pc.apply(lambda x: 'или' not in x or  ( 'или'  in  x and 'часа' in x ))

Меркурий    True
Венера      True
Земля       True
Марс        True
Юпитер      True
Сатурн      True
Уран        True
Нептун      True
Плутон      True
Name: Период вращения вокруг своей оси, dtype: bool

In [None]:
Pc.apply(lambda x: 'или' not in x or  ( 'или'  in  x and 'часа' in x )).all() 

True

все значения True

Будем следовать по следующему алгоритму. Если в значениях указаны часы то используем указанное значение, если часы не указаны, то переводим указанные дни в часы.

In [None]:
def Pc_to_hours(t):
    out = None
   
    if 'или' not in t:
        out = t[:t.find('дн')]
        out = float(out.replace(',', '.')) * 24
    if 'или' in t:
        out = t[t.find('или') + 3 :t.find('часа') ]
        out = float(out.replace(',', '.'))
        
    return out

In [None]:
Pc.apply(lambda x:  Pc_to_hours(x))

Меркурий    1407.504
Венера     -5832.000
Земля         23.930
Марс          24.620
Юпитер         9.925
Сатурн        10.660
Уран         -17.240
Нептун        16.110
Плутон       153.300
Name: Период вращения вокруг своей оси, dtype: float64

Запишем полученные данные в таблицу

In [None]:
planet_dataT["Период вращения вокруг своей оси"] = Pc.apply(lambda x:  Pc_to_hours(x))

In [None]:
planet_dataT["Период вращения вокруг своей оси"] 

Меркурий    1407.504
Венера     -5832.000
Земля         23.930
Марс          24.620
Юпитер         9.925
Сатурн        10.660
Уран         -17.240
Нептун        16.110
Плутон       153.300
Name: Период вращения вокруг своей оси, dtype: float64

Изменим название колонки

In [None]:
planet_dataT.columns.values[planet_dataT.columns=="Период вращения вокруг своей оси"] = 'Период вращения вокруг своей оси, часов'

In [None]:
planet_dataT

Unnamed: 0,"Большая полуось, млн.км, а.е.",Расстояние от Солнца в перигелии,Расстояние от Солнца в афелии,Эксцентриситет,"Наклонение орбиты к плоскости эклиптики, гр.","Сидерический период, лет","Средняя скорость движения по орбите, км/сек","Период вращения вокруг своей оси, часов",Наклон экватора к плоскости орбиты,"Масса, кг",...,Сжатие планеты,"Средняя плотность, г/куб.см","Ускорение свободного падения, м/с2",Альбедо,Минимальная видимая величина,"Первооткрыватель, год открытия",Состав атмосферы,"Давление у поверхности, атм","Магнитное поле, Э",Число известных спутников
Меркурий,"57,909 или 0,387 а.е.","46,0 или 0,308 а.е.","69,82 или 0,467 а.е.",206,7,"0, 241 или 87,97 дней",4787,1407.504,0,"3,302 1023 или 0,055 масс Земли",...,0,543,"3,72 или 0,38 от земного",10,-19,*,-,0,0002,0
Венера,"108,21 или 0,723 а.е.","107,48 или 0,718 а.е.","108,94 или 0,728 а.е.",7,339,"0,615 или 224,7 дней",3502,-5832.0,1773,"4,869 1024 или 0,815 масс Земли",...,0,524,"8,87 или 0,91 от земного",65,-44,*,"углекислый газ, азот, вода",90,0,0
Земля,"149,60 или 1,000 а.е.","147,1 или 0,983 а.е.","152,1 или 1,017 а.е.",17,0,"365,24 дней",2976,23.93,2345,"5,974 1024",...,34,5515,977,37,-,-,"азот, кислород, аргон",1,05,1
Марс,"227,94 или 1,52 а.е.","206,6 или 1,38 а.е.","249,2 или 1,67 а.е.",93,18,"1,88 или 686,9 дней",2413,24.62,2519,"6,419 1023 или 0,107 масс Земли",...,52,394,"3,69 или 0,38 от земного",15,-20,*,"углекислый газ, азот, аргон",0006,?,2
Юпитер,"778,41 или 5,20 а.е.","740,74 или 4,95 а.е.","816,08 или 5,46 а.е.",48,131,11857,1307,9.925,312,"1,899 1027 или 317,8 масс Земли",...,648,133,"20,87*** или 2,14 от земного",52,-27,*,"водород, гелий",**,42,62
Сатурн,"14294 или 9,54 а.е.","13495 или 9,02 а.е.","15040 или 10,05 а.е.",54,248,294,967,10.66,2673,"5,685 1026 или 95,2 масс Земли",...,1076,69,"7,21*** или 0,74 от земного",47,067,*,"водород, гелий",**,05,34
Уран,"28710 или 19,19 а.е.","27356 или 18,29 а.е.","30064 или 20,10 а.е.",47,77,8402,684,-17.24,9786,"8,685 1025 или 14,37 масс Земли",...,30,130,"8,43*** или 0,86 от земного",51,55,"Гершель, 1781","водород, гелий, метан",**,023,27
Нептун,"44983 или 30,07 а.е.","44596 или 29,81 а.е.","45369 или 30,33 а.е.",9,177,16479,548,16.11,2958,"1,024 1026 или 17,15 масс Земли",...,26,164,"10,71*** или 1,10 от земного",41,78,"Галле, 1846","водород, гелий, метан",**,?,13
Плутон,"59064 или 39,48 а.е","44368 или 29,66 а.е.","73759 или 49,31 а.е.",249,1714,24792,475,153.3,11941,"1,3 1022 или 0,002 масс Земли",...,0,17,"0,81 или 0,08 от земного",3,151,"Томбо, 1930","азот, метан",000001,?,5


### Конец примера

### Запишем полученную таблицу в csv файл

Запишем полученную таблицу в csv. В качестве примера будем рассматривать csv формат. Данный формат представляет из себя данные разделенные разделителем (по умолчанию ",").  

In [None]:
planet_dataT.to_csv("planet_data.csv") #запись данных 

Для получения информации о методе записи воспользуемся ?

In [None]:
?planet_dataT.to_csv

Считаем таблицу из файла

In [None]:
read_data = pd.read_csv("planet_data.csv")
read_data.head(2)

Unnamed: 0.1,Unnamed: 0,"Большая полуось, млн.км, а.е.",Расстояние от Солнца в перигелии,Расстояние от Солнца в афелии,Эксцентриситет,"Наклонение орбиты к плоскости эклиптики, гр.","Сидерический период, лет","Средняя скорость движения по орбите, км/сек","Период вращения вокруг своей оси, часов",Наклон экватора к плоскости орбиты,...,Сжатие планеты,"Средняя плотность, г/куб.см","Ускорение свободного падения, м/с2",Альбедо,Минимальная видимая величина,"Первооткрыватель, год открытия",Состав атмосферы,"Давление у поверхности, атм","Магнитное поле, Э",Число известных спутников
0,Меркурий,"57,909 или 0,387 а.е.","46,0 или 0,308 а.е.","69,82 или 0,467 а.е.",206,7,"0, 241 или 87,97 дней",4787,1407.504,0,...,0,543,"3,72 или 0,38 от земного",10,-19,*,-,0,2,0
1,Венера,"108,21 или 0,723 а.е.","107,48 или 0,718 а.е.","108,94 или 0,728 а.е.",7,339,"0,615 или 224,7 дней",3502,-5832.0,1773,...,0,524,"8,87 или 0,91 от земного",65,-44,*,"углекислый газ, азот, вода",90,0,0


обратите внимание, появился новый столбец "Unnamed: 0". Данный столбец содержит индексы записанной таблицы. При сохранении таблицы индексы можно не записывать указав index = False или при чтении указать номер колонки с индексами index_col=0

planet_dataT.to_csv("planet_data.csv", index = False)  - при сохранении данных индексы записаны не будут

read_data = pd.read_csv("planet_data.csv", index_col=0) - при чтении данных в качестве индексов будет использоваться первая колонка

### При чтении данных из файла часто бывает, что данные записаны с отличным от стандартного разделителя. Значения используемого разделителя передается в виде параметра sep. Рассмотрим пример

In [None]:
planet_dataT.to_csv("planet_data_s.csv", index = False, sep = ";")

In [None]:
read_data2 = pd.read_csv("planet_data_s.csv")
read_data2.head(2)

Unnamed: 0,Большая полуось,млн.км,а.е.;Расстояние от Солнца в перигелии;Расстояние от Солнца в афелии;Эксцентриситет;Наклонение орбиты к плоскости эклиптики,гр.;Сидерический период,лет;Средняя скорость движения по орбите,км/сек;Период вращения вокруг своей оси,часов;Наклон экватора к плоскости орбиты;Масса,кг;Экваториальный радиус,км;Полярный радиус,км;Сжатие планеты;Средняя плотность,г/куб.см;Ускорение свободного падения,м/с2;Альбедо;Минимальная видимая величина;Первооткрыватель,год открытия;Состав атмосферы;Давление у поверхности,атм;Магнитное поле,Э;Число известных спутников
0,57,909 или 0,387 а.е.;46,0 или 0,308 а.е.;69,82 или 0,467 а.е.;0206;7;0,241 или 87,97 дней;4787;1407.504;0;3,302 1023 или 0,055 масс Земли;2440;тот же;0;543;3,72 или 0,38 от земного;010;-19;*;-;0;0002;0,,
1,108,21 или 0,723 а.е.;107,48 или 0,718 а.е.;108,94 или 0,728 а.е.;0007;339;0,615 или 224,7 дней;3502;-5832.0;1773;4,869 1024 или 0,815 масс Земли;6052;тот же;0;524;8,87 или 0,91 от земного;065;-44;*;углекислый газ,азот,вода;90;0;0


Без явного указания разделителя данные считались не верно. 

In [None]:
read_data3 = pd.read_csv("planet_data_s.csv", sep = ';')# правильное открытие
read_data3.head(2)

Unnamed: 0,"Большая полуось, млн.км, а.е.",Расстояние от Солнца в перигелии,Расстояние от Солнца в афелии,Эксцентриситет,"Наклонение орбиты к плоскости эклиптики, гр.","Сидерический период, лет","Средняя скорость движения по орбите, км/сек","Период вращения вокруг своей оси, часов",Наклон экватора к плоскости орбиты,"Масса, кг",...,Сжатие планеты,"Средняя плотность, г/куб.см","Ускорение свободного падения, м/с2",Альбедо,Минимальная видимая величина,"Первооткрыватель, год открытия",Состав атмосферы,"Давление у поверхности, атм","Магнитное поле, Э",Число известных спутников
0,"57,909 или 0,387 а.е.","46,0 или 0,308 а.е.","69,82 или 0,467 а.е.",206,7,"0, 241 или 87,97 дней",4787,1407.504,0,"3,302 1023 или 0,055 масс Земли",...,0,543,"3,72 или 0,38 от земного",10,-19,*,-,0,2,0
1,"108,21 или 0,723 а.е.","107,48 или 0,718 а.е.","108,94 или 0,728 а.е.",7,339,"0,615 или 224,7 дней",3502,-5832.0,1773,"4,869 1024 или 0,815 масс Земли",...,0,524,"8,87 или 0,91 от земного",65,-44,*,"углекислый газ, азот, вода",90,0,0
