# <i> Инструменты для работы с типами данных в Pandas<i>

###### <i>astype()<i>

In [77]:
import numpy as np
import pandas as pd

In [15]:
s = pd.Series([1,2,3])
s.dtype

dtype('int64')

In [16]:
# приведем в тип float
s.astype('float64')

0    1.0
1    2.0
2    3.0
dtype: float64

In [19]:
d = [{'name': 'pen', 'price': 3.9, 'count': 8},{'name': 'book','price': 4.5,'count': 11}]
df = pd.DataFrame(d)
df.dtypes

name      object
price    float64
count      int64
dtype: object

In [20]:
# Изменим тип поля 'count' к int32
df['count'] = df['count'].astype('int32')
df.dtypes

name      object
price    float64
count      int32
dtype: object

In [21]:
# и обратно немного другим способом через словарь
df = df.astype({'count':'int64'})
df.dtypes

name      object
price    float64
count      int64
dtype: object

### Фукции подготовки данных

In [111]:
df = pd.read_csv('e:/Pandas learning2.csv', sep=';')
df

Unnamed: 0,Температура,Давление,Осадки,Дата
0,-8 °C,96292 Па,Да,20.11.2019
1,-10.3 °C,97292 Па,Да,21.11.2019
2,-9.1 °C,96325 Па,Нет,22.11.2019


In [112]:
df.dtypes

Температура    object
Давление       object
Осадки         object
Дата           object
dtype: object

In [113]:
# напрямую через astype() невозможно привести данные к другому виду
# поэтому напишем функции для преобразования удалив лишние символы и переведя 'Да' и 'Нет' в булевый тип
temper_converter = lambda x: x.replace('°C', '').strip()
pressure_converter = lambda x: x.replace('Па', '').strip()
precipitation_converter = lambda x: True if x=='Да' else False

In [114]:
# применим созданные функции через .aplly(наша функция)
df['Температура'] = df['Температура'].apply(temper_converter).astype('float64')

In [115]:
df['Давление'] = df['Давление'].apply(pressure_converter).astype('int32')

In [116]:
df['Осадки'] = df['Осадки'].apply(precipitation_converter)

In [102]:
df.dtypes

Температура    float64
Давление         int32
Осадки            bool
Дата            object
dtype: object

# <i> Вспомогательные функции<i>

In [122]:
# to_numeric() данные в числовой тип
# to_datetime() данные в тип datetime
# to_timedelta() данные в тип timedata
df = pd.read_csv('e:/Pandas learning2.csv', sep=';')
df.dtypes

Температура    object
Давление       object
Осадки         object
Дата           object
dtype: object

In [123]:
df

Unnamed: 0,Температура,Давление,Осадки,Дата
0,-8 °C,96292 Па,Да,20.11.2019
1,-10.3 °C,97292 Па,Да,21.11.2019
2,-9.1 °C,96325 Па,Нет,22.11.2019


In [124]:
df['Температура'] = pd.to_numeric(df['Температура'], errors='coerce')
df['Давление'] = pd.to_numeric(df['Давление'], errors='coerce')
df['Дата'] = pd.to_datetime(df['Дата'], errors='coerce')
df.dtypes

Температура           float64
Давление              float64
Осадки                 object
Дата           datetime64[ns]
dtype: object

In [125]:
df

Unnamed: 0,Температура,Давление,Осадки,Дата
0,,,Да,2019-11-20
1,,,Да,2019-11-21
2,,,Нет,2019-11-22


In [120]:
# выборка по типу данных
df.select_dtypes(include=['float64','int64'])

Unnamed: 0,Температура,Давление
0,,
1,,
2,,
