# Pandas (Часть 3)

> 🚀 В этой практике нам понадобятся: `numpy==1.21.2, pandas==1.3.3` 

> 🚀 Установить вы их можете с помощью команды: `!pip install numpy==1.21.2, pandas==1.3.3` 


# Содержание <a name="content"></a>

* [Сохранение / загрузка данных (работа с CSV)](#Sohranenie_/_zagruzka_dannyh_(rabota_s_CSV))
  * [Задание](#Zadanie)
* [Задачки](#Zadachki)


In [36]:
import pandas as pd
import numpy as np

# Сохранение / загрузка данных (работа с CSV)  <a name="csv"></a>

Одним из важных инструментов в работе с таблицами является возможность сохранить результаты работы в файл или загрузить данные из файла. Пользоваться мы будем форматом CSV, который является текстовым форматом для хранения таблицы. Формат представляет собой текстовые строки, каждая колонка разделяется разделителем (запятая, точка запятой и др.), поэтому его просто понять и обрабатывать, так как не требуется никакого специального протокола для понимания.

Для сохранения данных имеется метод `DataFrame.to_csv()`:

In [52]:
import string

df = pd.DataFrame(
    data=np.random.randint(0, 10, size=(15, 3)), 
    columns=['x1', 'x2', 'x3'],
    index=list(string.ascii_uppercase)[:15]
)
df.head(3)

Unnamed: 0,x1,x2,x3
A,6,0,7
B,3,8,0
C,2,4,9


In [53]:
# Для сохранения задается путь до файла
df.to_csv('my_first_file.csv')

Чтобы убедиться в работе метода найдите файл рядом с ноутбуком и откройте его через редактор.

> При работе в Google Colab слева есть вкладка, которая показывает файлы на сервере.

При открытии можно увидеть четыре колонки:
- Колонка индекса;
- Три колонки из наших данных.

Теперь, когда мы имеем файл CSV в системе - можем испытать функцию загрузки `pd.read_csv()`:

In [54]:
df = pd.read_csv('my_first_file.csv')
df.head(3)

Unnamed: 0.1,Unnamed: 0,x1,x2,x3
0,A,6,0,7
1,B,3,8,0
2,C,2,4,9


Видна одна явная проблема - у нас появилась колонка, которая должна быть индексом, но она стала новой колонкой, а индексы создались новые. Для решения проблемы при загрузке необходимо явно задать, какая колонка считается индексом:

In [55]:
df = pd.read_csv('my_first_file.csv', index_col=0)
df.head(3)

Unnamed: 0,x1,x2,x3
A,6,0,7
B,3,8,0
C,2,4,9


Теперь все отлично и данные загрузились так, как они должны быть.

## Задание

Разберитесь в аргументах `DataFrame.to_csv()` и сохраните данные в файл так, чтобы в файл индекс не сохранялся.

In [56]:
df = pd.DataFrame(
    data=np.random.randint(0, 10, size=(15, 3)), 
    columns=['x1', 'x2', 'x3'],
    index=list(string.ascii_uppercase)[:15]
)
df.head(3)

# TODO - сохранить в файл no_index.csv без индексов
df.to_csv('no_index.csv',index=False)

# Задачки <a name="tasks"></a>

Создайте фрейм с тремя колонками:
- Колонка с именами (тип - объекты);
- Колонка с стажем работы (тип - вещественный);
- Колонка с возрастом (тип - целочисленный);
- Колонка с названием любимого цвета (тип - категориальный);

Имена колонок и значения любые, не менее трех записей (строк) в фрейме.

In [57]:
# TODO - создайте фрейм и настройте правильные типы колонок
#           DataFrame.info() дожен отображать указанные типы
df=pd.DataFrame({
    'Name':('Ann','Mark','Maks'),
    'Experience':np.random.choice(np.arange(1,5,0.5,dtype='float32'),3),
    'Age':np.random.randint(23,30,size=3),
    'fave_Clr':pd.Categorical(["Red", "Black", "Blue"])

})
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   Name        3 non-null      object  
 1   Experience  3 non-null      float32 
 2   Age         3 non-null      int32   
 3   fave_Clr    3 non-null      category
dtypes: category(1), float32(1), int32(1), object(1)
memory usage: 311.0+ bytes


Выберите числа в ряду `ds1`, которых нет в ряду `ds2`:

> Почитайте и примение метод `Series.isin()`

In [58]:
ds1 = pd.Series([1, 2, 3, 4, 5])
ds2 = pd.Series([4, 5, 6, 7, 8, 1, 9])

# TODO - выберите значения в ds1, которых нет в ds2: 
# [2, 3]
ds1[~ds1.isin(ds2)]

1    2
2    3
dtype: int64

Оставьте в ряду два наиболее частых значения, остальные замените значением 'Другое':

<details>
<summary>Подсказка 1</summary>

Для определения наиболее частых значений воспользуйтесь методом `Series.value_counts()`
</details>

<details>
<summary>Подсказка 2</summary>

Чтобы получить наиболее частые значения можно воспользоваться результатом `Series.value_counts()` - атрибутом `Series.index`
</details>

<details>
<summary>Подсказка 3</summary>

Получив наиболее частые значения, можно индексировать другие через маску метода `Series.isin()`
</details>


In [59]:
ds = pd.Series([2, 2, 2, 4, 4, 4, 3, 1, 1, 1, 1, 4])

# TODO - определите два наиболее частых значения в ряду (1, 4),
#           остальные замените значением 'Другое'
# ['Другое', 'Другое', 'Другое', 4, 4, 4, 'Другое', 1, 1, 1, 1, 4]
ds[~ds.isin(list(ds.value_counts().index[:2]))]='Другое'
ds

0     Другое
1     Другое
2     Другое
3          4
4          4
5          4
6     Другое
7          1
8          1
9          1
10         1
11         4
dtype: object

Сделайте каждую первую букву в словах ряда заглавной:

In [60]:
ds = pd.Series(['how', 'to', 'use', 'pandas?'])

# TODO - сделайте каждую первую букву заглавной с помощью Series.apply()
# Вариант 1
#ds.apply(str.title)
#ds.str.title()
# Вариант 2 
ds.apply(lambda x: x[0].upper()+x[1:])

0        How
1         To
2        Use
3    Pandas?
dtype: object

Выберите записи с максимальным значением по колонке `x1`:

In [61]:
df = pd.DataFrame(
    np.random.randint(0, 4, size=(15, 3)), 
    columns=['x1', 'x2', 'x3']
)

# TODO - выберите те записи, которые имеют x1 равный 
#           максимальному значению в колонке x1
df.loc[(df['x1']==df['x1'].agg('max',axis='rows')),['x1']]

Unnamed: 0,x1
0,3
7,3
13,3


Выведите количество пропусков в каждой колонке данных:

In [62]:
df = pd.read_csv('https://raw.githubusercontent.com/Kail4eK/ml_edu/master/datasets/Cars93_miss.csv')

# TODO - отобразите количество пропусков в данных по каждой колонке
df.isna().sum()

Manufacturer           4
Model                  1
Type                   3
Min.Price              7
Price                  2
Max.Price              5
MPG.city               9
MPG.highway            2
AirBags                6
DriveTrain             7
Cylinders              5
EngineSize             2
Horsepower             7
RPM                    3
Rev.per.mile           6
Man.trans.avail        5
Fuel.tank.capacity     8
Passengers             2
Length                 4
Wheelbase              1
Width                  6
Turn.circle            5
Rear.seat.room         4
Luggage.room          19
Weight                 7
Origin                 5
Make                   3
dtype: int64

Замените пропущенные значения в колонке `Min.Price` средним значениям по этой колонке:

In [76]:
df = pd.read_csv('https://raw.githubusercontent.com/Kail4eK/ml_edu/master/datasets/Cars93_miss.csv')

# TODO - заполните NaN в колонке Min.Price средним значением по этой колонке
# NOTE - после заполнения убедитесь, что в этой колонке нет пропущенных
df['Min.Price'].fillna(df['Min.Price'].agg('mean',axis='rows'),inplace=True)
df['Min.Price'].isna().sum()

0

Отсортируйте и выведите фрейм с колонками в алфавитном порядке:

In [67]:
df = pd.DataFrame(np.random.randint(0, 10, size=(5, 6)), columns=list('fbecda'))

# TODO - получите фрейм с отсортированными по именам колонкам (f e d c b a)
# NOTE - сортировка должна быть автоматической
df.sort_index(axis=1,ascending=False)

Unnamed: 0,f,e,d,c,b,a
0,4,3,7,3,0,1
1,2,2,3,9,5,7
2,8,2,0,6,9,1
3,5,8,5,9,4,9
4,8,1,8,6,9,1


Отобразите каждую 20ю запись во фрейме и только колонки `Manufacturer`, `Model`, `Type`:

In [65]:
df = pd.read_csv('https://raw.githubusercontent.com/Kail4eK/ml_edu/master/datasets/Cars93_miss.csv')

# TODO - отобразите запись с периодичностью во фрейме и определенные колонки
df.loc[[20],['Manufacturer','Model','Type']]

Unnamed: 0,Manufacturer,Model,Type
20,Chrysler,LeBaron,Compact


Получите ряд, который содержит длины строк:

In [75]:
ds = pd.Series(['how', 'to', 'use', 'pandas?'])

# TODO - создайте ряд, содержащий длины строк:
# 0    3
# 1    2
# 2    3
# 3    7
# dtype: int64
# Вариант 1
#ds.apply(str.__len__)

# Вариант 2
ds.str.len()

# Вариант 3
#ds.apply(lambda x:len(x))

0    3
1    2
2    3
3    7
dtype: int64