# Pandas (Часть 3)

> 🚀 В этой практике нам понадобятся: `numpy==1.21.2, pandas==1.3.3` 

> 🚀 Установить вы их можете с помощью команды: `!pip install numpy==1.21.2 pandas==1.3.3` 


## Содержание

* [Сохранение / загрузка данных (работа с CSV)](#Сохранение-/-загрузка-данных-работа-с-CSV)
  * [Задание - чуток самостоятельного разбора](#Задание---чуток-самостоятельного-разбора)
* [Задачки](#Задачки)


В этом ноутбуке:
- CSV файлы
- Кто не работает тот ест: землю при встрече с трудностями. Задачки

In [3]:
import pandas as pd
import numpy as np

## Сохранение / загрузка данных (работа с CSV) 

Одним из важных инструментов в работе с таблицами является возможность сохранить результаты работы в файл или загрузить данные из файла. Пользоваться мы будем форматом CSV, который является текстовым форматом для хранения таблицы. Формат представляет собой текстовые строки, каждая колонка разделяется разделителем (запятая, точка запятой и др.), поэтому его просто понять и обрабатывать, так как не требуется никакого специального протокола для понимания.

Для сохранения данных имеется метод `DataFrame.to_csv()`:

In [18]:
from pathlib import Path

BASE_DIR = Path().resolve().parent
RESULT_DIR = BASE_DIR / "result"
RESULT_DIR.mkdir(exist_ok=True)

In [25]:
import string

df = pd.DataFrame(
    data=np.random.randint(0, 10, size=(15, 3)), 
    columns=['x1', 'x2', 'x3'],
    index=list(string.ascii_uppercase)[:15]
)
df.head(3)

Unnamed: 0,x1,x2,x3
A,2,0,7
B,0,1,7
C,6,6,5


In [26]:
# Для сохранения задается путь до файла
df.to_csv(fr'{RESULT_DIR}/my_first_file.csv')

Чтобы убедиться в работе метода найдите файл рядом с ноутбуком и откройте его через редактор.

> При работе в Google Colab слева есть вкладка, которая показывает файлы на сервере.

При открытии можно увидеть четыре колонки:
- Колонка индекса;
- Три колонки из наших данных.

Теперь, когда мы имеем файл CSV в системе - можем испытать функцию загрузки `pd.read_csv()`:

In [27]:
df = pd.read_csv(fr'{RESULT_DIR}/my_first_file.csv')
df.head(3)

Unnamed: 0.1,Unnamed: 0,x1,x2,x3
0,A,2,0,7
1,B,0,1,7
2,C,6,6,5


Видна одна явная проблема - у нас появилась колонка, которая должна быть индексом, но она стала новой колонкой, а индексы создались новые. Для решения проблемы при загрузке необходимо явно задать, какая колонка считается индексом:

In [28]:
df = pd.read_csv(fr'{RESULT_DIR}/my_first_file.csv', index_col=0)
df.head(3)

Unnamed: 0,x1,x2,x3
A,2,0,7
B,0,1,7
C,6,6,5


Теперь все отлично и данные загрузились так, как они должны быть.

### Задание - чуток самостоятельного разбора

Разберитесь в аргументах `DataFrame.to_csv()` и сохраните данные в файл так, чтобы в файл индекс не сохранялся.

In [31]:
df = pd.DataFrame(
    data=np.random.randint(0, 10, size=(15, 3)), 
    columns=['x1', 'x2', 'x3'],
    index=list(string.ascii_uppercase)[:15]
)
# df.head(3)

# TODO - сохранить в файл no_index.csv без индексов
df.to_csv(fr'{RESULT_DIR}/my_second_file.csv', index=False)
pd.read_csv(fr'{RESULT_DIR}/my_second_file.csv')

Unnamed: 0,x1,x2,x3
0,2,9,7
1,6,2,0
2,6,4,4
3,0,6,0
4,6,3,2
5,4,2,1
6,1,6,3
7,2,6,1
8,4,0,2
9,1,0,8


## Задачки

Создайте фрейм с четыремя колонками:
- Колонка с именами (тип - объекты);
- Колонка с стажем работы (тип - вещественный);
- Колонка с возрастом (тип - целочисленный);
- Колонка с названием любимого цвета (тип - категориальный);

Имена колонок и значения любые, не менее трех записей (строк) в фрейме.

In [77]:
# TODO - создайте фрейм и настройте правильные типы колонок
#           DataFrame.info() дожен отображать указанные типы
df = pd.DataFrame(
    {
        "Name": np.random.choice(['Mark', 'Karl', 'Joe'], size=(15, )),
        "Experience": np.random.randint(1., 60., size=(15,)).astype(float),
        "Age": np.random.randint(14, 65, size=(15,)),
        "Color": pd.Categorical(
            np.random.choice(("black", "red", "green"), size=(15, ))
        )
    }
)
df.info()
df

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15 entries, 0 to 14
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   Name        15 non-null     object  
 1   Experience  15 non-null     float64 
 2   Age         15 non-null     int32   
 3   Color       15 non-null     category
dtypes: category(1), float64(1), int32(1), object(1)
memory usage: 575.0+ bytes


Unnamed: 0,Name,Experience,Age,Color
0,Joe,10.0,31,red
1,Joe,40.0,23,green
2,Karl,33.0,53,black
3,Mark,11.0,55,black
4,Karl,54.0,16,red
5,Joe,47.0,41,red
6,Joe,22.0,20,green
7,Mark,29.0,38,green
8,Joe,37.0,44,black
9,Karl,20.0,18,green


Выберите числа в ряду `ds1`, которых нет в ряду `ds2`:

> Почитайте и примение метод `Series.isin()`

In [81]:
ds1 = pd.Series([1, 2, 3, 4, 5])
ds2 = pd.Series([4, 5, 6, 7, 8, 1, 9])

# TODO - выберите значения в ds1, которых нет в ds2: 
# [2, 3]
mask = ~(ds1.isin(ds2))
ds1[mask]

1    2
2    3
dtype: int64

Оставьте в ряду два наиболее частых значения, остальные замените значением 'Другое':

<details>
<summary>Подсказка 1</summary>

Для определения наиболее частых значений воспользуйтесь методом `Series.value_counts()`
</details>

<details>
<summary>Подсказка 2</summary>

Чтобы получить наиболее частые значения можно воспользоваться результатом `Series.value_counts()` - атрибутом `Series.index`
</details>

<details>
<summary>Подсказка 3</summary>

Получив наиболее частые значения, можно индексировать другие через маску метода `Series.isin()`
</details>


In [115]:
ds = pd.Series([2, 2, 2, 4, 4, 4, 3, 1, 1, 1, 1, 4])

# TODO - определите два наиболее частых значения в ряду (1, 4),
#           остальные замените значением 'Другое'
values = ds.value_counts()[:2].index
mask = ds.isin(values)
for i in range(len(mask)):
    if not mask[i]:
        ds[i] = "Другое"
ds

# ['Другое', 'Другое', 'Другое', 4, 4, 4, 'Другое', 1, 1, 1, 1, 4]

0     Другое
1     Другое
2     Другое
3          4
4          4
5          4
6     Другое
7          1
8          1
9          1
10         1
11         4
dtype: object

Сделайте каждую первую букву в словах ряда заглавной:

In [117]:
ds = pd.Series(['how', 'to', 'use', 'pandas?'])

# TODO - сделайте каждую первую букву заглавной с помощью Series.apply()
ds.apply(str.capitalize)

0        How
1         To
2        Use
3    Pandas?
dtype: object

Выберите записи с максимальным значением по колонке `x1`:

In [137]:
df = pd.DataFrame(
    np.random.randint(0, 4, size=(15, 3)), 
    columns=['x1', 'x2', 'x3']
)
print(df)
# TODO - выберите те записи, которые имеют x1 равный 
#           максимальному значению в колонке x1

# df.query("x1 == x1.max()")
mask = (df["x1"] == df["x1"].max())
df[mask]

    x1  x2  x3
0    0   1   3
1    0   0   2
2    2   0   3
3    1   3   0
4    0   1   3
5    2   2   2
6    0   3   1
7    2   0   0
8    3   2   3
9    3   2   2
10   3   2   3
11   3   0   1
12   1   0   2
13   2   3   1
14   1   2   1


Unnamed: 0,x1,x2,x3
8,3,2,3
9,3,2,2
10,3,2,3
11,3,0,1


Выведите количество пропусков в каждой колонке данных:

In [139]:
df = pd.read_csv('https://raw.githubusercontent.com/AleksDevEdu/ml_edu/master/datasets/Cars93_miss.csv')

# TODO - отобразите количество пропусков в данных по каждой колонке
df.isna().sum()

Manufacturer           4
Model                  1
Type                   3
Min.Price              7
Price                  2
Max.Price              5
MPG.city               9
MPG.highway            2
AirBags                6
DriveTrain             7
Cylinders              5
EngineSize             2
Horsepower             7
RPM                    3
Rev.per.mile           6
Man.trans.avail        5
Fuel.tank.capacity     8
Passengers             2
Length                 4
Wheelbase              1
Width                  6
Turn.circle            5
Rear.seat.room         4
Luggage.room          19
Weight                 7
Origin                 5
Make                   3
dtype: int64

Замените пропущенные значения в колонке `Min.Price` средним значениям по этой колонке:

In [356]:
df = pd.read_csv('https://raw.githubusercontent.com/AleksDevEdu/ml_edu/master/datasets/Cars93_miss.csv')
# TODO - заполните NaN в колонке Min.Price средним значением по этой колонке
mean = df["Min.Price"].aggregate("mean", axis="rows")
df["Min.Price"].fillna(mean, inplace=True)
# NOTE - после заполнения убедитесь, что в этой колонке нет пропущенных
print(df["Min.Price"].isna().sum())

# mean = df.aggregate("mean", axis="rows")
# for i in df:
#     if i in mean:
#         df[i].fillna(mean[i], inplace=True)
# df.isna().sum()

0


Отсортируйте и выведите фрейм с колонками в алфавитном порядке:

In [274]:
df = pd.DataFrame(np.random.randint(0, 10, size=(5, 6)), columns=list('fbecda'))

# TODO - получите фрейм с отсортированными по именам колонкам (f e d c b a)
df.sort_index(axis="rows", ascending=False)
# NOTE - сортировка должна быть автоматической

Unnamed: 0,f,b,e,c,d,a
4,9,7,3,6,8,3
3,2,1,7,5,7,5
2,3,5,3,0,8,5
1,0,6,5,6,3,5
0,3,4,6,3,8,1


Отобразите каждую 20ю запись во фрейме и только колонки `Manufacturer`, `Model`, `Type`:

In [323]:
df = pd.read_csv('https://raw.githubusercontent.com/AleksDevEdu/ml_edu/master/datasets/Cars93_miss.csv')

# TODO - отобразите запись с периодичностью во фрейме и определенные колонки
indexes = []
columns = list(df.columns)
for j in ["Manufacturer", "Model", "Type"]:
    indexes.append(columns.index(j))

for i in range(20, df.shape[0], 20):
    print(df.iloc[i:i+1, indexes])

   Manufacturer    Model     Type
20     Chrysler  LeBaron  Compact
   Manufacturer    Model    Type
40        Honda  Prelude  Sporty
   Manufacturer   Model     Type
60      Mercury  Cougar  Midsize
   Manufacturer   Model   Type
80       Subaru  Loyale  Small


Получите ряд, который содержит длины строк:

In [337]:
ds = pd.Series(['how', 'to', 'use', 'pandas?'])
ds
# TODO - создайте ряд, содержащий длины строк:
# 0    3
# 1    2
# 2    3
# 3    7
# dtype: int64

ds = ds.apply(lambda x: len(x))
print(ds)

0    3
1    2
2    3
3    7
dtype: int64
