# Pandas (Часть 3)

> 🚀 В этой практике нам понадобятся: `numpy~=1.21.2, pandas~=1.3.2`

> 🚀 Установить вы их можете с помощью команды: `!pip install numpy~=1.21.2, pandas~=1.3.2`

In [1]:
import pandas as pd
import numpy as np

# Сохранение / загрузка данных (работа с CSV)  <a name="csv"></a>

Одним из важных инструментов в работе с таблицами является возможность сохранить результаты работы в файл или загрузить данные из файла. Пользоваться мы будем форматом CSV, который является текстовым форматом для хранения таблицы. Формат представляет собой текстовые строки, каждая колонка разделяется разделителем (запятая, точка запятой и др.), поэтому его просто понять и обрабатывать, так как не требуется никакого специального протокола для понимания.

Для сохранения данных имеется метод `DataFrame.to_csv()`:

In [2]:
import string

df = pd.DataFrame(
    data=np.random.randint(0, 10, size=(15, 3)), 
    columns=['x1', 'x2', 'x3'],
    index=list(string.ascii_uppercase)[:15]
)
df.head(3)

Unnamed: 0,x1,x2,x3
A,5,8,5
B,4,8,9
C,7,4,0


In [3]:
# Для сохранения задается путь до файла
df.to_csv('my_first_file.csv')

Чтобы убедиться в работе метода найдите файл рядом с ноутбуком и откройте его через редактор.

> При работе в Google Colab слева есть вкладка, которая показывает файлы на сервере.

При открытии можно увидеть четыре колонки:
- Колонка индекса;
- Три колонки из наших данных.

Теперь, когда мы имеем файл CSV в системе - можем испытать функцию загрузки `pd.read_csv()`:

In [4]:
df = pd.read_csv('my_first_file.csv')
df.head(3)

Unnamed: 0.1,Unnamed: 0,x1,x2,x3
0,A,5,8,5
1,B,4,8,9
2,C,7,4,0


Видна одна явная проблема - у нас появилась колонка, которая должна быть индексом, но она стала новой колонкой, а индексы создались новые. Для решения проблемы при загрузке необходимо явно задать, какая колонка считается индексом:

In [5]:
df = pd.read_csv('my_first_file.csv', index_col=0)
df.head(3)

Unnamed: 0,x1,x2,x3
A,5,8,5
B,4,8,9
C,7,4,0


Теперь все отлично и данные загрузились так, как они должны быть.

## Задание

Разберитесь в аргументах `DataFrame.to_csv()` и сохраните данные в файл так, чтобы в файл индекс не сохранялся.

In [8]:
df = pd.DataFrame(
    data=np.random.randint(0, 10, size=(15, 3)), 
    columns=['x1', 'x2', 'x3'],
    index=list(string.ascii_uppercase)[:15]
)
df.head(3)

# TODO - сохранить в файл no_index.csv без индексов
df.to_csv('my_first_file.csv', index = False)

# Задачки <a name="tasks"></a>

Создайте фрейм с тремя колонками:
- Колонка с именами (тип - объекты);
- Колонка с стажем работы (тип - вещественный);
- Колонка с возрастом (тип - целочисленный);
- Колонка с названием любимого цвета (тип - категориальный);

Имена колонок и значения любые, не менее трех записей (строк) в фрейме.

In [36]:
# TODO - создайте фрейм и настройте правильные типы колонок
#           DataFrame.info() дожен отображать указанные типы
data = {
    'name': ['Ann', 'Jack', 'Danis'],
    'experience': [2.2,3.5,1.7],
    'age': [26, 30, 23]
}
df = pd.DataFrame(
    data = data
)
df['color']=pd.cut(
    x = df['age'],
    bins=[0,23,26,30],
    labels=['black','blue','red'],
    include_lowest=True
)
df.info()
df

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   name        3 non-null      object  
 1   experience  3 non-null      float64 
 2   age         3 non-null      int64   
 3   color       3 non-null      category
dtypes: category(1), float64(1), int64(1), object(1)
memory usage: 335.0+ bytes


Unnamed: 0,name,experience,age,color
0,Ann,2.2,26,blue
1,Jack,3.5,30,red
2,Danis,1.7,23,black


Выберите числа в ряду `ds1`, которых нет в ряду `ds2`:

> Почитайте и примение метод `Series.isin()`

In [46]:
ds1 = pd.Series([1, 2, 3, 4, 5])
ds2 = pd.Series([4, 5, 6, 7, 8, 1, 9])

# TODO - выберите значения в ds1, которых нет в ds2: 
# [2, 3]
mask = ds1.isin(ds2)
ds =  ds1[~mask]
ds

1    2
2    3
dtype: int64

Оставьте в ряду два наиболее частых значения, остальные замените значением 'Другое':

<details>
<summary>Подсказка 1</summary>

Для определения наиболее частых значений воспользуйтесь методом `Series.value_counts()`
</details>

<details>
<summary>Подсказка 2</summary>

Чтобы получить наиболее частые значения можно воспользоваться результатом `Series.value_counts()` - атрибутом `Series.index`
</details>

<details>
<summary>Подсказка 3</summary>

Получив наиболее частые значения, можно индексировать другие через маску метода `Series.isin()`
</details>


In [111]:
ds = pd.Series([2, 2, 2, 4, 4, 4, 3, 1, 1, 1, 1, 4])

# TODO - определите два наиболее частых значения в ряду (1, 4),
#           остальные замените значением 'Другое'
# ['Другое', 'Другое', 'Другое', 4, 4, 4, 'Другое', 1, 1, 1, 1, 4]
mask = ds.value_counts().index
mask = mask[2:]
ds1 = ds.isin(mask)
for i in range(len(ds)):
    if ds1[i]==True:
        ds[i]='Другое'
ds

0     Другое
1     Другое
2     Другое
3          4
4          4
5          4
6     Другое
7          1
8          1
9          1
10         1
11         4
dtype: object

Сделайте каждую первую букву в словах ряда заглавной:

In [119]:
ds = pd.Series(['how', 'to', 'use', 'pandas?'])

# TODO - сделайте каждую первую букву заглавной с помощью Series.apply()
def up(ds):
    return ds[:1].upper()+ds[1:]
ds = ds.apply(up)
ds

0        How
1         To
2        Use
3    Pandas?
dtype: object

Выберите записи с максимальным значением по колонке `x1`:

In [150]:
df = pd.DataFrame(
    np.random.randint(0, 4, size=(15, 3)), 
    columns=['x1', 'x2', 'x3']
)

# TODO - выберите те записи, которые имеют x1 равный 
#           максимальному значению в колонке x1
ds = df.aggregate ({
    'x1': 'max'},
    axis='rows'
)
df = df[df['x1']==ds[0]]
df

Unnamed: 0,x1,x2,x3
2,3,2,1
5,3,1,0
7,3,1,3
12,3,1,0


Выведите количество пропусков в каждой колонке данных:

In [153]:
df = pd.read_csv('https://raw.githubusercontent.com/Kail4eK/ml_edu/master/datasets/Cars93_miss.csv')

# TODO - отобразите количество пропусков в данных по каждой колонке,
df.isna().sum()

Manufacturer           4
Model                  1
Type                   3
Min.Price              7
Price                  2
Max.Price              5
MPG.city               9
MPG.highway            2
AirBags                6
DriveTrain             7
Cylinders              5
EngineSize             2
Horsepower             7
RPM                    3
Rev.per.mile           6
Man.trans.avail        5
Fuel.tank.capacity     8
Passengers             2
Length                 4
Wheelbase              1
Width                  6
Turn.circle            5
Rear.seat.room         4
Luggage.room          19
Weight                 7
Origin                 5
Make                   3
dtype: int64

Замените пропущенные значения в колонке `Min.Price` средним значениям по этой колонке:

In [177]:
df = pd.read_csv('https://raw.githubusercontent.com/Kail4eK/ml_edu/master/datasets/Cars93_miss.csv')

# TODO - заполните NaN в колонке Min.Price средним значением по этой колонке
# NOTE - после заполнения убедитесь, что в этой колонке нет пропущенных
df['Min.Price']= df['Min.Price'].fillna(df['Min.Price'].mean)
df['Min.Price'].isna().sum()

0

Отсортируйте и выведите фрейм с колонками в алфавитном порядке:

In [181]:
df = pd.DataFrame(np.random.randint(0, 10, size=(5, 6)), columns=list('fbecda'))

# TODO - получите фрейм с отсортированными по именам колонкам (f e d c b a)
# NOTE - сортировка должна быть автоматической
df = df.T.sort_index().T
df

Unnamed: 0,a,b,c,d,e,f
0,7,4,0,3,3,7
1,7,2,2,0,4,2
2,0,7,7,2,9,6
3,2,0,0,6,1,1
4,4,3,4,2,1,3


Отобразите каждую 20ю запись во фрейме и только колонки `Manufacturer`, `Model`, `Type`:

In [189]:
df = pd.read_csv('https://raw.githubusercontent.com/Kail4eK/ml_edu/master/datasets/Cars93_miss.csv')

# TODO - отобразите запись с периодичностью во фрейме и определенные колонки
df = df[(df.index%20==0)]
df[{'Manufacturer','Model','Type'}]

Unnamed: 0,Model,Type,Manufacturer
0,Integra,Small,Acura
20,LeBaron,Compact,Chrysler
40,Prelude,Sporty,Honda
60,Cougar,Midsize,Mercury
80,Loyale,Small,Subaru


Получите ряд, который содержит длины строк:

In [249]:
ds = pd.Series(['how', 'to', 'use', 'pandas?'])

# TODO - создайте ряд, содержащий длины строк:
# 0    3
# 1    2
# 2    3
# 3    7
# dtype: int64
data = np.random.randint(0, 10, size=(4,1))
for i in range(len(ds)):
    data[i] = len(ds[i])
df = pd.DataFrame(np.int64(data))
print(df[0])

0    3
1    2
2    3
3    7
Name: 0, dtype: int64
