# Pandas (Часть 3)

> 🚀 В этой практике нам понадобятся: `numpy==1.21.2, pandas==1.3.3` 

> 🚀 Установить вы их можете с помощью команды: `!pip install numpy==1.21.2 pandas==1.3.3` 


## Содержание

* [Сохранение / загрузка данных (работа с CSV)](#Сохранение-/-загрузка-данных-работа-с-CSV)
  * [Задание - чуток самостоятельного разбора](#Задание---чуток-самостоятельного-разбора)
* [Задачки](#Задачки)


В этом ноутбуке:
- CSV файлы
- Кто не работает тот ест: землю при встрече с трудностями. Задачки

In [1]:
import pandas as pd
import numpy as np

## Сохранение / загрузка данных (работа с CSV) 

Одним из важных инструментов в работе с таблицами является возможность сохранить результаты работы в файл или загрузить данные из файла. Пользоваться мы будем форматом CSV, который является текстовым форматом для хранения таблицы. Формат представляет собой текстовые строки, каждая колонка разделяется разделителем (запятая, точка запятой и др.), поэтому его просто понять и обрабатывать, так как не требуется никакого специального протокола для понимания.

Для сохранения данных имеется метод `DataFrame.to_csv()`:

In [2]:
import string

df = pd.DataFrame(
    data=np.random.randint(0, 10, size=(15, 3)), 
    columns=['x1', 'x2', 'x3'],
    index=list(string.ascii_uppercase)[:15]
)
df.head(3)

Unnamed: 0,x1,x2,x3
A,2,9,3
B,2,4,6
C,1,3,0


In [3]:
# Для сохранения задается путь до файла
df.to_csv('my_first_file.csv')

Чтобы убедиться в работе метода найдите файл рядом с ноутбуком и откройте его через редактор.

> При работе в Google Colab слева есть вкладка, которая показывает файлы на сервере.

При открытии можно увидеть четыре колонки:
- Колонка индекса;
- Три колонки из наших данных.

Теперь, когда мы имеем файл CSV в системе - можем испытать функцию загрузки `pd.read_csv()`:

In [4]:
df = pd.read_csv('my_first_file.csv')
df.head(3)

Unnamed: 0.1,Unnamed: 0,x1,x2,x3
0,A,2,9,3
1,B,2,4,6
2,C,1,3,0


Видна одна явная проблема - у нас появилась колонка, которая должна быть индексом, но она стала новой колонкой, а индексы создались новые. Для решения проблемы при загрузке необходимо явно задать, какая колонка считается индексом:

In [5]:
df = pd.read_csv('my_first_file.csv', index_col=0)
df.head(3)

Unnamed: 0,x1,x2,x3
A,2,9,3
B,2,4,6
C,1,3,0


Теперь все отлично и данные загрузились так, как они должны быть.

### Задание - чуток самостоятельного разбора

Разберитесь в аргументах `DataFrame.to_csv()` и сохраните данные в файл так, чтобы в файл индекс не сохранялся.

In [6]:
df = pd.DataFrame(
    data=np.random.randint(0, 10, size=(15, 3)), 
    columns=['x1', 'x2', 'x3'],
    index=list(string.ascii_uppercase)[:15]
)
df.head(3)

# TODO - сохранить в файл no_index.csv без индексов
df.to_csv('no_index.csv', index=False)

## Задачки

Создайте фрейм с четыремя колонками:
- Колонка с именами (тип - объекты);
- Колонка с стажем работы (тип - вещественный);
- Колонка с возрастом (тип - целочисленный);
- Колонка с названием любимого цвета (тип - категориальный);

Имена колонок и значения любые, не менее трех записей (строк) в фрейме.

In [7]:
df = pd.DataFrame({'Name': ['Ivan', 'Denis', 'Vladislave', 'Igor'],
                   'Work_experience': np.array([10.2, 15.9, 3.3, 7], dtype='float32'),
                   'Age': np.array([25, 35, 40, 20], dtype='int32'),
                   'Color': pd.Categorical(["red", "green", "blue", "yellow"])})
print(df)
print('========info==========')
df.info()

         Name  Work_experience  Age   Color
0        Ivan             10.2   25     red
1       Denis             15.9   35   green
2  Vladislave              3.3   40    blue
3        Igor              7.0   20  yellow
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 4 columns):
 #   Column           Non-Null Count  Dtype   
---  ------           --------------  -----   
 0   Name             4 non-null      object  
 1   Work_experience  4 non-null      float32 
 2   Age              4 non-null      int32   
 3   Color            4 non-null      category
dtypes: category(1), float32(1), int32(1), object(1)
memory usage: 400.0+ bytes


Выберите числа в ряду `ds1`, которых нет в ряду `ds2`:

> Почитайте и примение метод `Series.isin()`

In [8]:
ds1 = pd.Series([1, 2, 3, 4, 5])
ds2 = pd.Series([4, 5, 6, 7, 8, 1, 9])

values_no_ds2  = ds1.isin(ds2)
list(ds1[~values_no_ds2])
# TODO - выберите значения в ds1, которых нет в ds2: 
# [2, 3]

[2, 3]

Оставьте в ряду два наиболее частых значения, остальные замените значением 'Другое':

<details>
<summary>Подсказка 1</summary>

Для определения наиболее частых значений воспользуйтесь методом `Series.value_counts()`
</details>

<details>
<summary>Подсказка 2</summary>

Чтобы получить наиболее частые значения можно воспользоваться результатом `Series.value_counts()` - атрибутом `Series.index`
</details>

<details>
<summary>Подсказка 3</summary>

Получив наиболее частые значения, можно индексировать другие через маску метода `Series.isin()`
</details>


In [9]:
ds = pd.Series([2, 2, 2, 4, 4, 4, 3, 1, 1, 1, 1, 4])
often_values = ds.value_counts().index
often_values = list(often_values[:2])
others = ds.isin(often_values)
ds[~others] = 'Другое'
print(list(ds))


['Другое', 'Другое', 'Другое', 4, 4, 4, 'Другое', 1, 1, 1, 1, 4]


Сделайте каждую первую букву в словах ряда заглавной:

In [10]:
ds = pd.Series(['how', 'to', 'use', 'pandas?'])
def up(x):
    return x.capitalize()
ds.apply(up)

0        How
1         To
2        Use
3    Pandas?
dtype: object

Выберите записи с максимальным значением по колонке `x1`:

In [11]:
df = pd.DataFrame(
    np.random.randint(0, 4, size=(15, 3)), 
    columns=['x1', 'x2', 'x3']
)
print(df)
print('==================')
index_of_max = df[df['x1']==df['x1'].max()]
list(index_of_max['x1'].index)
# TODO - выберите те записи, которые имеют x1 равный 
#           максимальному значению в колонке x1

    x1  x2  x3
0    1   2   2
1    1   3   0
2    2   2   0
3    3   0   0
4    1   3   2
5    3   1   3
6    3   3   2
7    1   0   2
8    3   0   1
9    1   3   1
10   1   2   3
11   0   1   0
12   0   3   3
13   1   0   1
14   2   1   1


[3, 5, 6, 8]

Выведите количество пропусков в каждой колонке данных:

In [12]:
df = pd.read_csv('https://raw.githubusercontent.com/AleksDevEdu/ml_edu/master/datasets/Cars93_miss.csv')
df.isna().sum()

Manufacturer           4
Model                  1
Type                   3
Min.Price              7
Price                  2
Max.Price              5
MPG.city               9
MPG.highway            2
AirBags                6
DriveTrain             7
Cylinders              5
EngineSize             2
Horsepower             7
RPM                    3
Rev.per.mile           6
Man.trans.avail        5
Fuel.tank.capacity     8
Passengers             2
Length                 4
Wheelbase              1
Width                  6
Turn.circle            5
Rear.seat.room         4
Luggage.room          19
Weight                 7
Origin                 5
Make                   3
dtype: int64

Замените пропущенные значения в колонке `Min.Price` средним значениям по этой колонке:

In [13]:
df = pd.read_csv('https://raw.githubusercontent.com/AleksDevEdu/ml_edu/master/datasets/Cars93_miss.csv')
df['Min.Price'].fillna(df['Min.Price'].mean(), inplace=True)
df['Min.Price'].isna().sum()
# TODO - заполните NaN в колонке Min.Price средним значением по этой колонке
# NOTE - после заполнения убедитесь, что в этой колонке нет пропущенных

0

Отсортируйте и выведите фрейм с колонками в алфавитном порядке:

In [14]:
df = pd.DataFrame(np.random.randint(0, 10, size=(5, 6)), columns=list('fbecda'))
df.columns = sorted(df.columns)
print(df)

   a  b  c  d  e  f
0  8  1  2  2  4  1
1  0  2  4  1  8  6
2  7  0  5  0  6  8
3  0  1  2  1  2  3
4  7  3  3  0  7  2


Отобразите каждую 20ю запись во фрейме и только колонки `Manufacturer`, `Model`, `Type`:

In [15]:
df = pd.read_csv('https://raw.githubusercontent.com/AleksDevEdu/ml_edu/master/datasets/Cars93_miss.csv')
DF = df.iloc[::20,:]
DF.loc[:, ['Manufacturer','Model','Type']]
 

Unnamed: 0,Manufacturer,Model,Type
0,Acura,Integra,Small
20,Chrysler,LeBaron,Compact
40,Honda,Prelude,Sporty
60,Mercury,Cougar,Midsize
80,Subaru,Loyale,Small


Получите ряд, который содержит длины строк:

In [16]:
ds = pd.Series(['how', 'to', 'use', 'pandas?'])
arr = list(range(len(ds)))

for iter in range(len(ds)):
    arr[iter] = len(ds[iter])
print(arr)


[3, 2, 3, 7]
