# Pandas (Часть 3)

> 🚀 В этой практике нам понадобятся: `numpy==1.21.2, pandas==1.5.0`

> 🚀 Установить вы их можете с помощью команды: `%pip install numpy==1.21.2 pandas==1.5.0`


## Содержание

* [Сохранение / загрузка данных (работа с CSV)](#Сохранение-/-загрузка-данных-работа-с-CSV)
  * [Задание - чуток самостоятельного разбора](#Задание---чуток-самостоятельного-разбора)
* [Задачки](#Задачки)


В этом ноутбуке:
- CSV файлы
- Кто не работает тот ест: землю при встрече с трудностями. Задачки

In [1]:
import pandas as pd
import numpy as np

## Сохранение / загрузка данных (работа с CSV)

Одним из важных инструментов в работе с таблицами является возможность сохранить результаты работы в файл или загрузить данные из файла. Пользоваться мы будем форматом CSV, который является текстовым форматом для хранения таблицы. Формат представляет собой текстовые строки, каждая колонка разделяется разделителем (запятая, точка запятой и др.), поэтому его просто понять и обрабатывать, так как не требуется никакого специального протокола для понимания.

Для сохранения данных имеется метод `DataFrame.to_csv()`:

In [2]:
import string

df = pd.DataFrame(
    data=np.random.randint(0, 10, size=(15, 3)),
    columns=['x1', 'x2', 'x3'],
    index=list(string.ascii_uppercase)[:15]
)
df.head(3)

Unnamed: 0,x1,x2,x3
A,6,2,1
B,1,8,6
C,0,6,0


In [3]:
# Для сохранения задается путь до файла
df.to_csv('my_first_file.csv')

Чтобы убедиться в работе метода найдите файл рядом с ноутбуком и откройте его через редактор.

> При работе в Google Colab слева есть вкладка, которая показывает файлы на сервере.

При открытии можно увидеть четыре колонки:
- Колонка индекса;
- Три колонки из наших данных.

Теперь, когда мы имеем файл CSV в системе - можем испытать функцию загрузки `pd.read_csv()`:

In [4]:
df = pd.read_csv('my_first_file.csv')
df.head(3)

Unnamed: 0.1,Unnamed: 0,x1,x2,x3
0,A,6,2,1
1,B,1,8,6
2,C,0,6,0


Видна одна явная проблема - у нас появилась колонка, которая должна быть индексом, но она стала новой колонкой, а индексы создались новые. Для решения проблемы при загрузке необходимо явно задать, какая колонка считается индексом:

In [5]:
df = pd.read_csv('my_first_file.csv', index_col=0)
df.head(3)

Unnamed: 0,x1,x2,x3
A,6,2,1
B,1,8,6
C,0,6,0


Теперь все отлично и данные загрузились так, как они должны быть.

### Задание - чуток самостоятельного разбора

Разберитесь в аргументах `DataFrame.to_csv()` и сохраните данные в файл так, чтобы в файл индекс не сохранялся.

In [9]:
df = pd.DataFrame(
    data=np.random.randint(0, 10, size=(15, 3)),
    columns=['x1', 'x2', 'x3'],
    index=list(string.ascii_uppercase)[:15]
)
df.head(3)
df.to_csv('no_index.csv', index=False)

## Задачки

Создайте фрейм с четыремя колонками:
- Колонка с именами (тип - объекты);
- Колонка с стажем работы (тип - вещественный);
- Колонка с возрастом (тип - целочисленный);
- Колонка с названием любимого цвета (тип - категориальный);

Имена колонок и значения любые, не менее трех записей (строк) в фрейме.

In [11]:
frameframe = {
    'Имя': ['Саша', 'Алина', 'Стас','Ержан'],
    'Стаж работы': [0, 15.2, 2.1, 6.6],
    'Возраст': [2, 99, 15, 8],
    'Любимый цвет': ['голубой', 'голубой', 'зеленый', 'зеленый']
}
df = pd.DataFrame(frameframe)

df['Возраст'] = df['Возраст'].astype(int)

print(df)
print(df.info())

     Имя  Стаж работы  Возраст Любимый цвет
0   Саша          0.0        2      голубой
1  Алина         15.2       99      голубой
2   Стас          2.1       15      зеленый
3  Ержан          6.6        8      зеленый
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 4 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Имя           4 non-null      object 
 1   Стаж работы   4 non-null      float64
 2   Возраст       4 non-null      int64  
 3   Любимый цвет  4 non-null      object 
dtypes: float64(1), int64(1), object(2)
memory usage: 256.0+ bytes
None


Выберите числа в ряду `ds1`, которых нет в ряду `ds2`:

> Почитайте и примение метод `Series.isin()`

In [12]:
ds1 = pd.Series([1, 2, 3, 4, 5])
ds2 = pd.Series([4, 5, 6, 7, 8, 1, 9])
didnt = ds1[~ds1.isin(ds2)]
print(didnt)


1    2
2    3
dtype: int64


Оставьте в ряду два наиболее частых значения, остальные замените значением 'Другое':

<details>
<summary>Подсказка 1</summary>

Для определения наиболее частых значений воспользуйтесь методом `Series.value_counts()`
</details>

<details>
<summary>Подсказка 2</summary>

Чтобы получить наиболее частые значения можно воспользоваться результатом `Series.value_counts()` - атрибутом `Series.index`
</details>

<details>
<summary>Подсказка 3</summary>

Получив наиболее частые значения, можно индексировать другие через маску метода `Series.isin()`
</details>


In [13]:
ds = pd.Series([2, 2, 2, 4, 4, 4, 3, 1, 1, 1, 1, 4])
Drugoe2 = ds.value_counts().index[:2]
ds[~ds.isin(Drugoe2)] = 'Другое'
print(ds)

0     Другое
1     Другое
2     Другое
3          4
4          4
5          4
6     Другое
7          1
8          1
9          1
10         1
11         4
dtype: object


Сделайте каждую первую букву в словах ряда заглавной:

In [14]:
ds = pd.Series(['how', 'to', 'use', 'pandas?'])
ds = ds.apply(lambda x: x.capitalize())
print(ds)

0        How
1         To
2        Use
3    Pandas?
dtype: object


Выберите записи с максимальным значением по колонке `x1`:

In [19]:
df = pd.DataFrame(
    np.random.randint(0, 4, size=(15, 3)),
    columns=['x1', 'x2', 'x3']
)
max_x1 = df[df['x1'] == df['x1'].max()]
print(max_x1)

    x1  x2  x3
5    3   2   0
6    3   2   1
10   3   0   1
14   3   1   1


Выведите количество пропусков в каждой колонке данных:

In [20]:
df = pd.read_csv('https://raw.githubusercontent.com/AleksDevEdu/ml_edu/master/datasets/Cars93_miss.csv')
df.isnull().sum()

Manufacturer           4
Model                  1
Type                   3
Min.Price              7
Price                  2
Max.Price              5
MPG.city               9
MPG.highway            2
AirBags                6
DriveTrain             7
Cylinders              5
EngineSize             2
Horsepower             7
RPM                    3
Rev.per.mile           6
Man.trans.avail        5
Fuel.tank.capacity     8
Passengers             2
Length                 4
Wheelbase              1
Width                  6
Turn.circle            5
Rear.seat.room         4
Luggage.room          19
Weight                 7
Origin                 5
Make                   3
dtype: int64

Замените пропущенные значения в колонке `Min.Price` средним значениям по этой колонке:

In [21]:
dfdf = pd.read_csv('https://raw.githubusercontent.com/AleksDevEdu/ml_edu/master/datasets/Cars93_miss.csv')
Nann = df['Min.Price'].mean()
df['Min.Price'].fillna(Nann, inplace=True)
NotP = df['Min.Price'].isnull().sum()
print("Количество пропущенных значений в колонке Min.Price:", NotP)
print(df)

Количество пропущенных значений в колонке Min.Price: 0
   Manufacturer    Model     Type  Min.Price  Price  Max.Price  MPG.city  \
0         Acura  Integra    Small  12.900000   15.9       18.8      25.0   
1           NaN   Legend  Midsize  29.200000   33.9       38.7      18.0   
2          Audi       90  Compact  25.900000   29.1       32.3      20.0   
3          Audi      100  Midsize  17.118605   37.7       44.6      19.0   
4           BMW     535i  Midsize  17.118605   30.0        NaN      22.0   
..          ...      ...      ...        ...    ...        ...       ...   
88   Volkswagen  Eurovan      Van  16.600000   19.7       22.7      17.0   
89   Volkswagen   Passat  Compact  17.600000   20.0       22.4      21.0   
90   Volkswagen  Corrado   Sporty  22.900000   23.3       23.7      18.0   
91        Volvo      240  Compact  21.800000   22.7       23.5      21.0   
92          NaN      850  Midsize  24.800000   26.7       28.5      20.0   

    MPG.highway             AirB

Отсортируйте и выведите фрейм с колонками в алфавитном порядке:

In [22]:
df = pd.DataFrame(np.random.randint(0, 10, size=(5, 6)), columns=list('fbecda'))
sort1 = df.reindex(sorted(df.columns), axis=1)
print(sort1)

   a  b  c  d  e  f
0  2  7  6  9  8  9
1  7  6  9  0  6  4
2  1  7  6  8  5  2
3  5  7  3  5  6  2
4  5  3  2  2  8  3


Отобразите каждую 20ю запись во фрейме и только колонки `Manufacturer`, `Model`, `Type`:

In [25]:
df = pd.read_csv('https://raw.githubusercontent.com/AleksDevEdu/ml_edu/master/datasets/Cars93_miss.csv')
filterfilter = df[['Manufacturer', 'Model', 'Type']].iloc[::20]
print(filterfilter)

   Manufacturer    Model     Type
0         Acura  Integra    Small
20     Chrysler  LeBaron  Compact
40        Honda  Prelude   Sporty
60      Mercury   Cougar  Midsize
80       Subaru   Loyale    Small


Получите ряд, который содержит длины строк:

In [27]:
ds = pd.Series(['how', 'to', 'use', 'pandas?'])
Dlinastr = ds.apply(len)
print(Dlinastr)

0    3
1    2
2    3
3    7
dtype: int64
