# Pandas (Часть 3)

> 🚀 В этой практике нам понадобятся: `numpy==1.26.4, pandas==2.2.2` 

> 🚀 Установить вы их можете с помощью команды: `%pip install numpy==1.26.4 pandas==2.2.2` 


## Содержание

* [Сохранение / загрузка данных (работа с CSV)](#Сохранение-/-загрузка-данных-работа-с-CSV)
  * [Задание - чуток самостоятельного разбора](#Задание---чуток-самостоятельного-разбора)
* [Задачки](#Задачки)


В этом ноутбуке:
- CSV файлы
- Кто не работает тот ест: землю при встрече с трудностями. Задачки

In [45]:
import pandas as pd
import numpy as np

## Сохранение / загрузка данных (работа с CSV) 

Одним из важных инструментов в работе с таблицами является возможность сохранить результаты работы в файл или загрузить данные из файла. Пользоваться мы будем форматом CSV, который является текстовым форматом для хранения таблицы. Формат представляет собой текстовые строки, каждая колонка разделяется разделителем (запятая, точка запятой и др.), поэтому его просто понять и обрабатывать, так как не требуется никакого специального протокола для понимания.

Для сохранения данных имеется метод `DataFrame.to_csv()`:

In [46]:
import string

df = pd.DataFrame(
    data=np.random.randint(0, 10, size=(15, 3)), 
    columns=["x1", "x2", "x3"],
    index=list(string.ascii_uppercase)[:15]
)
df.head(3)

Unnamed: 0,x1,x2,x3
A,8,7,9
B,5,3,3
C,5,9,4


In [47]:
# Для сохранения задается путь до файла
df.to_csv("my_first_file.csv")

Чтобы убедиться в работе метода найдите файл рядом с ноутбуком и откройте его через редактор.

> При работе в Google Colab слева есть вкладка, которая показывает файлы на сервере.

При открытии можно увидеть четыре колонки:
- Колонка индекса;
- Три колонки из наших данных.

Теперь, когда мы имеем файл CSV в системе - можем испытать функцию загрузки `pd.read_csv()`:

In [48]:
df = pd.read_csv("my_first_file.csv")
df.head(3)

Unnamed: 0.1,Unnamed: 0,x1,x2,x3
0,A,8,7,9
1,B,5,3,3
2,C,5,9,4


Видна одна явная проблема - у нас появилась колонка, которая должна быть индексом, но она стала новой колонкой, а индексы создались новые. Для решения проблемы при загрузке необходимо явно задать, какая колонка считается индексом:

In [49]:
df = pd.read_csv("my_first_file.csv", index_col=0)
df.head(3)

Unnamed: 0,x1,x2,x3
A,8,7,9
B,5,3,3
C,5,9,4


Теперь все отлично, и данные загрузились.

### Задание - чуток самостоятельного разбора

Разберитесь в аргументах `DataFrame.to_csv()` и сохраните данные в файл так, чтобы индекс в файл не сохранялся.

In [50]:
df = pd.DataFrame(
    data=np.random.randint(0, 10, size=(15, 3)), 
    columns=["x1", "x2", "x3"],
    index=list(string.ascii_uppercase)[:15]
)
df.head(3)

# TODO - сохранить в файл no_index.csv без индексов
df.to_csv("my_first_file.csv", index = False)
df = pd.read_csv("my_first_file.csv")
df.head(3)

Unnamed: 0,x1,x2,x3
0,3,7,1
1,4,4,2
2,3,8,9


## Задачки

Создайте фрейм с четыремя колонками:
- колонка с именами (тип - объекты);
- колонка с стажем работы (тип - вещественный);
- колонка с возрастом (тип - целочисленный);
- колонка с названием любимого цвета (тип - категориальный).

Имена колонок и значения любые, не менее трех записей (строк) в фрейме.

In [51]:
# TODO - создайте фрейм и настройте правильные типы колонок
df = pd.DataFrame(data={
    "Имя": ["Igor", "Misha", "Boba", "Kiril", "Ilya", "Artyom"],
    "стаж работы": [3, 1, 4, 1, 5, 3],
    "восраст": [30, 33, 38, 38, 22, 29],
    "любимый свет": ['blue', 'red', 'yellow', 'brown', 'white', 'black']
}, columns=["Имя", "стаж работы", "восраст", "любимый свет"])
df.to_csv("idk.csv")
df = pd.read_csv("idk.csv", index_col=0)
df
#           DataFrame.info() дожен отображать указанные типы

Unnamed: 0,Имя,стаж работы,восраст,любимый свет
0,Igor,3,30,blue
1,Misha,1,33,red
2,Boba,4,38,yellow
3,Kiril,1,38,brown
4,Ilya,5,22,white
5,Artyom,3,29,black


Выберите числа в ряду `ds1`, которых нет в ряду `ds2`:

> Почитайте и примение метод `Series.isin()`

In [52]:
ds1 = pd.Series([1, 2, 3, 4, 5])
ds2 = pd.Series([4, 5, 6, 7, 8, 1, 9])
values_to_check = [2,3]
res = ds2.isin(values_to_check)
print (res)
# TODO - выберите значения в ds1, которых нет в ds2: 
# [2, 3]

0    False
1    False
2    False
3    False
4    False
5    False
6    False
dtype: bool


Оставьте в ряду два наиболее частых значения, остальные замените значением "Другое":

<details>
<summary>Подсказка 1</summary>

Для определения наиболее частых значений воспользуйтесь методом `Series.value_counts()`
</details>

<details>
<summary>Подсказка 2</summary>

Чтобы получить наиболее частые значения можно воспользоваться результатом `Series.value_counts()` - атрибутом `Series.index`
</details>

<details>
<summary>Подсказка 3</summary>

Получив наиболее частые значения, можно индексировать другие через маску метода `Series.isin()`
</details>


In [53]:
ds = pd.Series([2, 2, 2, 4, 4, 4, 3, 1, 1, 1, 1, 4])
ds.value_counts()

top_two = ds.value_counts().index[:2]

ds = ds.apply(lambda x: x if x in top_two else "Другое")
ds
# TODO - определите два наиболее частых значения в ряду (1, 4),
#           остальные замените значением "Другое"
# ["Другое", "Другое", "Другое", 4, 4, 4, "Другое", 1, 1, 1, 1, 4]

0     Другое
1     Другое
2     Другое
3          4
4          4
5          4
6     Другое
7          1
8          1
9          1
10         1
11         4
dtype: object

Сделайте каждую первую букву в словах ряда заглавной:

In [54]:
ds = pd.Series(["how", "to", "use", "pandas?"])
ds = ds.apply(lambda x: x.capitalize())
ds
# TODO - сделайте каждую первую букву заглавной с помощью Series.apply()

0        How
1         To
2        Use
3    Pandas?
dtype: object

Выберите записи с максимальным значением по колонке `x1`:

In [55]:
df = pd.DataFrame(
    np.random.randint(0, 4, size=(15, 3)), 
    columns=["x1", "x2", "x3"]
)
df["x1"].max()
# TODO - выберите те записи, которые имеют x1 равный 
#           максимальному значению в колонке x1


3

Выведите количество пропусков в каждой колонке данных:

In [56]:
df = pd.read_csv("https://raw.githubusercontent.com/AleksDevEdu/ml_edu/master/datasets/Cars93_miss.csv")
df
# TODO - отобразите количество пропусков в данных по каждой колонке
missing_values = df.isnull().sum()
missing_values

Manufacturer           4
Model                  1
Type                   3
Min.Price              7
Price                  2
Max.Price              5
MPG.city               9
MPG.highway            2
AirBags               38
DriveTrain             7
Cylinders              5
EngineSize             2
Horsepower             7
RPM                    3
Rev.per.mile           6
Man.trans.avail        5
Fuel.tank.capacity     8
Passengers             2
Length                 4
Wheelbase              1
Width                  6
Turn.circle            5
Rear.seat.room         4
Luggage.room          19
Weight                 7
Origin                 5
Make                   3
dtype: int64

Замените пропущенные значения в колонке `Min.Price` средним значениям по этой колонке:

In [69]:
df = pd.read_csv("https://raw.githubusercontent.com/AleksDevEdu/ml_edu/master/datasets/Cars93_miss.csv")
mean_min_price = df["Min.Price"].mean()
df["Min.Price"] = df["Min.Price"].fillna(mean_min_price)
print(df)

   Manufacturer    Model     Type  Min.Price  Price  Max.Price  MPG.city  \
0         Acura  Integra    Small  12.900000   15.9       18.8      25.0   
1           NaN   Legend  Midsize  29.200000   33.9       38.7      18.0   
2          Audi       90  Compact  25.900000   29.1       32.3      20.0   
3          Audi      100  Midsize  17.118605   37.7       44.6      19.0   
4           BMW     535i  Midsize  17.118605   30.0        NaN      22.0   
..          ...      ...      ...        ...    ...        ...       ...   
88   Volkswagen  Eurovan      Van  16.600000   19.7       22.7      17.0   
89   Volkswagen   Passat  Compact  17.600000   20.0       22.4      21.0   
90   Volkswagen  Corrado   Sporty  22.900000   23.3       23.7      18.0   
91        Volvo      240  Compact  21.800000   22.7       23.5      21.0   
92          NaN      850  Midsize  24.800000   26.7       28.5      20.0   

    MPG.highway             AirBags DriveTrain  ... Passengers  Length  \
0          31

Отсортируйте и выведите фрейм с колонками в алфавитном порядке:

In [70]:
df = pd.DataFrame(np.random.randint(0, 10, size=(5, 6)), columns=list("fbecda"))
df_alphabet_sorted =df.sort_index(axis=1)
print(df_alphabet_sorted)
# TODO - получите фрейм с отсортированными по именам колонкам (f e d c b a)

# NOTE - сортировка должна быть автоматической


   a  b  c  d  e  f
0  2  0  1  4  5  7
1  1  9  6  9  3  9
2  4  2  0  4  0  4
3  4  2  5  2  1  2
4  4  2  3  8  3  0


Отобразите каждую тринадцатую запись во фрейме и только колонки `Manufacturer`, `Model`, `Type`:

In [73]:
df = pd.read_csv("https://raw.githubusercontent.com/AleksDevEdu/ml_edu/master/datasets/Cars93_miss.csv")
index_step = 13
selected_index = range(0, len(df), index_step)
cols = ['Manufacturer', 'Model', 'Type']
df_selected = df.loc[selected_index, cols]
print(df_selected)
print("------------------")
df
# TODO - отобразите запись с периодичностью во фрейме и определенные колонки

   Manufacturer    Model     Type
0         Acura  Integra    Small
13    Chevrolet   Camaro   Sporty
26        Dodge  Dynasty  Midsize
39          Geo    Storm   Sporty
52        Mazda      323    Small
65       Nissan    Quest      Van
78       Saturn       SL    Small
91        Volvo      240  Compact
------------------


Unnamed: 0,Manufacturer,Model,Type,Min.Price,Price,Max.Price,MPG.city,MPG.highway,AirBags,DriveTrain,...,Passengers,Length,Wheelbase,Width,Turn.circle,Rear.seat.room,Luggage.room,Weight,Origin,Make
0,Acura,Integra,Small,12.9,15.9,18.8,25.0,31.0,,Front,...,5.0,177.0,102.0,68.0,37.0,26.5,,2705.0,non-USA,Acura Integra
1,,Legend,Midsize,29.2,33.9,38.7,18.0,25.0,Driver & Passenger,Front,...,5.0,195.0,115.0,71.0,38.0,30.0,15.0,3560.0,non-USA,Acura Legend
2,Audi,90,Compact,25.9,29.1,32.3,20.0,26.0,Driver only,Front,...,5.0,180.0,102.0,67.0,37.0,28.0,14.0,3375.0,non-USA,Audi 90
3,Audi,100,Midsize,,37.7,44.6,19.0,26.0,Driver & Passenger,,...,6.0,193.0,106.0,,37.0,31.0,17.0,3405.0,non-USA,Audi 100
4,BMW,535i,Midsize,,30.0,,22.0,30.0,,Rear,...,4.0,186.0,109.0,69.0,39.0,27.0,13.0,3640.0,non-USA,BMW 535i
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
88,Volkswagen,Eurovan,Van,16.6,19.7,22.7,17.0,21.0,,Front,...,7.0,187.0,115.0,72.0,38.0,34.0,,3960.0,,Volkswagen Eurovan
89,Volkswagen,Passat,Compact,17.6,20.0,22.4,21.0,30.0,,Front,...,5.0,180.0,103.0,67.0,35.0,31.5,14.0,2985.0,non-USA,Volkswagen Passat
90,Volkswagen,Corrado,Sporty,22.9,23.3,23.7,18.0,25.0,,Front,...,4.0,159.0,97.0,66.0,36.0,26.0,15.0,2810.0,non-USA,Volkswagen Corrado
91,Volvo,240,Compact,21.8,22.7,23.5,21.0,28.0,Driver only,Rear,...,5.0,190.0,104.0,67.0,37.0,29.5,14.0,2985.0,non-USA,Volvo 240


Получите ряд, который содержит длины строк:

In [74]:
ds = pd.Series(["how", "to", "use", "pandas?"])
print(ds.apply(len).to_frame('Lengths'))
# TODO - создайте ряд, содержащий длины строк:
# 0    3
# 1    2
# 2    3
# 3    7
# dtype: int64

   Lengths
0        3
1        2
2        3
3        7
