# Pandas (Часть 3)

> 🚀 В этой практике нам понадобятся: `numpy==1.26.4, pandas==2.2.2` 

> 🚀 Установить вы их можете с помощью команды: `%pip install numpy==1.26.4 pandas==2.2.2` 


## Содержание

* [Сохранение / загрузка данных (работа с CSV)](#Сохранение-/-загрузка-данных-работа-с-CSV)
  * [Задание - чуток самостоятельного разбора](#Задание---чуток-самостоятельного-разбора)
* [Задачки](#Задачки)


В этом ноутбуке:
- CSV файлы
- Кто не работает тот ест: землю при встрече с трудностями. Задачки

In [1]:
import pandas as pd
import numpy as np

## Сохранение / загрузка данных (работа с CSV) 

Одним из важных инструментов в работе с таблицами является возможность сохранить результаты работы в файл или загрузить данные из файла. Пользоваться мы будем форматом CSV, который является текстовым форматом для хранения таблицы. Формат представляет собой текстовые строки, каждая колонка разделяется разделителем (запятая, точка запятой и др.), поэтому его просто понять и обрабатывать, так как не требуется никакого специального протокола для понимания.

Для сохранения данных имеется метод `DataFrame.to_csv()`:

In [2]:
import string

df = pd.DataFrame(
    data=np.random.randint(0, 10, size=(15, 3)), 
    columns=["x1", "x2", "x3"],
    index=list(string.ascii_uppercase)[:15]
)
df.head(3)

Unnamed: 0,x1,x2,x3
A,3,8,0
B,6,6,2
C,6,2,6


In [3]:
# Для сохранения задается путь до файла
df.to_csv("my_first_file.csv")

Чтобы убедиться в работе метода найдите файл рядом с ноутбуком и откройте его через редактор.

> При работе в Google Colab слева есть вкладка, которая показывает файлы на сервере.

При открытии можно увидеть четыре колонки:
- Колонка индекса;
- Три колонки из наших данных.

Теперь, когда мы имеем файл CSV в системе - можем испытать функцию загрузки `pd.read_csv()`:

In [4]:
df = pd.read_csv("my_first_file.csv")
df.head(3)

Unnamed: 0.1,Unnamed: 0,x1,x2,x3
0,A,3,8,0
1,B,6,6,2
2,C,6,2,6


Видна одна явная проблема - у нас появилась колонка, которая должна быть индексом, но она стала новой колонкой, а индексы создались новые. Для решения проблемы при загрузке необходимо явно задать, какая колонка считается индексом:

In [5]:
df = pd.read_csv("my_first_file.csv", index_col=0)
df.head(3)

Unnamed: 0,x1,x2,x3
A,3,8,0
B,6,6,2
C,6,2,6


Теперь все отлично, и данные загрузились.

### Задание - чуток самостоятельного разбора

Разберитесь в аргументах `DataFrame.to_csv()` и сохраните данные в файл так, чтобы индекс в файл не сохранялся.

In [18]:
df = pd.DataFrame(
    data=np.random.randint(0, 10, size=(15, 3)), 
    columns=["x1", "x2", "x3"],
    index=list(string.ascii_uppercase)[:15]
)
df.head(3)
df.to_csv("no_index.csv", index = False)
df = pd.read_csv("no_index.csv")
df.head(3)
# TODO - сохранить в файл no_index.csv без индексов

Unnamed: 0,x1,x2,x3
0,1,7,3
1,2,8,6
2,2,2,6


## Задачки

Создайте фрейм с четыремя колонками:
- колонка с именами (тип - объекты);
- колонка с стажем работы (тип - вещественный);
- колонка с возрастом (тип - целочисленный);
- колонка с названием любимого цвета (тип - категориальный).

Имена колонок и значения любые, не менее трех записей (строк) в фрейме.

In [29]:
df_employees = pd.DataFrame({
    "Names": ["Mike", "Valeri", "Max", "Ahmed", "Iowa", "Patrick", "Ivan"],
    "Work Experience": [1.6, 4, 7, 1, 2.4, 3.2, 9],
    "Age": [23, 28, 34, 20, 25, 27, 34],
    "Colour": ['g', 'y', 'k', 'w', 'r', 'k', 'k']
})

df_employees["Names"] = df_employees["Names"].astype(object)
df_employees["Work Experience"] = df_employees["Work Experience"].astype(float)
df_employees["Age"] = df_employees["Age"].astype(int)
df_employees["Colour"].dtype
df_employees.info()
df_employees
# TODO - создайте фрейм и настройте правильные типы колонок
#           DataFrame.info() дожен отображать указанные типы

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 4 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Names            7 non-null      object 
 1   Work Experience  7 non-null      float64
 2   Age              7 non-null      int32  
 3   Colour           7 non-null      object 
dtypes: float64(1), int32(1), object(2)
memory usage: 328.0+ bytes


Unnamed: 0,Names,Work Experience,Age,Colour
0,Mike,1.6,23,g
1,Valeri,4.0,28,y
2,Max,7.0,34,k
3,Ahmed,1.0,20,w
4,Iowa,2.4,25,r
5,Patrick,3.2,27,k
6,Ivan,9.0,34,k


Выберите числа в ряду `ds1`, которых нет в ряду `ds2`:

> Почитайте и примение метод `Series.isin()`

In [38]:
import pandas as pd

ds1 = pd.Series([1, 2, 3, 4, 5])
ds2 = pd.Series([4, 5, 6, 7, 8, 1, 9])

values_to_check = [2,3]
res = ds2.isin(values_to_check)
print (res)
# TODO - выберите значения в ds1, которых нет в ds2: 
# [2, 3]

0    False
1    False
2    False
3    False
4    False
5    False
6    False
dtype: bool


Оставьте в ряду два наиболее частых значения, остальные замените значением "Другое":

<details>
<summary>Подсказка 1</summary>

Для определения наиболее частых значений воспользуйтесь методом `Series.value_counts()`
</details>

<details>
<summary>Подсказка 2</summary>

Чтобы получить наиболее частые значения можно воспользоваться результатом `Series.value_counts()` - атрибутом `Series.index`
</details>

<details>
<summary>Подсказка 3</summary>

Получив наиболее частые значения, можно индексировать другие через маску метода `Series.isin()`
</details>


In [41]:
ds = pd.Series(['other', 'other', 'other', 4, 4, 4, 'other', 1, 1, 1, 1, 4])
ds.value_counts()
# TODO - определите два наиболее частых значения в ряду (1, 4),
#           остальные замените значением "Другое"
# ["Другое", "Другое", "Другое", 4, 4, 4, "Другое", 1, 1, 1, 1, 4]

other    4
4        4
1        4
Name: count, dtype: int64

Сделайте каждую первую букву в словах ряда заглавной:

In [48]:
import pandas as pd
ds_words = pd.Series(["how", "to", "use", "pandas?"])
res = ds_words.apply(lambda x: x.capitalize())
print(res)
# TODO - сделайте каждую первую букву заглавной с помощью Series.apply()

0        How
1         To
2        Use
3    Pandas?
dtype: object


Выберите записи с максимальным значением по колонке `x1`:

In [54]:
df = pd.DataFrame(
    np.random.randint(0, 4, size=(15, 3)), 
    columns=["x1", "x2", "x3"]
)
df["x1"].max()
# TODO - выберите те записи, которые имеют x1 равный 
#           максимальному значению в колонке x1

3

Выведите количество пропусков в каждой колонке данных:

In [56]:
df_URL_Link = pd.read_csv("https://raw.githubusercontent.com/AleksDevEdu/ml_edu/master/datasets/Cars93_miss.csv")
print(df_URL_Link.isnull().sum()) 
# TODO - отобразите количество пропусков в данных по каждой колонке

Manufacturer           4
Model                  1
Type                   3
Min.Price              7
Price                  2
Max.Price              5
MPG.city               9
MPG.highway            2
AirBags               38
DriveTrain             7
Cylinders              5
EngineSize             2
Horsepower             7
RPM                    3
Rev.per.mile           6
Man.trans.avail        5
Fuel.tank.capacity     8
Passengers             2
Length                 4
Wheelbase              1
Width                  6
Turn.circle            5
Rear.seat.room         4
Luggage.room          19
Weight                 7
Origin                 5
Make                   3
dtype: int64


Замените пропущенные значения в колонке `Min.Price` средним значениям по этой колонке:

In [59]:
df_URL_Link = pd.read_csv("https://raw.githubusercontent.com/AleksDevEdu/ml_edu/master/datasets/Cars93_miss.csv")
mean_value = df_URL_Link['Min.Price'].mean()
df_URL_Link['Min.Price'] = df['Min.Price'].fillna(mean_value)
print(df_URL_Link)
# TODO - заполните NaN в колонке Min.Price средним значением по этой колонке
# NOTE - после заполнения убедитесь, что в этой колонке нет пропущенных

   Manufacturer    Model     Type  Min.Price  Price  Max.Price  MPG.city  \
0         Acura  Integra    Small  12.900000   15.9       18.8      25.0   
1           NaN   Legend  Midsize  29.200000   33.9       38.7      18.0   
2          Audi       90  Compact  25.900000   29.1       32.3      20.0   
3          Audi      100  Midsize  17.118605   37.7       44.6      19.0   
4           BMW     535i  Midsize  17.118605   30.0        NaN      22.0   
..          ...      ...      ...        ...    ...        ...       ...   
88   Volkswagen  Eurovan      Van  16.600000   19.7       22.7      17.0   
89   Volkswagen   Passat  Compact  17.600000   20.0       22.4      21.0   
90   Volkswagen  Corrado   Sporty  22.900000   23.3       23.7      18.0   
91        Volvo      240  Compact  21.800000   22.7       23.5      21.0   
92          NaN      850  Midsize  24.800000   26.7       28.5      20.0   

    MPG.highway             AirBags DriveTrain  ... Passengers  Length  \
0          31

Отсортируйте и выведите фрейм с колонками в алфавитном порядке:

In [68]:
df_alphabet = pd.DataFrame(np.random.randint(0, 10, size=(5, 6)), columns=list("fbecda"))
df_alphabet_sorted = df_alphabet.sort_index(axis=1)
print(df_alphabet_sorted)
# TODO - получите фрейм с отсортированными по именам колонкам (f e d c b a)
# NOTE - сортировка должна быть автоматической

   a  b  c  d  e  f
0  9  4  2  5  7  8
1  5  6  3  8  0  5
2  9  0  8  1  0  4
3  8  6  9  5  2  0
4  7  1  9  1  0  9


Отобразите каждую тринадцатую запись во фрейме и только колонки `Manufacturer`, `Model`, `Type`:

In [69]:
df = pd.read_csv("https://raw.githubusercontent.com/AleksDevEdu/ml_edu/master/datasets/Cars93_miss.csv")
index_step = 13
selected_index = range(0, len(df), index_step)
cols = ['Manufacturer', 'Model', 'Type']
df_selected = df.loc[selected_index, cols]
print(df_selected)
# TODO - отобразите запись с периодичностью во фрейме и определенные колонки

   Manufacturer    Model     Type
0         Acura  Integra    Small
13    Chevrolet   Camaro   Sporty
26        Dodge  Dynasty  Midsize
39          Geo    Storm   Sporty
52        Mazda      323    Small
65       Nissan    Quest      Van
78       Saturn       SL    Small
91        Volvo      240  Compact


Получите ряд, который содержит длины строк:

In [76]:
ds = pd.Series(["how", "to", "use", "pandas?"])
print(ds.apply(len).to_frame('Lengths'))
# TODO - создайте ряд, содержащий длины строк:
# 0    3
# 1    2
# 2    3
# 3    7
# dtype: int64

   Lengths
0        3
1        2
2        3
3        7
