# Pandas (Часть 3)

> 🚀 В этой практике нам понадобятся: `numpy==1.21.2, pandas==1.3.3` 

> 🚀 Установить вы их можете с помощью команды: `!pip install numpy==1.21.2 pandas==1.3.3` 


## Содержание

* [Сохранение / загрузка данных (работа с CSV)](#Сохранение-/-загрузка-данных-работа-с-CSV)
  * [Задание - чуток самостоятельного разбора](#Задание---чуток-самостоятельного-разбора)
* [Задачки](#Задачки)


В этом ноутбуке:
- CSV файлы
- Кто не работает тот ест: землю при встрече с трудностями. Задачки

In [2]:
import pandas as pd
import numpy as np

## Сохранение / загрузка данных (работа с CSV) 

Одним из важных инструментов в работе с таблицами является возможность сохранить результаты работы в файл или загрузить данные из файла. Пользоваться мы будем форматом CSV, который является текстовым форматом для хранения таблицы. Формат представляет собой текстовые строки, каждая колонка разделяется разделителем (запятая, точка запятой и др.), поэтому его просто понять и обрабатывать, так как не требуется никакого специального протокола для понимания.

Для сохранения данных имеется метод `DataFrame.to_csv()`:

In [3]:
import string

df = pd.DataFrame(
    data=np.random.randint(0, 10, size=(15, 3)), 
    columns=['x1', 'x2', 'x3'],
    index=list(string.ascii_uppercase)[:15]
)
df.head(3)

Unnamed: 0,x1,x2,x3
A,7,1,2
B,7,6,5
C,5,2,2


In [4]:
# Для сохранения задается путь до файла
df.to_csv('my_first_file.csv')

Чтобы убедиться в работе метода найдите файл рядом с ноутбуком и откройте его через редактор.

> При работе в Google Colab слева есть вкладка, которая показывает файлы на сервере.

При открытии можно увидеть четыре колонки:
- Колонка индекса;
- Три колонки из наших данных.

Теперь, когда мы имеем файл CSV в системе - можем испытать функцию загрузки `pd.read_csv()`:

In [5]:
df = pd.read_csv('my_first_file.csv')
df.head(3)

Unnamed: 0.1,Unnamed: 0,x1,x2,x3
0,A,7,1,2
1,B,7,6,5
2,C,5,2,2


Видна одна явная проблема - у нас появилась колонка, которая должна быть индексом, но она стала новой колонкой, а индексы создались новые. Для решения проблемы при загрузке необходимо явно задать, какая колонка считается индексом:

In [6]:
df = pd.read_csv('my_first_file.csv', index_col=0)
df.head(3)

Unnamed: 0,x1,x2,x3
A,7,1,2
B,7,6,5
C,5,2,2


Теперь все отлично и данные загрузились так, как они должны быть.

### Задание - чуток самостоятельного разбора

Разберитесь в аргументах `DataFrame.to_csv()` и сохраните данные в файл так, чтобы в файл индекс не сохранялся.

In [14]:
df = pd.DataFrame(
    data=np.random.randint(0, 10, size=(15, 3)), 
    columns=['x1', 'x2', 'x3'],
    index=list(string.ascii_uppercase)[:15]
)
df.head(3)

# TODO - сохранить в файл no_index.csv без индексов
df.to_csv('my_first_file.csv', index = False)

df.head(3)

Unnamed: 0,x1,x2,x3
A,4,7,1
B,0,7,4
C,8,0,1


## Задачки

Создайте фрейм с четыремя колонками:
- Колонка с именами (тип - объекты);
- Колонка с стажем работы (тип - вещественный);
- Колонка с возрастом (тип - целочисленный);
- Колонка с названием любимого цвета (тип - категориальный);

Имена колонок и значения любые, не менее трех записей (строк) в фрейме.

In [52]:
# TODO - создайте фрейм и настройте правильные типы колонок
#           DataFrame.info() дожен отображать указанные типы
from unicodedata import category


df = pd.DataFrame(
    data=np.random.randint(0, 10, size=(15, 4)), 
    columns=['Name', 'WorkAge', 'Age','FavColor'],
    index=list(string.ascii_uppercase)[:15]
)
df= df.astype({'Name': object, "WorkAge": float,"Age": int})
df['FavColor'] = df['FavColor'].astype('category')
print(df.info())
print(df)


<class 'pandas.core.frame.DataFrame'>
Index: 15 entries, A to O
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype   
---  ------    --------------  -----   
 0   Name      15 non-null     object  
 1   WorkAge   15 non-null     float64 
 2   Age       15 non-null     int32   
 3   FavColor  15 non-null     category
dtypes: category(1), float64(1), int32(1), object(1)
memory usage: 799.0+ bytes
None
  Name  WorkAge  Age FavColor
A    9      9.0    2        6
B    8      9.0    5        3
C    4      8.0    3        0
D    6      1.0    1        9
E    6      6.0    6        3
F    9      5.0    7        5
G    4      9.0    4        8
H    4      8.0    0        5
I    0      2.0    4        0
J    6      0.0    8        6
K    4      5.0    4        5
L    6      0.0    4        9
M    5      4.0    7        7
N    1      0.0    1        4
O    5      1.0    0        8


Выберите числа в ряду `ds1`, которых нет в ряду `ds2`:

> Почитайте и примение метод `Series.isin()`

In [50]:
ds1 = pd.Series([1, 2, 3, 4, 5])
ds2 = pd.Series([4, 5, 6, 7, 8, 1, 9])

# TODO - выберите значения в ds1, которых нет в ds2: 
# [2, 3]
mask=pd.Series.isin(ds1,ds2)    # определение параметров которые есть
print(ds1[~mask])               # инверсия для получения параметров, которые присущи только первому объекту

1    2
2    3
dtype: int64


Оставьте в ряду два наиболее частых значения, остальные замените значением 'Другое':

<details>
<summary>Подсказка 1</summary>

Для определения наиболее частых значений воспользуйтесь методом `Series.value_counts()`
</details>

<details>
<summary>Подсказка 2</summary>

Чтобы получить наиболее частые значения можно воспользоваться результатом `Series.value_counts()` - атрибутом `Series.index`
</details>

<details>
<summary>Подсказка 3</summary>

Получив наиболее частые значения, можно индексировать другие через маску метода `Series.isin()`
</details>


In [134]:
ds = pd.Series([2, 2, 2, 4, 4, 4, 3, 1, 1, 1, 1, 4])

# TODO - определите два наиболее частых значения в ряду (1, 4),
#           остальные замените значением 'Другое'
# ['Другое', 'Другое', 'Другое', 4, 4, 4, 'Другое', 1, 1, 1, 1, 4]
array = ds.value_counts()
tmp = list(array.keys())
high_f = tmp[0]
second_f = tmp[1]
mask1 = ds != high_f
mask2 = ds != second_f
ds[mask1 & mask2 ] = "Другое"
print(ds)

0     Другое
1     Другое
2     Другое
3          4
4          4
5          4
6     Другое
7          1
8          1
9          1
10         1
11         4
dtype: object


Сделайте каждую первую букву в словах ряда заглавной:

In [117]:
ds = pd.Series(['how', 'to', 'use', 'pandas?'])

# TODO - сделайте каждую первую букву заглавной с помощью Series.apply()
def highReg(char):
    
    return char.capitalize()
print(ds.apply(highReg))

0        How
1         To
2        Use
3    Pandas?
dtype: object


Выберите записи с максимальным значением по колонке `x1`:

In [149]:
df = pd.DataFrame(
    np.random.randint(0, 4, size=(15, 3)), 
    columns=['x1', 'x2', 'x3']
)
print(df)
# TODO - выберите те записи, которые имеют x1 равный 
#           максимальному значению в колонке x1
gr_df = df.groupby(by = 'x1')
gr_df.aggregate
df.x1.max()
mask = df.x1 == df.x1.max()
print(df[mask])


    x1  x2  x3
0    1   0   0
1    1   3   3
2    0   0   1
3    0   0   3
4    0   3   2
5    1   1   0
6    1   1   0
7    2   2   0
8    2   0   2
9    1   3   0
10   3   3   1
11   0   3   0
12   3   3   1
13   0   0   0
14   1   3   0
    x1  x2  x3
10   3   3   1
12   3   3   1


Выведите количество пропусков в каждой колонке данных:

In [153]:
df = pd.read_csv('https://raw.githubusercontent.com/AleksDevEdu/ml_edu/master/datasets/Cars93_miss.csv')

# TODO - отобразите количество пропусков в данных по каждой колонке
count = df.isna();
print(count.sum())


Manufacturer           4
Model                  1
Type                   3
Min.Price              7
Price                  2
Max.Price              5
MPG.city               9
MPG.highway            2
AirBags                6
DriveTrain             7
Cylinders              5
EngineSize             2
Horsepower             7
RPM                    3
Rev.per.mile           6
Man.trans.avail        5
Fuel.tank.capacity     8
Passengers             2
Length                 4
Wheelbase              1
Width                  6
Turn.circle            5
Rear.seat.room         4
Luggage.room          19
Weight                 7
Origin                 5
Make                   3
dtype: int64


Замените пропущенные значения в колонке `Min.Price` средним значениям по этой колонке:

In [171]:
df = pd.read_csv('https://raw.githubusercontent.com/AleksDevEdu/ml_edu/master/datasets/Cars93_miss.csv')

# TODO - заполните NaN в колонке Min.Price средним значением по этой колонке
# NOTE - после заполнения убедитесь, что в этой колонке нет пропущенных
#print(df)
mask = df['Min.Price'].isna()
min = df['Min.Price'].min()
tmp = df['Min.Price']
tmp[mask] = min
df['Min.Price'] = tmp
print(df['Min.Price'].isna().sum())

0


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  tmp[mask] = min


Отсортируйте и выведите фрейм с колонками в алфавитном порядке:

In [178]:
df = pd.DataFrame(np.random.randint(0, 10, size=(5, 6)), columns=list('fbecda'))

# TODO - получите фрейм с отсортированными по именам колонкам (f e d c b a)
# NOTE - сортировка должна быть автоматической
print(df)
newcolumns = np.sort(df.columns)
newcolumns = newcolumns[::-1]
df.columns = newcolumns
print(df)

   f  b  e  c  d  a
0  1  0  6  7  4  5
1  8  4  3  9  8  6
2  8  5  2  1  5  8
3  2  6  0  6  7  2
4  1  9  1  1  9  2
   f  e  d  c  b  a
0  1  0  6  7  4  5
1  8  4  3  9  8  6
2  8  5  2  1  5  8
3  2  6  0  6  7  2
4  1  9  1  1  9  2


Отобразите каждую 20ю запись во фрейме и только колонки `Manufacturer`, `Model`, `Type`:

In [181]:
df = pd.read_csv('https://raw.githubusercontent.com/AleksDevEdu/ml_edu/master/datasets/Cars93_miss.csv')

# TODO - отобразите запись с периодичностью во фрейме и определенные колонки
mask = df.index == 20
print(df['Manufacturer'].mask, df['Model'].mask, df['Type'].mask)

<bound method Series.mask of 0          Acura
1            NaN
2           Audi
3           Audi
4            BMW
         ...    
88    Volkswagen
89    Volkswagen
90    Volkswagen
91         Volvo
92           NaN
Name: Manufacturer, Length: 93, dtype: object> <bound method Series.mask of 0     Integra
1      Legend
2          90
3         100
4        535i
       ...   
88    Eurovan
89     Passat
90    Corrado
91        240
92        850
Name: Model, Length: 93, dtype: object> <bound method Series.mask of 0       Small
1     Midsize
2     Compact
3     Midsize
4     Midsize
       ...   
88        Van
89    Compact
90     Sporty
91    Compact
92    Midsize
Name: Type, Length: 93, dtype: object>


Получите ряд, который содержит длины строк:

In [195]:
ds = pd.Series(['how', 'to', 'use', 'pandas?'])

# TODO - создайте ряд, содержащий длины строк:
# 0    3
# 1    2
# 2    3
# 3    7
# dtype: int64
def length_ds(x):
        return len(x)


tmp= ds.apply(length_ds)
print(tmp)

0    3
1    2
2    3
3    7
dtype: int64
