# Работа с библиотекой Pandas

1. Загрузите набор данных из файла **car_data.csv** по примеру с лекции



In [1]:
import pandas as pd
import numpy as np

# Загрузка данных из файла car_data.csv
file_path = 'car_data.csv'
df = pd.read_csv(file_path)

2. Проведите анализ пропусков в данных. Удалите строки или столбцы, содержащие пропуски.

In [2]:
# Анализ пропусков в данных
print("Проверка на наличие пропущенных значений:")
print(df.isnull().sum())

# Удаление строк, содержащих пропуски
df_cleaned = df.dropna()

# Удаление столбцов, содержащих пропуски
df_cleaned = df_cleaned.dropna(axis=1)
df_cleaned = df_cleaned.reset_index(drop=True)

Проверка на наличие пропущенных значений:
Unnamed: 0        0
Car_id            0
Date              0
Customer Name     0
Gender            0
Annual Income     0
Dealer_Name      72
Company          72
Model             0
Engine            0
Transmission      0
Color             0
Price ($)         0
Dealer_No         0
Body Style        0
Phone             0
Dealer_Region     0
dtype: int64


3. Вычислите средний доход клиентов, купивших автомобиль марки Toyota Camry.

In [3]:
# Отфильтровка данных для модели "Toyota Camry"
toyota_camry_df = df_cleaned[(df_cleaned['Company'] == 'Toyota') & (df_cleaned['Model'] == 'Camry')]

# Вычисление среднего дохода клиентов
average_income = toyota_camry_df['Annual Income'].mean()

print(f"Средний доход клиентов, купивших автомобиль марки Toyota Camry: ${average_income:.2f}")

Средний доход клиентов, купивших автомобиль марки Toyota Camry: $776609.38


4. Найдите топ 10 самых дорогих марок автомобилей за представленный период времени.


In [4]:
# Сортировка по 'Price ($)' в порядке убывания
sorted_df = df_cleaned.sort_values(by='Price ($)', ascending=False)

# Вывод топ 10 самых дорогих автомобилей
top_10_expensive_cars = sorted_df[['Company', 'Model', 'Price ($)']].head(10)

print("Топ 10 самых дорогих автомобилей:")
print(top_10_expensive_cars)

Топ 10 самых дорогих автомобилей:
         Company     Model  Price ($)
286       Toyota      RAV4      85600
2589    Cadillac  Eldorado      85301
1465  Mercedes-B   S-Class      85001
626       Toyota      RAV4      85001
1158      Toyota      RAV4      85000
270     Cadillac  Eldorado      85000
1355      Toyota      RAV4      85000
1875      Toyota      RAV4      85000
1482    Cadillac  Eldorado      85000
4895        Audi        A6      85000


5. Найдите среднюю стоимость автомобилей по типам кузова (Body Style), используя метод groupby.

In [5]:
average_body = df_cleaned.groupby('Body Style')['Price ($)'].mean().sort_values(ascending=False)

print("Средняя стоимость автомобилей по типам кузова:", average_body)

Средняя стоимость автомобилей по типам кузова: Body Style
Passenger    29845.254130
Sedan        29698.673056
Hardtop      29575.564677
Hatchback    27377.561126
SUV          26729.765799
Name: Price ($), dtype: float64


6. Какие автомобили приобрели 10 клиентов с самым высоким доходом?

In [6]:
custom = df_cleaned[['Company', 'Model', 'Annual Income']].sort_values(by='Annual Income', ascending=False)

custom[['Company', 'Model']].head(10)

Unnamed: 0,Company,Model
4683,Chrysler,Concorde
1155,Cadillac,Eldorado
1161,Volvo,C70
3257,Nissan,Pathfinder
2029,Volvo,S40
2729,Chevrolet,Corvette
2380,Porsche,Carrera Cabrio
2901,Volkswagen,GTI
3057,BMW,528i
3835,Ford,Ranger


7. Какие автомобили приобрели 10 клиентов с самым низким доходом?


In [7]:
custom_ = df_cleaned[['Company', 'Model', 'Annual Income']].sort_values(by='Annual Income', ascending=True)

custom_[['Company', 'Model']].head(10)

Unnamed: 0,Company,Model
0,Ford,Expedition
1637,BMW,323i
1635,BMW,528i
3887,Dodge,Stratus
1629,Volkswagen,GTI
1627,Volvo,S80
1623,Lexus,LS400
3893,Volkswagen,Cabrio
3895,Ford,Explorer
3896,Hyundai,Accent


8. Создайте новый столбец, значения которого равны логарифму от величины дохода клиентов.


In [8]:
df_cleaned['Log Annual Income'] = np.log(df_cleaned['Annual Income'])

df_cleaned.head()

Unnamed: 0.1,Unnamed: 0,Car_id,Date,Customer Name,Gender,Annual Income,Dealer_Name,Company,Model,Engine,Transmission,Color,Price ($),Dealer_No,Body Style,Phone,Dealer_Region,Log Annual Income
0,0,C_CND_000001,1/2/2022,Geraldine,Male,13500,Buddy Storbeck's Diesel Service Inc,Ford,Expedition,DoubleÂ Overhead Camshaft,Auto,Black,26000,06457-3834,SUV,8264678,Middletown,9.510445
1,1,C_CND_000002,1/2/2022,Gia,Male,1480000,C & M Motors Inc,Dodge,Durango,DoubleÂ Overhead Camshaft,Auto,Black,19000,60504-7114,SUV,6848189,Aurora,14.207553
2,2,C_CND_000003,1/2/2022,Gianna,Male,1035000,Capitol KIA,Cadillac,Eldorado,Overhead Camshaft,Manual,Red,31500,38701-8047,Passenger,7298798,Greenville,13.849912
3,3,C_CND_000004,1/2/2022,Giselle,Male,13500,Chrysler of Tri-Cities,Toyota,Celica,Overhead Camshaft,Manual,Pale White,14000,99301-3882,SUV,6257557,Pasco,9.510445
4,4,C_CND_000005,1/2/2022,Grace,Male,1465000,Chrysler Plymouth,Acura,TL,DoubleÂ Overhead Camshaft,Auto,Red,24500,53546-9427,Hatchback,7081483,Janesville,14.197366
