In [1]:
import pandas as pd

In [2]:
df_vehicle_price = pd.read_csv('../data/raw/vehicle_price_prediction.csv')
df_vehicle_price.head(5)

Unnamed: 0,make,model,year,mileage,engine_hp,transmission,fuel_type,drivetrain,body_type,exterior_color,interior_color,owner_count,accident_history,seller_type,condition,trim,vehicle_age,mileage_per_year,brand_popularity,price
0,Volkswagen,Jetta,2016,183903,173,Manual,Electric,RWD,Sedan,Blue,Brown,5,,Dealer,Excellent,EX,9,20433.666667,0.040054,7208.52
1,Lexus,RX,2010,236643,352,Manual,Gasoline,FWD,Sedan,Silver,Beige,5,Minor,Dealer,Good,LX,15,15776.2,0.039921,6911.81
2,Subaru,Crosstrek,2016,103199,188,Automatic,Diesel,AWD,Sedan,Silver,Beige,5,,Dealer,Excellent,Touring,9,11466.555556,0.04023,11915.63
3,Cadillac,Lyriq,2016,118889,338,Manual,Gasoline,AWD,SUV,Black,Gray,3,,Private,Good,Base,9,13209.888889,0.039847,25984.79
4,Toyota,Highlander,2018,204170,196,Manual,Diesel,FWD,Sedan,Red,Brown,5,Minor,Dealer,Excellent,Sport,7,29167.142857,0.039627,8151.3


#### **Análizar estructura y tipos de datos del conjunto de datos**

In [3]:
# Cantidad de filas y columnas que conforman el conjunto de datos
filas, columnas = df_vehicle_price.shape
print(f'''Cantidad de filas y columnas que conforman el conjunto de datos
Filas: {filas}
Columnas: {columnas}
''')

Cantidad de filas y columnas que conforman el conjunto de datos
Filas: 1000000
Columnas: 20



In [4]:
# Tipos de datos que tiene cada columna
df_vehicle_price.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000000 entries, 0 to 999999
Data columns (total 20 columns):
 #   Column            Non-Null Count    Dtype  
---  ------            --------------    -----  
 0   make              1000000 non-null  object 
 1   model             1000000 non-null  object 
 2   year              1000000 non-null  int64  
 3   mileage           1000000 non-null  int64  
 4   engine_hp         1000000 non-null  int64  
 5   transmission      1000000 non-null  object 
 6   fuel_type         1000000 non-null  object 
 7   drivetrain        1000000 non-null  object 
 8   body_type         1000000 non-null  object 
 9   exterior_color    1000000 non-null  object 
 10  interior_color    1000000 non-null  object 
 11  owner_count       1000000 non-null  int64  
 12  accident_history  249867 non-null   object 
 13  seller_type       1000000 non-null  object 
 14  condition         1000000 non-null  object 
 15  trim              1000000 non-null  object 
 16  v

Los tipos de datos son correctos en cada columna por lo que no sera necesario realizar una transformación de datos.

#### **Revisión de cada columna por valores nulos/faltantes o errores**

In [5]:
# Detectar valores nulos
print(f'Columnas del conjunto de datos con valores nulos')
print(f'{"Columnas":<19} {"Cant. Nulos":>10}')
for col, va in df_vehicle_price.items():
    col1 = df_vehicle_price[col].isnull().sum()
    print(f'{col:<19} {col1:>10}')


Columnas del conjunto de datos con valores nulos
Columnas            Cant. Nulos
make                         0
model                        0
year                         0
mileage                      0
engine_hp                    0
transmission                 0
fuel_type                    0
drivetrain                   0
body_type                    0
exterior_color               0
interior_color               0
owner_count                  0
accident_history        750133
seller_type                  0
condition                    0
trim                         0
vehicle_age                  0
mileage_per_year             0
brand_popularity             0
price                        0


Se encontro que la columna `accident_history` es la unica columna con valores nulos.

In [6]:
accident_history_col = df_vehicle_price['accident_history'].value_counts()
accident_history_col_nulos = df_vehicle_price['accident_history'].isnull().sum()

print(f'Tipos de datos y cantidad de {accident_history_col}')
print(f'Cantidad de valores nulos encontrados\n{accident_history_col_nulos}')



Tipos de datos y cantidad de accident_history
Minor    199981
Major     49886
Name: count, dtype: int64
Cantidad de valores nulos encontrados
750133


Se encontro 2 tipos de datos en la columna `accident_history` que son **Minor** con *199981* y **Mayor** con *49886* por que nos quedan *750133* filas/registros con valores nulos, lo que nos puede dar a entener que estos vehiculos no tubieron accidentes por lo que se impura los registros con valores nulos y se colocara `No Accident`.

#### **Imputación de valores nulos en *'accident_history'***

In [7]:
df_vehicle_price['accident_history'] = df_vehicle_price['accident_history'].fillna('No Accident')
valores_nulos = df_vehicle_price['accident_history'].isnull().sum()
print(f'Cantidad de valores nulos después de imputar: {valores_nulos}')

Cantidad de valores nulos después de imputar: 0
