In [None]:
import pandas as pd

In [None]:
df = pd.read_csv("../data/1_preprocessing_1_car_pricing.csv")
df

# Remplazo de datos NULL

1. Columnas categóricas y numéricas
    - Columnas categoricas, datos NULL de la columnas reemplazados por la moda
    - Columnas numéricas, datos NULL de la columnas reemplazados por la mediana

In [None]:
categorical_cols = df.select_dtypes(include='object').columns
for col in categorical_cols:
    df[col].fillna(df[col].mode()[0], inplace=True)

num_cols = df.select_dtypes(include='number').columns
df[num_cols] = df[num_cols].fillna(df[num_cols].median())

2. Limpieza de Año de registro
    - Años con outliners en años inexistentes o erroneos

In [None]:
mean_year = df.loc[
    (df['yearOfRegistration'] >= 1955) & 
    (df['yearOfRegistration'] <= 2019),
    'yearOfRegistration'
].mean()

df.loc[
    (df['yearOfRegistration'] < 1955) | 
    (df['yearOfRegistration'] > 2019),
    'yearOfRegistration'
] = mean_year

print("Año de registro:")
print("Min:", df['yearOfRegistration'].min())
print("Max:", df['yearOfRegistration'].max())

3. Limpieza de Precio
    - Precios con un rango de precio más chico por outliners

In [None]:
mean_price = df.loc[
    (df['price'] >= 500) & 
    (df['price'] <= 200000),
    'price'
].mean()

df.loc[
    (df['price'] < 500) | 
    (df['price'] > 200000),
    'price'
] = mean_price

print("\nPrecio:")
print("Min:", df['price'].min())
print("Max:", df['price'].max())

4. Limpieza de Top 10 Marcas
    - Demás marcas cambiadas a "Other"

In [None]:
top_brands = df['brand'].value_counts().head(10).index
df.loc[~df['brand'].isin(top_brands), 'brand'] = 'Other'

print("\nMarcas:")
print(df['brand'].value_counts())

# Verificación de NULLS y su respectiva integridad

In [None]:
# Verificacion de NULL
df.isna().sum()/df.shape[0]*100

In [None]:
# Verificacion de integridad
df.describe()

1. Columnas irrelevantes eliminadas

In [None]:
df.info()

In [None]:
df.drop(columns=["nrOfPictures"])

# Almacenamiento del Data Frame con datos normalizados

In [None]:
df.reset_index(drop=True, inplace=True)
df.to_csv("../data/2_discovery_1_car_pricing.csv")