In [60]:

import pandas as pd


# Parte 1  
archivo = "pcv-enero-2024.xlsx"
datos = pd.read_excel(archivo)

# Pre-procesamiento de datos
nombres_columnas = list(datos.iloc[2,1:])
datos = pd.DataFrame(datos.iloc[3:,1:])
datos.columns = nombres_columnas



In [61]:
# Parte 2 (Selección de columnas)
df_aux = datos[["AÑO FABRI.", "MONTO PAGADO", "TIPO VEHICULO"]]
print(datos[["AÑO FABRI.", "MONTO PAGADO", "TIPO VEHICULO"]])

     AÑO FABRI. MONTO PAGADO  TIPO VEHICULO
3          2009        22822      AUTOMOVIL
4          2008        36832  STATION WAGON
5          2012        20472  STATION WAGON
6          2012        27346  STATION WAGON
7          2006        36832  STATION WAGON
...         ...          ...            ...
2336       2013        58538  STATION WAGON
2337       2011        17203      AUTOMOVIL
2338       2016        41624  STATION WAGON
2339       2004        42177  STATION WAGON
2340       1992        48264  STATION WAGON

[2338 rows x 3 columns]


## Por que normalizar los datos

### Normalizar los datos ayuda a la mejora del rendimiento del algoritmo, pero principalmente, la normalización sirve para mejora la interpretación de los datos, ya que la información normalizada queda toda dentro de una misma escala, así mismo, al momento de realizar gráficos, ayuda a ver posibles correlaciones entre las distintas variables

In [62]:
from sklearn.preprocessing import MinMaxScaler

# Parte 3 (Normalización )
scaler = MinMaxScaler()
df_aux["AÑO FABRI."] = scaler.fit_transform(df_aux[["AÑO FABRI."]])
df_aux["MONTO PAGADO"] = scaler.fit_transform(df_aux[["MONTO PAGADO"]])
print(df_aux[["AÑO FABRI.", "MONTO PAGADO"]])


      AÑO FABRI.  MONTO PAGADO
3           0.70      0.032626
4           0.68      0.055296
5           0.76      0.028823
6           0.76      0.039946
7           0.64      0.055296
...          ...           ...
2336        0.78      0.090420
2337        0.74      0.023533
2338        0.84      0.063050
2339        0.60      0.063945
2340        0.36      0.073795

[2338 rows x 2 columns]


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_aux["AÑO FABRI."] = scaler.fit_transform(df_aux[["AÑO FABRI."]])
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_aux["MONTO PAGADO"] = scaler.fit_transform(df_aux[["MONTO PAGADO"]])


## Llevando distintos datos a categorías

In [63]:
print(df_aux["TIPO VEHICULO"].unique())
# diccionario = {"Moto": {"MOTOCICLETA", "MOTO", "MOTOS              "}}

def normalizar_cat_vehiculos(vehiculo):
    if vehiculo in ["MOTO", "MOTOCICLETA", "MOTOS              "]:
        return "Moto"
    elif vehiculo in ["AUTOMOVIL", "TAXI COLECTIVO", "HATCHBACK          ",
                      "SEDÁN              ", "SUV                ", "CAMIONETA", "JEEP",
                      "STATION WAGON", "TAXI BASICO"]:
        return "Auto pequeño"
    elif vehiculo in ["SEMI REMOLQUE", "MINIBUS", "TRACTOCAMION",
                      "CAMION", "BUS", "Carro de Arrastre", "MAQUINA",
                      "MINIBUS_PARTICULAR", "REMOLQUE B", "furgón", 
                      "CASA RODANTE", "TAXI TURISMO", "TRACTOR",
                      "CARGADOR FRONTAL", "BUS PARTICULAR",
                      "MINI BUS ESCOLAR"]:
        return "Auto grande"
    else:
        return "Otro"
df_aux["TIPO VEHICULO"] = df_aux["TIPO VEHICULO"].apply(normalizar_cat_vehiculos)

print(df_aux["TIPO VEHICULO"].unique())



['AUTOMOVIL' 'STATION WAGON' 'CAMIONETA' 'MOTO' 'SEMI REMOLQUE' 'MINIBUS'
 'TRACTOCAMION' 'CAMION' 'BUS' 'Carro de Arrastre' 'TAXI COLECTIVO' 'JEEP'
 'MAQUINA' 'MINIBUS_PARTICULAR' 'REMOLQUE B' 'furgón' 'TAXI BASICO'
 'CASA RODANTE' 'TAXI TURISMO' 'MOTOS              ' 'TRACTOR'
 'CARGADOR FRONTAL' 'SEDÁN              ' 'BUS PARTICULAR'
 'MINI BUS ESCOLAR' 'HATCHBACK          ' 'SUV                '
 'MOTOCICLETA']
3       Auto pequeño
4       Auto pequeño
5       Auto pequeño
6       Auto pequeño
7       Auto pequeño
            ...     
2336    Auto pequeño
2337    Auto pequeño
2338    Auto pequeño
2339    Auto pequeño
2340    Auto pequeño
Name: TIPO VEHICULO, Length: 2338, dtype: object
['Auto pequeño' 'Moto' 'Auto grande']


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_aux["TIPO VEHICULO"] = df_aux["TIPO VEHICULO"].apply(normalizar_cat_vehiculos)


In [67]:
#Aplicamos get_dummies

df_dummies = pd.get_dummies(df_aux["TIPO VEHICULO"])
print(df_dummies)

      Auto grande  Auto pequeño   Moto
3           False          True  False
4           False          True  False
5           False          True  False
6           False          True  False
7           False          True  False
...           ...           ...    ...
2336        False          True  False
2337        False          True  False
2338        False          True  False
2339        False          True  False
2340        False          True  False

[2338 rows x 3 columns]
