In [3]:
import pandas as pd
import requests
from bs4 import BeautifulSoup
from lxml import etree

In [3]:
autos = pd.read_csv('autosML2023.csv')

In [3]:
autos

Unnamed: 0,Auto,Año,Kilometros,Precio,Moneda,URL
0,Fiat Cronos 1.3 Drive Cvt,2023,0 Km,510.000,$,https://auto.mercadolibre.com.ar/MLA-139577693...
1,Fiat Cronos 1.3 Drive Cvt,2023,0 Km,450.000,$,https://auto.mercadolibre.com.ar/MLA-139560845...
2,Fiat Cronos 1.3 Drive Cvt,2023,0 Km,350.000,$,https://auto.mercadolibre.com.ar/MLA-156229490...
3,Fiat Cronos 1.3 Drive Mt,2023,0 Km,480.000,$,https://auto.mercadolibre.com.ar/MLA-139471630...
4,Renault Alaskan 2.3t 16v Confort Mt 4x2,2023,0 Km,400.000,$,https://auto.mercadolibre.com.ar/MLA-146794245...
...,...,...,...,...,...,...
106634,Volkswagen Amarok 2.0 Cd Tdi 180cv Comfortline At,2023,0 Km,201.000.000,$,https://auto.mercadolibre.com.ar/MLA-139438614...
106635,Toyota Yaris 1.5 107cv Xls Pack,2023,0 Km,201.000.000,$,https://auto.mercadolibre.com.ar/MLA-136949933...
106636,Lamborghini Huracán Evo Spyder Huracán Evo Spyder,2021,3.000 Km,710.000,U$S,https://auto.mercadolibre.com.ar/MLA-155600699...
106637,Ford Ranger 2.3 Cs F-truck 4x2,2008,5.000 Km,250.000.000,$,https://auto.mercadolibre.com.ar/MLA-155604834...


In [4]:
# Creo 2 columnas nuevas para separar la marca y el modelo
autos[['Marca', 'Modelo']] = autos['Auto'].str.split(n=2, expand=True)[[0, 1]]

In [5]:
# Creo una columna nueva para separar el motor
autos['Motor'] = autos['Auto'].str.extract(r'(\d+\.\d+)')

In [6]:
# Creo una columna nueva para separar la potencia (cv)
autos['Potencia'] = autos['Auto'].str.extract(r'(\d+)cv')

In [7]:
# Eliminamos el modelo de la columna Auto, ya que tenemos esa informacion en la columna Modelo
autos['Auto'] = autos.apply(lambda row: row['Auto'].replace(row['Modelo'], '').strip(), axis=1)

In [8]:
# Modificamos el tipo de dato
autos['Motor'] = autos['Motor'].astype('str')
autos['Potencia'] = autos['Potencia'].astype('str')

In [8]:
autos

Unnamed: 0,Auto,Año,Kilometros,Precio,Moneda,URL,Marca,Modelo,Motor,Potencia
0,Fiat 1.3 Drive Cvt,2023,0 Km,510.000,$,https://auto.mercadolibre.com.ar/MLA-139577693...,Fiat,Cronos,1.3,
1,Fiat 1.3 Drive Cvt,2023,0 Km,450.000,$,https://auto.mercadolibre.com.ar/MLA-139560845...,Fiat,Cronos,1.3,
2,Fiat 1.3 Drive Cvt,2023,0 Km,350.000,$,https://auto.mercadolibre.com.ar/MLA-156229490...,Fiat,Cronos,1.3,
3,Fiat 1.3 Drive Mt,2023,0 Km,480.000,$,https://auto.mercadolibre.com.ar/MLA-139471630...,Fiat,Cronos,1.3,
4,Renault 2.3t 16v Confort Mt 4x2,2023,0 Km,400.000,$,https://auto.mercadolibre.com.ar/MLA-146794245...,Renault,Alaskan,2.3,
...,...,...,...,...,...,...,...,...,...,...
106634,Volkswagen 2.0 Cd Tdi 180cv Comfortline At,2023,0 Km,201.000.000,$,https://auto.mercadolibre.com.ar/MLA-139438614...,Volkswagen,Amarok,2.0,180
106635,Toyota 1.5 107cv Xls Pack,2023,0 Km,201.000.000,$,https://auto.mercadolibre.com.ar/MLA-136949933...,Toyota,Yaris,1.5,107
106636,Lamborghini Evo Spyder Evo Spyder,2021,3.000 Km,710.000,U$S,https://auto.mercadolibre.com.ar/MLA-155600699...,Lamborghini,Huracán,,
106637,Ford 2.3 Cs F-truck 4x2,2008,5.000 Km,250.000.000,$,https://auto.mercadolibre.com.ar/MLA-155604834...,Ford,Ranger,2.3,


In [9]:
autos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 106639 entries, 0 to 106638
Data columns (total 10 columns):
 #   Column      Non-Null Count   Dtype 
---  ------      --------------   ----- 
 0   Auto        106639 non-null  object
 1   Año         106639 non-null  int64 
 2   Kilometros  106639 non-null  object
 3   Precio      106639 non-null  object
 4   Moneda      106639 non-null  object
 5   URL         106639 non-null  object
 6   Marca       106639 non-null  object
 7   Modelo      106639 non-null  object
 8   Motor       106639 non-null  object
 9   Potencia    106639 non-null  object
dtypes: int64(1), object(9)
memory usage: 8.1+ MB


In [9]:
# Eliminamos el motor y la potencia de la columna Auto ya que tenemos esa informacion en sus respectivas columnas
autos['Auto'] = autos.apply(lambda row: row['Auto'].replace(row['Motor'], '').strip(), axis=1)
autos['Auto'] = autos.apply(lambda row: row['Auto'].replace(row['Potencia'], '').strip(), axis=1)

In [10]:
# Renombramos la columna Auto a Verision.
autos = autos.rename(columns={'Auto': 'Version'})

In [16]:
autos.shape

(106639, 10)

In [11]:
# Reemplazamos los nan de aquellas potencias y motores de los autos que no se pudieron obtener por 0.
autos['Potencia'] = autos['Potencia'].replace('nan', 0)
autos['Motor'] = autos['Motor'].replace('nan', 0)

In [137]:
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)
pd.set_option('display.max_colwidth', None)

In [13]:
# Filtramos el df por algunas palabras que pueden aparecer en Marca, Modelo o Version las cuales puede sesgar nuestro modelo a futuro.

autos = autos[~autos['Marca'].isin(['Baja', 'Compro', 'Vendo', 'Compra', 'Venta', 'Auto', 'Autos', 'Repuesto', 'Repuestos', 'Chapa', 'Compramos', 'Planes', 'Plan'])]
autos = autos[~autos['Modelo'].isin(['Baja', 'Compro', 'Vendo', 'Compra', 'Venta', 'Auto', 'Autos', 'Repuesto', 'Repuestos', 'Chapa', 'Compramos', 'Planes', 'Plan'])]
autos = autos[~autos['Version'].isin(['Baja', 'Compro','Vendo', 'Compra', 'Venta', 'Auto', 'Autos', 'Repuesto', 'Repuestos', 'Chapa', 'Compramos', 'Planes', 'Plan'])]

In [26]:
autos.shape

(106626, 10)

Se inicia un proceso para filtrar las versiones de cada auto por cada marca. Con esto se logra que cada version corresponda a la marca y no a otra, para dar un ejemplo

In [14]:
marcas = autos['Marca'].unique().tolist() # Nos traemos todas las marcas unicas del df.

lista_versiones = []

#Realizamos un bucle for en el cual itere por cada marca reemplazando la marca de la URL y mediante Web Scraping nos traiga las versiones de los autos de cada marca y los almacene en una lista.

for marca in marcas:
    r = requests.get(f'https://autos.mercadolibre.com.ar/{marca}/_FiltersAvailableSidebar?filter=SHORT_VERSION')
    soup = BeautifulSoup(r.content, 'html.parser')
    dom = etree.HTML(str(soup))
    versiones = dom.xpath('//div[@class="ui-search-search-modal-grid-columns"]//span')
    versiones = [f'{marca} {v.text}' for v in versiones]
    lista_versiones.extend(versiones)

In [15]:
def reemplazar_version(version):
    for v in lista_versiones:
        if v.lower() in version.lower():
            return v
    return version

# Aplicar la función a la columna 'Versión'
autos['Version'] = autos['Version'].apply(lambda x: reemplazar_version(x))

In [16]:
autos['Version'] = autos.apply(lambda row: row['Version'].replace(row['Marca'], '').strip(), axis=1)

In [37]:
autos.tail(100)

Unnamed: 0,Version,Año,Kilometros,Precio,Moneda,URL,Marca,Modelo,Motor,Potencia
106539,Sport,2017,1.111 Km,100.000.000,$,https://auto.mercadolibre.com.ar/MLA-155915313...,Fiat,500,0,0
106540,Cd Tdi cv 4x2 Startline,2023,100.000 Km,99.999.999,$,https://auto.mercadolibre.com.ar/MLA-139487782...,Volkswagen,Amarok,2.0,140
106541,Sedan X,2020,1.000 Km,100.000.000,$,https://auto.mercadolibre.com.ar/MLA-139482218...,Toyota,Etios,1.5,0
106542,Allure Plus Hdi,2018,26.000 Km,99.999.999,$,https://auto.mercadolibre.com.ar/MLA-152365893...,Peugeot,208,1.6,0
106543,Hdi Sv Sport,2010,138.000 Km,99.999.999,$,https://auto.mercadolibre.com.ar/MLA-152395469...,Peugeot,407,2.0,0
...,...,...,...,...,...,...,...,...,...,...
106634,Cd Tdi cv Comfortline At,2023,0 Km,201.000.000,$,https://auto.mercadolibre.com.ar/MLA-139438614...,Volkswagen,Amarok,2.0,180
106635,cv Xls Pack,2023,0 Km,201.000.000,$,https://auto.mercadolibre.com.ar/MLA-136949933...,Toyota,Yaris,1.5,107
106636,Evo Spyder Evo Spyder,2021,3.000 Km,710.000,U$S,https://auto.mercadolibre.com.ar/MLA-155600699...,Lamborghini,Huracán,0,0
106637,Cs F-truck 4x2,2008,5.000 Km,250.000.000,$,https://auto.mercadolibre.com.ar/MLA-155604834...,Ford,Ranger,2.3,0


In [17]:
autos = autos[['Marca', 'Modelo', 'Motor', 'Version', 'Potencia', 'Año', 'Kilometros', 'Precio', 'Moneda', 'URL']]

In [18]:
autos['Version'] = autos['Version'].str.replace('cv', '')
autos['Kilometros'] = autos['Kilometros'].str.replace(' Km', '')
autos['Kilometros'] = autos['Kilometros'].str.replace(' km', '')
autos['Kilometros'] = autos['Kilometros'].str.replace('Km', '')
autos['Kilometros'] = autos['Kilometros'].str.replace('km', '')

In [43]:
autos

Unnamed: 0,Marca,Modelo,Motor,Version,Potencia,Año,Kilometros,Precio,Moneda,URL
0,Fiat,Cronos,1.3,Drive Cvt,0,2023,0,510.000,$,https://auto.mercadolibre.com.ar/MLA-139577693...
1,Fiat,Cronos,1.3,Drive Cvt,0,2023,0,450.000,$,https://auto.mercadolibre.com.ar/MLA-139560845...
2,Fiat,Cronos,1.3,Drive Cvt,0,2023,0,350.000,$,https://auto.mercadolibre.com.ar/MLA-156229490...
3,Fiat,Cronos,1.3,Drive Mt,0,2023,0,480.000,$,https://auto.mercadolibre.com.ar/MLA-139471630...
4,Renault,Alaskan,2.3,t 16v Confort Mt 4x2,0,2023,0,400.000,$,https://auto.mercadolibre.com.ar/MLA-146794245...
...,...,...,...,...,...,...,...,...,...,...
106634,Volkswagen,Amarok,2.0,Cd Tdi Comfortline At,180,2023,0,201.000.000,$,https://auto.mercadolibre.com.ar/MLA-139438614...
106635,Toyota,Yaris,1.5,Xls Pack,107,2023,0,201.000.000,$,https://auto.mercadolibre.com.ar/MLA-136949933...
106636,Lamborghini,Huracán,0,Evo Spyder Evo Spyder,0,2021,3.000,710.000,U$S,https://auto.mercadolibre.com.ar/MLA-155600699...
106637,Ford,Ranger,2.3,Cs F-truck 4x2,0,2008,5.000,250.000.000,$,https://auto.mercadolibre.com.ar/MLA-155604834...


In [19]:
autos = autos[autos['Precio'] != "111.111.111"]

In [20]:
autos['Precio'] = autos['Precio'].str.replace('.', '').astype(int)
autos['Kilometros'] = autos['Kilometros'].str.replace('.', '').astype(int)

In [47]:
autos

Unnamed: 0,Marca,Modelo,Motor,Version,Potencia,Año,Kilometros,Precio,Moneda,URL
0,Fiat,Cronos,1.3,Drive Cvt,0,2023,0,510000,$,https://auto.mercadolibre.com.ar/MLA-139577693...
1,Fiat,Cronos,1.3,Drive Cvt,0,2023,0,450000,$,https://auto.mercadolibre.com.ar/MLA-139560845...
2,Fiat,Cronos,1.3,Drive Cvt,0,2023,0,350000,$,https://auto.mercadolibre.com.ar/MLA-156229490...
3,Fiat,Cronos,1.3,Drive Mt,0,2023,0,480000,$,https://auto.mercadolibre.com.ar/MLA-139471630...
4,Renault,Alaskan,2.3,t 16v Confort Mt 4x2,0,2023,0,400000,$,https://auto.mercadolibre.com.ar/MLA-146794245...
...,...,...,...,...,...,...,...,...,...,...
106634,Volkswagen,Amarok,2.0,Cd Tdi Comfortline At,180,2023,0,201000000,$,https://auto.mercadolibre.com.ar/MLA-139438614...
106635,Toyota,Yaris,1.5,Xls Pack,107,2023,0,201000000,$,https://auto.mercadolibre.com.ar/MLA-136949933...
106636,Lamborghini,Huracán,0,Evo Spyder Evo Spyder,0,2021,3000,710000,U$S,https://auto.mercadolibre.com.ar/MLA-155600699...
106637,Ford,Ranger,2.3,Cs F-truck 4x2,0,2008,5000,250000000,$,https://auto.mercadolibre.com.ar/MLA-155604834...


In [53]:
autos = autos[~((autos['Precio'] < 5000000) & (autos['Kilometros'] < 10000) & (autos['Moneda'] == '$'))]
autos = autos[~((autos['Precio'] < 5000) & (autos['Kilometros'] < 10000) & (autos['Moneda'] == 'U$S'))]
autos = autos[~((autos['Año'] < 2000) & (autos['Kilometros'] < 10000))]


In [54]:
autos.shape

(104624, 10)

In [58]:
autos.loc[autos['Moneda'] == '$', 'Precio'] /= 1000

In [60]:
autos.drop('Moneda', axis=1, inplace=True)
autos.drop('Potencia', axis=1, inplace=True) #Eliminar potencia !Recordar¡

In [79]:
autos.head()

Unnamed: 0,Marca,Modelo,Motor,Version,Potencia,Año,Kilometros,Precio,URL
8,Ford,Mondeo,2.0,Ghia At,0,1996,260000,1500.0,https://auto.mercadolibre.com.ar/MLA-1548451044-ford-mondeo-1996-20-ghia-at-_JM#position=9&search_layout=grid&type=item&tracking_id=8373f96e-c093-4008-afa2-3fddd7242e26
11,Ford,Aerostar,3.0,V6,0,1998,100000,500.0,https://auto.mercadolibre.com.ar/MLA-1394957667-ford-aerostar-v6-30-_JM#position=12&search_layout=grid&type=item&tracking_id=8373f96e-c093-4008-afa2-3fddd7242e26
12,Smart,Forfour,1.0,Passion,0,2018,52000,1111.0,https://auto.mercadolibre.com.ar/MLA-1558994524-smart-forfour-2018-10-passion-_JM#position=13&search_layout=grid&type=item&tracking_id=8373f96e-c093-4008-afa2-3fddd7242e26
13,Jianshe,2017,0.0,,0,2017,220000,1000.0,https://auto.mercadolibre.com.ar/MLA-1543106396-fiat-palio-weekend-17-turbo-diesel-_JM#position=14&search_layout=grid&type=item&tracking_id=8373f96e-c093-4008-afa2-3fddd7242e26
26,Toyota,Hilux,3.0,Srv 4x2,0,2006,190000,1111.0,https://auto.mercadolibre.com.ar/MLA-1394569893-toyota-hilux-30-srv-4x2-_JM#position=27&search_layout=grid&type=item&tracking_id=8373f96e-c093-4008-afa2-3fddd7242e26


In [80]:
autos.reset_index(drop=True, inplace=True)
autos.to_csv('autos.csv', index=False)

## ROBOS

In [4]:
robos1 = pd.read_csv('Robos/dnrpa-robos-recuperos-autos-202301.csv')
robos2 = pd.read_csv('Robos/dnrpa-robos-recuperos-autos-202302.csv')
robos3 = pd.read_csv('Robos/dnrpa-robos-recuperos-autos-202303.csv')
robos4 = pd.read_csv('Robos/dnrpa-robos-recuperos-autos-202304.csv')
robos5 = pd.read_csv('Robos/dnrpa-robos-recuperos-autos-202305.csv')
robos6 = pd.read_csv('Robos/dnrpa-robos-recuperos-autos-202306.csv')
robos7 = pd.read_csv('Robos/dnrpa-robos-recuperos-autos-202307.csv')
robos8 = pd.read_csv('Robos/dnrpa-robos-recuperos-autos-202308.csv')
robos9 = pd.read_csv('Robos/dnrpa-robos-recuperos-autos-202309.csv')
robos10 = pd.read_csv('Robos/dnrpa-robos-recuperos-autos-202310.csv')

In [5]:
robos = pd.concat([robos1, robos2, robos3, robos4, robos5, robos6, robos7, robos8, robos9, robos10], ignore_index=True)

In [6]:
robos['automotor_modelo_descripcion'] = robos['automotor_modelo_descripcion'].str.split().str[0]

In [7]:
robos = robos[['registro_seccional_descripcion', 'registro_seccional_provincia', 'automotor_anio_modelo', 'automotor_tipo_descripcion', 'automotor_marca_descripcion', 'automotor_modelo_descripcion']]

In [8]:
robos['automotor_anio_modelo'] = robos['automotor_anio_modelo'].fillna(0)
robos['automotor_anio_modelo'] = robos['automotor_anio_modelo'].astype(int)

In [9]:
robos['registro_seccional_descripcion'] = robos['registro_seccional_descripcion'].str.replace(r'\b\d+\s*$', '', regex=True)
robos['registro_seccional_descripcion'] = robos['registro_seccional_descripcion'].str.replace(r'\s*N[°º]?\s*$', '', regex=True)

In [17]:
robos = robos.rename(columns={'registro_seccional_descripcion':'Localidad','registro_seccional_provincia':'Provincia','automotor_anio_modelo':'Auto_Año','automotor_tipo_descripcion':'Tipo_de_Auto','automotor_marca_descripcion':'Marca'
,'automotor_modelo_descripcion':'Modelo'})

In [32]:
robos['Marca'] = robos['Marca'].str.capitalize()
robos['Localidad'] = robos['Localidad'].str.capitalize()
robos['Tipo_de_auto'] = robos['Tipo_de_auto'].str.capitalize()
robos['Modelo'] = robos['Modelo'].str.capitalize()


In [33]:
robos

Unnamed: 0,Localidad,Provincia,Auto_año,Tipo_de_auto,Marca,Modelo
0,Moron,Buenos Aires,1999,S.wagon,Chevrolet,Corsa
1,Tigre,Buenos Aires,1998,Furgon vidriado c/as,Volkswagen,Transporter
2,Moron,Buenos Aires,1999,Berlina 3 ptas,Renault,Clio
3,Mendoza,Mendoza,2002,Berlina 4 ptas.,Renault,Megane
4,Rosario,Santa Fe,1999,Sedan,Chevrolet,Corsa
...,...,...,...,...,...,...
38939,Adrogue,Buenos Aires,2000,Sedan 3 ptas,Volkswagen,Gol
38940,Capital federal,Ciudad Autónoma de Bs.As.,1994,Sedan 2 ptas,Peugeot,205
38941,Mendoza,Mendoza,1996,Transp. de pasajeros,Ford,Transit
38942,La matanza,Buenos Aires,1996,Pick up,Volkswagen,Vw


In [34]:
robos.reset_index(drop=True, inplace=True)
robos.to_csv('robos.csv', index=False)

## Seguridad

In [51]:
seguridad = pd.read_csv('seguridad.csv', sep=';', encoding='latin-1')

In [52]:
seguridad = seguridad[['COMPANY ', 'MODEL ', 'STYLE', 'YEAR', 'DOORS', 'AIRBAGS', 'ADULT ', 'CHILD', 'LATIN NCA']]

In [53]:
seguridad = seguridad.rename(columns={'COMPANY ':'Marca','MODEL ':'Modelo','STYLE':'Cuerpo','YEAR':'Año','DOORS':'Puertas','ADULT ':'Adulto','CHILD':'Niños', 'AIRBAGS':'Airbags'})

In [55]:
seguridad['Marca'] = seguridad['Marca'].str.capitalize()
seguridad['Cuerpo'] = seguridad['Cuerpo'].str.upper()
seguridad['Modelo'] = seguridad['Modelo'].str.capitalize()

In [59]:
seguridad.dropna(inplace=True)

In [60]:
seguridad['Año'] = seguridad['Año'].astype(int)

In [61]:
seguridad

Unnamed: 0,Marca,Modelo,Cuerpo,Año,Puertas,Airbags,Adulto,Niños,LATIN NCA
0,Chevrolet,tracker,SUV,2020,5.0,6,91.0,92.0,5.0
1,Citroen,c3,SUV,2023,5.0,2,31.0,12.0,0.0
2,Byd,f0,HB,2016,5.0,0,10.0,26.0,0.0
3,Fiat,Strada 700,PICK UP 4,2022,4.0,4,41.0,53.0,1.0
4,Fiat,Strada 700,PICK UP 2,2022,2.0,2,47.0,22.0,1.0
...,...,...,...,...,...,...,...,...,...
133,Volkswagen,Virtus,SEDAN,2018,4.0,4,96.0,88.0,5.0
134,Volkswagen,Polo,HB,2017,5.0,4,95.0,88.0,5.0
135,Volkswagen,Golf vii,HB,2017,5.0,5,98.0,89.0,5.0
136,Volkswagen,Golf vii,HB,2017,5.0,5,98.0,89.0,5.0


In [62]:
seguridad.reset_index(drop=True, inplace=True)
seguridad.to_csv('seguridad.csv', index=False)