# Caso aplicado - Parque automotor particular del departamento de Boyacá
---

Parque automotor activo de servicio particular matriculado en las sedes de tránsito del Departamento de Boyacá, actualizado a vigencia 2024

### Datos obtenidos de Datos Abiertos (datos.gov.co)
- [Link de acceso a metadatos](https://www.datos.gov.co/Transporte/PARQUE-AUTOMOTOR-ACTIVO-DE-SERVICIO-PARTICULAR-DEP/em3d-hmim/about_data)

In [54]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Carga de datos
df = pd.read_csv('parque_automotor.csv')
df.head()

  df = pd.read_csv('parque_automotor.csv')


Unnamed: 0,N,MOTIVO INGRESO,COD DANE,DANE MUN.,PROVINCIA,MUNICIPIO,CLASE,MARCA,LINEA,MODELO,CARROCERIA,PASAJEROS,TONELAJE,CILINDRAJE,SERVICIO,ESTADO,BLINDAJE,IMPORTADO
0,1,,15,15204,BOYACA,COMBITA,MOTOCICLETA,YAMAHA,DT 175 E,1977,TURISMO,2.0,0.0,175,PARTICULAR,ACTIVO,NO,NO
1,2,MATRICULA INICIAL,15,15759,BOYACA,SOGAMOSO,CAMIONETA,MAZDA,CX-5 IMP AT 4X2 TOURING,2020,WAGON,5.0,0.0,2488,PARTICULAR,ACTIVO,NO,NO
2,3,MATRICULA INICIAL,15,15204,BOYACA,COMBITA,CAMIONETA,TOYOTA,C.A.D.C - HILUX 4X4 DOBLE CABI,2020,DOBLE CABINA,5.0,0.0,2393,PARTICULAR,ACTIVO,NO,NO
3,4,RADICACIÓN DE CUENTA,15,15238,BOYACA,DUITAMA,AUTOMOVIL,RENAULT,SYMBOL AUTEHENTIQUE,2005,SEDAN,5.0,0.0,1400,PARTICULAR,ACTIVO,NO,NO
4,5,MATRICULA INICIAL,15,15204,BOYACA,COMBITA,MOTOCICLETA,VICTORY,MOTOCICLETA-SWITCH 150C,2022,SPORT,2.0,0.0,149,PARTICULAR,ACTIVO,NO,NO


### 1. Cuantos registros y columnas tiene el conjunto de datos?

In [55]:
df.shape

(182379, 18)

### 2. Que tipos de datos tiene el conjunto de datos, y cuantos valores no-nulos tiene?

In [56]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 182379 entries, 0 to 182378
Data columns (total 18 columns):
 #   Column          Non-Null Count   Dtype  
---  ------          --------------   -----  
 0   N               182379 non-null  int64  
 1   MOTIVO INGRESO  156981 non-null  object 
 2   COD DANE        182379 non-null  int64  
 3   DANE MUN.       182379 non-null  int64  
 4   PROVINCIA       182379 non-null  object 
 5   MUNICIPIO       182379 non-null  object 
 6   CLASE           182368 non-null  object 
 7   MARCA           182366 non-null  object 
 8   LINEA           179141 non-null  object 
 9   MODELO          182331 non-null  object 
 10  CARROCERIA      169376 non-null  object 
 11  PASAJEROS       182228 non-null  float64
 12  TONELAJE        177751 non-null  object 
 13  CILINDRAJE      182286 non-null  object 
 14  SERVICIO        182366 non-null  object 
 15  ESTADO          182379 non-null  object 
 16  BLINDAJE        182379 non-null  object 
 17  IMPORTADO 

### 3. La variable tonelaje parace tener datos nulos. Reemplazalos por 0 y convierte la columna en formato float. En caso de error, fuerza la columna a convertir todos sus valores en formato numerico (errors = 'coerce'), y reemplaza los nulos por cero.

In [57]:
df["TONELAJE"].dtype

dtype('O')

In [58]:
df['TONELAJE'] = df['TONELAJE'].replace('NA', 0).astype(float)

ValueError: could not convert string to float: '0EA4F2671887'

In [59]:
df['TONELAJE'] = pd.to_numeric(df['TONELAJE'], errors='coerce')

In [60]:
df["TONELAJE"].isna().sum()

4629

In [61]:
df["TONELAJE"] = df["TONELAJE"].fillna(df["TONELAJE"].mean())

### 4. Con el fin de evitar discrepancias en el futuro, se hace necesario que al igual que la variable TONELAJE, las variables MODELO, CILINDRAJE y PASAJEROS cumplan con la condicion de ser numericas, y además reemplazar sus valores nulos por la media. Realiza una función con el fin de agilizar ese proceso.

In [62]:
def limpiar_columnas_numericas(df, columnas):
    """
    Funcion para convertir columnas a numéricas y reemplazar valores nulos con la media
    
    Parámetros:
        df: DataFrame de pandas
        columnas: Lista de nombres de columnas a limpiar
    
    Retorna:
        DataFrame con las columnas limpiadas
    """
    for columna in columnas:
        # Convertir a numérico (los no numéricos se convierten en NaN)
        df[columna] = pd.to_numeric(df[columna], errors='coerce')
        
        # Calcular la media y reemplazar NaN
        media = df[columna].mean()
        df[columna].fillna(media, inplace=True)
    
    return df

In [63]:
df = limpiar_columnas_numericas(df, ["MODELO", "CILINDRAJE", "PASAJEROS"])
df

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df[columna].fillna(media, inplace=True)


Unnamed: 0,N,MOTIVO INGRESO,COD DANE,DANE MUN.,PROVINCIA,MUNICIPIO,CLASE,MARCA,LINEA,MODELO,CARROCERIA,PASAJEROS,TONELAJE,CILINDRAJE,SERVICIO,ESTADO,BLINDAJE,IMPORTADO
0,1,,15,15204,BOYACA,COMBITA,MOTOCICLETA,YAMAHA,DT 175 E,1977.0,TURISMO,2.0,0.0,175.0,PARTICULAR,ACTIVO,NO,NO
1,2,MATRICULA INICIAL,15,15759,BOYACA,SOGAMOSO,CAMIONETA,MAZDA,CX-5 IMP AT 4X2 TOURING,2020.0,WAGON,5.0,0.0,2488.0,PARTICULAR,ACTIVO,NO,NO
2,3,MATRICULA INICIAL,15,15204,BOYACA,COMBITA,CAMIONETA,TOYOTA,C.A.D.C - HILUX 4X4 DOBLE CABI,2020.0,DOBLE CABINA,5.0,0.0,2393.0,PARTICULAR,ACTIVO,NO,NO
3,4,RADICACIÓN DE CUENTA,15,15238,BOYACA,DUITAMA,AUTOMOVIL,RENAULT,SYMBOL AUTEHENTIQUE,2005.0,SEDAN,5.0,0.0,1400.0,PARTICULAR,ACTIVO,NO,NO
4,5,MATRICULA INICIAL,15,15204,BOYACA,COMBITA,MOTOCICLETA,VICTORY,MOTOCICLETA-SWITCH 150C,2022.0,SPORT,2.0,0.0,149.0,PARTICULAR,ACTIVO,NO,NO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
182374,182375,RADICACIÓN DE CUENTA,15,15516,BOYACA,PAIPA,AUTOMOVIL,RENAULT,SANDERO AUTHENTIQUE MT,2015.0,HATCH BACK,5.0,0.0,1598.0,PARTICULAR,ACTIVO,NO,NO
182375,182376,RADICACIÓN DE CUENTA,15,15759,BOYACA,SOGAMOSO,CAMIONETA,LAND ROVER,RANGE ROVER EVOQUE SE,2015.0,CABINADO,5.0,0.0,1999.0,PARTICULAR,ACTIVO,NO,NO
182376,182377,RADICACIÓN DE CUENTA,15,15516,BOYACA,PAIPA,CAMIONETA,CHEVROLET,TRACKER LS AT,2015.0,WAGON,5.0,0.0,1796.0,PARTICULAR,ACTIVO,NO,NO
182377,182378,RADICACIÓN DE CUENTA,15,15238,BOYACA,DUITAMA,AUTOMOVIL,AUDI,Q3 2.0 TFSI LUXURY,2015.0,WAGON,5.0,0.0,1984.0,PARTICULAR,ACTIVO,NO,NO


### 5. Imprime un cuadro con el detalle de estadísticas generales como media, mediana, mínimo, máximo; para las variables cuantitativas del conjunto de datos.

In [64]:
df.describe()

Unnamed: 0,N,COD DANE,DANE MUN.,MODELO,PASAJEROS,TONELAJE,CILINDRAJE
count,182379.0,182379.0,182379.0,182379.0,182379.0,182379.0,182379.0
mean,91190.0,15.0,15363.613876,2004.932979,4.079617,36.87373,1928.582
std,52648.42671,0.0,253.882214,18.99809,20.659673,10490.54,193875.1
min,1.0,15.0,15001.0,1.0,0.0,0.0,0.0
25%,45595.5,15.0,15204.0,1995.0,2.0,0.0,185.0
50%,91190.0,15.0,15238.0,2011.0,5.0,0.0,1400.0
75%,136784.5,15.0,15572.0,2018.0,5.0,0.0,1800.0
max,182379.0,15.0,15759.0,2025.0,5998.0,4021650.0,79541700.0


### 6. Cuales son los 5 municipios con mayor cantidad de vehiculos matriculados?

In [65]:
vehiculos_por_municipio = df['MUNICIPIO'].value_counts().head(5)
vehiculos_por_municipio

MUNICIPIO
COMBITA     34028
TUNJA       30362
SOGAMOSO    21944
DUITAMA     20172
NOBSA       14136
Name: count, dtype: int64

### 7. Agrupa las marcas por el promedio de cilindraje e identifica el top 10

In [66]:
# 5. Agregaciones avanzadas
cilindraje_por_marca = df.groupby('MARCA')['CILINDRAJE'].mean().sort_values(ascending=False)
cilindraje_por_marca.head(10)

MARCA
AUTOCAR         14500.0
SHACMAN         13000.0
KENWORTH         8375.0
MAN              8300.0
LORAIN           8195.0
FREIGHTLINER     7321.5
STERLING         6370.0
DINA             6362.0
PH               5000.0
HINO             4885.6
Name: CILINDRAJE, dtype: float64

### 8. Cual es la marca más común en cada municipio?

In [67]:
marca_comun_por_municipio = df.groupby('MUNICIPIO')['MARCA'].agg(lambda x: x.mode()[0])
marca_comun_por_municipio

MUNICIPIO
AQUITANIA                CHEVROLET
BOYACA                       BAJAJ
CHIQUINQUIRA                YAMAHA
COMBITA                    RENAULT
DUITAMA                  CHEVROLET
GARAGOA                      BAJAJ
GUATEQUE                    TOYOTA
MIRAFLORES                  SUZUKI
MONIQUIRA                CHEVROLET
NOBSA                    CHEVROLET
PAIPA                    CHEVROLET
PUERTO BOYACA               YAMAHA
RAMIRIQUI                CHEVROLET
SABOYA                      TOYOTA
SANTA ROSA DE VITERBO      RENAULT
SOATA                       YAMAHA
SOGAMOSO                   RENAULT
TUNJA                    CHEVROLET
VILLA DE LEYVA           CHEVROLET
Name: MARCA, dtype: object

### 9. Crea una columna calculada para conocer la antiguedad de cada vehiculo (pista: usa la libreria datetime).

In [68]:
from datetime import datetime
# 6. Manipulación de datos
df['ANTIGÜEDAD'] = datetime.now().year - df['MODELO']
df.head()

Unnamed: 0,N,MOTIVO INGRESO,COD DANE,DANE MUN.,PROVINCIA,MUNICIPIO,CLASE,MARCA,LINEA,MODELO,CARROCERIA,PASAJEROS,TONELAJE,CILINDRAJE,SERVICIO,ESTADO,BLINDAJE,IMPORTADO,ANTIGÜEDAD
0,1,,15,15204,BOYACA,COMBITA,MOTOCICLETA,YAMAHA,DT 175 E,1977.0,TURISMO,2.0,0.0,175.0,PARTICULAR,ACTIVO,NO,NO,48.0
1,2,MATRICULA INICIAL,15,15759,BOYACA,SOGAMOSO,CAMIONETA,MAZDA,CX-5 IMP AT 4X2 TOURING,2020.0,WAGON,5.0,0.0,2488.0,PARTICULAR,ACTIVO,NO,NO,5.0
2,3,MATRICULA INICIAL,15,15204,BOYACA,COMBITA,CAMIONETA,TOYOTA,C.A.D.C - HILUX 4X4 DOBLE CABI,2020.0,DOBLE CABINA,5.0,0.0,2393.0,PARTICULAR,ACTIVO,NO,NO,5.0
3,4,RADICACIÓN DE CUENTA,15,15238,BOYACA,DUITAMA,AUTOMOVIL,RENAULT,SYMBOL AUTEHENTIQUE,2005.0,SEDAN,5.0,0.0,1400.0,PARTICULAR,ACTIVO,NO,NO,20.0
4,5,MATRICULA INICIAL,15,15204,BOYACA,COMBITA,MOTOCICLETA,VICTORY,MOTOCICLETA-SWITCH 150C,2022.0,SPORT,2.0,0.0,149.0,PARTICULAR,ACTIVO,NO,NO,3.0


### 10. Convierte la columna CILINDRAJE a un array de Numpy, y calcula su media, mediana y desviación estándar.

In [69]:
# 7. Operaciones con NumPy
cilindraje_np = df['CILINDRAJE'].to_numpy()
print(f"Media: {np.mean(cilindraje_np)}, Mediana: {np.median(cilindraje_np)}, Desviación: {np.std(cilindraje_np)}")

Media: 1928.5816018322953, Mediana: 1400.0, Desviación: 193874.5651524797


### 11. Calcula los percentiles 30, 60 y 90 del Array anterior, e interpreta los resultados.

In [70]:
# 8. Análisis avanzado
percentiles = np.percentile(cilindraje_np, [30, 60, 90])
print(f"Percentiles: {percentiles}")

Percentiles: [ 200. 1586. 2500.]


### 12. Por medio de una agrupación, obtener para cada MARCA las siguientes agregaciones de la variable CILINDRAJE: media, mediana, desviación estándar y recuento.

In [None]:
# 12. Agregaciones múltiples en agrupaciones
# Calcula múltiples estadísticas por marca
stats_por_marca = df.groupby('MARCA')['CILINDRAJE'].agg(['mean', 'median', 'std', 'count'])
stats_por_marca.sort_values('median', ascending=False).head(10)

Unnamed: 0_level_0,mean,median,std,count
MARCA,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
CHEVROLET,3995.81964,1400.0,431894.875939,33917
RENAULT,1482.14767,1400.0,297.177727,28146
YAMAHA,171.242219,153.0,82.897232,11411
SUZUKI,3091.512852,185.0,231173.40064,9230
NISSAN,2841.142334,2400.0,45482.383852,8692
MAZDA,2342.436518,1998.0,45463.92886,8270
TOYOTA,2836.128133,2694.0,905.49021,8218
BAJAJ,178.054931,178.0,61.846918,7107
AKT,176.413451,181.0,48.917621,7048
FORD,1926.907807,1600.0,1870.301441,6984


### 13. Realiza una tabla dinamica (pivot table) donde se relacionen cuantos vehiculos se tienen por MUNICIPIO y CLASE.

In [72]:
# 14. Tabla dinámica básica
# Vehículos por municipio y clase
pivot_municipio_clase = pd.pivot_table(df, 
                                     index='MUNICIPIO', 
                                     columns='CLASE', 
                                     values='N', 
                                     aggfunc='count', 
                                     fill_value=0)
pivot_municipio_clase.head()

CLASE,AMBULANCIA,AUTOMOVIL,BUS,BUSETA,CAMION,CAMION D.TROQUE,CAMIONETA,CAMPERO,CUATRIMOTO,GRUA,MAQ. AGRICOLA,MICRO BUS,MINI BUS,MOTO TRACTOR,MOTOCARRO,MOTOCICLETA,MOTOTRICICLO,TRACTO-CAMION,VAN,VOLQUETA
MUNICIPIO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1
AQUITANIA,0,1,0,0,0,0,2,0,0,0,0,0,0,0,0,1,0,0,0,0
BOYACA,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0
CHIQUINQUIRA,0,1098,2,3,103,0,533,678,0,0,0,2,0,0,195,4993,0,2,0,30
COMBITA,4,10628,41,24,1053,0,6746,3384,0,1,0,58,0,1,268,11179,3,10,0,628
DUITAMA,6,11518,10,8,215,0,4553,1653,1,2,0,49,0,0,31,2047,1,5,1,72


### Realiza un análisis de las primeras 5 marcas únicas del DataFrame, mostrando la cantidad de vehículos, el año promedio y el cilindraje promedio de cada una a través de un bucle for.

In [73]:
# 17. Bucle for para análisis por marca
print("\nAnálisis por marca:")
for marca in df['MARCA'].unique()[:5]:  # Solo las primeras 5 para ejemplo
    subset = df[df['MARCA'] == marca]
    print(f"\nMarca: {marca}")
    print(f"Cantidad de vehículos: {len(subset)}")
    print(f"Año promedio: {subset['MODELO'].mean():.1f}")
    print(f"Cilindraje promedio: {subset['CILINDRAJE'].mean():.1f} cc")


Análisis por marca:

Marca: YAMAHA
Cantidad de vehículos: 11411
Año promedio: 2015.4
Cilindraje promedio: 171.2 cc

Marca: MAZDA
Cantidad de vehículos: 8270
Año promedio: 2003.4
Cilindraje promedio: 2342.4 cc

Marca: TOYOTA
Cantidad de vehículos: 8218
Año promedio: 2002.4
Cilindraje promedio: 2836.1 cc

Marca: RENAULT
Cantidad de vehículos: 28146
Año promedio: 2002.5
Cilindraje promedio: 1482.1 cc

Marca: VICTORY
Cantidad de vehículos: 1659
Año promedio: 2022.6
Cilindraje promedio: 166.0 cc


### 15. Clasifica los vehículos según su antigüedad en "Nuevo" si es menor a 5 años, "Semi-nuevo" si es menor a 10 años o "Viejo" si es mayor a 10 años, todo esto usando la función de pandas ```apply``` con una función personalizada y muestra el conteo de cada categoría.

**¿Qué es ```apply()``` en Pandas?**

```apply()``` es un método de Pandas que permite aplicar una función a lo largo de filas o columnas de un DataFrame.

- axis=0 → Aplica la función a cada columna (operación por columnas).

- axis=1 → Aplica la función a cada fila (operación por filas).

```python
import pandas as pd

df = pd.DataFrame({'Nombre': ['Ana', 'Luis', 'Carlos'], 'Edad': [25, 30, 22]})

# Función que clasifica según la edad
def clasificar_edad(row):
    return 'Joven' if row['Edad'] < 30 else 'Adulto'

df['Categoria'] = df.apply(clasificar_edad, axis=1)

################### Resultado #################

   Nombre  Edad Categoria
0    Ana    25    Joven
1   Luis    30   Adulto
2 Carlos    22    Joven

In [74]:
# 20. Uso de apply con funciones personalizadas
def clasificar_antiguedad(row):
    if row['ANTIGÜEDAD'] < 5:
        return 'Nuevo'
    elif row['ANTIGÜEDAD'] < 10:
        return 'Semi-nuevo'
    else:
        return 'Viejo'

df['CLASIFICACION_ANTIGÜEDAD'] = df.apply(clasificar_antiguedad, axis=1)
print("\nClasificación por antigüedad:")
print(df['CLASIFICACION_ANTIGÜEDAD'].value_counts())


Clasificación por antigüedad:
CLASIFICACION_ANTIGÜEDAD
Viejo         124136
Semi-nuevo     29212
Nuevo          29031
Name: count, dtype: int64


**¿Qué es lambda en Python?**
lambda es una forma de definir funciones anónimas, es decir, funciones sin nombre que puedes usar rápidamente dentro de una sola línea de código.

```python
def cuadrado(x):
    return x ** 2

print(cuadrado(4))  # Salida: 16

# Usando lambda:

cuadrado = lambda x: x ** 2
print(cuadrado(4))  # Salida: 16

# Otro ejemplo
multiplicar = lambda a, b: a * b
print(multiplicar(3, 5))  # Salida: 15

# Otro más:
df = pd.DataFrame({'Edad': [15, 22, 35, 40]})

df['Categoria'] = df['Edad'].apply(lambda x: "Joven" if x < 30 else "Adulto")
print(df)

In [77]:
def clasificar_valor(row, columna):
    if row[columna] < 5:
        return 'Nuevo'
    elif row[columna] < 10:
        return 'Semi-nuevo'
    else:
        return 'Viejo'

df['CLASIFICACION_ANTIGÜEDAD'] = df.apply(lambda row: clasificar_valor(row, 'ANTIGÜEDAD'), axis=1)
print("\nClasificación por antigüedad:")
print(df['CLASIFICACION_ANTIGÜEDAD'].value_counts())


Clasificación por antigüedad:
CLASIFICACION_ANTIGÜEDAD
Viejo         124136
Semi-nuevo     29212
Nuevo          29031
Name: count, dtype: int64


### 16. Modifica la columna CILINDRAJE reduciéndola en un 20% solo para los vehículos de la clase "MOTOCICLETA". Compara el tiempo de ejecución entre el uso de ```apply()``` con ```lambda``` y el método vectorizado con ```np.where()```, utilizando %timeit.``

**```np.where()``` es una función de NumPy que actúa como un "si condicional" vectorizado. Sirve para seleccionar valores basados en una condición, de manera mucho más rápida que ```apply()```.**

**Estructura:**

```python
np.where(condición, valor_si_True, valor_si_False)

# Ejemplo:
edades = np.array([15, 22, 30, 18, 25])
mayores_de_18 = np.where(edades >= 18, "Adulto", "Menor")

print(mayores_de_18)

In [78]:
# 24. Comparación entre apply y vectorización
# Método con apply (más lento)
%timeit df.apply(lambda row: row['CILINDRAJE'] * 0.8 if row['CLASE'] == 'MOTOCICLETA' else row['CILINDRAJE'], axis=1)

# Método vectorizado (más rápido)
%timeit np.where(df['CLASE'] == 'MOTOCICLETA', df['CILINDRAJE'] * 0.8, df['CILINDRAJE'])

874 ms ± 6.42 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
9.92 ms ± 146 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)
