In [3]:
#!/usr/bin/env python

# Importamos las bibliotecas necesarias
import pandas as pd
from sodapy import Socrata
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings('ignore')

try:
    # Creamos un cliente no autenticado para datos públicos
    client = Socrata("www.datos.gov.co", None)

    # Intentamos obtener los datos del parque automotor
    # ID del conjunto de datos: u3vn-bdcy
    results = client.get("u3vn-bdcy", limit=2000)

    # Verificamos si hay resultados
    if not results:
        raise Exception("No se encontraron datos")

    # Convertimos a DataFrame de pandas
    results_df = pd.DataFrame.from_records(results)

    # Mostramos información básica sobre los datos
    print(f"Datos obtenidos correctamente. Total de registros: {len(results_df)}")
    print("\nColumnas disponibles:")
    for col in results_df.columns:
        print(f"- {col}")

    # Mostramos las primeras filas
    print("\nPrimeras filas del conjunto de datos:")
    display(results_df.head())

except Exception as e:
    print(f"Error al acceder a los datos: {str(e)}")
    print("\nIntentando método alternativo...")

    try:
        # Método alternativo usando diferentes parámetros
        client = Socrata("www.datos.gov.co", None, timeout=60)

        # Intentar con consulta más específica
        results = client.get("u3vn-bdcy", limit=500, order="fecha_matricula DESC")

        # Convertimos a DataFrame de pandas
        results_df = pd.DataFrame.from_records(results)

        # Mostramos información básica sobre los datos
        print(f"Datos obtenidos con método alternativo. Total de registros: {len(results_df)}")
        print("\nColumnas disponibles:")
        for col in results_df.columns:
            print(f"- {col}")

        # Mostramos las primeras filas
        print("\nPrimeras filas del conjunto de datos:")
        display(results_df.head())

    except Exception as e:
        print(f"Error en método alternativo: {str(e)}")
        print("\nRecomendaciones:")
        print("1. Verificar la disponibilidad del conjunto de datos en: https://www.datos.gov.co/Transporte/CRECIMIENTO-DEL-PARQUE-AUTOMOTOR-RUNT2-0/u3vn-bdcy")
        print("2. Considerar descargar el CSV directamente desde la página y cargarlo localmente")
        print("\nCódigo para cargar desde un archivo local (después de descargar el CSV):")
        print("parque_automotor_df = pd.read_csv('ruta_al_archivo_descargado.csv')")



Datos obtenidos correctamente. Total de registros: 2000

Columnas disponibles:
- nombre_departamento
- nombre_municipio
- nombre_servicio
- estado_del_vehiculo
- nombre_de_la_clase
- fecha_de_registro
- cantidad
- mes_de_publicacion
- a_o_de_publicacion

Primeras filas del conjunto de datos:


Unnamed: 0,nombre_departamento,nombre_municipio,nombre_servicio,estado_del_vehiculo,nombre_de_la_clase,fecha_de_registro,cantidad,mes_de_publicacion,a_o_de_publicacion
0,ANTIOQUIA,ANDES,PARTICULAR,ACTIVO,CAMPERO,1900,1,JULIO,2025
1,ATLANTICO,BARANOA,PARTICULAR,ACTIVO,AUTOMOVIL,1900,1,JULIO,2025
2,ATLANTICO,BARANOA,PÚBLICO,ACTIVO,CAMION,1900,1,JULIO,2025
3,BOGOTA D.C.,BOGOTA,OFICIAL,ACTIVO,AUTOMOVIL,1900,1,JULIO,2025
4,BOGOTA D.C.,BOGOTA,PARTICULAR,ACTIVO,AUTOMOVIL,1900,1,JULIO,2025


In [4]:
#!/usr/bin/env python

# Importamos las bibliotecas necesarias
import pandas as pd
from sodapy import Socrata
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings('ignore')

try:
    # Creamos un cliente no autenticado para datos públicos
    client = Socrata("www.datos.gov.co", None)

    # Intentamos obtener los datos del parque automotor
    # ID del conjunto de datos: u3vn-bdcy
    results = client.get("u3vn-bdcy", limit=10000)

    # Verificamos si hay resultados
    if not results:
        raise Exception("No se encontraron datos")

    # Convertimos a DataFrame de pandas
    results_df = pd.DataFrame.from_records(results)

    # Mostramos información básica sobre los datos
    print(f"Datos obtenidos correctamente. Total de registros: {len(results_df)}")
    print("\nColumnas disponibles:")
    for col in results_df.columns:
        print(f"- {col}")

    # Mostramos las primeras filas
    print("\nPrimeras filas del conjunto de datos:")
    display(results_df.head())

    # Creamos dataframes específicos para Cali y Valle

    # Verificamos si hay una columna que identifique la ciudad o el departamento
    # (Esto puede variar dependiendo de la estructura real del dataset)
    if 'municipio' in results_df.columns:
        # DataFrame para Cali
        df_cali = results_df[results_df['municipio'] == 'CALI'].copy()
        print(f"\nDataFrame de Cali creado con {len(df_cali)} registros")

        # DataFrame para Valle (excluyendo Cali)
        df_valle = results_df[(results_df['departamento'] == 'VALLE') &
                            (results_df['municipio'] != 'CALI')].copy()
        print(f"DataFrame del Valle (sin Cali) creado con {len(df_valle)} registros")

        # Mostramos las primeras filas de cada DataFrame
        print("\nPrimeras filas del DataFrame de Cali:")
        display(df_cali.head())

        print("\nPrimeras filas del DataFrame del Valle (sin Cali):")
        display(df_valle.head())

    elif 'ciudad' in results_df.columns:
        # DataFrame para Cali
        df_cali = results_df[results_df['ciudad'] == 'CALI'].copy()
        print(f"\nDataFrame de Cali creado con {len(df_cali)} registros")

        # DataFrame para Valle (excluyendo Cali)
        df_valle = results_df[(results_df['departamento'] == 'VALLE') &
                            (results_df['ciudad'] != 'CALI')].copy()
        print(f"DataFrame del Valle (sin Cali) creado con {len(df_valle)} registros")

        # Mostramos las primeras filas de cada DataFrame
        print("\nPrimeras filas del DataFrame de Cali:")
        display(df_cali.head())

        print("\nPrimeras filas del DataFrame del Valle (sin Cali):")
        display(df_valle.head())

    elif 'departamento' in results_df.columns:
        # En caso de que solo tengamos departamento, creamos solo el DataFrame del Valle
        df_valle = results_df[results_df['departamento'] == 'VALLE'].copy()
        print(f"\nDataFrame del Valle creado con {len(df_valle)} registros")

        # Indicamos que no pudimos crear el DataFrame de Cali específicamente
        print("No se pudo crear un DataFrame específico para Cali, ya que no hay columna 'municipio' o 'ciudad'")

        # Mostramos las primeras filas del DataFrame del Valle
        print("\nPrimeras filas del DataFrame del Valle:")
        display(df_valle.head())

    else:
        # Si no encontramos ninguna columna que nos permita filtrar, buscamos en todas las columnas
        print("\nNo se encontraron columnas específicas para filtrar. Intentando buscar en todas las columnas...")

        # Buscamos 'CALI' en todas las columnas de tipo string
        mask_cali = pd.Series(False, index=results_df.index)
        mask_valle = pd.Series(False, index=results_df.index)

        for col in results_df.select_dtypes(include=['object']).columns:
            mask_cali = mask_cali | results_df[col].str.contains('CALI', case=False, na=False)
            mask_valle = mask_valle | results_df[col].str.contains('VALLE', case=False, na=False)

        df_cali = results_df[mask_cali].copy()
        df_valle = results_df[mask_valle & ~mask_cali].copy()  # Valle sin Cali

        print(f"DataFrame de Cali creado con {len(df_cali)} registros")
        print(f"DataFrame del Valle (sin Cali) creado con {len(df_valle)} registros")

        print("\nPrimeras filas del DataFrame de Cali:")
        display(df_cali.head())

        print("\nPrimeras filas del DataFrame del Valle (sin Cali):")
        display(df_valle.head())

    # Guardamos los DataFrames en variables globales para uso posterior
    globals()['df_cali'] = df_cali
    globals()['df_valle'] = df_valle
    globals()['results_df'] = results_df

except Exception as e:
    print(f"Error al acceder a los datos: {str(e)}")
    print("\nIntentando método alternativo...")

    try:
        # Método alternativo usando diferentes parámetros
        client = Socrata("www.datos.gov.co", None, timeout=60)

        # Intentar con consulta más específica (con filtro para Cali y Valle directamente en la API)
        # Primero intentamos obtener todos los datos
        results = client.get("u3vn-bdcy", limit=2000)
        results_df = pd.DataFrame.from_records(results)

        # Luego intentamos obtener los datos específicos para Cali
        try:
            results_cali = client.get("u3vn-bdcy", limit=2000,
                                    where="municipio='CALI' OR ciudad='CALI'")
            df_cali = pd.DataFrame.from_records(results_cali)
            print(f"DataFrame de Cali creado con {len(df_cali)} registros")
        except:
            # Si falla, intentamos buscar 'CALI' en todas las columnas
            print("No se pudo filtrar Cali directamente. Creando filtro alternativo...")
            mask_cali = pd.Series(False, index=results_df.index)
            for col in results_df.select_dtypes(include=['object']).columns:
                mask_cali = mask_cali | results_df[col].str.contains('CALI', case=False, na=False)
            df_cali = results_df[mask_cali].copy()
            print(f"DataFrame de Cali creado con {len(df_cali)} registros (método alternativo)")

        # Y los datos para Valle
        try:
            results_valle = client.get("u3vn-bdcy", limit=2000,
                                    where="departamento='VALLE' AND municipio!='CALI'")
            df_valle = pd.DataFrame.from_records(results_valle)
            print(f"DataFrame del Valle creado con {len(df_valle)} registros")
        except:
            # Si falla, intentamos buscar 'VALLE' en todas las columnas
            print("No se pudo filtrar Valle directamente. Creando filtro alternativo...")
            mask_valle = pd.Series(False, index=results_df.index)
            mask_cali = pd.Series(False, index=results_df.index)
            for col in results_df.select_dtypes(include=['object']).columns:
                mask_valle = mask_valle | results_df[col].str.contains('VALLE', case=False, na=False)
                mask_cali = mask_cali | results_df[col].str.contains('CALI', case=False, na=False)
            df_valle = results_df[mask_valle & ~mask_cali].copy()
            print(f"DataFrame del Valle creado con {len(df_valle)} registros (método alternativo)")

        # Mostramos las primeras filas de cada DataFrame
        print("\nPrimeras filas del DataFrame de Cali:")
        display(df_cali.head())

        print("\nPrimeras filas del DataFrame del Valle:")
        display(df_valle.head())

        # Guardamos los DataFrames en variables globales para uso posterior
        globals()['df_cali'] = df_cali
        globals()['df_valle'] = df_valle
        globals()['results_df'] = results_df

    except Exception as e:
        print(f"Error en método alternativo: {str(e)}")
        print("\nRecomendaciones:")
        print("1. Verificar la disponibilidad del conjunto de datos en: https://www.datos.gov.co/Transporte/CRECIMIENTO-DEL-PARQUE-AUTOMOTOR-RUNT2-0/u3vn-bdcy")
        print("2. Considerar descargar el CSV directamente desde la página y cargarlo localmente")
        print("\nCódigo para cargar desde un archivo local (después de descargar el CSV):")
        print("""
# Después de descargar el archivo CSV desde datos.gov.co
parque_automotor_df = pd.read_csv('ruta_al_archivo_descargado.csv')

# Crear DataFrames específicos para Cali y Valle
df_cali = parque_automotor_df[parque_automotor_df['municipio'] == 'CALI'].copy()
df_valle = parque_automotor_df[(parque_automotor_df['departamento'] == 'VALLE') &
                            (parque_automotor_df['municipio'] != 'CALI')].copy()

# Mostrar información
print(f"DataFrame completo: {len(parque_automotor_df)} registros")
print(f"DataFrame de Cali: {len(df_cali)} registros")
print(f"DataFrame del Valle (sin Cali): {len(df_valle)} registros")

# Mostrar las primeras filas de cada DataFrame
print("\\nPrimeras filas del DataFrame de Cali:")
display(df_cali.head())

print("\\nPrimeras filas del DataFrame del Valle:")
display(df_valle.head())
""")



Datos obtenidos correctamente. Total de registros: 10000

Columnas disponibles:
- nombre_departamento
- nombre_municipio
- nombre_servicio
- estado_del_vehiculo
- nombre_de_la_clase
- fecha_de_registro
- cantidad
- mes_de_publicacion
- a_o_de_publicacion

Primeras filas del conjunto de datos:


Unnamed: 0,nombre_departamento,nombre_municipio,nombre_servicio,estado_del_vehiculo,nombre_de_la_clase,fecha_de_registro,cantidad,mes_de_publicacion,a_o_de_publicacion
0,ANTIOQUIA,ANDES,PARTICULAR,ACTIVO,CAMPERO,1900,1,JULIO,2025
1,ATLANTICO,BARANOA,PARTICULAR,ACTIVO,AUTOMOVIL,1900,1,JULIO,2025
2,ATLANTICO,BARANOA,PÚBLICO,ACTIVO,CAMION,1900,1,JULIO,2025
3,BOGOTA D.C.,BOGOTA,OFICIAL,ACTIVO,AUTOMOVIL,1900,1,JULIO,2025
4,BOGOTA D.C.,BOGOTA,PARTICULAR,ACTIVO,AUTOMOVIL,1900,1,JULIO,2025



No se encontraron columnas específicas para filtrar. Intentando buscar en todas las columnas...
DataFrame de Cali creado con 246 registros
DataFrame del Valle (sin Cali) creado con 934 registros

Primeras filas del DataFrame de Cali:


Unnamed: 0,nombre_departamento,nombre_municipio,nombre_servicio,estado_del_vehiculo,nombre_de_la_clase,fecha_de_registro,cantidad,mes_de_publicacion,a_o_de_publicacion
96,VALLE DEL CAUCA,CALI,PARTICULAR,ACTIVO,MOTOCICLETA,1901,1,JULIO,2025
243,VALLE DEL CAUCA,CALI,PARTICULAR,ACTIVO,AUTOMOVIL,1934,1,JULIO,2025
398,VALLE DEL CAUCA,CALI,PARTICULAR,ACTIVO,CAMION,1940,1,JULIO,2025
460,VALLE DEL CAUCA,CALI,PARTICULAR,ACTIVO,CAMIONETA,1941,1,JULIO,2025
528,VALLE DEL CAUCA,CALI,PARTICULAR,ACTIVO,CAMION,1942,1,JULIO,2025



Primeras filas del DataFrame del Valle (sin Cali):


Unnamed: 0,nombre_departamento,nombre_municipio,nombre_servicio,estado_del_vehiculo,nombre_de_la_clase,fecha_de_registro,cantidad,mes_de_publicacion,a_o_de_publicacion
50,VALLE DEL CAUCA,GUACARI,PÚBLICO,ACTIVO,CAMPERO,1900,1,JULIO,2025
97,VALLE DEL CAUCA,TULUA,PARTICULAR,ACTIVO,MOTOCICLETA,1901,1,JULIO,2025
100,VALLE DEL CAUCA,ZARZAL,PARTICULAR,ACTIVO,MOTOCICLETA,1902,1,JULIO,2025
159,VALLE DEL CAUCA,JAMUNDI,PARTICULAR,ACTIVO,MOTOCICLETA,1920,1,JULIO,2025
181,VALLE DEL CAUCA,GUADALAJARA DE BUGA,PARTICULAR,ACTIVO,CAMION,1926,1,JULIO,2025


In [10]:
# Análisis del parque automotor de Cali por trimestre (2021-2025)
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np

# Verificar que el DataFrame de Cali existe
if 'df_cali' not in globals():
    print("Error: No se encontró el DataFrame df_cali")
else:
    # Hacer una copia del DataFrame de Cali para no modificar el original
    cali_df = df_cali.copy()

    # Crear un diccionario para convertir meses de texto a número
    meses_a_numeros = {
        'ENERO': 1, 'FEBRERO': 2, 'MARZO': 3, 'ABRIL': 4, 'MAYO': 5, 'JUNIO': 6,
        'JULIO': 7, 'AGOSTO': 8, 'SEPTIEMBRE': 9, 'OCTUBRE': 10, 'NOVIEMBRE': 11, 'DICIEMBRE': 12
    }

    # Verificar si existe la columna de mes
    if 'mes' in cali_df.columns:
        # Convertir mes de texto a número
        cali_df['mes_numero'] = cali_df['mes'].map(meses_a_numeros)

        # Asegurar que las columnas numéricas sean de tipo numérico
        if 'anio' in cali_df.columns:
            cali_df['anio'] = pd.to_numeric(cali_df['anio'], errors='coerce')
            cali_df['mes_numero'] = pd.to_numeric(cali_df['mes_numero'], errors='coerce')

            # Crear una columna para la fecha (primer día del mes)
            cali_df['fecha'] = pd.to_datetime(cali_df[['anio', 'mes_numero']].assign(day=1))

            # Crear una columna para el trimestre
            cali_df['trimestre'] = pd.PeriodIndex(cali_df['fecha'], freq='Q')

            # Filtrar para el periodo 2021-2025
            cali_filtrado = cali_df[(cali_df['anio'] >= 2021) & (cali_df['anio'] <= 2025)].copy()

            # Filtrar solo para servicios particular y público
            if 'servicio' in cali_filtrado.columns:
                cali_servicio = cali_filtrado[cali_filtrado['servicio'].isin(['PARTICULAR', 'PÚBLICO'])].copy()

                # Agrupar por trimestre y tipo de servicio, contar vehículos
                conteo_trimestral = cali_servicio.groupby(['trimestre', 'servicio']).size().reset_index(name='cantidad')

                # Pivotear los datos para tener columnas por tipo de servicio
                conteo_pivotado = conteo_trimestral.pivot(index='trimestre', columns='servicio', values='cantidad')

                # Rellenar valores NaN con 0
                conteo_pivotado = conteo_pivotado.fillna(0)

                # Asegurar que existen las columnas para particular y público
                if 'PARTICULAR' not in conteo_pivotado.columns:
                    conteo_pivotado['PARTICULAR'] = 0
                if 'PÚBLICO' not in conteo_pivotado.columns:
                    conteo_pivotado['PÚBLICO'] = 0

                # Calcular valores acumulados para mostrar crecimiento
                conteo_pivotado['PARTICULAR_ACUM'] = conteo_pivotado['PARTICULAR'].cumsum()
                conteo_pivotado['PÚBLICO_ACUM'] = conteo_pivotado['PÚBLICO'].cumsum()

                # Filtrar hasta T2 2025
                conteo_pivotado = conteo_pivotado[conteo_pivotado.index <= '2025Q2']

                # Convertir a formato largo para la visualización
                conteo_largo = pd.DataFrame({
                    'trimestre': conteo_pivotado.index,
                    'particular': conteo_pivotado['PARTICULAR_ACUM'],
                    'publico': conteo_pivotado['PÚBLICO_ACUM']
                })

                conteo_melted = pd.melt(
                    conteo_largo,
                    id_vars=['trimestre'],
                    value_vars=['particular', 'publico'],
                    var_name='tipo_servicio',
                    value_name='cantidad'
                )

                # Crear la gráfica
                plt.figure(figsize=(14, 8))
                sns.lineplot(
                    data=conteo_melted,
                    x='trimestre',
                    y='cantidad',
                    hue='tipo_servicio',
                    marker='o',
                    linewidth=2.5
                )

                # Personalizar la gráfica
                plt.title('Crecimiento del Parque Automotor en Cali por Trimestre (2021-2025)', fontsize=16)
                plt.xlabel('Trimestre', fontsize=14)
                plt.ylabel('Cantidad Acumulada de Vehículos', fontsize=14)
                plt.xticks(rotation=45)
                plt.grid(True, linestyle='--', alpha=0.7)
                plt.legend(title='Tipo de Servicio', fontsize=12, title_fontsize=13)

                # Ajustar el diseño
                plt.tight_layout()

                # Mostrar la gráfica
                plt.show()

                # Mostrar los datos utilizados
                print("Datos trimestrales utilizados para la gráfica:")
                display(conteo_pivotado)
            else:
                print("Error: No se encontró la columna 'servicio' en el DataFrame")
        else:
            print("Error: No se encontró la columna 'anio' en el DataFrame")
    else:
        print("Error: No se encontró la columna 'mes' en el DataFrame")
        print("Columnas disponibles:", cali_df.columns.tolist())

Columnas disponibles en df_cali:
['nombre_departamento', 'nombre_municipio', 'nombre_servicio', 'estado_del_vehiculo', 'nombre_de_la_clase', 'fecha_de_registro', 'cantidad', 'mes_de_publicacion', 'a_o_de_publicacion']


ValueError: to assemble mappings requires at least that [year, month, day] be specified: [month,year] is missing