## Cargue de base

In [2]:
import pandas as pd
ruta_excel = r"C:\Users\pandr\OneDrive\Escritorio\Transport\data.csv"
df = pd.read_csv(
    ruta_excel,
    dtype=str,   
    keep_default_na=False,  
    na_values=[]           
)
print(df.dtypes)

AÑO/MES                   object
NATURALEZA                object
COD_PRODUCTO              object
PRODUCTO                  object
CANTIDAD                  object
UNID_MEDIDA               object
FECHASALIDACARGUE         object
HORA_SALIDA_CARGUE        object
FECHALLEGADADESCARGUE     object
HORA_LLEGADA_DESCARGUE    object
CODIGO_CARGUE             object
CARGUE                    object
CODIGO_DESCARGUE          object
DESCARGUE                 object
HORAS_VIAJE               object
HORAS_ESPERA_CARGUE       object
HORAS_CARGUE              object
HORAS_ESPERA_DESCARGUE    object
HORAS_DESCARGUE           object
VALOR_PACTADO             object
VALOR_PAGADO              object
CANTIDAD_REMESAS_VIAJE    object
EMPRESA_TRANSPORTE        object
PLACA                     object
CONFIGURACION             object
CONDUCTOR                 object
dtype: object


In [3]:
#Delete Data
df = df[df["HORA_SALIDA_CARGUE"].astype(str).str.strip() != "ERROR: #VALUE!"].copy()

In [4]:
columnas = [
    "CANTIDAD",
    "HORAS_VIAJE",
    "HORAS_ESPERA_CARGUE",
    "HORAS_CARGUE",
    "HORAS_ESPERA_DESCARGUE",
    "HORAS_DESCARGUE",
    "VALOR_PACTADO",
    "VALOR_PAGADO",
    "CANTIDAD_REMESAS_VIAJE"
]

for a in columnas:
    df[a] = df[a].astype(str)  # text
    
    filas_con_punto = df[df[a].str.contains('\.', na=False)]
    filas_con_coma = df[df[a].str.contains(',', na=False)]
    
    print(f"\n--- Columna: {a} ---")
    print(f"Tipo de dato: {df[a].dtype}")
    
    if not filas_con_punto.empty:
        print("\nFilas con punto:")
        print(filas_con_punto[[a]])
    else:
        print(f"\nNo hay filas con punto en {a}.")
    
    if not filas_con_coma.empty:
        print("\nFilas con coma:")
        print(filas_con_coma[[a]])
    else:
        print(f"\nNo hay filas con coma en {a}.")


--- Columna: CANTIDAD ---
Tipo de dato: object

Filas con punto:
       CANTIDAD
5           8.5
8           1.2
18         1.53
26          4.5
53        3.106
...         ...
836005   34.315
836006    34.53
836007    36.24
836011     8.76
836012    33.98

[285541 rows x 1 columns]

Filas con coma:
          CANTIDAD
248483   2,635,850
248492   6,170,800
248493   5,565,750
248496   8,056,140
248498   2,776,950
...            ...
683680  11,019,250
683698   4,525,875
683748  13,750,000
683751  15,134,625
683756   8,266,500

[880 rows x 1 columns]

--- Columna: HORAS_VIAJE ---
Tipo de dato: object

Filas con punto:
       HORAS_VIAJE
0            46.00
1            46.00
2            46.00
3            46.00
4            46.02
...            ...
836008       94.00
836009       42.50
836010       42.63
836011       44.00
836012       22.00

[835237 rows x 1 columns]

No hay filas con coma en HORAS_VIAJE.

--- Columna: HORAS_ESPERA_CARGUE ---
Tipo de dato: object

Filas con punto:
      

## DATA CLEANING

In [5]:
columnas = [
    "CANTIDAD",
    "HORAS_VIAJE",
    "HORAS_ESPERA_CARGUE",
    "HORAS_CARGUE",
    "HORAS_ESPERA_DESCARGUE",
    "HORAS_DESCARGUE",
    "VALOR_PACTADO",
    "VALOR_PAGADO",
    "CANTIDAD_REMESAS_VIAJE"
]

for c in columnas:
    df[c] = df[c].astype(str).str.replace(',', '', regex=False) #Reemplazo columnas por comma
    df[c] = pd.to_numeric(df[c], errors='coerce')
print(df[columnas].dtypes)

CANTIDAD                  float64
HORAS_VIAJE               float64
HORAS_ESPERA_CARGUE       float64
HORAS_CARGUE              float64
HORAS_ESPERA_DESCARGUE    float64
HORAS_DESCARGUE           float64
VALOR_PACTADO             float64
VALOR_PAGADO              float64
CANTIDAD_REMESAS_VIAJE      int64
dtype: object


In [6]:
import pandas as pd
from datetime import time
df["FECHASALIDACARGUE"] = pd.to_datetime(df["FECHASALIDACARGUE"], errors="coerce")
df["HORA_SALIDA_CARGUE"] = pd.to_datetime(df["HORA_SALIDA_CARGUE"], errors="coerce").dt.time
df["FECHALLEGADADESCARGUE"] = pd.to_datetime(df["FECHALLEGADADESCARGUE"], errors="coerce")
df["HORA_LLEGADA_DESCARGUE"] = pd.to_datetime(df["HORA_LLEGADA_DESCARGUE"], errors="coerce").dt.time

  df["FECHASALIDACARGUE"] = pd.to_datetime(df["FECHASALIDACARGUE"], errors="coerce")
  df["FECHALLEGADADESCARGUE"] = pd.to_datetime(df["FECHALLEGADADESCARGUE"], errors="coerce")


In [None]:
df.to_csv("data_clean_transport.csv", index=False, encoding="utf-8-sig")

## Creacion de tabla Ciudades

In [8]:
import pandas as pd
df_departamento = pd.concat([
    df['CARGUE'],
    df['DESCARGUE']
], axis=0)
df_departamento = df_departamento.dropna().astype(str).str.strip().drop_duplicates().reset_index(drop=True)
df_departamento = pd.DataFrame(df_departamento, columns=['UBICACION'])


In [None]:
import pandas as pd

# Supongamos que ya tienes df_departamento con la columna "UBICACION"

def limpiar_departamento(texto):
    if pd.isna(texto):
        return None
    texto = str(texto).strip().upper()

    # 1️⃣ Caso Bogotá D.C.
    if "C." in texto:
        return "BOGOTA"

    # 2️⃣ Extraer el último fragmento después del último espacio
    partes = texto.split(" ")
    departamento = partes[-1] if len(partes) > 0 else texto

    # 3️⃣ Revisar si antes de 'CAUCA' aparece 'DEL '
    if departamento == "CAUCA":
        # Tomamos los 4 caracteres antes de "CAUCA"
        cuatro_antes = texto[-9:-5] if len(texto) > 9 else ""
        if "DEL " in cuatro_antes:
            return "VALLE DEL CAUCA"

    # 4️⃣ Si no aplica ningún caso especial, devolvemos el último fragmento
    return departamento

# Crear la columna DEPARTAMENTO_LIMPIO
df_departamento["DEPARTAMENTO_LIMPIO"] = df_departamento["UBICACION"].apply(limpiar_departamento)

# Crear la columna final para usar en Power BI
df_departamento["UBICACION_BI"] = df_departamento["DEPARTAMENTO_LIMPIO"] + ", Colombia"

# Verificamos los resultados
print(df_departamento.head(10))

                           UBICACION DEPARTAMENTO_LIMPIO  \
0                 MEDELLIN ANTIOQUIA           ANTIOQUIA   
1                 SABANETA ANTIOQUIA           ANTIOQUIA   
2                    BELLO ANTIOQUIA           ANTIOQUIA   
3                   ITAGUI ANTIOQUIA           ANTIOQUIA   
4                BOGOTA BOGOTA D. C.              BOGOTA   
5  LA ESTRELLA LA ESTRELLA ANTIOQUIA           ANTIOQUIA   
6                  CARTAGENA BOLIVAR             BOLIVAR   
7                 FUNZA CUNDINAMARCA        CUNDINAMARCA   
8              YUMBO VALLE DEL CAUCA     VALLE DEL CAUCA   
9                      IBAGUE TOLIMA              TOLIMA   

                UBICACION_BI  
0        ANTIOQUIA, Colombia  
1        ANTIOQUIA, Colombia  
2        ANTIOQUIA, Colombia  
3        ANTIOQUIA, Colombia  
4           BOGOTA, Colombia  
5        ANTIOQUIA, Colombia  
6          BOLIVAR, Colombia  
7     CUNDINAMARCA, Colombia  
8  VALLE DEL CAUCA, Colombia  
9           TOLIMA, Colombia 

In [95]:
df_departamento.to_csv("ciudades.csv", index=False, encoding="utf-8-sig")


In [92]:
df.columns

Index(['AÑO/MES', 'NATURALEZA', 'COD_PRODUCTO', 'PRODUCTO', 'CANTIDAD',
       'UNID_MEDIDA', 'FECHASALIDACARGUE', 'HORA_SALIDA_CARGUE',
       'FECHALLEGADADESCARGUE', 'HORA_LLEGADA_DESCARGUE', 'CODIGO_CARGUE',
       'CARGUE', 'CODIGO_DESCARGUE', 'DESCARGUE', 'HORAS_VIAJE',
       'HORAS_ESPERA_CARGUE', 'HORAS_CARGUE', 'HORAS_ESPERA_DESCARGUE',
       'HORAS_DESCARGUE', 'VALOR_PACTADO', 'VALOR_PAGADO',
       'CANTIDAD_REMESAS_VIAJE', 'EMPRESA_TRANSPORTE', 'PLACA',
       'CONFIGURACION', 'CONDUCTOR'],
      dtype='object')

In [99]:
variables = ['HORAS_VIAJE', 'HORAS_ESPERA_CARGUE', 'HORAS_CARGUE',
              'HORAS_ESPERA_DESCARGUE', 'HORAS_DESCARGUE',
              'VALOR_PACTADO', 'VALOR_PAGADO', 'CANTIDAD_REMESAS_VIAJE']