**🚀EXTRACCIÓN DE DATOS DESDE GOOGLE SHEETS (EXCEL VIRTUAL)**


**Proyecto: Seguridad Operativa mediante GPS (Empresa: Transportes El Lorito)**

Instalar la librería pandas (opcional en Google Colab, pero lo incluimos por compatibilidad)

In [15]:
!pip install --quiet gspread pandas gspread_dataframe

Nota:

Autenticación con Google (solo necesario si no usas un archivo público):

Si el archivo es público, puedes acceder con gspread sin autenticación compleja.

CELDA 1 – Código base general (solo ejecutar una vez al inicio)



In [16]:
# Importamos la librería pandas, que permite trabajar con datos en forma de tablas (DataFrames)
import pandas as pd

# Definimos el ID único del archivo de Google Sheets
sheet_id = "1HBwyjBG0zH1AGpIXnKyFC26rGhSsIOF744vc6aSjfLE"

# Creamos una función para leer, mostrar y analizar una hoja específica del documento
def analizar_hoja(nombre_hoja, gid):
    """
    Esta función realiza:
    1. Construye el enlace CSV de exportación a partir del ID de hoja (gid)
    2. Lee el contenido como un DataFrame de pandas
    3. Muestra todos los datos completos de la hoja
    4. Muestra análisis básico como:
       - Total de filas y columnas
       - Nombres de las columnas
       - Tipo de datos por columna
       - Cantidad de valores faltantes por columna
    """

    # Construimos la URL directa para exportar la hoja como CSV
    url = f"https://docs.google.com/spreadsheets/d/{sheet_id}/export?format=csv&gid={gid}"

    # Leemos los datos desde la URL en formato CSV
    df = pd.read_csv(url)

    # Encabezado visual para identificar la hoja
    print("="*100)
    print(f"📋 HOJA: {nombre_hoja}")
    print("="*100)

    # Mostramos todos los datos completos (Google Colab los puede visualizar con display)
    print("🔹 Todos los datos:")
    display(df)

    # Mostramos dimensiones: cuántas filas y columnas tiene
    print(f"\n🔹 Filas: {df.shape[0]} | Columnas: {df.shape[1]}")

    # Mostramos el nombre de cada columna
    print("🔹 Columnas:", list(df.columns))

    # Mostramos el tipo de dato de cada columna (texto, número, fecha, etc.)
    print("\n🔹 Tipos de datos:")
    print(df.dtypes)

    # Mostramos cuántos valores vacíos hay por columna
    print("\n🔹 Valores nulos por columna:")
    print(df.isnull().sum())

✅ CELDAS SIGUIENTES – Una por cada hoja

📄 Cronograma

In [17]:
analizar_hoja("Cronograma", "1002874041")

📋 HOJA: Cronograma
🔹 Todos los datos:


Unnamed: 0,cronograma_id,operador_id,fecha
0,1,OP-048,2025-01-01 0:00:00
1,2,OP-022,2025-01-01 0:00:00
2,3,OP-068,2025-01-01 0:00:00
3,4,OP-018,2025-01-01 0:00:00
4,5,OP-093,2025-01-01 0:00:00
...,...,...,...
13135,13136,OP-092,2025-12-31 0:00:00
13136,13137,OP-040,2025-12-31 0:00:00
13137,13138,OP-042,2025-12-31 0:00:00
13138,13139,OP-007,2025-12-31 0:00:00



🔹 Filas: 13140 | Columnas: 3
🔹 Columnas: ['cronograma_id', 'operador_id', 'fecha']

🔹 Tipos de datos:
cronograma_id     int64
operador_id      object
fecha            object
dtype: object

🔹 Valores nulos por columna:
cronograma_id    0
operador_id      0
fecha            0
dtype: int64


📄 Rutas

In [18]:
analizar_hoja("Rutas", "0")

📋 HOJA: Rutas
🔹 Todos los datos:


Unnamed: 0,ruta_id,codigo_ruta,nombre
0,1,2535,Santa Rosa
1,2,4541,Consorcio
2,3,6905,Polo



🔹 Filas: 3 | Columnas: 3
🔹 Columnas: ['ruta_id', 'codigo_ruta', 'nombre']

🔹 Tipos de datos:
ruta_id         int64
codigo_ruta     int64
nombre         object
dtype: object

🔹 Valores nulos por columna:
ruta_id        0
codigo_ruta    0
nombre         0
dtype: int64


📄 Buses

In [19]:
analizar_hoja("Buses", "1857142461")

📋 HOJA: Buses
🔹 Todos los datos:


Unnamed: 0,bus_id,padron,placa,combustible,marca,chip (GPS),sede,estado_bus
0,1,100,A7B392,GNV,GOLDEN DRAGON GNV ACCESO,si,Huaycan,En ruta
1,2,101,C2D581,GNV,GOLDEN DRAGON GNV ACCESO,si,Huaycan,En ruta
2,3,102,F4G147,GNV,GOLDEN DRAGON GNV ACCESO,si,Huaycan,En ruta
3,4,103,H9J206,GNV,GOLDEN DRAGON GNV ACCESO,si,Huaycan,En ruta
4,5,104,K1L358,GNV,GOLDEN DRAGON GNV ACCESO,si,Huaycan,En ruta
5,6,105,M6N474,GNV,GOLDEN DRAGON GNV ACCESO,si,Huaycan,En ruta
6,7,106,P3Q982,GNV,GOLDEN DRAGON GNV ACCESO,si,Huaycan,En ruta
7,8,107,R8S215,GNV,GOLDEN DRAGON GNV ACCESO,si,Huaycan,En ruta
8,9,108,T5U639,GNV,GOLDEN DRAGON GNV ACCESO,si,Huaycan,En ruta
9,10,109,V2W174,GNV,GOLDEN DRAGON GNV ACCESO,si,Huaycan,En ruta



🔹 Filas: 36 | Columnas: 8
🔹 Columnas: ['bus_id', 'padron', 'placa', 'combustible', 'marca', 'chip (GPS)', 'sede', 'estado_bus']

🔹 Tipos de datos:
bus_id          int64
padron          int64
placa          object
combustible    object
marca          object
chip (GPS)     object
sede           object
estado_bus     object
dtype: object

🔹 Valores nulos por columna:
bus_id         0
padron         0
placa          0
combustible    0
marca          0
chip (GPS)     0
sede           0
estado_bus     0
dtype: int64


📄 Falta

In [20]:
analizar_hoja("Falta", "1817979550")

📋 HOJA: Falta
🔹 Todos los datos:


Unnamed: 0,falta_id,código_falta,nombre,descripción,gravedad
0,1,A-01,PRESENTACIÓN PERSONAL,Corte de cabello inadecuado o descuido de aseo...,LEVE
1,2,A-02,NECESIDADES FISIOLÓGICAS INADECUADAS,Por hacer sus necesidades fisiológicas en la z...,LEVE
2,3,A-03,ARROJAR BASURA,Por arrojar basura en la zona de estacionamien...,LEVE
3,4,A-04,FALTA DE RESPETO AL PERSONAL,Por hacer caso omiso a las indicaciones del Je...,MUY GRAVE
4,5,A-05,NO OBEDECER INDICACIONES,Por hacer caso omiso a las indicaciones del de...,MUY GRAVE
...,...,...,...,...,...
65,66,A-66,TRABAJO PARA LA COMPETENCIA,Desempeñar funciones para empresas rivales dur...,MUY GRAVE
66,67,A-67,COACCIONES O AMENAZAS,Intimidar a compañeros o superiores para obten...,MUY GRAVE
67,68,A-68,MAL USO DE FONDOS,Utilizar recursos económicos de la institución...,MUY GRAVE
68,69,A-69,REINCIDENCIA EN FALTAS,"Cometer reiteradamente faltas, aun después de ...",MUY GRAVE



🔹 Filas: 70 | Columnas: 5
🔹 Columnas: ['falta_id', 'código_falta', 'nombre', 'descripción', 'gravedad']

🔹 Tipos de datos:
falta_id         int64
código_falta    object
nombre          object
descripción     object
gravedad        object
dtype: object

🔹 Valores nulos por columna:
falta_id        0
código_falta    0
nombre          0
descripción     0
gravedad        0
dtype: int64


📄 Inspector

In [7]:
analizar_hoja("Inspector", "540056938")

📋 HOJA: Inspector
🔹 Todos los datos:


Unnamed: 0,inspector_id,codigo_inspector,apellido_paterno,apellido_materno,nombres,estado
0,1,INS001,ALVARADO,CHINCHAY,ALEJANDRO IVAN,trabajando
1,2,INS002,ANAYA,PALOMINO,JOEL HENRY,trabajando
2,3,INS003,AQUINO,ROJAS,EVER JUAN,trabajando
3,4,INS004,AVILA,CUBA,RICHARD ANDRES,trabajando
4,5,INS005,BASURTO,MIRANDA,AVENCIO,trabajando
...,...,...,...,...,...,...
100,101,INS101,OSCCO,MUÃ‘OZ,NILVER,trabajando
101,102,INS102,VELA,TAHUA,RICK JEYSSON,trabajando
102,103,INS103,LEON,VILCHEZ,MIGUEL ANTONIO,trabajando
103,104,INS104,SOTO,APUMAYTA,ROLANDO JAIME,trabajando



🔹 Filas: 105 | Columnas: 6
🔹 Columnas: ['inspector_id', 'codigo_inspector', 'apellido_paterno', 'apellido_materno', 'nombres', 'estado']

🔹 Tipos de datos:
inspector_id         int64
codigo_inspector    object
apellido_paterno    object
apellido_materno    object
nombres             object
estado              object
dtype: object

🔹 Valores nulos por columna:
inspector_id        0
codigo_inspector    0
apellido_paterno    0
apellido_materno    0
nombres             0
estado              0
dtype: int64


📄 Operador

In [8]:
analizar_hoja("Operador", "2013202462")

📋 HOJA: Operador
🔹 Todos los datos:


Unnamed: 0,operador_id,codigo_operador,apellido_paterno,apellido_materno,nombres
0,1,OP-001,Pérez,Gómez,Juan
1,2,OP-002,Ramírez,Sánchez,Carlos
2,3,OP-003,Díaz,Fernández,Luis
3,4,OP-004,Torres,Mendoza,Miguel
4,5,OP-005,Flores,Castro,José
...,...,...,...,...,...
95,96,OP-096,Torres,Fernández,Víctor
96,97,OP-097,Castillo,Vásquez,Julio
97,98,OP-098,Figueroa,Sánchez,Eduardo
98,99,OP-099,Bravo,López,Leonardo



🔹 Filas: 100 | Columnas: 5
🔹 Columnas: ['operador_id', 'codigo_operador', 'apellido_paterno', 'apellido_materno', 'nombres']

🔹 Tipos de datos:
operador_id          int64
codigo_operador     object
apellido_paterno    object
apellido_materno    object
nombres             object
dtype: object

🔹 Valores nulos por columna:
operador_id         0
codigo_operador     0
apellido_paterno    0
apellido_materno    0
nombres             0
dtype: int64


📄 Paradero

In [9]:
analizar_hoja("Paradero", "1205843695")

📋 HOJA: Paradero
🔹 Todos los datos:


Unnamed: 0,paradero_id,codigo_paradero,nombre
0,1,PAR001,FAMESA
1,2,PAR002,CESAR VALLEJO
2,3,PAR003,SANTA CLARA
3,4,PAR004,ESCUELA
4,5,PAR005,COPRODELI
5,6,PAR006,PARIHUELA
6,7,PAR007,Villa Sol
7,8,PAR008,Escuela de Policia
8,9,PAR009,Primera de Pro
9,10,PAR010,Tottus



🔹 Filas: 51 | Columnas: 3
🔹 Columnas: ['paradero_id', 'codigo_paradero', 'nombre']

🔹 Tipos de datos:
paradero_id         int64
codigo_paradero    object
nombre             object
dtype: object

🔹 Valores nulos por columna:
paradero_id        0
codigo_paradero    0
nombre             0
dtype: int64


📄 Sanciones

In [10]:
analizar_hoja("Sanciones", "511629238")

📋 HOJA: Sanciones
🔹 Todos los datos:


Unnamed: 0,sancion_id,codigo_sancion,descripcion
0,1,S001,Suspendido por 2 dias
1,2,S002,Suspendido por 4 dias
2,3,S003,Suspendido por 6 dias
3,4,S004,Suspendido por 8 dias
4,5,S005,Suspendido por 10 dias
5,6,S006,Retirado del servicio
6,7,S007,Ir a capacitacion
7,8,S008,Suspendido por 2 dias
8,9,S009,Suspendido por 4 dias
9,10,S010,Suspendido por 6 dias



🔹 Filas: 12 | Columnas: 3
🔹 Columnas: ['sancion_id', 'codigo_sancion', 'descripcion']

🔹 Tipos de datos:
sancion_id         int64
codigo_sancion    object
descripcion       object
dtype: object

🔹 Valores nulos por columna:
sancion_id        0
codigo_sancion    0
descripcion       0
dtype: int64


📄 Sentido

In [11]:
analizar_hoja("Sentido", "1534440589")

📋 HOJA: Sentido
🔹 Todos los datos:


Unnamed: 0,sentido_id,descripcion
0,1,OESTE - ESTE
1,2,ESTE - OESTE
2,3,SUR - NORTE
3,4,NORTE - SUR



🔹 Filas: 4 | Columnas: 2
🔹 Columnas: ['sentido_id', 'descripcion']

🔹 Tipos de datos:
sentido_id      int64
descripcion    object
dtype: object

🔹 Valores nulos por columna:
sentido_id     0
descripcion    0
dtype: int64


📄 Detalle_sancion2024

In [12]:
analizar_hoja("Detalle_sancion2024", "351620038")

📋 HOJA: Detalle_sancion2024
🔹 Todos los datos:


Unnamed: 0,detalle_sancion_id,falta_fk,sancion_fk,operador,descripcion,fecha
0,1,1,5,3,Suspendido por 10 días,2024-07-01
1,2,19,8,6,Suspendido por 2 días,2024-07-22
2,3,9,6,82,Retirado del servicio,2024-08-03
3,4,12,5,28,Suspendido por 10 días,2024-05-15
4,5,10,2,59,Suspendido por 4 días,2024-06-26
...,...,...,...,...,...,...
1995,1996,15,5,32,Suspendido por 10 días,2024-05-07
1996,1997,10,8,58,Suspendido por 2 días,2024-05-13
1997,1998,2,5,40,Suspendido por 10 días,2024-05-14
1998,1999,4,1,32,Suspendido por 2 días,2024-04-21



🔹 Filas: 2000 | Columnas: 6
🔹 Columnas: ['detalle_sancion_id', 'falta_fk', 'sancion_fk', 'operador', 'descripcion', 'fecha']

🔹 Tipos de datos:
detalle_sancion_id     int64
falta_fk               int64
sancion_fk             int64
operador               int64
descripcion           object
fecha                 object
dtype: object

🔹 Valores nulos por columna:
detalle_sancion_id    0
falta_fk              0
sancion_fk            0
operador              0
descripcion           0
fecha                 0
dtype: int64


📄 Bd_Faltas2024

In [13]:
analizar_hoja("Bd_Faltas2024", "177512124")

📋 HOJA: Bd_Faltas2024
🔹 Todos los datos:


Unnamed: 0,detalle_falta_id,bus_fk,falta_fk,operador_fk,ruta_fk,paradero_fk,inspector_fk,sentido_fk,fecha,hora,comentario
0,1,41,20.0,49,3,50,82,2.0,2024-04-19,0:11:00,"PASAJERA PAGO HASTA TOTTUS AL CONDUCTOR,Y ESTE..."
1,2,24,20.0,92,3,31,10,4.0,2024-04-19,0:14:00,AL ESTARABORDO E LA UNIDAD SUBE UNA PASJERA EN...
2,3,60,45.0,22,3,46,20,4.0,2024-04-19,0:48:00,ESTAMOS LLEGANDO A GLORIA EL CHOFER EMPIEZA A ...
3,4,57,21.0,21,3,34,48,4.0,2024-04-19,1:06:00,al subir a al unidad y hacer milabor encuentro...
4,5,69,21.0,51,3,51,69,4.0,2024-04-19,1:10:00,al realizar mi labor encuentro un usuarioque d...
...,...,...,...,...,...,...,...,...,...,...,...
3100,3101,68,41.0,91,1,2,96,2.0,2024-07-31,21:58:00,Al encontrarme en el paradero visualizo acerca...
3101,3102,38,21.0,98,1,22,18,1.0,2024-07-31,21:28:00,al estar haciendo mi inspección encuentro a un...
3102,3103,57,41.0,59,1,42,60,1.0,2024-07-31,9:30:00,al estar en el paradero me percato que unidad ...
3103,3104,68,41.0,4,1,17,22,1.0,2024-07-31,9:30:00,al estar en el paradero esperando se ve a lo l...



🔹 Filas: 3105 | Columnas: 11
🔹 Columnas: ['detalle_falta_id', 'bus_fk', 'falta_fk', 'operador_fk', 'ruta_fk', 'paradero_fk', 'inspector_fk', 'sentido_fk', 'fecha', 'hora', 'comentario']

🔹 Tipos de datos:
detalle_falta_id      int64
bus_fk                int64
falta_fk            float64
operador_fk           int64
ruta_fk               int64
paradero_fk           int64
inspector_fk          int64
sentido_fk          float64
fecha                object
hora                 object
comentario           object
dtype: object

🔹 Valores nulos por columna:
detalle_falta_id    0
bus_fk              0
falta_fk            7
operador_fk         0
ruta_fk             0
paradero_fk         0
inspector_fk        0
sentido_fk          3
fecha               2
hora                7
comentario          8
dtype: int64


Fuente 2: MongoDB (NoSQL)

In [21]:
!pip install pymongo --quiet

 Estrategias de Limpieza

In [24]:
import warnings
warnings.filterwarnings("ignore", category=DeprecationWarning)


In [25]:
pip install --upgrade pymongo cryptography



Collecting cryptography
  Downloading cryptography-45.0.3-cp311-abi3-win_amd64.whl.metadata (5.7 kB)
Downloading cryptography-45.0.3-cp311-abi3-win_amd64.whl (3.4 MB)
   ---------------------------------------- 0.0/3.4 MB ? eta -:--:--
   --------------------- ------------------ 1.8/3.4 MB 10.0 MB/s eta 0:00:01
   ---------------------------------------- 3.4/3.4 MB 9.6 MB/s eta 0:00:00
Installing collected packages: cryptography
  Attempting uninstall: cryptography
    Found existing installation: cryptography 43.0.0
    Uninstalling cryptography-43.0.0:
      Successfully uninstalled cryptography-43.0.0
Successfully installed cryptography-45.0.3


  You can safely remove it manually.
ERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
pyopenssl 24.2.1 requires cryptography<44,>=41.0.5, but you have cryptography 45.0.3 which is incompatible.


In [31]:
from pymongo import MongoClient
import pandas as pd

# Reemplaza esta URI por la tuya si estás usando acceso con contraseña o conexión local
uri = "mongodb+srv://benja15mz:n0gbGQKX7AkJB1vE@cluster0.a0drvta.mongodb.net/"

client = MongoClient(uri)

# Base de datos y colección correctas
db = client["Gps"]             # Nombre exacto de la base de datos
collection = db["bd_gps"]      # Nombre exacto de la colección

# Extraer todos los documentos y convertir a DataFrame
cursor = collection.find()
df = pd.DataFrame(list(cursor))

print("Datos extraídos desde MongoDB:")
print(df.head())  # Puedes cambiar .head() por .to_string() para ver todo (no recomendado si hay muchos)


Datos extraídos desde MongoDB:
                        _id  vehiculo_id            timestamp    latitud  \
0  6833ec7481e5594647d5a0b9           15  2025-05-25 00:00:00 -12.048974   
1  6833ec7481e5594647d5a0ba           14  2025-05-25 00:00:10 -12.045146   
2  6833ec7481e5594647d5a0bb           16  2025-05-25 00:00:20 -12.048722   
3  6833ec7481e5594647d5a0bc            8  2025-05-25 00:00:30 -12.058106   
4  6833ec7481e5594647d5a0bd           38  2025-05-25 00:00:40 -12.055585   

    longitud  velocidad  direccion estado_motor  nivel_combustible  \
0 -77.045804      63.96        141    encendido                 39   
1 -77.041687      24.68        323      apagado                 33   
2 -77.046909      22.70        338    encendido                 84   
3 -77.033253      93.66         10    encendido                 23   
4 -77.044605      14.95         74      apagado                 37   

   temperatura_motor                                          alerta  
0                109

In [None]:
Estrategias de Limpieza

In [None]:
Fuente 1: Excel

In [37]:
# 1. Importar pandas (asumo que ya lo tienes)
import pandas as pd

# 2. Supongamos que ya tienes tu DataFrame cargado como df

# 3. Revisar el tipo de dato en cada columna en la primera fila
print("Tipos de datos en la primera fila de cada columna:")
for col in df.columns:
    print(f"{col}: {type(df[col].iloc[0])}")

# 4. Convertir columnas con tipo dict o list a string para evitar errores en drop_duplicates()
for col in df.columns:
    if isinstance(df[col].iloc[0], (dict, list)):
        df[col] = df[col].apply(str)
        print(f"Columna '{col}' convertida a string.")

# 5. Ahora eliminar duplicados sin errores
df = df.drop_duplicates()
print("Duplicados eliminados correctamente.")

# 6. Mostrar información general y resumen
print("\nResumen después de la limpieza:")
print(df.info())
print(df.head())  # Muestra las primeras filas para verificar

Tipos de datos en la primera fila de cada columna:
_id: <class 'bson.objectid.ObjectId'>
vehiculo_id: <class 'numpy.int64'>
timestamp: <class 'str'>
latitud: <class 'numpy.float64'>
longitud: <class 'numpy.float64'>
velocidad: <class 'numpy.float64'>
direccion: <class 'numpy.int64'>
estado_motor: <class 'str'>
nivel_combustible: <class 'numpy.int64'>
temperatura_motor: <class 'numpy.int64'>
alerta: <class 'dict'>
Columna 'alerta' convertida a string.
Duplicados eliminados correctamente.

Resumen después de la limpieza:
<class 'pandas.core.frame.DataFrame'>
Index: 2000 entries, 0 to 1999
Data columns (total 11 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   _id                2000 non-null   object 
 1   vehiculo_id        2000 non-null   int64  
 2   timestamp          2000 non-null   object 
 3   latitud            2000 non-null   float64
 4   longitud           2000 non-null   float64
 5   velocidad          2000 non-null

In [None]:
Fuente 2: MongoDB (NoSQL)

In [36]:
from pymongo import MongoClient
import pandas as pd
import numpy as np

# Conectar a MongoDB
uri = "mongodb+srv://benja15mz:n0gbGQKX7AkJB1vE@cluster0.a0drvta.mongodb.net/"
client = MongoClient(uri)

# Seleccionar base de datos y colección
db = client["Gps"]
collection = db["bd_gps"]

# Extraer documentos
cursor = collection.find()
df = pd.DataFrame(list(cursor))

print("✅ Datos extraídos desde MongoDB:")
print(df.head())

# ===========================================
# 1. Limpieza de valores nulos
# ===========================================

# Reemplazar nulos en columnas de texto con "Sin dato"
for col in df.select_dtypes(include="object").columns:
    df[col] = df[col].fillna("Sin dato")

# Reemplazar nulos en columnas numéricas con la mediana
for col in df.select_dtypes(include=["int64", "float64"]).columns:
    df[col] = df[col].fillna(df[col].median())

# ===========================================
# 2. Manejo de columnas no hashables
# ===========================================

# Detectar columnas con diccionarios o listas (no hashables)
non_hashable_cols = [col for col in df.columns if df[col].apply(lambda x: isinstance(x, (dict, list))).any()]
print("⚠️ Columnas no hashables detectadas:", non_hashable_cols)

# Eliminar duplicados ignorando columnas no hashables
df_clean = df.drop(columns=non_hashable_cols, errors="ignore")
df = df.loc[~df_clean.duplicated()].copy()

# ===========================================
# 3. Corrección de formatos
# ===========================================

# Convertir columnas de fecha si existen
for col in df.columns:
    if "fecha" in col.lower():
        df[col] = pd.to_datetime(df[col], errors="coerce")

# Convertir columnas de hora si contienen "hora" y no son tipo fecha
for col in df.columns:
    if "hora" in col.lower() and df[col].dtype == "object":
        try:
            df[col] = pd.to_datetime(df[col], errors="coerce").dt.time
        except:
            pass  # Ignorar si falla

# ===========================================
# 4. Resultado final
# ===========================================

print("✅ Datos limpios:")
print(df.head())

# Opcional: Guardar a CSV
# df.to_csv("datos_limpios.csv", index=False)


✅ Datos extraídos desde MongoDB:
                        _id  vehiculo_id            timestamp    latitud  \
0  6833ec7481e5594647d5a0b9           15  2025-05-25 00:00:00 -12.048974   
1  6833ec7481e5594647d5a0ba           14  2025-05-25 00:00:10 -12.045146   
2  6833ec7481e5594647d5a0bb           16  2025-05-25 00:00:20 -12.048722   
3  6833ec7481e5594647d5a0bc            8  2025-05-25 00:00:30 -12.058106   
4  6833ec7481e5594647d5a0bd           38  2025-05-25 00:00:40 -12.055585   

    longitud  velocidad  direccion estado_motor  nivel_combustible  \
0 -77.045804      63.96        141    encendido                 39   
1 -77.041687      24.68        323      apagado                 33   
2 -77.046909      22.70        338    encendido                 84   
3 -77.033253      93.66         10    encendido                 23   
4 -77.044605      14.95         74      apagado                 37   

   temperatura_motor                                          alerta  
0                1

In [19]:
from pymongo import MongoClient
import pandas as pd
import numpy as np

# ===========================================
# 0. Conectar a MongoDB y extraer los datos
# ===========================================

uri = "mongodb+srv://benja15mz:n0gbGQKX7AkJB1vE@cluster0.a0drvta.mongodb.net/"
client = MongoClient(uri)
db = client["Gps"]
collection = db["bd_gps"]

# Obtener documentos de la colección
cursor = collection.find()
df = pd.DataFrame(list(cursor))

print("✅ Datos extraídos desde MongoDB:")
print(df.head())

# ===========================================
# 1. Limpieza de valores nulos
# ===========================================

# Reemplazar valores nulos en columnas de texto
for col in df.select_dtypes(include="object").columns:
    df[col] = df[col].fillna("Sin dato")

# Reemplazar valores nulos en columnas numéricas
for col in df.select_dtypes(include=["int64", "float64"]).columns:
    df[col] = df[col].fillna(df[col].median())

# ===========================================
# 2. Manejo de columnas no hashables
# ===========================================

# Detectar columnas que contienen dict o list
non_hashable_cols = [col for col in df.columns if df[col].apply(lambda x: isinstance(x, (dict, list))).any()]
print("⚠️ Columnas no hashables detectadas:", non_hashable_cols)

# Convertir esas columnas a string para poder eliminar duplicados
for col in non_hashable_cols:
    df[col] = df[col].apply(str)
    print(f"✔️ Columna '{col}' convertida a string.")

# Eliminar duplicados
df = df.drop_duplicates()
print("🧹 Duplicados eliminados correctamente.")

# ===========================================
# 3. Corrección de formatos
# ===========================================

# Convertir columnas que contienen 'fecha' a datetime
for col in df.columns:
    if "fecha" in col.lower():
        df[col] = pd.to_datetime(df[col], errors="coerce")

# Convertir columnas que contienen 'hora' a tipo hora
for col in df.columns:
    if "hora" in col.lower() and df[col].dtype == "object":
        try:
            df[col] = pd.to_datetime(df[col], errors="coerce").dt.time
        except Exception:
            pass  # Ignorar errores

# ===========================================
# 4. Resultado final
# ===========================================

print("✅ Datos limpios (vista previa):")
print(df.head())

# ===========================================
# 5. 4.3. Esquema del Dataset Final Preparado
# ===========================================

print("\n📘 Esquema del Dataset Final (tipos de datos):")
print(df.dtypes)

print("\n📘 Resumen después de la limpieza (estadísticos):")
print(df.describe(include='all'))

# ===========================================
# Opcional: Guardar resultados
# ===========================================

# df.to_csv("datos_limpios.csv", index=False)
# df.dtypes.to_frame(name='tipo_dato').to_csv("esquema_columnas.csv")
# df.describe(include='all').to_csv("resumen_estadistico.csv")


  _crypto.X509.from_cryptography(x509.load_der_x509_certificate(cert))


✅ Datos extraídos desde MongoDB:
                        _id  vehiculo_id            timestamp    latitud  \
0  6833ec7481e5594647d5a0b9           15  2025-05-25 00:00:00 -12.048974   
1  6833ec7481e5594647d5a0ba           14  2025-05-25 00:00:10 -12.045146   
2  6833ec7481e5594647d5a0bb           16  2025-05-25 00:00:20 -12.048722   
3  6833ec7481e5594647d5a0bc            8  2025-05-25 00:00:30 -12.058106   
4  6833ec7481e5594647d5a0bd           38  2025-05-25 00:00:40 -12.055585   

    longitud  velocidad  direccion estado_motor  nivel_combustible  \
0 -77.045804      63.96        141    encendido                 39   
1 -77.041687      24.68        323      apagado                 33   
2 -77.046909      22.70        338    encendido                 84   
3 -77.033253      93.66         10    encendido                 23   
4 -77.044605      14.95         74      apagado                 37   

   temperatura_motor                                          alerta  
0                1

In [8]:
#Esquema Dataset Final Preparado: Descripción de las columnas y tipos de datos dataset listo para análisis.

In [29]:
import pandas as pd
from pymongo import MongoClient

# --- 1. Definir URLs y hojas de Google Sheets ---
sheet_id = "1HBwyjBG0zH1AGpIXnKyFC26rGhSsIOF744vc6aSjfLE"
base_url = f"https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq?tqx=out:csv&sheet="

sheets = {
    'cronograma': "Cronograma",
    'rutas': "Rutas",
    'buses': "buses",
    'falta': "Falta",
    'inspector': "Inspector",
    'operador': "Operador",
    'paradero': "Paradero",
    'sanciones': "Sanciones",
    'sentido': "Sentido"
}

# --- 2. Cargar hojas en DataFrames ---
dfs = {}
for key, sheet_name in sheets.items():
    url = base_url + sheet_name
    print(f"Cargando hoja: {sheet_name}")
    dfs[key] = pd.read_csv(url)
    print(f"Columnas {sheet_name}:", dfs[key].columns.tolist())

# --- 3. Conectar y cargar datos de MongoDB ---
uri = "mongodb+srv://benja15mz:n0gbGQKX7AkJB1vE@cluster0.a0drvta.mongodb.net/"
client = MongoClient(uri)
db = client["Gps"]
collection = db["bd_gps"]

df_mongo = pd.DataFrame(list(collection.find()))
print("Columnas MongoDB:", df_mongo.columns.tolist())

# --- 4. Renombrar columnas para merges ---
# En MongoDB vehiculo_id corresponde a bus_id
df_mongo.rename(columns={'vehiculo_id': 'bus_id'}, inplace=True)

# Revisar si 'operador_id' está en df_mongo o no; si no está, se omite merge con cronograma
if 'operador_id' not in df_mongo.columns:
    # Para hacer merge con cronograma y operador, operador_id debe estar en df_mongo o buses.
    # Por ejemplo, buses no tiene operador_id, cronograma sí.
    # En este caso, intentamos merge con buses, luego con cronograma (por operador_id), luego operador.
    pass

# --- 5. Merge MongoDB con buses ---
df_final = pd.merge(df_mongo, dfs['buses'], on='bus_id', how='left')
print("Merge MongoDB + buses OK")

# --- 6. Merge con cronograma por operador_id ---
# Aquí, cronograma tiene operador_id, pero buses no.
# Podemos intentar merge con cronograma por operador_id, si operador_id está en df_final.
if 'operador_id' in df_final.columns:
    df_final = pd.merge(df_final, dfs['cronograma'], on='operador_id', how='left')
    print("Merge con cronograma OK")
else:
    print("No existe 'operador_id' en df_final, no se puede hacer merge con cronograma")

# --- 7. Merge con operador para datos de operador ---
if 'operador_id' in df_final.columns:
    df_final = pd.merge(df_final, dfs['operador'], on='operador_id', how='left')
    print("Merge con operador OK")
else:
    print("No existe 'operador_id' en df_final, no se puede hacer merge con operador")

# --- 8. (Opcional) Merge con rutas si hay clave común ---
# Según columnas, rutas tiene ruta_id pero no bus_id ni operador_id.
# Si tienes relación bus-ruta en otra tabla, se debe usar para merge.
# Por ahora no se hace merge con rutas.

# --- 9. Resultado final ---
print("Dataset final columnas:", df_final.columns.tolist())
print(df_final.head())

# --- 10. Guardar resultado si quieres ---
df_final.to_csv("dataset_final2.csv", index=False)


Cargando hoja: Cronograma
Columnas Cronograma: ['cronograma_id', 'operador_id', 'fecha']
Cargando hoja: Rutas
Columnas Rutas: ['ruta_id', 'codigo_ruta', 'nombre', 'Unnamed: 3', 'Unnamed: 4', 'Unnamed: 5']
Cargando hoja: buses
Columnas buses: ['bus_id', 'padron', 'placa', 'combustible', 'marca', 'chip (GPS)', 'sede', 'estado_bus']
Cargando hoja: Falta
Columnas Falta: ['falta_id', 'código_falta', 'nombre', 'descripción', 'gravedad']
Cargando hoja: Inspector
Columnas Inspector: ['inspector_id', 'codigo_inspector', 'apellido_paterno', 'apellido_materno', 'nombres', 'estado']
Cargando hoja: Operador
Columnas Operador: ['operador_id', 'codigo_operador', 'apellido_paterno', 'apellido_materno', 'nombres']
Cargando hoja: Paradero
Columnas Paradero: ['paradero_id', 'codigo_paradero', 'nombre']
Cargando hoja: Sanciones
Columnas Sanciones: ['sancion_id', 'codigo_sancion', 'descripcion']
Cargando hoja: Sentido
Columnas Sentido: ['sentido_id', 'descripcion']
Columnas MongoDB: ['_id', 'vehiculo_id', 