# Proyecto integrador – Unidad 7
Este notebook descarga, descomprime y carga un archivo del conjunto de datos Vehicle Energy Dataset (VED). Incluye ejemplos básicos de limpieza de datos y análisis de velocidad promedio.

## 1. Instalar herramientas necesarias para descomprimir archivos .7z

In [None]:
!apt-get install -y p7zip-full

## 2. Descargar las dos partes del conjunto de datos desde GitHub

In [None]:
!wget https://github.com/gsoh/VED/raw/master/Data/VED_DynamicData_Part1.7z -O VED_DynamicData_Part1.7z
!wget https://github.com/gsoh/VED/raw/master/Data/VED_DynamicData_Part2.7z -O VED_DynamicData_Part2.7z

## 3. Descomprimir ambas partes

In [None]:
!7z x VED_DynamicData_Part1.7z -oVED_DynamicData
!7z x VED_DynamicData_Part2.7z -oVED_DynamicData

## 4. Buscar un archivo CSV disponible

In [None]:
import os

csv_file = None
for archivo in os.listdir("VED_DynamicData"):
    if archivo.endswith(".csv"):
        csv_file = archivo
        break

print("Archivo CSV seleccionado:", csv_file)

## 5. Mostrar las primeras líneas del archivo CSV seleccionado

In [None]:
with open(f"VED_DynamicData/{csv_file}") as f:
    for i in range(10):
        print(f.readline().strip())

## 6. Prueba mínima: verificar que el archivo tenga al menos 1000 líneas

In [None]:
with open(f"VED_DynamicData/{csv_file}") as f:
    lineas = f.readlines()

assert len(lineas) > 1000, "El archivo no contiene suficientes registros."
print("Prueba pasada: el archivo tiene", len(lineas), "registros.")

## 7. Limpieza de datos: eliminar registros con valores 'NaN'

In [None]:
# Filtramos líneas que NO contienen 'NaN'
lineas_limpias = [l for l in lineas[1:] if 'NaN' not in l]
print(f"Líneas válidas sin NaN: {len(lineas_limpias)}")

## 8. Ejemplo de análisis: velocidad promedio

In [None]:
# Cálculo de velocidad promedio en registros válidos
total_velocidad = 0
cuenta = 0

for l in lineas_limpias:
    campos = l.strip().split(',')
    try:
        velocidad = float(campos[6])  # Columna 7 = Vehicle Speed[km/h]
        total_velocidad += velocidad
        cuenta += 1
    except:
        continue

promedio = total_velocidad / cuenta if cuenta > 0 else 0
print(f"Velocidad promedio (en registros sin NaN): {promedio:.2f} km/h")

## ✅ Continúa tú
A partir de aquí, puedes aplicar filtros adicionales, calcular estadísticas por vehículo o viaje, y crear tu sistema completo de análisis.