# Proyecto integrador – Unidad 7
Este notebook descarga, descomprime y analiza el conjunto de datos Vehicle Energy Dataset (VED). Incluye limpieza específica de la columna de velocidad y cálculo de velocidad promedio.

## 1. Instalar herramientas necesarias para descomprimir archivos .7z

In [None]:
!apt-get install -y p7zip-full

## 2. Descargar las dos partes del conjunto de datos desde GitHub

In [None]:
!wget https://github.com/gsoh/VED/raw/master/Data/VED_DynamicData_Part1.7z -O VED_DynamicData_Part1.7z
!wget https://github.com/gsoh/VED/raw/master/Data/VED_DynamicData_Part2.7z -O VED_DynamicData_Part2.7z

## 3. Descomprimir ambas partes

In [None]:
!7z x VED_DynamicData_Part1.7z -oVED_DynamicData
!7z x VED_DynamicData_Part2.7z -oVED_DynamicData

## 4. Buscar un archivo CSV disponible

In [None]:
import os

csv_file = None
for archivo in os.listdir("VED_DynamicData"):
    if archivo.endswith(".csv"):
        csv_file = archivo
        break

print("Archivo CSV seleccionado:", csv_file)

## 5. Leer y mostrar las primeras líneas del archivo CSV seleccionado

In [None]:
with open(f"VED_DynamicData/{csv_file}") as f:
    for i in range(10):
        print(f.readline().strip())

## 6. Prueba mínima: verificar que el archivo tenga al menos 1000 líneas

In [None]:
with open(f"VED_DynamicData/{csv_file}") as f:
    lineas = f.readlines()

assert len(lineas) > 1000, "El archivo no contiene suficientes registros."
print("Prueba pasada: el archivo tiene", len(lineas), "registros.")

## 7. Análisis de velocidad promedio (ignorando NaN solo en esa columna)

In [None]:
total_velocidad = 0
cuenta = 0

for l in lineas[1:]:
    campos = l.strip().split(',')
    if len(campos) > 6 and campos[6] != 'NaN':
        try:
            velocidad = float(campos[6])
            total_velocidad += velocidad
            cuenta += 1
        except:
            continue

promedio = total_velocidad / cuenta if cuenta > 0 else 0
print(f"Velocidad promedio (sin NaN en columna de velocidad): {promedio:.2f} km/h")

## ✅ Continúa tú
A partir de aquí puedes crear más análisis específicos por variable o por grupo (VehId, Trip, etc.).