Skip to content

microsoft/crea-un-dataset

Repository files navigation

Crea un Dataset desde cero con Python

En este repositorio encontrarás un tutorial para crear un dataset desde cero con Python. Tendras que procesar un archivo de texto, limiparlo, ordernalo con el fin de crear un archivo de CSV (comma separated values) que podras utilizar para entrenar un modelo de Machine Learning.

Este tutorial se basa en un caso real, donde una comunidad de voluntarios usa una pagina web para anunciar si las rutas de bicicleta de montaña estan abiertas o cerradas. Hay dos rutas: Valenciana y Borja. El objetivo de este tutorial es crear un CSV con Python que resulte en un ejemplo como este:

status, valenciana, borja
todas las rutas estan abiertas, 1, 1
todas las rutas estan cerradas, 0, 0
la ruta de valenciana esta abierta, 1, 0
la ruta de borja esta abierta, 0, 1

🤔 Si deseas aprender con una leccion usa el siguiente video:

Introducción a Ciencia de Datos con Python

Completa el reto

Empieza esta leccion abriendo el archivo main.py y completando todos los pasos.

El archivo incluye comentarios que te guiaran en el proceso y la funcion main() que se encargara de ejecutar el codigo. No te olvides de actualizar la funcion para usar los datos limpios que vas agregando!

Si tienes dudas, usa el video como guia.

Objetivos

  1. Limpiar los datos, linea por linea con Python
  2. Reducir el numero de datos identificando duplicados
  3. Normalizar el texto con minúsculas
  4. Identificar si las rutas estan abiertas o cerradas, usando un 0 para cerrado y un 1 para abierto
  5. Crear un archivo CSV con los datos limpios y ordenados

Recursos