Skip to content

Projects for the Machine Learning and Data Science Diploma

Notifications You must be signed in to change notification settings

AndresF100/Projects_UNAL

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

64 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Proyectos para Diplomado Machine Learning & Data Science

Universidad Nacional de Colombia

Este repositorio contiene los proyectos desarrollados durante el Diplomado en Machine Learning & Data Science de la Universidad Nacional de Colombia. Los proyectos están organizados por módulos y se enfocan en la aplicación de técnicas y herramientas de ciencia de datos en diferentes contextos.

Contenidos

Módulo 2

Proyecto aplicado "Pokemon_data"
Archivo: Proyecto Módulo 2.ipynb

En este proyecto, se utilizan modelos de aprendizaje supervisado y no supervisado para analizar un conjunto de datos de pokémon. El objetivo es entender las características de los pokémon, realizar clasificaciones y agrupamientos que permitan encontrar similitudes entre ellos. Las principales técnicas utilizadas incluyen:

  • Modelos Supervisados: Para la clasificación de los pokémon según sus características.
  • Modelos No Supervisados: Para el agrupamiento de los pokémon y la identificación de patrones ocultos en los datos.

Módulo 3

Proyecto BIG DATA: Google Merchandise Store
Archivo: Proyecto Módulo 3.ipynb

Este proyecto aborda el manejo de grandes volúmenes de datos no estructurados utilizando MongoDB y Dask. El conjunto de datos corresponde a los clientes de la Google Merchandise Store, y el objetivo es asegurar que el proceso de Extracción, Transformación y Carga (ETL) sea eficiente. Las principales herramientas y técnicas utilizadas incluyen:

  • MongoDB: Para el almacenamiento y la gestión de grandes volúmenes de datos no estructurados.
  • Dask: Para la paralelización de tareas y la gestión eficiente de datos a gran escala durante el proceso ETL.

Requisitos

Software y Bibliotecas Necesarias

  • Python 3.8 o superior
  • Jupyter Notebook
  • Bibliotecas de Python:
    • pandas
    • numpy
    • scikit-learn
    • matplotlib
    • seaborn
    • mongodb
    • dask
    • pymongo

Instalación

  1. Clonar el repositorio

    git clone https://github.com/usuario/diplomado-machine-learning.git
    cd diplomado-machine-learning
  2. Instalar las dependencias

    pip install pandas numpy scikit-learn matplotlib seaborn pymongo dask

Uso

  1. Abrir los notebooks

    jupyter notebook
    • Navegar a los archivos Proyecto Módulo 2.ipynb o Proyecto Módulo 3.ipynb y abrirlos en Jupyter Notebook.
  2. Ejecutar los notebooks

    • Seguir las celdas de código en cada notebook para reproducir los análisis y resultados.

Contribuciones

Las contribuciones son bienvenidas. Por favor, abre un issue para discutir cualquier cambio que desees realizar o envía un pull request con tus mejoras.