Skip to content

Aplicar principios, y técnicas de modelamiento y visualización de la ciencia de datos para el análisis y solución de problemas respectivos al área. .

Notifications You must be signed in to change notification settings

HumanOsv/DataScienceEngineering

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

17 Commits
 
 

Repository files navigation

Ciencia e Ingenieria de Datos

El Curso en Ciencia e Ingeniería de Datos es un programa diseñado para profundizar en el manejo en los tipos de datos. Su objetivo principal es aplicar principios y técnicas de modelamiento y visualización de datos para resolver problemas en diferentens areas mediante metodologías de big data, minería de datos y procesamiento de lenguaje natural.

El programa se estructura en siete módulos que abarcan desde fundamentos de programación en Python hasta aplicaciones avanzadas de machine learning y deep learning sobre big data. Los contenidos incluyen programación en Python con NumPy y Pandas, visualización con Matplotlib y Seaborn, conceptos de ciencia de datos y machine learning, fundamentos de big data y las 5 V, arquitecturas y frameworks como Hadoop y Spark, procesamiento distribuido con MapReduce, y aplicaciones avanzadas de inteligencia artificial.

La metodología se basa en principios andragógicos con enfoque práctico, incluyendo análisis de casos, trabajos grupales y ejercicios colaborativos.

Los principales objetivos del curso son:

  • Comprender las principales tecnologías asociadas a big data y reconocer bajo que contexto utilizarlas

  • Desarrollar soluciones a problemas reales de big data y ciencia de datos que involucren la necesidad de técnicasde minería de datos.

  • Aplicar modelos de procesamiento de lenguaje natural para la resolución de problemas en textos noestructurados de diferentes tipos y orígenes.

Los contenidos de la asignatura son:

  • Módulo 1: Bases de programación y análisis de datos en Python.

    Introduce los fundamentos de Python para análisis de datos, incluyendo sintaxis básica, entornos de desarrollo como Jupyter Notebook, uso de librerías fundamentales (NumPy y Pandas), importación de datos desde diversas fuentes y visualización básica con Matplotlib y Seaborn.

  • Módulo 2: Aplicaciones prácticas en minería y visualización.

    Se enfoca en técnicas de limpieza y preprocesamiento de datos, análisis exploratorio (EDA) con Pandas, y creación de visualizaciones avanzadas e interactivas con Matplotlib, Seaborn y Plotly. Incluye ejemplos prácticos como análisis del PIB, tasas de inflación y patrones geológicos.

  • Módulo 3: Introducción conceptual a la ciencia de datos y machine learning.

    Cubre los conceptos fundamentales de la ciencia de datos, el proceso completo desde recolección hasta interpretación, tipos de análisis (descriptivo, diagnóstico, predictivo y prescriptivo), introducción al machine learning y deep learning, y herramientas como Scikit-learn, TensorFlow y PyTorch.

  • Módulo 4: Fundamentos de Big Data y sus retos (las 5 V).

    Define Big Data y explica las cinco características fundamentales: Volumen (grandes cantidades de datos), Velocidad (rapidez de generación y procesamiento), Variedad (diversidad de formatos), Veracidad (calidad y fiabilidad) y Valor (utilidad empresarial). Incluye la importancia de los entornos de datos empresariales.

  • Módulo 5: Arquitectura y frameworks de Big Data.

    Presenta la arquitectura por capas de Big Data y los principales frameworks como Apache Hadoop (procesamiento distribuido), Apache Spark (procesamiento en memoria), Apache Kafka, Presto y MongoDB. Enfatiza la sinergia entre Hadoop-Spark para optimizar almacenamiento y procesamiento.

  • Módulo 6: Procesamiento distribuido: MapReduce y Hadoop en acción.

    Explica el paradigma MapReduce con sus fases Map y Reduce, implementación práctica en Hadoop usando HDFS para almacenamiento distribuido, gestión de recursos con YARN, y ejemplos clásicos como el conteo de palabras en grandes volúmenes de texto.

  • Módulo 7: Aplicaciones avanzadas: machine learning y deep learning sobre Big Data.

    Integra machine learning y deep learning con Big Data utilizando frameworks como Spark MLlib, TensorFlow y PyTorch. Cubre aplicaciones como análisis predictivo, segmentación de clientes, detección de fraudes, reconocimiento de imágenes y procesamiento de lenguaje natural.

Topicos curso

  • Módulo 1: Bases de programación y análisis de datos en Python.

    • Introducción al lenguaje de programación Python ppt lab.
    • Entornos de desarrollo, estructuras de datos y manipulación ppt lab.
    • Introducción a SQL para el análisis de datos ppt lab.
    • Introducción a las Bibliotecas de Visualización en Python ppt lab.
  • Módulo 2: Aplicaciones prácticas en minería y visualización.

    • Limpieza, preprocesamiento y análisis exploratorio de datos (EDA) ppt.
    • Laboratorio EDA lab.
  • Módulo 3: Introducción conceptual al Data Science y Machine Learning

    • Fundamentos de la Ciencia de Datos: del análisis descriptivo al prescriptivo ppt lab.
    • Introducción al Machine Learning: algoritmos supervisados y no supervisados ppt lab.
    • Redes Neuronales y Deep Learning: conceptos, herramientas y aplicaciones ppt lab.
  • Módulo 4: Fundamentos de Big Data y sus retos (las 5 V).

    • Big Data: Del Caos de Datos a la Ventaja Competitiva - Introducción a las 5 V ppt.
    • Tecnologías del Big Data ppt lab.
    • ppt lab.
  • Módulo 5: Arquitectura y frameworks de Big Data.

  • Módulo 6: Procesamiento distribuido: MapReduce y Hadoop en acción.

  • Módulo 7: Aplicaciones avanzadas: machine learning y deep learning sobre Big Data.

Evaluaciones

Referencias

  • Automate the Boring Stuff with Python Programming link 1.
  • Data Structures and Algorithms in Python link 2.
  • Introduction to Python Programming link 3.
  • Learning Python link 4.
  • Python Data Science Handbook link 5.

About

Aplicar principios, y técnicas de modelamiento y visualización de la ciencia de datos para el análisis y solución de problemas respectivos al área. .

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published