Foto de Karolina Grabowska en Pexels Foto de Karolina Grabowska en Pexels
Álvaro Rodríguez Pardo alvarorp22@uoc.edu
Oscar Rojo Martín zumaia@uoc.edu
El objetivo de esta actividad será el tratamiento de un dataset, que puede ser el creado en la práctica 1 o bien cualquier dataset libre disponible en Kaggle (https://www.kaggle.com). El dataset elegido es:
● cardiovascular-disease
Siguiendo las principales etapas de un proyecto analítico, las diferentes tareas a realizar (y justificar) son las siguientes:
- Descripción del dataset. ¿Por qué es importante y qué pregunta/problema pretende responder?
- Integración y selección de los datos de interés a analizar.
- Limpieza de los datos.
3.1. ¿Los datos contienen ceros o elementos vacíos? ¿Cómo gestionarías cada uno de estos casos?
3.2. Identificación y tratamiento de valores extremos. - Análisis de los datos.
4.1. Selección de los grupos de datos que se quieren analizar/comparar (planificación de los análisis a aplicar).
4.2. Comprobación de la normalidad y homogeneidad de la varianza.
4.3. Aplicación de pruebas estadísticas para comparar los grupos de datos. En función de los datos y el objetivo del estudio, aplicar pruebas de contraste de hipótesis, correlaciones, regresiones, etc. Aplicar al menos tres métodos de análisis diferentes. - Representación de los resultados a partir de tablas y gráficas.
- Resolución del problema. A partir de los resultados obtenidos, ¿cuáles son las conclusiones? ¿Los resultados permiten responder al problema?
Código: Hay que adjuntar el código, preferiblemente en R, con el que se ha realizado la limpieza, análisis y representación de los datos. Si lo preferís, también podéis trabajar en Python.