# Proyecto Analítica de Datos 
### *Pontificia Universidad Javeriana* 
#### **Autor:** David Santiago Barreto Mora
#### **Curso:** Analítica de Datos
#### **Profesor:** John Jairo Corredor
---

# Introducción 
El objetivo del siguiento proyecto es desarrollar un estudio analítico completo sobre la información de nacimientos en dos municipios de Colombia. Se plantearan dos preguntas iniciales a partir de las cuales se basará todo el estudio. Se estudiaran los datos y sus características, para luego ser procesados y limpiados, para posteriormente aplicar modelos de Machine learning que nos permitan dar solución a las preguntas planteadas. 

Los datos fueron escogidos de "www.datos.gov.co, de los links:
1. https://www.datos.gov.co/Salud-y-Protecci-n-Social/NACIMIENTOS-EN-INSTITUTOS-DE-SALUD-DE-BUCARAMANGA/9rty-i39a
2. https://www.datos.gov.co/Salud-y-Protecci-n-Social/Nacimientos-Hospital-General-de-Medell-n-2020/bgwm-xwyw


---
# 3.A Fase Inicial

## 3.A.1 Selección de conjunto de datos y análisis de contexto
Los datasets seleccionados pertenencen a:
1. Nacimientos en institutos de salud en Bucaramanga del año 2020 al 2021.
2. Nacimientos en el Hospital General de Medellín del año 2020.

Se eligen estos datasets por dos razones principales. La primera, es que los conjuntos de datos tienen cierta similitud en la forma en que se presenta la información. Más adelante podremos observar factores comunes en multiples columnas, y también en la forma que presentan los datos.  La segunda razón, es que los datasets son de regiones del país con alto grado de diferencia, por lo que se puede buscar patrones recurrentes en diferentes zonas del país.

## 3.A.2 Proposición de dos preguntas relevantes al estudio


Las preguntas planteadas tienen el propósito de descubrir relaciones entre los nacimientos registrados y fenómenos socio-económicos. A través de la solución a estas preguntas se buscan corroborar realidades poblacionales tales como las correlaciones entre nivel educativo con la cantidad de nacimientos, y el acceso a servicios de salud de diferentes segmentos de la población.

*Preguntas planteadas:*
1. ¿Que tan relacionado está el nivel educativo con la cantidad de nacimientos?
Con esta pregunta se busca corroborar la hipótesis de que los segmentos poblacionales con menos recursos son los que tienen más hijos, o nacimientos. El objetivo del cuestionamiento es relacionar los nacimientos con características sociales de la población. 

2. ¿Que correlación hay entre el tiempo de gestión y la persona que atiende el parto?
La pregunta viene de la hipótesis de que un menor tiempo de gestación puede estar relacionado a la persona que atiende el parto. Como se verá más adelante, los conjuntos de datos nos dicen quien atendió un parto; donde la distinción principal que nos interesa es si lo atendio un trabajador capacitado, o una persona informal A través de esta pregunta




## 3.A. Exploración de datos.
Iniciamos la exploración de datos con los pasos típicos, pero esenciales. Importar librerías y leer de forma inicial nuestros dataframes. Podemos también observar datos básicos de nuestros conjuntos de datos.

In [21]:
# Importamos las librerias esenciales para la analítica de datos
# Manipulacion y procesamiento de datos
import pandas as pd
import numpy as np

# Visualizacion de datos
import matplotlib.pyplot as plt
import seaborn as sns

In [22]:
# Importamos los datos de los nacimientos en el hospital general de medellin.
medellin_DF = pd.read_csv("Nacimientos_Hospital_General_de_Medell_n_2020_20231109.csv")

# Visualizamos los datos
medellin_DF.head()

Unnamed: 0,Ficha de información publicación datos abiertos,SEXO,Peso,Talla,Parto atendido,Tiempo gestación,Número consultas prenatales,Tipo parto,Mutiplicidad,Apgar1,...,Estado conyugal madre,Nivel educativo,País de residencia,Municipio,Área residencia,Localidad,Número hijos nacidos vivos,Régimen seguridad,Nombre administradora,Nivel educativo padre
0,3308,FEMENINO,3308,49,MÉDICO,40.0,9,ESPONTÁNEO,SIMPLE,9.0,...,ESTÁ SOLTERA,MEDIA ACADÉMICA O CLÁSICA,COLOMBIA,ANTIOQUIA,RURAL DISPERSO,,1,SUBSIDIADO,SAVIA SALUD E.P.S.,MEDIA ACADÉMICA O CLÁSICA
1,2489,FEMENINO,2489,47,MÉDICO,38.0,7,ESPONTÁNEO,SIMPLE,9.0,...,NO ESTÁ CASADA Y LLEVA MENOS DE DOS AÑOS VIVIE...,MEDIA TÉCNICA,COLOMBIA,ANTIOQUIA,CABECERA MUNICIPAL,ROBLEDO,1,SUBSIDIADO,SAVIA SALUD E.P.S.,MEDIA TÉCNICA
2,1352,MASCULINO,1352,39,MÉDICO,31.0,1,CESÁREA,SIMPLE,7.0,...,NO ESTÁ CASADA Y LLEVA DOS AÑOS O MÁS VIVIENDO...,BÁSICA PRIMARIA,COLOMBIA,ANTIOQUIA,CABECERA MUNICIPAL,,4,CONTRIBUTIVO,EPS SURA,BÁSICA SECUNDARIA
3,2708,MASCULINO,2708,48,MÉDICO,38.0,3,ESPONTÁNEO,SIMPLE,9.0,...,ESTÁ SOLTERA,MEDIA ACADÉMICA O CLÁSICA,COLOMBIA,ANTIOQUIA,CABECERA MUNICIPAL,COMUNA 01,3,NO ASEGURADO,,SIN INFORMACIÓN
4,3447,FEMENINO,3447,49,MÉDICO,40.0,7,ESPONTÁNEO,SIMPLE,8.0,...,NO ESTÁ CASADA Y LLEVA MENOS DE DOS AÑOS VIVIE...,BÁSICA SECUNDARIA,COLOMBIA,ANTIOQUIA,CABECERA MUNICIPAL,ARANJUEZ,1,SUBSIDIADO,SAVIA SALUD E.P.S.,MEDIA ACADÉMICA O CLÁSICA


Por ejemplo, el dataset de Hospital General de Medellin (HGM) tiene 24 columnas en total.

In [23]:
# Importamos los datos de los insitutos de salud de Bucaramanga
isb_DF = pd.read_csv("NACIMIENTOS_EN_INSTITUTOS__DE_SALUD_DE_BUCARAMANGA_20231109.csv")

isb_DF.head()

Unnamed: 0,identificador,DEPARTAMENTO,MUNICIPIO,AREA NACIMIENTO,SITIO NACIMIENTO,CÓDIGO INSTITUCIÓN,NOMBRE INSTITUCIÓN,SEXO,PESO (Gramos),TALLA (Centímetros),...,RÉGIMEN SEGURIDAD,TIPO ADMINISTRADORA,NOMBRE ADMINISTRADORA,ED,NIVEL EDUCATIVO PADRE,ULTIMO AÑO APROBADO PADRE,MES,NOMBRE COMUNA,CURSO DE VIDA MADRE,AÑO REPORTE
0,1.0,SANTANDER,BUCARAMANGA,CABECERA MUNICIPAL,INSTITUCIÓN DE SALUD,680010000000,HOSPITAL LOCAL DEL NORTE,FEMENINO,3430,51,...,SUBSIDIADO,ENTIDAD PROMOTORA DE SALUD SUBSIDIADO,COOSALUD E.S.S. - ARS COOPERATIVA EMPRESA SOL...,15.0,SIN INFORMACIÓN,,MARZO,NORTE,ADOLESCENCIA,2020
1,2.0,SANTANDER,BUCARAMANGA,CABECERA MUNICIPAL,INSTITUCIÓN DE SALUD,680000000000,HOSPITAL LOCAL DEL NORTE,MASCULINO,3300,50,...,SUBSIDIADO,ENTIDAD PROMOTORA DE SALUD SUBSIDIADO,COOSALUD E.S.S. - ARS COOPERATIVA EMPRESA SOL...,20.0,SIN INFORMACIÓN,,DICIEMBRE,NORTE,ADOLESCENCIA,2020
2,3.0,SANTANDER,BUCARAMANGA,CABECERA MUNICIPAL,INSTITUCIÓN DE SALUD,680000000000,UNIDAD MATERNO INFANTIL SANTA TERESITA,MASCULINO,2890,47,...,SUBSIDIADO,ENTIDAD PROMOTORA DE SALUD SUBSIDIADO,LA NUEVA EPS S.A.-CM,17.0,BÁSICA SECUNDARIA,7.0,SEPTIEMBRE,NORTE,ADOLESCENCIA,2020
3,4.0,SANTANDER,BUCARAMANGA,CABECERA MUNICIPAL,INSTITUCIÓN DE SALUD,680000000000,HOSPITAL LOCAL DEL NORTE,FEMENINO,2750,48,...,SUBSIDIADO,ENTIDAD PROMOTORA DE SALUD SUBSIDIADO,COOSALUD E.S.S. - ARS COOPERATIVA EMPRESA SOL...,27.0,PROFESIONAL,5.0,AGOSTO,SIN IDENTIFICAR,ADOLESCENCIA,2020
4,5.0,SANTANDER,BUCARAMANGA,CABECERA MUNICIPAL,INSTITUCIÓN DE SALUD,680000000000,HOSPITAL LOCAL DEL NORTE,FEMENINO,3400,46,...,SUBSIDIADO,ENTIDAD PROMOTORA DE SALUD SUBSIDIADO,COOSALUD E.S.S. - ARS COOPERATIVA EMPRESA SOL...,15.0,BÁSICA PRIMARIA,5.0,MAYO,SIN IDENTIFICAR,ADOLESCENCIA,2020


Mientras que el de los institudos de salud de Bucaramanga (ISB) tiene 40 columnas. Casi que el doble.

Algo que resalta inmediatamente es la presentación de los datos. La información en ambos casos es presentada toda en mayúsculas, sugiriendo la posibilidad de que hay estándares establecidos para la forma en la que se crean conjuntos de datos en el sector de la salud. Alternativamente, los datasets pudieron ser creados por la misma entidad, o también puede ser que esto se deba a las herramientas de software que usan estas organizaciones. Se indagaron los proveedores de los conjuntos de datos para cada caso (fuente: datos.gov.co):
- Dataset ISB: Subcientifica 
- Dataset HGM: Hospital General de Medellín.

Por lo que podemos descartar un solo proveedor para ambos datasets. Por ahora la duda se mantendrá.

Continuando con la exploración de datos, ahora vemos más a fondo las propiedades de cada conjunto de datos. Tamaños de los dataframes, nombres y tipos de columnas y descripción estádistica de cada atributo.

In [24]:
# Tamaño del dataset de los ISB
isb_DF.shape

(92297, 40)

In [25]:
# Nombres de todas las columnas del dataset del ISB
isb_DF.columns

Index(['identificador', 'DEPARTAMENTO', 'MUNICIPIO', 'AREA NACIMIENTO',
       'SITIO NACIMIENTO', 'CÓDIGO INSTITUCIÓN', 'NOMBRE INSTITUCIÓN', 'SEXO',
       'PESO (Gramos)', 'TALLA (Centímetros)', 'FECHA NACIMIENTO',
       'PARTO ATENDIDO POR', 'TIEMPO DE GESTACIÓN',
       'NÚMERO CONSULTAS PRENATALES', 'TIPO PARTO', 'FACTOR RH',
       'PERTENENCIA ÉTNICA', 'GRUPO INDIGENA', 'TIPO DOCUMENTO MADRE',
       'EDAD MADRE', 'ESTADO CONYUGAL MADRE', 'NIVEL EDUCATIVO MADRE',
       'ULTIMO AÑO APROBADO MADRE', 'PAÍS RESIDENCIA',
       'DEPARTAMENTO RESIDENCIA', 'MUNICIPIO RESIDENCIA', 'AREA RESIDENCIA',
       'LOCALIDAD', 'NÚMERO HIJOS NACIDOS VIVOS', 'NÚMERO EMBARAZOS',
       'RÉGIMEN SEGURIDAD', 'TIPO ADMINISTRADORA', 'NOMBRE ADMINISTRADORA',
       'ED', 'NIVEL EDUCATIVO PADRE', 'ULTIMO AÑO APROBADO PADRE', 'MES',
       'NOMBRE COMUNA', 'CURSO DE VIDA MADRE', 'AÑO REPORTE'],
      dtype='object')

In [26]:
# Tipos de las columnas del dataset de los ISB
isb_DF.dtypes

identificador                  float64
DEPARTAMENTO                    object
MUNICIPIO                       object
AREA NACIMIENTO                 object
SITIO NACIMIENTO                object
CÓDIGO INSTITUCIÓN               int64
NOMBRE INSTITUCIÓN              object
SEXO                            object
PESO (Gramos)                    int64
TALLA (Centímetros)              int64
FECHA NACIMIENTO                object
PARTO ATENDIDO POR              object
TIEMPO DE GESTACIÓN            float64
NÚMERO CONSULTAS PRENATALES      int64
TIPO PARTO                      object
FACTOR RH                       object
PERTENENCIA ÉTNICA              object
GRUPO INDIGENA                  object
TIPO DOCUMENTO MADRE            object
EDAD MADRE                       int64
ESTADO CONYUGAL MADRE           object
NIVEL EDUCATIVO MADRE           object
ULTIMO AÑO APROBADO MADRE      float64
PAÍS RESIDENCIA                 object
DEPARTAMENTO RESIDENCIA         object
MUNICIPIO RESIDENCIA     

In [27]:
# Tamaño de los datos del HGM
medellin_DF.shape

(4559, 24)

In [28]:
# Nombres de todas las columnas del dataset del HGM
medellin_DF.columns

Index(['Ficha de información publicación datos abiertos', 'SEXO', 'Peso',
       'Talla ', 'Parto atendido', 'Tiempo gestación ',
       'Número consultas prenatales', 'Tipo parto', 'Mutiplicidad ', 'Apgar1',
       'Apgar2', 'Grupo sanguíneo ', 'Factor RH', 'Pertenencia étnica ',
       'Estado conyugal madre', 'Nivel educativo ', 'País de residencia ',
       'Municipio ', 'Área residencia ', 'Localidad',
       'Número hijos nacidos vivos ', 'Régimen seguridad ',
       'Nombre administradora ', 'Nivel educativo padre'],
      dtype='object')

In [29]:
# Tipos de las columnas del dataset del HGM
medellin_DF.dtypes

Ficha de información publicación datos abiertos      int64
SEXO                                                object
Peso                                                 int64
Talla                                                int64
Parto atendido                                      object
Tiempo gestación                                   float64
Número consultas prenatales                          int64
Tipo parto                                          object
Mutiplicidad                                        object
Apgar1                                             float64
Apgar2                                             float64
Grupo sanguíneo                                     object
Factor RH                                           object
Pertenencia étnica                                  object
Estado conyugal madre                               object
Nivel educativo                                     object
País de residencia                                  obje

Para responder nuestras preguntas, tenemos que tener claro cuales son nuestras variables objetivo. Si bien los datasets tienen columnas distintas, muchas columnas representan la misma información. Estas variables son aquellas relacionadas con el nivel educacional de los padres del recien nacido, junto con aquellas variables que dan la información acerca del tiempo de gestación y quíen atendió el parto.

A continuación se hacemos multiples estudios sobre ambos dataframes.

### Datos nulos e incompletos


In [34]:
# Buscamos la cantidad de datos nulos en el dataset de los ISB
isb_DF.isnull().sum()

identificador                    237
DEPARTAMENTO                       0
MUNICIPIO                          0
AREA NACIMIENTO                    0
SITIO NACIMIENTO                   0
CÓDIGO INSTITUCIÓN                 0
NOMBRE INSTITUCIÓN                 0
SEXO                               0
PESO (Gramos)                      0
TALLA (Centímetros)                0
FECHA NACIMIENTO                 216
PARTO ATENDIDO POR                 0
TIEMPO DE GESTACIÓN               11
NÚMERO CONSULTAS PRENATALES        0
TIPO PARTO                         0
FACTOR RH                       8992
PERTENENCIA ÉTNICA              4385
GRUPO INDIGENA                 89997
TIPO DOCUMENTO MADRE             907
EDAD MADRE                         0
ESTADO CONYUGAL MADRE              0
NIVEL EDUCATIVO MADRE              0
ULTIMO AÑO APROBADO MADRE       3467
PAÍS RESIDENCIA                    1
DEPARTAMENTO RESIDENCIA         2378
MUNICIPIO RESIDENCIA               0
AREA RESIDENCIA                   96
L

In [35]:
# Buscamos la cantidad de datos nulos en el dataset del HGM
medellin_DF.isnull().sum()

Ficha de información publicación datos abiertos       0
SEXO                                                  0
Peso                                                  0
Talla                                                 0
Parto atendido                                        0
Tiempo gestación                                      1
Número consultas prenatales                           0
Tipo parto                                            0
Mutiplicidad                                          0
Apgar1                                               15
Apgar2                                               15
Grupo sanguíneo                                      16
Factor RH                                            16
Pertenencia étnica                                    0
Estado conyugal madre                                 0
Nivel educativo                                       0
País de residencia                                    0
Municipio                                       

Podemos ident

### Dispersión de los datos
Queremos estudiar nuestras 

### Tendencias Centrales y distribuciones

### Correlación de Variables

In [None]:
# 

---
# 3.B Problema

---
# 3.C Implementación de técnicas ML y Resultados

# 4 Evaluación

Data Sources:
