# Introducción

Los datos sobre nacimiento provienen de las estadísticas realizadas por el INEC, en el cual se refleja la frecuencia e intensidad en que ocurren los nacimientos en el país durante el año del 2018. Por otra parte, es posible conocer los perfiles de los niños, así como los datos propios del nacimiento. 

Las variables que son proporcionadas nos permiten, crear indicadores como lo son la tasa global de fecundidad, la tasa bruta de natalidad, así como realizar las estimaciones de población. 

Por tanto, se buscó predecir cual es el peso y la altura con la cual nace un bebe, basándose en las características que se arrojaron en las estadísticas. 

Cabe señalar, que los datos ingresado en el 2017, son los que se presentan en nuestro grupo de datos llamado “Nacimientos 2018”, pues busca tener los datos año con año, ya que para el 2017 existió un rezago con las estadísticas y se había utilizado los datos de los últimos 10 años.

# Objetivo

## A. Objetivo General
1. Predecir cual es el peso y la altura con la cual nace un bebe.

## B. Objetivo Especifico
1. Eliminar las variables inecesarias la tabla de datos.
2. Explorar los datos.
3. Establecer dos grupos datos los cuales uno es de entrenamiento y otro para pruebas.
4. Determinar los valeres de peso y altura por medio de un algoritmo de predicción multi-etiqueta

# Descripción de los datos 

El **titulo** que recibe esta tabla de datos es, "Costa Rica: Total Nacimientos 2017 - 2018, Nacimientos ocurridos e inscritos en el periodo 2017 - 2018", sin embargo se establece un **subtitulo** denominado, "Nacimientos ocurridos e inscritos en el periodo 2018"

Estas tablas de datos del INEC, en Costa Rica esta a cargo de la Unidad de Estadísticas Demográficas (UED) que pertenece al Área de Censos y Encuestas del Instituto Nacional de Estadística y Censos.

Dado que lo documentado es una estadística basada en registros administrativos es importante generar una estrategia de cuación para asi tener mejores indicadores de calidad, en los siguientes dos parrafos se mencionan algunas actividades que se llevan:

- Se realizan cruces de variables importantes que identifiquen alguna relación que, aunque esté dentro de los rangos permitidos, el dato ya cruzado con otra variable pueda arrojar inconsistencias.

- Durante el proceso de digitación el SISEVI se enlaza con la información del Tribunal Supremo de Elecciones por medio del número de cédula de la madre, y en su caso del padre, por lo que las variables: nombre de la madre, o del padre, edad, sexo y estado civil se cargan automáticamen

Estos datos son recuperados en el mes de agosto del 2020, los cuales se encuentran en la pagina del [INEC](https://www.inec.go.cr/) bajo el nombre [Total Nacimientos 2017 - 2018](http://sistemas.inec.cr/pad5/index.php/catalog/254/get-microdata) en un formato **.sav** los cuales forman parte del Programa Acelerado de Datos INEC / Costa Rica., bajo los derechos reservados (El Instituto Nacional de Estadística y Censos (INEC) es el propietario de los derechos de la información metodológica y de las bases de datos aquí documentadas). La fecha de producción es **2020-05-27**


# Instalamos las Librerias

In [22]:
pip install sklearn
pip install pyreadstat

Collecting sklearn
  Downloading https://files.pythonhosted.org/packages/1e/7a/dbb3be0ce9bd5c8b7e3d87328e79063f8b263b2b1bfa4774cb1147bfcd3f/sklearn-0.0.tar.gz
Collecting scikit-learn (from sklearn)
[?25l  Downloading https://files.pythonhosted.org/packages/f4/cb/64623369f348e9bfb29ff898a57ac7c91ed4921f228e9726546614d63ccb/scikit_learn-0.23.2-cp37-cp37m-manylinux1_x86_64.whl (6.8MB)
[K     |████████████████████████████████| 6.8MB 220kB/s eta 0:00:01
[?25hCollecting threadpoolctl>=2.0.0 (from scikit-learn->sklearn)
  Downloading https://files.pythonhosted.org/packages/f7/12/ec3f2e203afa394a149911729357aa48affc59c20e2c1c8297a60f33f133/threadpoolctl-2.1.0-py3-none-any.whl
Collecting joblib>=0.11 (from scikit-learn->sklearn)
[?25l  Downloading https://files.pythonhosted.org/packages/51/dd/0e015051b4a27ec5a58b02ab774059f3289a94b0906f880a3f9507e74f38/joblib-0.16.0-py3-none-any.whl (300kB)
[K     |████████████████████████████████| 307kB 157kB/s eta 0:00:01
[?25hCollecting scipy>=0.19.1 (

# Importar librerias

In [2]:
import pandas as pd
import pyreadstat
import sklearn as skl 



In [3]:
from sklearn.metrics import confusion_matrix


# Insertar datos


In [4]:
df = pd.read_spss("nacimientos.sav")

## Descripción de los datos

In [5]:
df.dtypes

Anotrab       category
Mestrab       category
Nacio         category
Sexo          category
Peso          category
pesorec       category
Estatura      category
estrec        category
Provocu       category
Pcocu         category
Pcdocu        category
Instnac       category
Dianac        category
Mesnac        category
Anonac        category
Leyp          category
Edadpad       category
edpadrec      category
Paispad       category
Nacpad        category
grocupad      category
Nivedpad      category
Hijtepad      category
Escivpad      category
Edadmad       category
edmadrec      category
Paismad       category
Nacmad        category
grocumad      category
Nivedmad      category
Escivmad      category
Provincia     category
Pc            category
Pcd           category
IU            category
Reginec       category
Regsalud      category
Paratend      category
Mesesemb      category
Hijosten      category
Abortos       category
Totconsul     category
Medcons       category
Declara    

In [12]:
df.head()

Unnamed: 0,Anotrab,Mestrab,Nacio,Sexo,Peso,pesorec,Estatura,estrec,Provocu,Pcocu,...,Medcons,Declara,Provregis,Pcregis,Pcdregis,Diadeclara,Mesdeclara,Anodeclara,Filiacion,Inscen
0,2018.0,Marzo,Solo,Hombre,300,Menos de 500,25,25 - 34,Puntarenas,601 - Puntarenas,...,3,Madre,Puntarenas,601 - Puntarenas,60115- El Roble,13.0,Marzo,2018.0,Fuera de unión,En institución hospitalaria
1,2018.0,Julio,Solo,Hombre,350,Menos de 500,26,25 - 34,Alajuela,201 - Alajuela,...,0,Madre,Alajuela,201 - Alajuela,20101- Alajuela,18.0,Julio,2018.0,Fuera de unión,En institución hospitalaria
2,2018.0,Octubre,Solo,Mujer,360,Menos de 500,24,15 - 24,Puntarenas,601 - Puntarenas,...,2,Madre,Puntarenas,601 - Puntarenas,60115- El Roble,5.0,Octubre,2018.0,Dentro de unión,En institución hospitalaria
3,2018.0,Abril,Solo,Mujer,380,Menos de 500,27,25 - 34,San José,101 - San José,...,4,Padre,San José,101 - San José,10103- Hospital,25.0,Abril,2018.0,Dentro de unión,En institución hospitalaria
4,2018.0,Abril,Solo,Mujer,410,Menos de 500,25,25 - 34,San José,101 - San José,...,5,Padre,San José,101 - San José,10103- Hospital,6.0,Abril,2018.0,Dentro de unión,En institución hospitalaria


In [7]:
df.describe()

Unnamed: 0,Anotrab,Mestrab,Nacio,Sexo,Peso,pesorec,Estatura,estrec,Provocu,Pcocu,...,Medcons,Declara,Provregis,Pcregis,Pcdregis,Diadeclara,Mesdeclara,Anodeclara,Filiacion,Inscen
count,68449.0,68449,68449,68449,68449.0,68449,68449.0,68449,68449,68449,...,68449.0,68449,68449,68449,68449,68449.0,68449,68449.0,68449,68449
unique,1.0,12,3,2,1154.0,9,44.0,6,7,73,...,35.0,4,7,44,68,31.0,12,2.0,3,2
top,2018.0,Octubre,Solo,Hombre,3200.0,3000 - 3400,50.0,45 - 54,San José,101 - San José,...,9.0,Madre,San José,101 - San José,10103- Hospital,19.0,Octubre,2018.0,Fuera de unión,En institución hospitalaria
freq,68449.0,6332,67159,34854,902.0,28966,13060.0,64150,24309,17979,...,9913.0,52286,24369,18057,9582,2395.0,6344,68439.0,39891,67439


In [8]:
df.tail()

Unnamed: 0,Anotrab,Mestrab,Nacio,Sexo,Peso,pesorec,Estatura,estrec,Provocu,Pcocu,...,Medcons,Declara,Provregis,Pcregis,Pcdregis,Diadeclara,Mesdeclara,Anodeclara,Filiacion,Inscen
68444,2018.0,Diciembre,Solo,Hombre,Ignorado,Ignorado,Ignorado,Ignorada,Limón,704 - Talamanca,...,Ignorado,Padre,Limón,704 - Talamanca,70401- Bratsi,5.0,Diciembre,2018.0,Dentro de unión,En delegación o Registro Civil
68445,2018.0,Diciembre,Gemelo,Hombre,Ignorado,Ignorado,Ignorado,Ignorada,Limón,704 - Talamanca,...,Ignorado,Padre,Limón,704 - Talamanca,70401- Bratsi,3.0,Diciembre,2018.0,Dentro de unión,En delegación o Registro Civil
68446,2018.0,Diciembre,Gemelo,Hombre,Ignorado,Ignorado,Ignorado,Ignorada,Limón,704 - Talamanca,...,Ignorado,Padre,Limón,704 - Talamanca,70401- Bratsi,3.0,Diciembre,2018.0,Dentro de unión,En delegación o Registro Civil
68447,2018.0,Diciembre,Solo,Mujer,Ignorado,Ignorado,Ignorado,Ignorada,Limón,701 - Limón,...,5,Padre,Limón,701 - Limón,70101- Limón,18.0,Diciembre,2018.0,Dentro de unión,En delegación o Registro Civil
68448,2018.0,Diciembre,Solo,Hombre,Ignorado,Ignorado,Ignorado,Ignorada,Limón,701 - Limón,...,Ignorado,Padre,Limón,704 - Talamanca,70401- Bratsi,13.0,Diciembre,2018.0,Dentro de unión,En delegación o Registro Civil


In [9]:
df.sample(15)

Unnamed: 0,Anotrab,Mestrab,Nacio,Sexo,Peso,pesorec,Estatura,estrec,Provocu,Pcocu,...,Medcons,Declara,Provregis,Pcregis,Pcdregis,Diadeclara,Mesdeclara,Anodeclara,Filiacion,Inscen
36088,2018.0,Mayo,Solo,Hombre,3265,3000 - 3400,50,45 - 54,Cartago,301 - Cartago,...,9,Madre,Cartago,301 - Cartago,30101- Oriental,11.0,Mayo,2018.0,Dentro de unión,En institución hospitalaria
52286,2018.0,Enero,Solo,Mujer,3560,3500 y más,49,45 - 54,San José,101 - San José,...,11,Madre,San José,101 - San José,10107- Uruca,19.0,Enero,2018.0,Dentro de unión,En institución hospitalaria
16733,2018.0,Setiembre,Solo,Mujer,2920,2500 - 2999,48,45 - 54,Guanacaste,501 - Liberia,...,8,Madre,Guanacaste,501 - Liberia,50101- Liberia,7.0,Setiembre,2018.0,Fuera de unión,En institución hospitalaria
21231,2018.0,Setiembre,Solo,Hombre,3010,3000 - 3400,51,45 - 54,Alajuela,203 - Grecia,...,5,Madre,Alajuela,203 - Grecia,20301- Grecia,25.0,Setiembre,2018.0,Fuera de unión,En institución hospitalaria
57266,2018.0,Julio,Solo,Hombre,3680,3500 y más,50,45 - 54,Guanacaste,502 - Nicoya,...,13,Madre,Guanacaste,502 - Nicoya,50201- Nicoya,18.0,Julio,2018.0,Fuera de unión,En institución hospitalaria
48447,2018.0,Agosto,Solo,Hombre,3480,3000 - 3400,52,45 - 54,Alajuela,213 - Upala,...,7,Padre,Alajuela,213 - Upala,21301- Upala,15.0,Agosto,2018.0,Fuera de unión,En institución hospitalaria
16114,2018.0,Enero,Solo,Mujer,2910,2500 - 2999,51,45 - 54,Guanacaste,502 - Nicoya,...,7,Madre,Guanacaste,502 - Nicoya,50201- Nicoya,16.0,Enero,2018.0,Dentro de unión,En institución hospitalaria
67497,2018.0,Enero,Solo,Mujer,4415,3500 y más,50,45 - 54,Cartago,301 - Cartago,...,9,Madre,Cartago,301 - Cartago,30101- Oriental,23.0,Enero,2018.0,Fuera de unión,En institución hospitalaria
8556,2018.0,Agosto,Solo,Mujer,2685,2500 - 2999,47,45 - 54,San José,103 - Desamparados,...,6,Padre,San José,103 - Desamparados,10301- Desamparados,10.0,Agosto,2018.0,Dentro de unión,En institución hospitalaria
11286,2018.0,Mayo,Solo,Hombre,2785,2500 - 2999,50,45 - 54,Cartago,301 - Cartago,...,6,Madre,Cartago,301 - Cartago,30101- Oriental,24.0,Mayo,2018.0,Fuera de unión,En institución hospitalaria


In [10]:
df.isnull().sum()

Anotrab       0
Mestrab       0
Nacio         0
Sexo          0
Peso          0
pesorec       0
Estatura      0
estrec        0
Provocu       0
Pcocu         0
Pcdocu        0
Instnac       0
Dianac        0
Mesnac        0
Anonac        0
Leyp          0
Edadpad       0
edpadrec      0
Paispad       0
Nacpad        0
grocupad      0
Nivedpad      0
Hijtepad      0
Escivpad      0
Edadmad       0
edmadrec      0
Paismad       0
Nacmad        0
grocumad      0
Nivedmad      0
Escivmad      0
Provincia     0
Pc            0
Pcd           0
IU            0
Reginec       0
Regsalud      0
Paratend      0
Mesesemb      0
Hijosten      0
Abortos       0
Totconsul     0
Medcons       0
Declara       0
Provregis     0
Pcregis       0
Pcdregis      0
Diadeclara    0
Mesdeclara    0
Anodeclara    0
Filiacion     0
Inscen        0
dtype: int64