# Introducción

Los datos sobre nacimiento provienen de las estadísticas realizadas por el INEC, en el cual se refleja la frecuencia e intensidad en que ocurren los nacimientos en el país durante el año del 2018. Por otra parte, es posible conocer los perfiles de los niños, así como los datos propios del nacimiento. 

Las variables que son proporcionadas nos permiten, crear indicadores como lo son la tasa global de fecundidad, la tasa bruta de natalidad, así como realizar las estimaciones de población. 

Por tanto, se buscó predecir cual es el peso y la altura con la cual nace un bebe, basándose en las características que se arrojaron en las estadísticas. 

Cabe señalar, que los datos ingresado en el 2017, son los que se presentan en nuestro grupo de datos llamado “Nacimientos 2018”, pues busca tener los datos año con año, ya que para el 2017 existió un rezago con las estadísticas y se había utilizado los datos de los últimos 10 años.

# Objetivo

## A. Objetivo General
1. Predecir cual es el peso y la altura con la cual nace un bebe.

## B. Objetivo Especifico
1. Eliminar las variables inecesarias la tabla de datos.
2. Explorar los datos.
3. Establecer dos grupos datos los cuales uno es de entrenamiento y otro para pruebas.
4. Determinar los valeres de peso y altura por medio de un algoritmo de predicción multi-etiqueta

# Descripción de los datos 

El **titulo** que recibe esta tabla de datos es, "Costa Rica: Total Nacimientos 2017 - 2018, Nacimientos ocurridos e inscritos en el periodo 2017 - 2018", sin embargo se establece un **subtitulo** denominado, "Nacimientos ocurridos e inscritos en el periodo 2018"

Estas tablas de datos del INEC, en Costa Rica esta a cargo de la Unidad de Estadísticas Demográficas (UED) que pertenece al Área de Censos y Encuestas del Instituto Nacional de Estadística y Censos.

Dado que lo documentado es una estadística basada en registros administrativos es importante generar una estrategia de cuación para asi tener mejores indicadores de calidad, en los siguientes dos parrafos se mencionan algunas actividades que se llevan:

- Se realizan cruces de variables importantes que identifiquen alguna relación que, aunque esté dentro de los rangos permitidos, el dato ya cruzado con otra variable pueda arrojar inconsistencias.

- Durante el proceso de digitación el SISEVI se enlaza con la información del Tribunal Supremo de Elecciones por medio del número de cédula de la madre, y en su caso del padre, por lo que las variables: nombre de la madre, o del padre, edad, sexo y estado civil se cargan automáticamen

Estos datos son recuperados en el mes de agosto del 2020, los cuales se encuentran en la pagina del [INEC](https://www.inec.go.cr/) bajo el nombre [Total Nacimientos 2017 - 2018](http://sistemas.inec.cr/pad5/index.php/catalog/254/get-microdata) en un formato **.sav** los cuales forman parte del Programa Acelerado de Datos INEC / Costa Rica., bajo los derechos reservados (El Instituto Nacional de Estadística y Censos (INEC) es el propietario de los derechos de la información metodológica y de las bases de datos aquí documentadas). La fecha de producción es **2020-05-27**


# Instalamos las Librerias

In [None]:
#pip install sklearn
#pip install pyreadstat

# Importar librerias

In [None]:
import pandas as pd
import pyreadstat
import sklearn as skl 



In [2]:
from matplotlib import pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.datasets import make_regression
from sklearn.multioutput import MultiOutputRegressor
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.metrics import confusion_matrix

# Insertar datos


In [3]:
df = pd.read_spss("nacimientos.sav")

Visualizamos todos los datos

In [4]:
df.dtypes

Anotrab       category
Mestrab       category
Nacio         category
Sexo          category
Peso          category
pesorec       category
Estatura      category
estrec        category
Provocu       category
Pcocu         category
Pcdocu        category
Instnac       category
Dianac        category
Mesnac        category
Anonac        category
Leyp          category
Edadpad       category
edpadrec      category
Paispad       category
Nacpad        category
grocupad      category
Nivedpad      category
Hijtepad      category
Escivpad      category
Edadmad       category
edmadrec      category
Paismad       category
Nacmad        category
grocumad      category
Nivedmad      category
Escivmad      category
Provincia     category
Pc            category
Pcd           category
IU            category
Reginec       category
Regsalud      category
Paratend      category
Mesesemb      category
Hijosten      category
Abortos       category
Totconsul     category
Medcons       category
Declara    

## Crear DataFrame

Primero se represento la variable "X" como la variable que contiene todas las variables predictoras, luego usamos la variable "y" para definir nuestras dos variables "target"

In [5]:
df = pd.DataFrame(df)
X = df[['Nacio', 'Sexo','Leyp', 'grocupad', 'edmadrec', 'grocumad', 'IU', 'Mesesemb', 'Hijosten', 'Abortos', 'Medcons']]
y = df[['pesorec', 'estrec']]

In [6]:
X.head()

Unnamed: 0,Nacio,Sexo,Leyp,grocupad,edmadrec,grocumad,IU,Mesesemb,Hijosten,Abortos,Medcons
0,Solo,Hombre,"No se acoge a ley, pero asiente el reconocimiento",Ignorada,20 - 24,Técnicos y profesionales de nivel medio,Predominantemente urbano,4,2.0,0,3
1,Solo,Hombre,"No se acoge a ley, pero asiente el reconocimiento",Ignorada,30 - 34,Administradora del hogar,Urbano,4,7.0,1,0
2,Solo,Mujer,Madre casada o padre presente,Ignorada,20 - 24,Administradora del hogar,Predominantemente urbano,5,2.0,0,2
3,Solo,Mujer,Madre casada o padre presente,"Oficiales, operarios y artesanos de artes mecá...",30 - 34,Administradora del hogar,Urbano,5,2.0,0,4
4,Solo,Mujer,Madre casada o padre presente,Profesionales científicos e intelectuales,25 - 29,Administradora del hogar,Urbano,5,1.0,0,5


## Remplazar valores
### Valores predictores "X"

In [46]:
X.Sexo.unique
X.Sexo = X['Sexo'].replace(
    ['Mujer', 'mujer'], '1').replace(
    ['Hombre', 'hombre'], '0')

In [45]:
X.Nacio.unique
X.Nacio = X['Nacio'].replace(
    ['Solo'], "1").replace(
    ['Gemelo'], '2').replace(
    ['Trillizo'],"3")

In [40]:
X.Leyp.unique
X.Leyp = X['Leyp'].replace(
    ['Madre casada o padre presente'], "0").replace(
    ['Madre se acoge a Ley de Paternidad Respondable'], '1').replace(
    ['No se acoge a ley, pero asiente el reconocimiento'],"2").replace(
    ['Padre no declarado'],"3")

<bound method Series.unique of 0        2
1        2
2        0
3        0
4        0
        ..
68444    0
68445    0
68446    0
68447    0
68448    0
Name: Leyp, Length: 68449, dtype: category
Categories (4, object): ['0', '1', '2', '3']>

In [10]:
X.grocupad.unique
X.grocupad = X['grocupad'].replace(
    ['Ignorada'], "99").replace(
    ['Mal especificadas'], '1').replace(
    ['Directores y gerentes'],"2").replace(
    ['Profesionales científicos e intelectuales'],"3").replace(
    ['Técnicos y profesionales de nivel medio'],"4").replace(
    ['Personal de apoyo administrativo'],"5").replace(
    ['Trabajadores de los servicios y vendedores de comercios y mercados'],"6").replace(
    ['Agricultores y trabajadores calificados agropecuarios, forestales y pesqueros'],"7").replace(
    ['Oficiales, operarios y artesanos de artes mecánicas y de otros oficios'],"8").replace(
    ['Operadores de instalaciones y máquinas y ensambladores'],"9").replace(
    ['Ocupaciones elementales'],"10").replace(
    ['Estudiante'],"11").replace(
    ['Pensionado'],"12").replace(
    ['Persona con discapacidad'],"13").replace(
    ['Padre no declarado'],"14").replace(
    ['Desempleado'],"15").replace(
    ['Privado de libertad'],"16")


In [11]:
X.edmadrec.unique
X.edmadrec = X['edmadrec'].replace(
    ['Ignorada'], "99").replace(
    ['Menos de 15'], '1').replace(
    ['15 - 19'],"2").replace(
    ['20 - 24'],"3").replace(
    ['25 - 29'],"4").replace(
    ['30 - 34'],"5").replace(
    ['35 - 39'],"6").replace(
    ['40 - 44'],"7").replace(
    ['45 y más'],"8")

In [12]:
X.grocumad.unique
X.grocumad = X['grocumad'].replace(
    ['Ignorada'], "99").replace(
    ['Mal especificadas'], '1').replace(
    ['Directoras y gerentes'],"2").replace(
    ['Profesionales científicas e intelectuales'],"3").replace(
    ['Técnicos y profesionales de nivel medio'],"4").replace(
    ['Personal de apoyo administrativo'],"5").replace(
    ['Trabajadoras de los servicios y vendedoras de comercios y mercados'],"6").replace(
    ['Agricultoras y trabajadoras calificadas agropecuarias, forestales y pesqueras'],"7").replace(
    ['Oficiales, operarias y artesanas de artes mecánicas y de otros oficios'],"8").replace(
    ['Operadoras de instalaciones y máquinas y ensambladoras'],"9").replace(
    ['Ocupaciones elementales'],"10").replace(
    ['Estudiante'],"11").replace(
    ['Administradora del hogar'],"12").replace(
    ['Pensionada'],"13").replace(
    ['Desempleada'],"14").replace(
    ['Privada de libertad'],"15")


In [13]:
X.IU.unique
X.IU = X['IU'].replace(
    ['Predominantemente rural'], "0").replace(
    ['Predominantemente urbano'], '2').replace(
    ['Rural'],"1").replace(
    ['Urbano'],"3")

In [14]:
X.Abortos.unique
X.Abortos = X['IU'].replace(
    ['Ignorado'], "99")

In [15]:
X.Medcons.unique
X.Medcons = X['Medcons'].replace(
    ['Ignorado'], "99")

### Valor destino "y"

In [16]:
y.pesorec.unique
y.pesorec = y['pesorec'].replace(
    ['Ignorado'], "99").replace(
    ['500 - 999'],"0").replace(
    ['Menos de 500'], '1').replace(
    ['1000 - 1499'],"2").replace(
    ['1500 - 1999'],"3").replace(
    ['2000 - 2499'],"4").replace(
    ['2500 - 2999'],"5").replace(
    ['3000 - 3499'],"6").replace(
    ['3500 y más'],"7")

In [22]:
y.estrec.unique
y.estrec = y['estrec'].replace(
    ['Ignorada'], "99").replace(
    ['15 - 24'],"0").replace(
    ['25 - 34'], '1').replace(
    ['35 - 44'],"2").replace(
    ['45 - 54'],"3").replace(
    ['55 y más'],"4")


Unnamed: 0,Nacio,Sexo,Leyp,grocupad,edmadrec,grocumad,IU,Mesesemb,Hijosten,Abortos,Medcons
293,2,0,0,8,4,12,0,7,3.0,0,99
63025,1,0,0,5,5,4,3,9,1.0,3,9
56068,1,1,3,14,2,12,2,9,1.0,2,2
36956,1,0,2,99,4,3,3,9,1.0,3,8
65149,1,0,0,8,5,12,0,9,2.0,0,8
...,...,...,...,...,...,...,...,...,...,...,...
37194,1,1,0,10,4,12,0,9,1.0,0,9
6265,1,1,2,99,2,11,0,9,2.0,0,8
54886,1,1,3,14,3,12,3,9,2.0,3,99
860,1,0,2,99,3,12,2,6,1.0,2,6


# Preparación de los datos
Se van a crear dos variables  a partir de una divición de los datos entre entrenamiento (**train**) y prueba (**test**) bajo el principio del 80/20

In [52]:
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size = 0.2, random_state=42)
#print(X_train.describe())

## Exploración de los datos

In [25]:
X_train.dtypes

Nacio       category
Sexo        category
Leyp        category
grocupad    category
edmadrec    category
grocumad    category
IU          category
Mesesemb    category
Hijosten    category
Abortos     category
Medcons     category
dtype: object

In [None]:
y_train.dtypes

In [26]:
X_train.head()

Unnamed: 0,Nacio,Sexo,Leyp,grocupad,edmadrec,grocumad,IU,Mesesemb,Hijosten,Abortos,Medcons
293,2,0,0,8,4,12,0,7,3.0,0,99
63025,1,0,0,5,5,4,3,9,1.0,3,9
56068,1,1,3,14,2,12,2,9,1.0,2,2
36956,1,0,2,99,4,3,3,9,1.0,3,8
65149,1,0,0,8,5,12,0,9,2.0,0,8


In [None]:
y_train.head()

## Perfilado de los datos de entrenamiento


In [None]:
df.describe()

In [None]:
df.tail()

# Regresión Multi Salida

In [55]:
MultiOutputRegressor(
    GradientBoostingRegressor(random_state=0)).fit(X_train, y_train).score(X_train, y_train)

ValueError: could not convert string to float: 'Ignorado'