# Conociendo los datos
---
## Dataset
---
### Muestra de domicilios Colombia - 2018

Las investigaciones por muestras de domicilios realizadas anualmente, buscan encontrar característcias generales de la población, de educación, trabajo, rendimiento y otras, de acuerdo con las necesidades de información del país, tales como las características de migración, fertilidad, casamientos, salud, nutrición, entre otros temas. Estas muestras al pasar de los años consistuyen una herramienta importante para la formulación, validación y evaluación de políticas dirigidas al desarrollo socioeconómico y la mejora de las condiciones de vida en Colombia.

### Datos
Fueron creados de manera didáctica para el curso.

### Variables utilizadas

> ### Ingreso
> ***

Ingresos mensuales (en miles de pesos) del trabajo principal para personas de 10 años o más.

> ### Edad
> ***

Edad del entrevistado en la fecha de referencia en años.

> ### Altura
> ***

Altura del entrevistado em metros.

> ### Ciudad
> ***

Código de referência a 27 ciudades analizadas.


> ### Sexo
> ***

|Código|Descripción|
|---|---|
|0|Masculino|
|1|Femenino|

> ### Años de Estudio
> ***

|Código|Descripción|
|---|---|
|1|Sin estudios y menos de 1 año|
|2|1 año|
|3|2 años|
|4|3 años|
|5|4 años|
|6|5 años|
|7|6 años|
|8|7 años|
|9|8 años|
|10|9 años|
|11|10 años|
|12|11 años|
|13|12 años|
|14|13 años|
|15|14 años|
|16|15 años o más|
|17|No se sabe|
||No aplica|

> ### Color
> ***

|Código|Descripción|
|---|---|
|0|Indio|
|2|Blanco|
|4|Negro|
|6|Amarillo|
|8|Moreno|
|9|Sin declarar|

> ### Tratamiento a los datos
Cuando se está analizando un set de datos, es importante documentar qué es lo que se ha hecho, como lo hecho a continuación:
***

> Algunos de los tratamientos de datos más frecuentes son:
> 1. Eliminar las observaciones (líneas) con entradas de datos inválidos;
> 2. Eliminar observaciones donde hay datos perdidos (missing data);
> 3. Filtros própios de la investigación, por ejemplo: considerar solo las encuestas realizadas a la cabeza de familia (responsable por el domicilio).

## Importación y lectura del Dataset

In [1]:
import pandas as pd

In [2]:
datos = pd.read_csv('data/datos.csv')

In [3]:
datos.sample()

Unnamed: 0,Ciudad,Sexo,Edad,Color,Años de Estudio,Ingreso,Altura
62981,43,0,43,2,8,2000,1.827602


# Tipos de dato

## Cualitativos

### Ordinales

Pueden ser jerarquizadas y ordenadas

In [4]:
# La variable del dataset `Años de estudio` podría entrar en esta categoría
sorted(datos['Años de Estudio'].unique())

[np.int64(1),
 np.int64(2),
 np.int64(3),
 np.int64(4),
 np.int64(5),
 np.int64(6),
 np.int64(7),
 np.int64(8),
 np.int64(9),
 np.int64(10),
 np.int64(11),
 np.int64(12),
 np.int64(13),
 np.int64(14),
 np.int64(15),
 np.int64(16),
 np.int64(17)]

### Nominales

No pueden ser ordenadas ni jerarquizadas.
Ejemplos del Dataset:
- ciudad
- sexo
- color

In [5]:
sorted(datos['Sexo'].unique())

[np.int64(0), np.int64(1)]

In [6]:
sorted(datos["Color"].unique())

[np.int64(0), np.int64(2), np.int64(4), np.int64(6), np.int64(8)]

In [7]:
sorted(datos["Ciudad"].unique())

[np.int64(11),
 np.int64(12),
 np.int64(13),
 np.int64(14),
 np.int64(15),
 np.int64(16),
 np.int64(17),
 np.int64(21),
 np.int64(22),
 np.int64(23),
 np.int64(24),
 np.int64(25),
 np.int64(26),
 np.int64(27),
 np.int64(28),
 np.int64(29),
 np.int64(31),
 np.int64(32),
 np.int64(33),
 np.int64(35),
 np.int64(41),
 np.int64(42),
 np.int64(43),
 np.int64(50),
 np.int64(51),
 np.int64(52),
 np.int64(53)]

## Cuantitativas

### Discretas

Tiene un valor finito. Por ejemplo: la edad tiene un final (el momento de la muerte)
- Representación de años completos (números enteros)

In [8]:
datos.Edad.max()

99

In [9]:
datos.Edad.min()

13

### Continuas
Por ejemplo la `altura`

In [10]:
datos.Altura.min()

1.339244614

In [11]:
datos.Altura.max()

2.028496765