## **Bienvenido a la segunda práctica de Jupyter Notebook**

<table align="left">
  <td>
    <a target="_blank" href="https://colab.research.google.com/github/jpcano1/MINE-4101-tareas/blob/master/lab_2.ipynb"><img src="https://www.tensorflow.org/images/colab_logo_32px.png"/>Run in Google Colab</a>
  </td>
</table>

## **Preguntas**
1. Descargue las bases de datos B.Condiciones de la vivienda y H.Fuerza de trabajo (uso del tiempo e ingresos) de la siguiente [página](http://microdatos.dane.gov.co/index.php/catalog/214/get_microdata).
En esta misma página, en la pestaña “Descripción de variables” podrá encontrar una descripción detallada de las variables que contiene las dos bases de datos.
2. Importe las dos bases de datos a Jupyter Notebook.
3. Para cada uno de las bases de datos realice:
    -  Realice un análisis del tipo de variables que contiene las bases de datos (si son cuantitativas o cualitativas), para esto, utilice la función `df.dtypes` (ver práctica 27 de agosto), si el tipo de un variable no es consistente, realizar la respectiva corrección.
    - Realice un análisis de datos duplicados y tome una decisión con relación a estos (eliminarlos o no), justifique su respuesta.
    - Determine el porcentaje de datos faltantes por cada una de las variables y tome una acción con relación a estos (eliminar las variables que tienen datos missing, eliminar los registros con datos missing, etc). Justifique su respuesta.
    - Para cada una de las bases de datos, seleccione un conjunto de variables que usted considere de interés, realice un análisis sobre los posibles valores que pueden tener esta variable, para esto utilice la función `df.variable.unique()`, donde df es el nombre del dataframe que contiene una base de datos (ver práctica 3 de septiembre). Si en una variable contiene valores que no son lógicos  ¿qué acción realizaría sobre esta base de datos? Justifique su respuesta.

4. De la misma página del punto 1, descargue un tercer conjunto de datos (cualquiera que sea interesante para usted) y replique los puntos 3.1, 3.2, y 3.3.
5. Con las tres bases de datos obtenidas de los puntos 3 y 4, realice un tipo de JOIN (left, right, inner, etc), y a partir de esta base consolidada, realice un análisis muy general de las variables utilizando la función pandas profiling.
6. ¿Qué tipo de restricciones legales pueden consideran pueden tener al momento de trabajar sobre estos datos?
7. Plantear tres hipótesis de relevancia para el negocio a la luz del negocio.

## **1. Descarga de las bases de datos**

In [1]:
!wget -q "https://github.com/jpcano1/MINE-4101-tareas/blob/master/datasets/CAPITULO%20B.%20CONDICIONES%20DE%20LA%20VIVIENDA.txt?raw=true" -O "condiciones_vivienda.txt"
!wget -q "https://github.com/jpcano1/MINE-4101-tareas/blob/master/datasets/CAPITULO%20H.%20FUERZA%20DE%20TRABAJO%20-%20Uso%20del%20tiempo%20e%20ingresos.txt?raw=true" -O "fuerza_trabajo.txt"
!wget -q "https://github.com/jpcano1/MINE-4101-tareas/blob/master/datasets/CAPITULO%20D.%20COMPOSICION%20DEL%20HOGAR.txt?raw=true" -O "composicion_hogar.txt"

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
plt.style.use("ggplot")
import seaborn as sns

  import pandas.util.testing as tm


## **2. Importación de las bases de datos**

In [3]:
data_condiciones = pd.read_table("condiciones_vivienda.txt")
data_fuerza = pd.read_table("fuerza_trabajo.txt")

In [4]:
columns_condiciones = {
    "FEX_C": "factores_expansion",
    "P424": "tipo_vivienda",
    "P4030S1": "energia_electrica",
    "P4030S1A1": "estrato",
    "P4030S5": "acueducto",
    "P4030S3": "alcantarillado",
    "P4030S4": "recoleccion_basuras",
    "P4030S4A1": "dias_x_semana",
    "P4030S2": "gas_natural_dom",
    "P4020": "material_pisos",
    "DIA_REFERENCIA_2": "dia_referencia"
}

In [5]:
data_condiciones.rename(columns=columns_condiciones, inplace=True)
data_condiciones.rename(columns=lambda x: x.lower(), inplace=True)

In [6]:
columns_fuerza_list = ["oficio_princ", "rama_princ", 
                       "lugar_trabajo", "contrato", "misma_empresa", 
                       "horas_semana", "trabajo_dia", "horas_trabajo", 
                       "minutos_trabajo",  "total_ida", "horas_ida", 
                       "minutos_ida",  "motivo_no_trabajo", "este_trabajo", 
                       "ganancias_mes_pasado", "ganancia_neta_mes_pasado", 
                       "numero_meses", "cantidad_tiempo", "numero_personas",
                       "empleo_secundario", "horas_semana_empleo_secundario", 
                       "trabajo_secundario_dia", "horas_trabajo_secundario", 
                       "minutos_trabajo_secundario", "ida_secundario_horas", 
                       "ida_secundario_minutos",  "ganancia_secundaria_mes_pasado", 
                       "ganancia_jubilacion", "valor_jubilacion", "ganancia_arriendo",  
                       "valor_arriendo",  "ganancia_ayudas", "ayuda_provino_de", 
                       "valor_ayudas"]

In [7]:
index = 0
columns_fuerza = {}
for col in data_fuerza.columns[3:]:
    columns_fuerza[col] = columns_fuerza_list[index]
    index += 1

In [8]:
data_fuerza.rename(columns=columns_fuerza, inplace=True)
data_fuerza.rename(columns=lambda x: x.lower(), inplace=True)

### **3. Análisis de datos**
- Tercer Punto

## **3.1. Análisis del tipo de variable**
- Análisis para condiciones de vivienda:
    - Como se puede observar, los tipos de datos son muy grandes, se pueden reducir en memoria

In [10]:
data_condiciones.dtypes

directorio               int64
factores_expansion     float64
region                   int64
dia_referencia           int64
clase                    int64
tipo_vivienda            int64
energia_electrica        int64
estrato                float64
acueducto                int64
alcantarillado           int64
recoleccion_basuras      int64
dias_x_semana          float64
gas_natural_dom          int64
material_pisos           int64
dtype: object

- Análisis para fuerza de trabajo

In [11]:
data_fuerza.dtypes

directorio                          int64
secuencia_p                         int64
orden                               int64
oficio_princ                      float64
rama_princ                        float64
lugar_trabajo                     float64
contrato                          float64
misma_empresa                     float64
horas_semana                      float64
trabajo_dia                       float64
horas_trabajo                     float64
minutos_trabajo                   float64
total_ida                         float64
horas_ida                         float64
minutos_ida                       float64
motivo_no_trabajo                 float64
este_trabajo                      float64
ganancias_mes_pasado              float64
ganancia_neta_mes_pasado          float64
numero_meses                      float64
cantidad_tiempo                   float64
numero_personas                   float64
empleo_secundario                 float64
horas_semana_empleo_secundario    

### **3.2 Análisis de duplicados**
- Dado que la mayoría de las respuestas de la encuesta realizada son de opción multiple, lo más seguro es que esté llena de duplicados. Por lo que, lo mejor sería no borrarlos, porque cada respuesta, aunque duplicada, nos da una visión de la tendencia de respuestas.

### **3.3 Análisis de datos faltantes**

In [42]:
def null_percentage(df):
    null_percentages = dict()
    for col in df.columns:
        percentage = df[col].isna().sum() * 100
        percentage /= df.shape[0]
        null_percentages[col] = f"{percentage}% of null values"
    return null_percentages

In [43]:
condiciones_null = null_percentage(data_condiciones)

In [44]:
condiciones_null

{'acueducto': '0.0% of null values',
 'alcantarillado': '0.0% of null values',
 'clase': '0.0% of null values',
 'dia_referencia': '0.0% of null values',
 'dias_x_semana': '17.18576327302826% of null values',
 'directorio': '0.0% of null values',
 'energia_electrica': '0.0% of null values',
 'estrato': '2.062196996570888% of null values',
 'factores_expansion': '0.0% of null values',
 'gas_natural_dom': '0.0% of null values',
 'material_pisos': '0.0% of null values',
 'recoleccion_basuras': '0.0% of null values',
 'region': '0.0% of null values',
 'tipo_vivienda': '0.0% of null values'}

In [45]:
fuerza_null = null_percentage(data_fuerza)

In [None]:
fuerza_null

{'ayuda_provino_de': '88.29348989587726% of null values',
 'cantidad_tiempo': '48.796587628531576% of null values',
 'contrato': '48.796587628531576% of null values',
 'directorio': '0.0% of null values',
 'empleo_secundario': '48.796587628531576% of null values',
 'este_trabajo': '48.796587628531576% of null values',
 'ganancia_arriendo': '0.0% of null values',
 'ganancia_ayudas': '0.0% of null values',
 'ganancia_jubilacion': '0.0% of null values',
 'ganancia_neta_mes_pasado': '78.08556878263973% of null values',
 'ganancia_secundaria_mes_pasado': '97.5493853190178% of null values',
 'ganancias_mes_pasado': '72.18041454474682% of null values',
 'horas_ida': '61.526484803269646% of null values',
 'horas_semana': '48.796587628531576% of null values',
 'horas_semana_empleo_secundario': '97.5493853190178% of null values',
 'horas_trabajo': '61.526484803269646% of null values',
 'horas_trabajo_secundario': '98.82172629666871% of null values',
 'ida_secundario_horas': '98.82172629666871% o