# Data Wrangling - ENDUTIH

En este notebook se hará una revisión de los datos del ENDUTIH (Encuesta Nacional sobre Disponibilidad y Uso de Tecnologías de la Información en los Hogares) del 2021, con el objetivo principal de un sondeo rápido, pues apenas sse trata de un análisis exploratorio y el objetivo principal de todo este proyecto es el de tener un acercamiento a estos datos. De igual forma el documento es un borrador por lo que se seguirá actualizando.

<div class="alert alert-block alert-info" style="margin-top: 20px">
    <h2>Tabla de Contenidos</h2>
    <ul style="list-style-type: square; font-size: 18px; margin-left: 0;">
        <li><a href="#0">ENDUTIH 2021</a></li>
        <ul style="list-style-type: disc; font-size: 16px; margin-left: 20px;">
            <li><a href="#1">TR_ENDUTIH_VIVIENDA_ANUAL</a></li>
            <ul style="list-style-type: decimal; font-size: 16px; margin-left: 20px;">
                <li><a href="#2">Extracción de datos</a></li>
                <li><a href="#3">Lectura de datos</a></li>
                <li><a href="#4">Datos duplicados</a></li>
                <li><a href="#5">Valores Faltantes</a></li>
                <li><a href="#6">Revisión de los tipos de datos</a></li>
            </ul>
        </ul>
        <ul style="list-style-type: disc; font-size: 16px; margin-left: 20px;">
            <li><a href="#7">TR_ENUDITH_RESIDENTE_ANUAL</a></li>
            <ul style="list-style-type: decimal; font-size: 16px; margin-left: 20px;">
                <li><a href="#8">Lectura de datos</a></li>
                <li><a href="#9">Datos duplicados</a></li>
                <li><a href="#10">Valores Faltantes</a></li>
                <li><a href="#11">Revisión de los tipos de datos</a></li>
            </ul>
        </ul>
        <ul style="list-style-type: disc; font-size: 16px; margin-left: 20px;">
            <li><a href="#12">TR_ENDUTIH_HOGAR_ANUAL </a></li>
            <ul style="list-style-type: decimal; font-size: 16px; margin-left: 20px;">
                <li><a href="#13">Lectura de datos</a></li>
                <li><a href="#14">Datos duplicados</a></li>
                <li><a href="#15">Valores Faltantes</a></li>
                <li><a href="#16">Revisión de los tipos de datos</a></li>
            </ul>
        </ul>
        <ul style="list-style-type: disc; font-size: 16px; margin-left: 20px;">
            <li><a href="#17">TR_ENDUTIH_USUARIO_ANUAL</a></li>
            <ul style="list-style-type: decimal; font-size: 16px; margin-left: 20px;">
                <li><a href="#18">Lectura de datos</a></li>
                <li><a href="#19">Datos duplicados</a></li>
                <li><a href="#20">Valores Faltantes</a></li>
                <li><a href="#21">Revisión de los tipos de datos</a></li>
            </ul>
        </ul>
        <ul style="list-style-type: disc; font-size: 16px; margin-left: 20px;">
            <li><a href="#22">TR_ENDUTIH_USUARIO_ANUAL2</a></li>
            <ul style="list-style-type: decimal; font-size: 16px; margin-left: 20px;">
                <li><a href="#23">Lectura de datos</a></li>
                <li><a href="#24">Datos duplicados</a></li>
                <li><a href="#25">Valores Faltantes</a></li>
                <li><a href="#26">Revisión de los tipos de datos</a></li>
            </ul>
        </ul>
            <li><a href="#27">Guardando los archivos</a></li>
        <ul style="list-style-type: disc; font-size: 16px; margin-left: 20px;">
            <li><a href="#28">Transformando a .CSV</a></li>
            <li><a href="#29">Transformando a SQL</a></li>
        </ul>
        </ul>
    </ul>
</div>


## ENDUTIH 2021 
<a id="0"></a>

Esta base de datos consta de 5 tablas diferentes relacionadas entre sí:

- **TR_ENDUTIH_VIVIENDA_ANUAL**  
Da a conocer los servicios básicos con los que cuenta la vivienda seleccionada con el fin de satisfacer las necesidades básicas de los integrantes del hogar, el número de residentes en la vivienda seleccionada y los hogares que hay en su interior.

- **TR_ENDUTIH_RESIDENTE_ANUAL**  
Identifica a quienes integran el hogar y conocen sus características sociodemográficas básicas, como parentesco, sexo, edad, escolaridad, condición de actividad, entre otras; algunas preguntas se aplican para cada persona y otras, solo para determinado grupo de edad.

- **TR_ENDUTIH_HOGAR_ANUAL**    
Identifica la condición de disponibilidad en el hogar de bienes y servicios de información y comunicación, tales como equipos de televisión, computadora, Internet, servicios de telefonía, entre otros y registrar la agregación de los servicios de TIC disponibles: televisión de paga, telefonía fija e Internet y la estimación del esfuerzo económico realizado en el hogar por concepto de estos servicios, así como la percepción sobre su calidad.

- **TR_ENDUTIH_USUARIO_ANUAL**  
Da a conocer la condición y las características del uso de la computadora, las características de acceso a Internet, dentro o fuera del hogar, a partir de la experiencia de la persona elegida incluso el acceso a Internet por medio de este dispositivo.

- **TR_ENDUTIH_USUARIO2_ANUAL**  
Da a conocer la condición y las características de uso de telefonía celular móvil, Radio y TV abierta


- ### TR_ENDUTIH_VIVIENDA_ANUAL
<a id="1"></a>

#### 1. Extracción de datos 
<a id="2"></a>

Los datos fueron obtenidos directamente de la página  del INEGI en la opción de datos abiertos, los cuales venían empaquetados en un archivo .zip.  
Por lo que se optó por bajar, descomprimir y guardar estos mismos en la carpeta de "data".  
Enlace: https://www.inegi.org.mx/programas/dutih/2021/#Datos_abiertos

#### 2. Lectura de  datos 
<a id="3"></a>

Se importa pandas para la lectura, limpieza y transformación


In [1]:
import pandas as pd #import libraries for read data

Se referencía la ruta de los datos y  se lee el archibo .csv

In [2]:
path_vivienda = ("../data/ENDUTIH 2021/tr_endutih_vivienda_anual_2021.csv") #path
df_vivienda = pd.read_csv(path_vivienda)

Se le da un pequeño vistazo, parece que se tendrán que cambiar los campos y los valores tendrán que ser reemplazados para una mejor visualización.

In [3]:
df_vivienda.head() #Overview

Unnamed: 0,UPM,VIV_SEL,P1_1,P1_2,P1_3,P1_4,P1_5_1,P1_5_2,P1_5_3,P2_1,P2_2,P2_3,FAC_VIV,UPM_DIS,EST_DIS,DOMINIO,TLOC,ESTRATO,ENT
0,100023,1,3,1,1,1,1,1,1,1,1,,174,1,7,U,1,3,1
1,100023,2,3,1,1,1,1,1,1,6,1,,174,1,7,U,1,3,1
2,100023,3,3,1,1,1,1,1,1,2,1,,174,1,7,U,1,3,1
3,100023,4,3,1,1,1,1,1,2,9,1,,174,1,7,U,1,3,1
4,100023,5,3,1,1,1,1,1,2,3,1,,174,1,7,U,1,3,1


In [4]:
df_vivienda.shape #count of raws and columns

(58281, 19)

Vemos un conteo de los datos, con 19 campos y 58,281 casos

#### 3. Datos duplicados 
<a id="4"></a>

Se buscaran si hay datos duplicados

In [5]:
df_vivienda.duplicated().value_counts() #Finding duplicates

False    58281
dtype: int64

"False" nos indica que no hay ningún caso duplicado en esta tabla

#### 4. Valores faltantes 
<a id="5"></a>

Se buscarán valores faltantes, pero no parecere muy necesario para esta tabla o alguna de las demás

In [6]:
missing_data_viv = df_vivienda.isnull() 
missing_data_viv.head()

Unnamed: 0,UPM,VIV_SEL,P1_1,P1_2,P1_3,P1_4,P1_5_1,P1_5_2,P1_5_3,P2_1,P2_2,P2_3,FAC_VIV,UPM_DIS,EST_DIS,DOMINIO,TLOC,ESTRATO,ENT
0,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False


Contando los valores faltantes

In [7]:
missing_data_viv.sum().sum()

57432

Es probable que la fila P2_3 contenga todos los valores fantantes, así que se revisará con cada una de las columnas, cual es la columna con valor faltante

In [8]:
for column in missing_data_viv.columns.values.tolist():
    print(column)
    print (missing_data_viv[column].value_counts())
    print("")   

UPM
False    58281
Name: UPM, dtype: int64

VIV_SEL
False    58281
Name: VIV_SEL, dtype: int64

P1_1
False    58281
Name: P1_1, dtype: int64

P1_2
False    58281
Name: P1_2, dtype: int64

P1_3
False    58281
Name: P1_3, dtype: int64

P1_4
False    58281
Name: P1_4, dtype: int64

P1_5_1
False    58281
Name: P1_5_1, dtype: int64

P1_5_2
False    58281
Name: P1_5_2, dtype: int64

P1_5_3
False    58281
Name: P1_5_3, dtype: int64

P2_1
False    58281
Name: P2_1, dtype: int64

P2_2
False    58281
Name: P2_2, dtype: int64

P2_3
True     57432
False      849
Name: P2_3, dtype: int64

FAC_VIV
False    58281
Name: FAC_VIV, dtype: int64

UPM_DIS
False    58281
Name: UPM_DIS, dtype: int64

EST_DIS
False    58281
Name: EST_DIS, dtype: int64

DOMINIO
False    58281
Name: DOMINIO, dtype: int64

TLOC
False    58281
Name: TLOC, dtype: int64

ESTRATO
False    58281
Name: ESTRATO, dtype: int64

ENT
False    58281
Name: ENT, dtype: int64



Esta es una forma más sencilla

In [9]:
columns_ms_viv = missing_data_viv.any() #Check if any value is missing per column
print("Las columnas con valores faltantes son: ", columns_ms_viv)
  

Las columnas con valores faltantes son:  UPM        False
VIV_SEL    False
P1_1       False
P1_2       False
P1_3       False
P1_4       False
P1_5_1     False
P1_5_2     False
P1_5_3     False
P2_1       False
P2_2       False
P2_3        True
FAC_VIV    False
UPM_DIS    False
EST_DIS    False
DOMINIO    False
TLOC       False
ESTRATO    False
ENT        False
dtype: bool


Se puede ver que la única columna, en este caos P2_3 es la única que contiene valores faltantes, se puede saber si tiene "True". Auque si las varibles fueran muchas para andar diferenciando, podemos traer solo el nombre de las columnas a las que les hace falta algún valor

In [10]:
columns_missing_values = columns_ms_viv[columns_ms_viv == True].index.tolist() #filter columns that have missing values and get the name of columns
print(columns_missing_values)


['P2_3']


Reemplazaré los datos faltantes con un valor que no intervenga en los datos registrados. 

In [11]:
df_vivienda = df_vivienda.fillna(-1)

Comprobando que no haya valores perdidos

In [12]:
missing_data_viv2 = df_vivienda.isnull() #Building another variable for missing data
missing_data_viv2.sum().sum()

0

#### 5. Revisión de los tipos de datos 
<a id="6"></a>

Tipos de datos de cada campo

In [13]:
print(df_vivienda.dtypes) 

UPM          int64
VIV_SEL      int64
P1_1         int64
P1_2         int64
P1_3         int64
P1_4         int64
P1_5_1       int64
P1_5_2       int64
P1_5_3       int64
P2_1         int64
P2_2         int64
P2_3       float64
FAC_VIV      int64
UPM_DIS      int64
EST_DIS      int64
DOMINIO     object
TLOC         int64
ESTRATO      int64
ENT          int64
dtype: object


Eligiendo una columna para revisar que tipos de datos contiene, se eligieron aquellas columnas que contienen respuestas de opción múltiple y que puedan ser clasificadas

In [14]:
df_vivienda["P1_1"].value_counts() #counts the unique values

2    28984
3    27585
1     1712
Name: P1_1, dtype: int64

In [15]:
df_vivienda["DOMINIO"].value_counts()

U    44186
R    14095
Name: DOMINIO, dtype: int64

Contar los valores de todas las columnas con repuesta en opción múltiple

In [16]:
columns_viv = [2,3,4,5,6,7,8,10]
for column in columns_viv:
    print("Columna: ", df_vivienda.columns[column])
    print(df_vivienda.iloc[:,column].value_counts())


Columna:  P1_1
2    28984
3    27585
1     1712
Name: P1_1, dtype: int64
Columna:  P1_2
1    45525
2     9985
6     1631
5      643
4      345
3      152
Name: P1_2, dtype: int64
Columna:  P1_3
1    43513
2    12570
5     1618
3      412
4      168
Name: P1_3, dtype: int64
Columna:  P1_4
1    57885
2      396
Name: P1_4, dtype: int64
Columna:  P1_5_1
1    52289
2     5992
Name: P1_5_1, dtype: int64
Columna:  P1_5_2
1    43538
2    14743
Name: P1_5_2, dtype: int64
Columna:  P1_5_3
2    30002
1    28279
Name: P1_5_3, dtype: int64
Columna:  P2_2
1    57432
2      849
Name: P2_2, dtype: int64


Como se puede observar los campos están llenos de números, no están etiquetados así como sus nombres, el siguiente paso sería reemplazar los valores, pero en este momento no se hará pues sería muy infructuoso para las pocas estadísticas que se requieren sacar.

Aunque así es como se podrían reemplazar, ejemplo:

In [17]:
df_vivienda["DOMINIO"].value_counts()

U    44186
R    14095
Name: DOMINIO, dtype: int64

In [18]:
df_viv_dominio = df_vivienda["DOMINIO"].replace(["U","R"], ["Urbano","Rural"])
df_viv_dominio.value_counts()


Urbano    44186
Rural     14095
Name: DOMINIO, dtype: int64

- ### TR_ENUDITH_RESIDENTE_ANUAL 
<a id="7"></a>

#### 1. Lectura de datos 
<a id="8"></a>

Las mismas revisiones que se hicieron, se harán con las siguientes tablas

In [19]:
path_residente = ("../data/ENDUTIH 2021/tr_endutih_residente_anual_2021.csv")
df_residente = pd.read_csv(path_residente)
df_residente.head()

Unnamed: 0,UPM,VIV_SEL,HOGAR,NUM_REN,PAREN,SEXO,EDAD,DIA,MES,P3_7,...,P3_10,P3_11,P3_12,FAC_HOGAR,UPM_DIS,EST_DIS,DOMINIO,TLOC,ESTRATO,ENT
0,100023,1,1,1,1,2,41,16.0,9.0,2.0,...,1.0,,1.0,174,1,7,U,1,3,1
1,100023,2,1,1,1,1,46,2.0,9.0,2.0,...,7.0,,,174,1,7,U,1,3,1
2,100023,2,1,2,2,2,47,5.0,9.0,2.0,...,6.0,4.0,,174,1,7,U,1,3,1
3,100023,2,1,3,3,2,23,22.0,1.0,2.0,...,1.0,,1.0,174,1,7,U,1,3,1
4,100023,2,1,5,3,2,17,22.0,10.0,1.0,...,5.0,4.0,,174,1,7,U,1,3,1


In [20]:
df_residente.shape

(205909, 25)

### 2. Datos duplicados 
<a id="9"></a>

In [21]:
df_residente.duplicated().value_counts()

False    205909
dtype: int64

### 3. Valores faltantes 
<a id="10"></a>

In [22]:
missing_data_res = df_residente.isnull()
missing_data_res.head()

Unnamed: 0,UPM,VIV_SEL,HOGAR,NUM_REN,PAREN,SEXO,EDAD,DIA,MES,P3_7,...,P3_10,P3_11,P3_12,FAC_HOGAR,UPM_DIS,EST_DIS,DOMINIO,TLOC,ESTRATO,ENT
0,False,False,False,False,False,False,False,False,False,False,...,False,True,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,...,False,True,True,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,...,False,False,True,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,...,False,True,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,...,False,False,True,False,False,False,False,False,False,False


Identificando las columnas con valores faltantes

In [23]:
columns_ms_res = missing_data_res.any()
columns_missing_values_res = columns_ms_res[columns_ms_res == True].index.tolist()
print(columns_missing_values_res)

['DIA', 'MES', 'P3_7', 'NIVEL', 'GRADO', 'P3_9_1', 'P3_9_2', 'P3_9_3', 'P3_10', 'P3_11', 'P3_12']


In [24]:
for column in columns_missing_values_res:
    print(column)
    print(missing_data_res[column].value_counts())

DIA
False    188483
True      17426
Name: DIA, dtype: int64
MES
False    188483
True      17426
Name: MES, dtype: int64
P3_7
False    188483
True      17426
Name: P3_7, dtype: int64
NIVEL
False    188483
True      17426
Name: NIVEL, dtype: int64
GRADO
False    188483
True      17426
Name: GRADO, dtype: int64
P3_9_1
False    188483
True      17426
Name: P3_9_1, dtype: int64
P3_9_2
False    188483
True      17426
Name: P3_9_2, dtype: int64
P3_9_3
False    188483
True      17426
Name: P3_9_3, dtype: int64
P3_10
False    167614
True      38295
Name: P3_10, dtype: int64
P3_11
True     132537
False     73372
Name: P3_11, dtype: int64
P3_12
True     107066
False     98843
Name: P3_12, dtype: int64


Hubo curiosidad por cambiar los valores de nivel por "0", pero eso podría contaminar la muestra

In [25]:
df_residente["NIVEL"].value_counts(dropna=False)

2.0     54432
3.0     50463
6.0     35600
8.0     28931
NaN     17426
0.0      7407
7.0      2981
1.0      2496
5.0      2313
10.0     1896
99.0      895
4.0       391
11.0      348
9.0       330
Name: NIVEL, dtype: int64

##### Reemplazando valores
Así que sólo se rellenarán con el valor "-1", pues no contamina la muestra

In [26]:
df_residente = df_residente.fillna(-1)

Comprobando valores faltantes, cómo en la tabla anterior, se construye una nueva variable para la comprobación

In [27]:
missing_data_res2 = df_residente.isnull()
missing_data_res2.sum().sum()

0

#### 4. Revisión de los tipos de datos 
<a id="11"></a>
Tipos de dato de cada campo

In [28]:
print(df_residente.dtypes)

UPM            int64
VIV_SEL        int64
HOGAR          int64
NUM_REN        int64
PAREN          int64
SEXO           int64
EDAD           int64
DIA          float64
MES          float64
P3_7         float64
NIVEL        float64
GRADO        float64
P3_9_1       float64
P3_9_2       float64
P3_9_3       float64
P3_10        float64
P3_11        float64
P3_12        float64
FAC_HOGAR      int64
UPM_DIS        int64
EST_DIS        int64
DOMINIO       object
TLOC           int64
ESTRATO        int64
ENT            int64
dtype: object


Se sabe por el diccionario de datos que los campo anteriores no necesitan ser "float", aún así se hará una comprobación para revisar si tiene algún valor que lo amerite

In [29]:
for column in range(7,18):
    print("Columna: ", df_residente.columns[column])
    print(df_residente.iloc[:,column].value_counts())

Columna:  DIA
-1.0     17426
 15.0    12386
 1.0      6522
 10.0     6475
 12.0     6372
 20.0     6362
 2.0      6327
 8.0      6209
 5.0      6172
 28.0     6021
 4.0      6019
 3.0      5995
 6.0      5933
 24.0     5924
 11.0     5910
 14.0     5909
 18.0     5888
 25.0     5843
 16.0     5802
 7.0      5739
 22.0     5739
 23.0     5730
 9.0      5730
 13.0     5719
 19.0     5718
 17.0     5703
 26.0     5571
 21.0     5555
 27.0     5536
 30.0     5337
 29.0     5083
 31.0     3103
 99.0     2151
Name: DIA, dtype: int64
Columna:  MES
-1.0     17426
 8.0     16735
 9.0     16409
 10.0    16143
 7.0     16061
 1.0     15557
 6.0     15538
 12.0    15507
 3.0     15402
 5.0     15317
 11.0    14906
 4.0     14608
 2.0     14093
 99.0     2207
Name: MES, dtype: int64
Columna:  P3_7
 2.0    139039
 1.0     49444
-1.0     17426
Name: P3_7, dtype: int64
Columna:  NIVEL
 2.0     54432
 3.0     50463
 6.0     35600
 8.0     28931
-1.0     17426
 0.0      7407
 7.0      2981
 1.0      249

Comprobando valores

In [30]:
missing_data_res2 = df_residente.isnull()
missing_data_res2.sum().sum()

0

In [31]:
for column in range(7,18):
    print("Columna: ", df_residente.columns[column])
    print(df_residente.iloc[:,column].value_counts())

Columna:  DIA
-1.0     17426
 15.0    12386
 1.0      6522
 10.0     6475
 12.0     6372
 20.0     6362
 2.0      6327
 8.0      6209
 5.0      6172
 28.0     6021
 4.0      6019
 3.0      5995
 6.0      5933
 24.0     5924
 11.0     5910
 14.0     5909
 18.0     5888
 25.0     5843
 16.0     5802
 7.0      5739
 22.0     5739
 23.0     5730
 9.0      5730
 13.0     5719
 19.0     5718
 17.0     5703
 26.0     5571
 21.0     5555
 27.0     5536
 30.0     5337
 29.0     5083
 31.0     3103
 99.0     2151
Name: DIA, dtype: int64
Columna:  MES
-1.0     17426
 8.0     16735
 9.0     16409
 10.0    16143
 7.0     16061
 1.0     15557
 6.0     15538
 12.0    15507
 3.0     15402
 5.0     15317
 11.0    14906
 4.0     14608
 2.0     14093
 99.0     2207
Name: MES, dtype: int64
Columna:  P3_7
 2.0    139039
 1.0     49444
-1.0     17426
Name: P3_7, dtype: int64
Columna:  NIVEL
 2.0     54432
 3.0     50463
 6.0     35600
 8.0     28931
-1.0     17426
 0.0      7407
 7.0      2981
 1.0      249

Reemplazando tipos de datos

In [32]:
columns_r_res = df_residente.iloc[:,7:18].columns.tolist()
df_residente[columns_r_res] = df_residente[columns_r_res].astype("int")
print(df_residente.dtypes)

UPM           int64
VIV_SEL       int64
HOGAR         int64
NUM_REN       int64
PAREN         int64
SEXO          int64
EDAD          int64
DIA           int64
MES           int64
P3_7          int64
NIVEL         int64
GRADO         int64
P3_9_1        int64
P3_9_2        int64
P3_9_3        int64
P3_10         int64
P3_11         int64
P3_12         int64
FAC_HOGAR     int64
UPM_DIS       int64
EST_DIS       int64
DOMINIO      object
TLOC          int64
ESTRATO       int64
ENT           int64
dtype: object


## TR_ENDUTIH_HOGAR_ANUAL 
<a id="12"></a>

#### 1. Lectura de datos 
<a id="13"></a>

In [33]:
path_hogar = ("../data/ENDUTIH 2021/tr_endutih_hogar_anual_2021.csv")
df_hogar = pd.read_csv(path_hogar)
df_hogar.head()

  has_raised = await self.run_ast_nodes(code_ast.body, cell_name,


Unnamed: 0,UPM,VIV_SEL,HOGAR,P4_1_1,P4_1_2,P4_1_3,P4_1_4,P4_1_5,P4_1_6,P4_1_6_1,...,P5_11_1,P5_11_2,P5_11_3,FAC_HOG,UPM_DIS,EST_DIS,DOMINIO,TLOC,ESTRATO,ENT
0,100023,1,1,1,2,2,1,2,1,1.0,...,3.0,3.0,3.0,174,1,7,U,1,3,1
1,100023,2,1,2,2,2,1,2,1,5.0,...,2.0,1.0,1.0,174,1,7,U,1,3,1
2,100023,3,1,2,1,2,1,1,1,2.0,...,1.0,1.0,1.0,174,1,7,U,1,3,1
3,100023,4,1,1,2,2,1,1,1,8.0,...,1.0,1.0,1.0,174,1,7,U,1,3,1
4,100023,5,1,2,2,2,1,2,1,3.0,...,2.0,3.0,3.0,174,1,7,U,1,3,1


Al parecer hay un conflicto con ciertas columnas, pues tienen datos mixtos, así que se identificarán

In [34]:
mixed_columns_hog = df_hogar.columns[df_hogar.dtypes == 'object'].tolist()

print(f"Las columnas con tipos de datos mixtos son: {mixed_columns_hog}")

Las columnas con tipos de datos mixtos son: ['P4_3A', 'P4_6A', 'P4_7A', 'P4_8A', 'P5_4A', 'DOMINIO']


In [35]:
df_hogar.shape

(59285, 84)

#### 2. Datos duplicados 
<a id="14"></a>

In [36]:
df_hogar.duplicated().value_counts()

False    59285
dtype: int64

#### 3. Valores faltantes 
<a id="15"></a>

In [37]:
missing_data_hog = df_hogar.isnull()
missing_data_hog.head()

Unnamed: 0,UPM,VIV_SEL,HOGAR,P4_1_1,P4_1_2,P4_1_3,P4_1_4,P4_1_5,P4_1_6,P4_1_6_1,...,P5_11_1,P5_11_2,P5_11_3,FAC_HOG,UPM_DIS,EST_DIS,DOMINIO,TLOC,ESTRATO,ENT
0,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False


In [38]:
columns_ms_hog = missing_data_hog.any()
columns_missing_values_hog1 = columns_ms_hog[columns_ms_hog == True].index.tolist()
columns_missing_values_hog = [column for column in columns_missing_values_hog1 if column not in mixed_columns_hog]
print(columns_missing_values_hog)

['P4_1_6_1', 'P4_1_6_2', 'P4_3', 'P4_5', 'P4_6_1', 'P4_6_2', 'P4_6_3', 'P4_6_4', 'P4_6_5', 'P4_6_6', 'P4_7_1', 'P4_7_2', 'P4_7_3', 'P4_7_4', 'P4_8', 'P5_2_1', 'P5_2_2', 'P5_3_1', 'P5_3_2', 'P5_4', 'P5_7_1', 'P5_8_1', 'P5_9_1', 'P5_10_1', 'P5_7_2', 'P5_8_2', 'P5_9_2', 'P5_10_2', 'P5_7_3', 'P5_8_3', 'P5_9_3', 'P5_10_3', 'P5_7_4', 'P5_8_4', 'P5_9_4', 'P5_10_4', 'P5_7_5', 'P5_8_5', 'P5_9_5', 'P5_10_5', 'P5_7_6', 'P5_8_6', 'P5_9_6', 'P5_7_7', 'P5_8_7', 'P5_9_7', 'P5_7_8', 'P5_8_8', 'P5_9_8', 'P5_11_1', 'P5_11_2', 'P5_11_3']


In [39]:
for column in columns_missing_values_hog:
    print(column)
    print(missing_data_hog[column].value_counts())

P4_1_6_1
False    55371
True      3914
Name: P4_1_6_1, dtype: int64
P4_1_6_2
False    55371
True      3914
Name: P4_1_6_2, dtype: int64
P4_3
False    33224
True     26061
Name: P4_3, dtype: int64
P4_5
False    38669
True     20616
Name: P4_5, dtype: int64
P4_6_1
False    35488
True     23797
Name: P4_6_1, dtype: int64
P4_6_2
False    35488
True     23797
Name: P4_6_2, dtype: int64
P4_6_3
False    35488
True     23797
Name: P4_6_3, dtype: int64
P4_6_4
False    35488
True     23797
Name: P4_6_4, dtype: int64
P4_6_5
False    35488
True     23797
Name: P4_6_5, dtype: int64
P4_6_6
False    35488
True     23797
Name: P4_6_6, dtype: int64
P4_7_1
True     43286
False    15999
Name: P4_7_1, dtype: int64
P4_7_2
True     43286
False    15999
Name: P4_7_2, dtype: int64
P4_7_3
True     43286
False    15999
Name: P4_7_3, dtype: int64
P4_7_4
True     43286
False    15999
Name: P4_7_4, dtype: int64
P4_8
True     38669
False    20616
Name: P4_8, dtype: int64
P5_2_1
True     32395
False    26890
Name: P

##### Reemplazando valores faltantes

In [40]:
df_hogar[columns_missing_values_hog] = df_hogar[columns_missing_values_hog].fillna(-1)

Comprobando valores faltantes

In [41]:
missing_data_hog2 = df_hogar.isnull()
columns_ms_hog2 = missing_data_hog2.any()
columns_missing_values_hog2 = columns_ms_hog2[columns_ms_hog2 == True].index.tolist()
print(columns_missing_values_hog2)

['P4_3A', 'P4_6A', 'P4_7A', 'P4_8A', 'P5_4A']


Ahora toca el turno de reemplazar valores de los tipos de datos "Object"

In [42]:
df_hogar = df_hogar.fillna("Desconocido")

Volviendo a comprobar que no haya ningún dato perdido

In [43]:
missing_data_hog3 = df_hogar.isnull()
columns_ms_hog3 = missing_data_hog3.any()
columns_missing_values_hog3 = columns_ms_hog3[columns_ms_hog3 == True].index.tolist()
print(columns_missing_values_hog3)

[]


#### 4. Revisión de los tipos de datos 
<a id="16"></a>

In [44]:
print(df_hogar.iloc[:,:41].dtypes)

UPM           int64
VIV_SEL       int64
HOGAR         int64
P4_1_1        int64
P4_1_2        int64
P4_1_3        int64
P4_1_4        int64
P4_1_5        int64
P4_1_6        int64
P4_1_6_1    float64
P4_1_6_2    float64
P4_2_1        int64
P4_2_2        int64
P4_2_3        int64
P4_3        float64
P4_3A        object
P4_4          int64
P4_5        float64
P4_6_1      float64
P4_6_2      float64
P4_6_3      float64
P4_6_4      float64
P4_6_5      float64
P4_6_6      float64
P4_6A        object
P4_7_1      float64
P4_7_2      float64
P4_7_3      float64
P4_7_4      float64
P4_7A        object
P4_8        float64
P4_8A        object
P5_1          int64
P5_2_1      float64
P5_2_2      float64
P5_3_1      float64
P5_3_2      float64
P5_4        float64
P5_4A        object
P5_5          int64
P5_6_1        int64
dtype: object


In [45]:
print(df_hogar.iloc[:,41:].dtypes)

P5_6_2       int64
P5_6_3       int64
P5_6_4       int64
P5_6_5       int64
P5_7_1     float64
P5_8_1     float64
P5_9_1     float64
P5_10_1    float64
P5_7_2     float64
P5_8_2     float64
P5_9_2     float64
P5_10_2    float64
P5_7_3     float64
P5_8_3     float64
P5_9_3     float64
P5_10_3    float64
P5_7_4     float64
P5_8_4     float64
P5_9_4     float64
P5_10_4    float64
P5_7_5     float64
P5_8_5     float64
P5_9_5     float64
P5_10_5    float64
P5_7_6     float64
P5_8_6     float64
P5_9_6     float64
P5_7_7     float64
P5_8_7     float64
P5_9_7     float64
P5_7_8     float64
P5_8_8     float64
P5_9_8     float64
P5_11_1    float64
P5_11_2    float64
P5_11_3    float64
FAC_HOG      int64
UPM_DIS      int64
EST_DIS      int64
DOMINIO     object
TLOC         int64
ESTRATO      int64
ENT          int64
dtype: object


Se revisarán los valores de tipo "float" para comprobar si hace falta que tengan decimales, aunque de antemando se sabe cuales son, siempre es mejor comprobarlo, aunque en este caso habrá valores que no se convertirán, pues la naturaleza de los siguientes valores podrían requerir ese formato:
- P5_8_1, P5_8_2, P5_8_3, P5_8_4, P5_8_5, P5_8_6, P5_8_7, P5_8_8

In [46]:
excludes_hog_val = ["P5_8_1", "P5_8_2", "P5_8_3", "P5_8_4", "P5_8_5", "P5_8_6", "P5_8_7", "P5_8_8"] # Exclude columns
float_values_hog1 = df_hogar.columns[df_hogar.dtypes == 'float'].tolist() #get columns that are float
float_values_hog = [column for column in float_values_hog1 if column not in excludes_hog_val] #Excluding columns of the variable float_values_hog from excludes_hog_val
print(float_values_hog)

['P4_1_6_1', 'P4_1_6_2', 'P4_3', 'P4_5', 'P4_6_1', 'P4_6_2', 'P4_6_3', 'P4_6_4', 'P4_6_5', 'P4_6_6', 'P4_7_1', 'P4_7_2', 'P4_7_3', 'P4_7_4', 'P4_8', 'P5_2_1', 'P5_2_2', 'P5_3_1', 'P5_3_2', 'P5_4', 'P5_7_1', 'P5_9_1', 'P5_10_1', 'P5_7_2', 'P5_9_2', 'P5_10_2', 'P5_7_3', 'P5_9_3', 'P5_10_3', 'P5_7_4', 'P5_9_4', 'P5_10_4', 'P5_7_5', 'P5_9_5', 'P5_10_5', 'P5_7_6', 'P5_9_6', 'P5_7_7', 'P5_9_7', 'P5_7_8', 'P5_9_8', 'P5_11_1', 'P5_11_2', 'P5_11_3']


In [47]:
for column in float_values_hog:
    print("Columna ", column)
    print(df_hogar[column].value_counts())

Columna  P4_1_6_1
 2.0     18546
 1.0     13051
 3.0     12032
 4.0      7399
-1.0      3914
 5.0      2899
 6.0       934
 7.0       329
 8.0       118
 9.0        34
 10.0       19
 12.0        4
 11.0        3
 33.0        1
 15.0        1
 13.0        1
Name: P4_1_6_1, dtype: int64
Columna  P4_1_6_2
 2.0     17646
 1.0     12926
 3.0     11188
 4.0      6705
-1.0      3914
 0.0      2938
 5.0      2680
 6.0       832
 7.0       292
 8.0       104
 9.0        31
 10.0       15
 99.0        5
 12.0        4
 11.0        3
 15.0        1
 13.0        1
Name: P4_1_6_2, dtype: int64
Columna  P4_3
-1.0    26061
 1.0    18130
 2.0     8559
 3.0     4048
 4.0     1751
 5.0      387
 7.0      245
 6.0       74
 8.0       30
Name: P4_3, dtype: int64
Columna  P4_5
 1.0    22600
-1.0    20616
 3.0    12888
 2.0     3111
 9.0       70
Name: P4_5, dtype: int64
Columna  P4_6_1
-1.0    23797
 2.0    21069
 1.0    14419
Name: P4_6_1, dtype: int64
Columna  P4_6_2
-1.0    23797
 2.0    18625
 1.0    

Reemplazando tipos de datos

In [48]:
df_hogar[float_values_hog] = df_hogar[float_values_hog].astype("int")

Comprobando los tipos de datos

In [49]:
df_hogar.dtypes.value_counts()

int64      70
float64     8
object      6
dtype: int64

### TR_ENDUTIH_USUARIO_ANUAL 
<a id="17"></a>

#### 1. Lectura de datos 
<a id="18"></a>

In [50]:
path_usuario_1 = ("../data/ENDUTIH 2021/tr_endutih_usuario_anual_2021.csv")
df_usuario_1 = pd.read_csv(path_usuario_1)
df_usuario_1.head()

  has_raised = await self.run_ast_nodes(code_ast.body, cell_name,


Unnamed: 0,UPM,VIV_SEL,HOGAR,NUM_REN,EDAD,P6_1,P6_2_1,P6_2_2,P6_2_3,P6_3,...,UPM_DIS,EST_DIS,DOMINIO,TLOC,ESTRATO,PAREN,SEXO,NIVEL,GRADO,ENT
0,100023,1,1,1,41,1,2.0,1.0,2.0,,...,1,7,U,1,3,1,2,10,2,1
1,100023,2,1,3,23,1,2.0,1.0,2.0,,...,1,7,U,1,3,3,2,6,3,1
2,100023,3,1,1,50,1,2.0,1.0,2.0,,...,1,7,U,1,3,1,2,8,4,1
3,100023,4,1,2,55,2,,,,2.0,...,1,7,U,1,3,2,2,2,6,1
4,100023,5,1,3,32,1,2.0,1.0,2.0,,...,1,7,U,1,3,3,2,8,5,1


In [51]:
df_usuario_1.shape #dataframe dimensions

(59285, 226)

In [52]:
df_usuario_1.dtypes.value_counts() #count dtypes

float64    185
object      24
int64       17
dtype: int64

### 2. Datos duplicados 
<a id="19"></a>

In [53]:
df_usuario_1.duplicated().value_counts() #count duplicates : False = there's no duplicate

False    59285
dtype: int64

### 3.Valores faltantes 
<a id="20"></a>

In [54]:
missing_data_usu1_1 = df_usuario_1.isnull() #bool missing data
missing_data_usu1_1.head()

Unnamed: 0,UPM,VIV_SEL,HOGAR,NUM_REN,EDAD,P6_1,P6_2_1,P6_2_2,P6_2_3,P6_3,...,UPM_DIS,EST_DIS,DOMINIO,TLOC,ESTRATO,PAREN,SEXO,NIVEL,GRADO,ENT
0,False,False,False,False,False,False,False,False,False,True,...,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,True,...,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,True,...,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,True,True,True,False,...,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,True,...,False,False,False,False,False,False,False,False,False,False


In [55]:
columns_ms_usu1 = missing_data_usu1_1.any() #verifyig missing data per column
columns_missing_values_usu1 = columns_ms_usu1[columns_ms_usu1 == True].index.tolist() #obtain name of columns
print(columns_missing_values_usu1)

['P6_2_1', 'P6_2_2', 'P6_2_3', 'P6_3', 'P6_3A', 'P6_4', 'P6_5', 'P6_6_1', 'P6_6_2', 'P6_6_3', 'P6_6_4', 'P6_6_5', 'P6_6_6', 'P6_6_7', 'P6_6A', 'P6_7_1', 'P6_7_2', 'P6_7_3', 'P6_7_4', 'P6_7_5', 'P6_7_6', 'P6_7_7', 'P6_7_8', 'P6_7A', 'P6_8_1', 'P6_8_2', 'P6_8_3', 'P6_8_4', 'P6_8_5', 'P6_8_6', 'P6_8_7', 'P6_8_8', 'P6_8_9', 'P6_8_10', 'P6_8A', 'P6_9_1', 'P6_9_2', 'P6_9_3', 'P6_9_4', 'P6_9_5', 'P6_9_6', 'P6_9A', 'P7_2', 'P7_2A', 'P7_3', 'P7_4', 'P7_5_1', 'P7_5_2', 'P7_5_3', 'P7_5_4', 'P7_5_5', 'P7_5_6', 'P7_5_7', 'P7_5A', 'P7_6', 'P7_7_1', 'P7_7_2', 'P7_7_3', 'P7_7_4', 'P7_7_5', 'P7_7_6', 'P7_7_7', 'P7_7_8', 'P7_7A', 'P7_8_1', 'P7_8_2', 'P7_8_3', 'P7_8_4', 'P7_8_5', 'P7_8_6', 'P7_8_7', 'P7_8_8', 'P7_8_9', 'P7_8_10', 'P7_8A', 'P7_9_1', 'P7_9_2', 'P7_9_3', 'P7_9_4', 'P7_9A', 'P7_10_1', 'P7_10_2', 'P7_10_3', 'P7_10_4', 'P7_10A', 'P7_11_1', 'P7_11_2', 'P7_11_3', 'P7_11_4', 'P7_11_5', 'P7_11_6', 'P7_11_7', 'P7_11_8', 'P7_11A', 'P7_12', 'P7_13', 'P7_14_1', 'P7_14_2', 'P7_14_3', 'P7_14_4', 'P7_14_

Reemplazando valores faltantes en tipo "float" e "int"

In [56]:
float_int_values_usu1 = df_usuario_1[columns_missing_values_usu1].select_dtypes(include=[int, float]).columns.tolist() #Filter float and int from missing filter
print(float_int_values_usu1)

['P6_2_1', 'P6_2_2', 'P6_2_3', 'P6_3', 'P6_4', 'P6_5', 'P6_6_1', 'P6_6_2', 'P6_6_3', 'P6_6_4', 'P6_6_5', 'P6_6_6', 'P6_6_7', 'P6_7_1', 'P6_7_2', 'P6_7_3', 'P6_7_4', 'P6_7_5', 'P6_7_6', 'P6_7_7', 'P6_7_8', 'P6_8_1', 'P6_8_2', 'P6_8_3', 'P6_8_4', 'P6_8_5', 'P6_8_6', 'P6_8_7', 'P6_8_8', 'P6_8_9', 'P6_8_10', 'P6_9_1', 'P6_9_2', 'P6_9_3', 'P6_9_4', 'P6_9_5', 'P6_9_6', 'P7_2', 'P7_3', 'P7_4', 'P7_5_1', 'P7_5_2', 'P7_5_3', 'P7_5_4', 'P7_5_5', 'P7_5_6', 'P7_5_7', 'P7_6', 'P7_7_1', 'P7_7_2', 'P7_7_3', 'P7_7_4', 'P7_7_5', 'P7_7_6', 'P7_7_7', 'P7_7_8', 'P7_8_1', 'P7_8_2', 'P7_8_3', 'P7_8_4', 'P7_8_5', 'P7_8_6', 'P7_8_7', 'P7_8_8', 'P7_8_9', 'P7_8_10', 'P7_9_1', 'P7_9_2', 'P7_9_3', 'P7_9_4', 'P7_10_1', 'P7_10_2', 'P7_10_3', 'P7_10_4', 'P7_11_1', 'P7_11_2', 'P7_11_3', 'P7_11_4', 'P7_11_5', 'P7_11_6', 'P7_11_7', 'P7_11_8', 'P7_12', 'P7_13', 'P7_14_1', 'P7_14_2', 'P7_14_3', 'P7_14_4', 'P7_14_5', 'P7_14_6', 'P7_14_7', 'P7_14_8', 'P7_14_9', 'P7_14_10', 'P7_14_11', 'P7_15_1', 'P7_15_2', 'P7_16_1', 'P7_1

In [57]:
df_usuario_1[float_int_values_usu1] = df_usuario_1[float_int_values_usu1].fillna(-1) #fill in missing data with -1

Comprobado columnas con valores faltantes, las cuales ahora son de tipo "object"

In [58]:
missing_data_usu1_2 = df_usuario_1.isnull() #new variable for missing filter
columns_ms_usu1_2 = missing_data_usu1_2.any() 
columns_missing_values_usu1_2 = columns_ms_usu1_2[columns_ms_usu1_2 == True].index.tolist()
print(columns_missing_values_usu1_2) 


['P6_3A', 'P6_6A', 'P6_7A', 'P6_8A', 'P6_9A', 'P7_2A', 'P7_5A', 'P7_7A', 'P7_8A', 'P7_9A', 'P7_10A', 'P7_11A', 'P7_14A', 'P7_20A', 'P7_22A', 'P7_24A', 'P7_26A', 'P7_28A', 'P7_30A', 'P7_31A', 'P7_33A', 'P7_34A', 'P7_35A']


Reemplazando valores de tipos de datos "Object"

In [59]:
df_usuario_1[columns_missing_values_usu1_2] = df_usuario_1[columns_missing_values_usu1_2].fillna("Desconocido") #fill in missind data with "Desconocido"

Comprobando valores faltantes

In [60]:
missing_data_usu1_3 = df_usuario_1.isnull() #new variable for missing filter
columns_ms_usu1_3 = missing_data_usu1_3.any() 
columns_missing_values_usu1_3 = columns_ms_usu1_3[columns_ms_usu1_3 == True].index.tolist()
print(columns_missing_values_usu1_3) 

[]


### 4. Revisión de los tipos de datos 
<a id="21"></a>

In [61]:
df_usuario_1.dtypes.value_counts() #count dtypes

float64    185
object      24
int64       17
dtype: int64

Reemplazando "dtypes" de "float" a "int".


In [62]:
float_values_usu1 = df_usuario_1.columns[df_usuario_1.dtypes == "float"].tolist()
print(float_values_usu1)

['P6_2_1', 'P6_2_2', 'P6_2_3', 'P6_3', 'P6_4', 'P6_5', 'P6_6_1', 'P6_6_2', 'P6_6_3', 'P6_6_4', 'P6_6_5', 'P6_6_6', 'P6_6_7', 'P6_7_1', 'P6_7_2', 'P6_7_3', 'P6_7_4', 'P6_7_5', 'P6_7_6', 'P6_7_7', 'P6_7_8', 'P6_8_1', 'P6_8_2', 'P6_8_3', 'P6_8_4', 'P6_8_5', 'P6_8_6', 'P6_8_7', 'P6_8_8', 'P6_8_9', 'P6_8_10', 'P6_9_1', 'P6_9_2', 'P6_9_3', 'P6_9_4', 'P6_9_5', 'P6_9_6', 'P7_2', 'P7_3', 'P7_4', 'P7_5_1', 'P7_5_2', 'P7_5_3', 'P7_5_4', 'P7_5_5', 'P7_5_6', 'P7_5_7', 'P7_6', 'P7_7_1', 'P7_7_2', 'P7_7_3', 'P7_7_4', 'P7_7_5', 'P7_7_6', 'P7_7_7', 'P7_7_8', 'P7_8_1', 'P7_8_2', 'P7_8_3', 'P7_8_4', 'P7_8_5', 'P7_8_6', 'P7_8_7', 'P7_8_8', 'P7_8_9', 'P7_8_10', 'P7_9_1', 'P7_9_2', 'P7_9_3', 'P7_9_4', 'P7_10_1', 'P7_10_2', 'P7_10_3', 'P7_10_4', 'P7_11_1', 'P7_11_2', 'P7_11_3', 'P7_11_4', 'P7_11_5', 'P7_11_6', 'P7_11_7', 'P7_11_8', 'P7_12', 'P7_13', 'P7_14_1', 'P7_14_2', 'P7_14_3', 'P7_14_4', 'P7_14_5', 'P7_14_6', 'P7_14_7', 'P7_14_8', 'P7_14_9', 'P7_14_10', 'P7_14_11', 'P7_15_1', 'P7_15_2', 'P7_16_1', 'P7_1

In [63]:
df_usuario_1[float_int_values_usu1] = df_usuario_1[float_int_values_usu1].astype("int")

In [64]:
df_usuario_1.dtypes.value_counts()

int64     202
object     24
dtype: int64

### TR_ENDUTIH_USUARIO2_ANUAL 
<a id="22"></a>

#### 1. Lectura de datos 
<a id="23"></a>

In [65]:
path_usuario_2 = ("../data/ENDUTIH 2021/tr_endutih_usuario2_anual_2021.csv")
df_usuario_2 = pd.read_csv(path_usuario_2)
df_usuario_2.head()

  has_raised = await self.run_ast_nodes(code_ast.body, cell_name,


Unnamed: 0,UPM,VIV_SEL,HOGAR,NUM_REN,EDAD,P8_1,P8_2,P8_2A,P8_3,P8_4_1,...,UPM_DIS,EST_DIS,DOMINIO,TLOC,ESTRATO,PAREN,SEXO,NIVEL,GRADO,ENT
0,100023,1,1,1,41,1,,,1,2.0,...,1,7,U,1,3,1,2,10,2,1
1,100023,2,1,3,23,1,,,1,2.0,...,1,7,U,1,3,3,2,6,3,1
2,100023,3,1,1,50,1,,,1,2.0,...,1,7,U,1,3,1,2,8,4,1
3,100023,4,1,2,55,1,,,1,2.0,...,1,7,U,1,3,2,2,2,6,1
4,100023,5,1,3,32,1,,,1,2.0,...,1,7,U,1,3,3,2,8,5,1


In [66]:
df_usuario_2.shape #Df dimensions

(59285, 95)

In [67]:
df_usuario_2.dtypes.value_counts() #Group dtypes

float64    66
int64      19
object     10
dtype: int64

#### 2. Datos duplicados 
<a id="24"></a>

In [68]:
df_usuario_2.duplicated().value_counts()

False    59285
dtype: int64

#### 3. Valores faltantes 
<a id="25"></a>


Vista de valores nulos con booleanos

In [69]:
missing_data_usu2_1 = df_usuario_2.isnull()
missing_data_usu1_2.head()

Unnamed: 0,UPM,VIV_SEL,HOGAR,NUM_REN,EDAD,P6_1,P6_2_1,P6_2_2,P6_2_3,P6_3,...,UPM_DIS,EST_DIS,DOMINIO,TLOC,ESTRATO,PAREN,SEXO,NIVEL,GRADO,ENT
0,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False


Recalcando por última vez, el siguiente código verifica que haya valores nulos por columna, obtiene el nombre de las columnas y las imprime.

In [70]:
columns_ms_usu2 = missing_data_usu2_1.any()
columns_missing_values_usu2 = columns_ms_usu2[columns_ms_usu2 == True].index.tolist()
print(columns_missing_values_usu2)
print("Número de columnas con valores nulos:", len(columns_missing_values_usu2))

['P8_2', 'P8_2A', 'P8_4_1', 'P8_4_2', 'P8_5_1', 'P8_5_2', 'P8_6', 'P8_7_1', 'P8_7_2', 'P8_7_3', 'P8_8', 'P8_9', 'P8_10', 'P8_11_1', 'P8_11_2', 'P8_12_1', 'P8_12_2', 'P8_12_3', 'P8_12_4', 'P8_12_5', 'P8_12_6', 'P8_12_7', 'P8_12_8', 'P8_12_9', 'P8_12A', 'P8_13', 'P8_14_1', 'P8_14_2', 'P8_15_1', 'P8_15_2', 'P8_15_3', 'P8_15_4', 'P8_15_5', 'P8_15_6', 'P8_15_7', 'P8_15_8', 'P8_15_9', 'P8_15A', 'P8_16', 'P8_17', 'P9_2', 'P9_2A', 'P9_3_1', 'P9_3_2', 'P9_4', 'P9_4A', 'P9_5', 'P9_5A', 'P9_6', 'P9_7_1', 'P9_7_2', 'P9_7_3', 'P9_7_4', 'P9_7_5', 'P9_7_6', 'P9_7A', 'P9_9', 'P9_9A', 'P9_10', 'P9_11_1', 'P9_11_2', 'P9_11_3', 'P9_11_4', 'P9_11_5', 'P9_11_6', 'P9_11_7', 'P9_11_8', 'P9_11_9', 'P9_11_10', 'P9_11_11', 'P9_11_12', 'P9_11_13', 'P9_11_14', 'P9_11_15', 'P9_11A']
Número de columnas con valores nulos: 75


Remplazando valores faltantes de tipo "float" e "int"

In [71]:
float_int_values_usu2 = df_usuario_2[columns_missing_values_usu2].select_dtypes(include=[int, float]).columns.tolist()
print(float_int_values_usu2)
print("Número de columnas con valores nulos de tipo 'int' y 'float':", len(float_int_values_usu2))

['P8_2', 'P8_4_1', 'P8_4_2', 'P8_5_1', 'P8_5_2', 'P8_6', 'P8_7_1', 'P8_7_2', 'P8_7_3', 'P8_8', 'P8_9', 'P8_10', 'P8_11_1', 'P8_11_2', 'P8_12_1', 'P8_12_2', 'P8_12_3', 'P8_12_4', 'P8_12_5', 'P8_12_6', 'P8_12_7', 'P8_12_8', 'P8_12_9', 'P8_13', 'P8_14_1', 'P8_14_2', 'P8_15_1', 'P8_15_2', 'P8_15_3', 'P8_15_4', 'P8_15_5', 'P8_15_6', 'P8_15_7', 'P8_15_8', 'P8_15_9', 'P8_16', 'P8_17', 'P9_2', 'P9_3_1', 'P9_3_2', 'P9_4', 'P9_5', 'P9_6', 'P9_7_1', 'P9_7_2', 'P9_7_3', 'P9_7_4', 'P9_7_5', 'P9_7_6', 'P9_9', 'P9_10', 'P9_11_1', 'P9_11_2', 'P9_11_3', 'P9_11_4', 'P9_11_5', 'P9_11_6', 'P9_11_7', 'P9_11_8', 'P9_11_9', 'P9_11_10', 'P9_11_11', 'P9_11_12', 'P9_11_13', 'P9_11_14', 'P9_11_15']
Número de columnas con valores nulos de tipo 'int' y 'float': 66


In [72]:
df_usuario_2[float_int_values_usu2] = df_usuario_2[float_int_values_usu2].fillna(-1)

Comprobando valores faltantes

In [73]:
missing_data_usu2_2 = df_usuario_2.isnull() #new variable for missing filter
columns_ms_usu2_2 = missing_data_usu2_2.any() 
columns_missing_values_usu2_2 = columns_ms_usu2_2[columns_ms_usu2_2 == True].index.tolist()
print(columns_missing_values_usu2_2) 

['P8_2A', 'P8_12A', 'P8_15A', 'P9_2A', 'P9_4A', 'P9_5A', 'P9_7A', 'P9_9A', 'P9_11A']


Rellenando valores faltantes en tipos de da columna "Object"

In [74]:
df_usuario_2[columns_missing_values_usu2_2] = df_usuario_2[columns_missing_values_usu2_2].fillna("Desconocido")

Comprobando que no quedén valores nulos

In [75]:
missing_data_usu2_3 = df_usuario_2.isnull() #new variable for missing filter
columns_ms_usu2_3 = missing_data_usu2_3.any() 
columns_missing_values_usu2_3 = columns_ms_usu2_3[columns_ms_usu2_3 == True].index.tolist()
print(columns_missing_values_usu2_3) 

[]


### 4. Revisión de los tipos de datos 
<a id="26"></a>

In [76]:
df_usuario_2.dtypes.value_counts()

float64    66
int64      19
object     10
dtype: int64

Reemplazo de tipos de datos, exceptuando columna "P8_8"
Filtramos las columnas con tipo de datos "float"

In [77]:
float_values_usu2 = df_usuario_2.columns[df_usuario_2.dtypes == "float"].tolist()
float_values_usu2.remove('P8_8')
print(float_values_usu2)
print(len(float_values_usu2))

['P8_2', 'P8_4_1', 'P8_4_2', 'P8_5_1', 'P8_5_2', 'P8_6', 'P8_7_1', 'P8_7_2', 'P8_7_3', 'P8_9', 'P8_10', 'P8_11_1', 'P8_11_2', 'P8_12_1', 'P8_12_2', 'P8_12_3', 'P8_12_4', 'P8_12_5', 'P8_12_6', 'P8_12_7', 'P8_12_8', 'P8_12_9', 'P8_13', 'P8_14_1', 'P8_14_2', 'P8_15_1', 'P8_15_2', 'P8_15_3', 'P8_15_4', 'P8_15_5', 'P8_15_6', 'P8_15_7', 'P8_15_8', 'P8_15_9', 'P8_16', 'P8_17', 'P9_2', 'P9_3_1', 'P9_3_2', 'P9_4', 'P9_5', 'P9_6', 'P9_7_1', 'P9_7_2', 'P9_7_3', 'P9_7_4', 'P9_7_5', 'P9_7_6', 'P9_9', 'P9_10', 'P9_11_1', 'P9_11_2', 'P9_11_3', 'P9_11_4', 'P9_11_5', 'P9_11_6', 'P9_11_7', 'P9_11_8', 'P9_11_9', 'P9_11_10', 'P9_11_11', 'P9_11_12', 'P9_11_13', 'P9_11_14', 'P9_11_15']
65


In [78]:
df_usuario_2[float_values_usu2] = df_usuario_2[float_values_usu2].astype("int")

Comprobando los tipos de datos

In [79]:
df_usuario_2.dtypes.value_counts()

int64      84
object     10
float64     1
dtype: int64

### Guardando los archivos 
<a id="27"></a>

#### Transformando a .CSV
<a id="28"></a>

Se utilizaran los métodos de pandas para guardar los archivos en .csv y .sql.  
La razón de esto es que uno quede en su formato original y el otro sea subido a un manejador de bases de datos y pueda ser usada en un futuro.

In [80]:
#Save dataframes on .csv
df_vivienda.to_csv("../data/ENDUTIH_2021_transformed/ENDUTIH_VIVIENDA_2021.csv", index=False) 
df_residente.to_csv("../data/ENDUTIH_2021_transformed/ENDUTIH_RESIDENTE_2021.csv", index=False)
df_hogar.to_csv("../data/ENDUTIH_2021_transformed/ENDUTIH_HOGAR_2021.csv", index=False)
df_usuario_1.to_csv("../data/ENDUTIH_2021_transformed/ENDUTIH_USUARIO_2021.csv", index=False)
df_usuario_2.to_csv("../data/ENDUTIH_2021_transformed/ENDUTIH_USUARIO2_2021.csv", index=False)

#### Transformando a SQL
<a id="29"></a>

Se guardaran los archivos en sql cuando se tengan los datos necesarios

In [None]:
#Save dataframes on .sql
df_vivienda.to_sql("../data/ENDUTIH_2021_transformed/vivienda.sql", index=False) 
df_residente.to_sql("../data/ENDUTIH_2021_transformed/residente.sql", index=False)
df_hogar.to_sql("../data/ENDUTIH_2021_transformed/hogar.sql", index=False)
df_usuario_1.to_sql("../data/ENDUTIH_2021_transformed/usuario1.sql", index=False)
df_usuario_2.to_sql("../data/ENDUTIH_2021_transformed/usuario2.sql", index=False)