# ***DESARROLLO DEL PROYECTO FINAL - ANALISIS DE DATOS - GRUPO 7***

## **1. Set de datos**
Para el presente proyecto se trabajó con una base de datos obtenida de la plataforma **Datos Abiertos Bogotá**, correspondiente a los ***registros anonimizados de habitantes de calle censados en 2024***. El archivo original se encontraba en formato CSV y contenía **10.470 filas y 123 columnas**.

Dado el elevado número de variables, se realizó inicialmente una **selección y clasificación de columnas relevantes para el análisis**, proceso llevado a cabo en Microsoft Excel. Una vez identificadas las variables de interés, se eliminaron aquellas no pertinentes, se ajustaron los nombres de las columnas para facilitar su uso y posteriormente se cargó el archivo depurado en formato .xlsx en este cuaderno.

Las columnas tomadas para el análisis a realizar fueron las siguientes:

1. **'P7S1A'**: Localidad donde duerme habitualmente (Categórica).
2. **'P10'**: Sexo al nacer (Numérica).
3. **'P11'**: Lugar de origen (Numérica).
4. **'P12'**: Edad actual (Categórica).
5. **'P13'**: Grupo Étnico (Numérica).
6. **'P16'**: Nivel de escolaridad (Numérica).
7. **'P20'**: Razón para llegar a la situación de calle (Numérica).
8. **'P21'**: Razón por la que continúa en esa situación (Numérica).
9. **'P30S9A1'**: Edad de inicio de consumo (Numérica).
10. **'P30_1'**: Consumo de sustancias psicoactivas (Numérica).
11. **'P40'**: Vinculación laboral previa (Numérica).


## **2. Primeros pasos**

Importación de las librerías necesarias para el desarrollo del análisis.

In [1]:
import pandas as pd
import numpy as np
import math as map
import time
from google.colab import drive

In [2]:
# Importando nuestro drive
drive.mount('/content/Drive_LAOV')

Mounted at /content/Drive_LAOV


A continuación, se procede a importar el archivo .CSV con el que se trabajará, luego de haber eliminado previamente las columnas que no fueron seleccionadas para el análisis.

In [3]:
#ruta = '/content/Drive_LAOV/MyDrive/Análisis de datos Explorador G125V/Proyecto final/Bases de microdatos del VIII Censo de Ciudadanos Habitantes de Calle 2024.csv'
ruta_Karen = '/content/Drive_LAOV/MyDrive/Proyecto Final/Base de datos/Datos Depurados/Bases de microdatos del VIII Censo de Ciudadanos Habitantes de Calle 2024 - Reducida.xlsx'
df_habcalle = pd.read_excel(ruta_Karen)
df_habcalle

Unnamed: 0,LOCALIDAD_DUERME,SEXO_NACIMIENTO,LUGAR_ORIGEN,EDAD,GRUPO_ETNICO,NIVEL_ESCOLARIDAD,RAZON_VIVIR_CALLE,RAZON_PERMANENCIA_CALLE,EDAD_INICIO_CONSUMO,SUSTANCIAS_PSICOACTIVAS,VINCULACION_LABORAL_PREVIA
0,Santa Fe,2.0,1.0,60,6.0,3.0,1.0,1.0,30.0,3.0,2.0
1,Santa Fe,1.0,2.0,40,6.0,3.0,1.0,1.0,25.0,1.0,2.0
2,Santa Fe,1.0,1.0,41,6.0,3.0,8.0,5.0,20.0,,1.0
3,Santa Fe,1.0,1.0,35,6.0,6.0,2.0,1.0,6.0,3.0,1.0
4,Santa Fe,1.0,3.0,22,6.0,5.0,11.0,1.0,12.0,2.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...
10465,Engativá,2.0,1.0,40,6.0,4.0,1.0,2.0,10.0,1.0,2.0
10466,Engativá,1.0,2.0,44,6.0,5.0,1.0,5.0,13.0,1.0,1.0
10467,Engativá,1.0,1.0,44,6.0,4.0,1.0,5.0,11.0,1.0,1.0
10468,Engativá,1.0,2.0,57,6.0,3.0,11.0,9.0,,,2.0


In [4]:
df_habcalle.head(10)

Unnamed: 0,LOCALIDAD_DUERME,SEXO_NACIMIENTO,LUGAR_ORIGEN,EDAD,GRUPO_ETNICO,NIVEL_ESCOLARIDAD,RAZON_VIVIR_CALLE,RAZON_PERMANENCIA_CALLE,EDAD_INICIO_CONSUMO,SUSTANCIAS_PSICOACTIVAS,VINCULACION_LABORAL_PREVIA
0,Santa Fe,2.0,1.0,60.0,6.0,3.0,1.0,1.0,30.0,3.0,2.0
1,Santa Fe,1.0,2.0,40.0,6.0,3.0,1.0,1.0,25.0,1.0,2.0
2,Santa Fe,1.0,1.0,41.0,6.0,3.0,8.0,5.0,20.0,,1.0
3,Santa Fe,1.0,1.0,35.0,6.0,6.0,2.0,1.0,6.0,3.0,1.0
4,Santa Fe,1.0,3.0,22.0,6.0,5.0,11.0,1.0,12.0,2.0,1.0
5,Santa Fe,1.0,2.0,40.0,6.0,7.0,5.0,1.0,18.0,2.0,1.0
6,Santa Fe,1.0,1.0,65.0,6.0,5.0,1.0,1.0,6.0,2.0,1.0
7,,,,,,,,,,,
8,Santa Fe,1.0,1.0,29.0,6.0,4.0,7.0,1.0,15.0,,1.0
9,Santa Fe,1.0,1.0,42.0,6.0,4.0,1.0,1.0,9.0,2.0,1.0


In [5]:
df_habcalle.describe()

Unnamed: 0,SEXO_NACIMIENTO,LUGAR_ORIGEN,GRUPO_ETNICO,NIVEL_ESCOLARIDAD,RAZON_VIVIR_CALLE,RAZON_PERMANENCIA_CALLE,EDAD_INICIO_CONSUMO,SUSTANCIAS_PSICOACTIVAS,VINCULACION_LABORAL_PREVIA
count,8777.0,8758.0,8709.0,8673.0,8645.0,8646.0,7745.0,7313.0,8582.0
mean,1.09673,1.468714,5.913653,3.96368,4.066512,2.962989,14.344351,2.304936,1.505477
std,0.299056,0.680478,0.568167,1.401171,3.10123,3.092149,5.893978,1.025122,0.499999
min,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0
25%,1.0,1.0,6.0,3.0,1.0,1.0,11.0,2.0,1.0
50%,1.0,1.0,6.0,4.0,5.0,1.0,14.0,2.0,2.0
75%,1.0,2.0,6.0,5.0,5.0,5.0,16.0,3.0,2.0
max,3.0,3.0,6.0,9.0,12.0,12.0,60.0,9.0,2.0


## **3. Limpieza**
Para este procedimiento, se realizaran los siguientes pasos:
1. Identificar la cantidad y el porcentaje de valores nulos presentes en cada variable.
2. Eliminación de filas que se encuentren totalmente nulas.
3. Reemplazar y transformar los valores numéricos de las filas, dado que en la base de datos original hay códigos de respuestas categóricas; se asigna a cada código una versión textual más clara y resumida.
4. Eliminación de registros duplicados presentes en el conjunto de datos.

Usando el metodo **.info()** para identificar la cantidad de entradas y los tipos de variables al inicio del análisis.

In [6]:
df_habcalle.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10470 entries, 0 to 10469
Data columns (total 11 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   LOCALIDAD_DUERME            8729 non-null   object 
 1   SEXO_NACIMIENTO             8777 non-null   float64
 2   LUGAR_ORIGEN                8758 non-null   float64
 3   EDAD                        8759 non-null   object 
 4   GRUPO_ETNICO                8709 non-null   float64
 5   NIVEL_ESCOLARIDAD           8673 non-null   float64
 6   RAZON_VIVIR_CALLE           8645 non-null   float64
 7   RAZON_PERMANENCIA_CALLE     8646 non-null   float64
 8   EDAD_INICIO_CONSUMO         7745 non-null   float64
 9   SUSTANCIAS_PSICOACTIVAS     7313 non-null   float64
 10  VINCULACION_LABORAL_PREVIA  8582 non-null   float64
dtypes: float64(9), object(2)
memory usage: 899.9+ KB


### **3.1 Detección, conteo y porcentaje de valores nulos**

In [7]:
df_habcalle.isnull().sum()

Unnamed: 0,0
LOCALIDAD_DUERME,1741
SEXO_NACIMIENTO,1693
LUGAR_ORIGEN,1712
EDAD,1711
GRUPO_ETNICO,1761
NIVEL_ESCOLARIDAD,1797
RAZON_VIVIR_CALLE,1825
RAZON_PERMANENCIA_CALLE,1824
EDAD_INICIO_CONSUMO,2725
SUSTANCIAS_PSICOACTIVAS,3157


In [8]:
# Conteo de registros con nulos
df_nulos = df_habcalle[df_habcalle.isnull().any(axis=1)]

# Porcentaje de Nulos
print(f'El porcentaje de Nulos es: {round(100*(len(df_nulos)/len(df_habcalle)),3)}%')

El porcentaje de Nulos es: 31.853%


### **3.2 Eliminación de filas totalmente nulas.**

In [9]:
# Eliminación total de nulos
df_habcalle.dropna(inplace=True)
df_habcalle.shape

(7135, 11)

In [10]:
df_habcalle.isnull().sum()

Unnamed: 0,0
LOCALIDAD_DUERME,0
SEXO_NACIMIENTO,0
LUGAR_ORIGEN,0
EDAD,0
GRUPO_ETNICO,0
NIVEL_ESCOLARIDAD,0
RAZON_VIVIR_CALLE,0
RAZON_PERMANENCIA_CALLE,0
EDAD_INICIO_CONSUMO,0
SUSTANCIAS_PSICOACTIVAS,0


### **3.3 Reemplazo y casteo en los valores de las filas**

Empezamos a reemplazar los datos numéricos que corresponden a convenciones de los datos de cada columna.

In [11]:
# Se agrega el campo de Bogotá, Colombia para que la geolocalización sea más fácil de hallar en la columna 'LOCALIDAD_DUERME'

df_habcalle['LOCALIDAD_DUERME'] = df_habcalle['LOCALIDAD_DUERME'] + ', Bogotá, Colombia'

display(df_habcalle.head(50))


Unnamed: 0,LOCALIDAD_DUERME,SEXO_NACIMIENTO,LUGAR_ORIGEN,EDAD,GRUPO_ETNICO,NIVEL_ESCOLARIDAD,RAZON_VIVIR_CALLE,RAZON_PERMANENCIA_CALLE,EDAD_INICIO_CONSUMO,SUSTANCIAS_PSICOACTIVAS,VINCULACION_LABORAL_PREVIA
0,"Santa Fe, Bogotá, Colombia",2.0,1.0,60,6.0,3.0,1.0,1.0,30.0,3.0,2.0
1,"Santa Fe, Bogotá, Colombia",1.0,2.0,40,6.0,3.0,1.0,1.0,25.0,1.0,2.0
3,"Santa Fe, Bogotá, Colombia",1.0,1.0,35,6.0,6.0,2.0,1.0,6.0,3.0,1.0
4,"Santa Fe, Bogotá, Colombia",1.0,3.0,22,6.0,5.0,11.0,1.0,12.0,2.0,1.0
5,"Santa Fe, Bogotá, Colombia",1.0,2.0,40,6.0,7.0,5.0,1.0,18.0,2.0,1.0
6,"Santa Fe, Bogotá, Colombia",1.0,1.0,65,6.0,5.0,1.0,1.0,6.0,2.0,1.0
9,"Santa Fe, Bogotá, Colombia",1.0,1.0,42,6.0,4.0,1.0,1.0,9.0,2.0,1.0
10,"Santa Fe, Bogotá, Colombia",1.0,3.0,30,6.0,4.0,8.0,2.0,15.0,2.0,1.0
13,"Santa Fe, Bogotá, Colombia",1.0,1.0,51,6.0,5.0,3.0,1.0,12.0,1.0,1.0
15,"Santa Fe, Bogotá, Colombia",1.0,3.0,42,6.0,6.0,5.0,1.0,8.0,2.0,1.0


In [12]:
# Reemplazo de Datos en columna SEXO_NACIMIENTO:

'''
Columna SEXO_NACIMIENTO
  1. Borrando los valores nulos.
  2. Reemplazo de valores numericos por datos:
    1. Hombre
    2. Mujer
    3. Intersexual
'''

df_habcalle['SEXO_NACIMIENTO'] = df_habcalle['SEXO_NACIMIENTO'].astype('str')
df_habcalle['SEXO_NACIMIENTO'] = df_habcalle['SEXO_NACIMIENTO'].replace('1.0', 'Hombre')
df_habcalle['SEXO_NACIMIENTO'] = df_habcalle['SEXO_NACIMIENTO'].replace('2.0', 'Mujer')
df_habcalle['SEXO_NACIMIENTO'] = df_habcalle['SEXO_NACIMIENTO'].replace('3.0', 'Intersexual')

display(df_habcalle.head(10))

Unnamed: 0,LOCALIDAD_DUERME,SEXO_NACIMIENTO,LUGAR_ORIGEN,EDAD,GRUPO_ETNICO,NIVEL_ESCOLARIDAD,RAZON_VIVIR_CALLE,RAZON_PERMANENCIA_CALLE,EDAD_INICIO_CONSUMO,SUSTANCIAS_PSICOACTIVAS,VINCULACION_LABORAL_PREVIA
0,"Santa Fe, Bogotá, Colombia",Mujer,1.0,60,6.0,3.0,1.0,1.0,30.0,3.0,2.0
1,"Santa Fe, Bogotá, Colombia",Hombre,2.0,40,6.0,3.0,1.0,1.0,25.0,1.0,2.0
3,"Santa Fe, Bogotá, Colombia",Hombre,1.0,35,6.0,6.0,2.0,1.0,6.0,3.0,1.0
4,"Santa Fe, Bogotá, Colombia",Hombre,3.0,22,6.0,5.0,11.0,1.0,12.0,2.0,1.0
5,"Santa Fe, Bogotá, Colombia",Hombre,2.0,40,6.0,7.0,5.0,1.0,18.0,2.0,1.0
6,"Santa Fe, Bogotá, Colombia",Hombre,1.0,65,6.0,5.0,1.0,1.0,6.0,2.0,1.0
9,"Santa Fe, Bogotá, Colombia",Hombre,1.0,42,6.0,4.0,1.0,1.0,9.0,2.0,1.0
10,"Santa Fe, Bogotá, Colombia",Hombre,3.0,30,6.0,4.0,8.0,2.0,15.0,2.0,1.0
13,"Santa Fe, Bogotá, Colombia",Hombre,1.0,51,6.0,5.0,3.0,1.0,12.0,1.0,1.0
15,"Santa Fe, Bogotá, Colombia",Hombre,3.0,42,6.0,6.0,5.0,1.0,8.0,2.0,1.0


In [13]:
# Reemplazo de Datos en columna LUGAR_ORIGEN

'''
Columna LUGAR_ORIGEN
  1. Reemplazo de valores numericos por datos:
    1. Bogotá
    2. Otro municipio colombiano
    3. En otro país
'''

df_habcalle['LUGAR_ORIGEN'] = df_habcalle['LUGAR_ORIGEN'].astype('str')
df_habcalle['LUGAR_ORIGEN'] = df_habcalle['LUGAR_ORIGEN'].replace('1.0', 'Bogotá')
df_habcalle['LUGAR_ORIGEN'] = df_habcalle['LUGAR_ORIGEN'].replace('2.0', 'Otro municipio colombiano')
df_habcalle['LUGAR_ORIGEN'] = df_habcalle['LUGAR_ORIGEN'].replace('3.0', 'En otro país')

display(df_habcalle.head(15))

Unnamed: 0,LOCALIDAD_DUERME,SEXO_NACIMIENTO,LUGAR_ORIGEN,EDAD,GRUPO_ETNICO,NIVEL_ESCOLARIDAD,RAZON_VIVIR_CALLE,RAZON_PERMANENCIA_CALLE,EDAD_INICIO_CONSUMO,SUSTANCIAS_PSICOACTIVAS,VINCULACION_LABORAL_PREVIA
0,"Santa Fe, Bogotá, Colombia",Mujer,Bogotá,60,6.0,3.0,1.0,1.0,30.0,3.0,2.0
1,"Santa Fe, Bogotá, Colombia",Hombre,Otro municipio colombiano,40,6.0,3.0,1.0,1.0,25.0,1.0,2.0
3,"Santa Fe, Bogotá, Colombia",Hombre,Bogotá,35,6.0,6.0,2.0,1.0,6.0,3.0,1.0
4,"Santa Fe, Bogotá, Colombia",Hombre,En otro país,22,6.0,5.0,11.0,1.0,12.0,2.0,1.0
5,"Santa Fe, Bogotá, Colombia",Hombre,Otro municipio colombiano,40,6.0,7.0,5.0,1.0,18.0,2.0,1.0
6,"Santa Fe, Bogotá, Colombia",Hombre,Bogotá,65,6.0,5.0,1.0,1.0,6.0,2.0,1.0
9,"Santa Fe, Bogotá, Colombia",Hombre,Bogotá,42,6.0,4.0,1.0,1.0,9.0,2.0,1.0
10,"Santa Fe, Bogotá, Colombia",Hombre,En otro país,30,6.0,4.0,8.0,2.0,15.0,2.0,1.0
13,"Santa Fe, Bogotá, Colombia",Hombre,Bogotá,51,6.0,5.0,3.0,1.0,12.0,1.0,1.0
15,"Santa Fe, Bogotá, Colombia",Hombre,En otro país,42,6.0,6.0,5.0,1.0,8.0,2.0,1.0


In [14]:
# Reemplazo de Datos en columna GRUPO_ETNICO

'''
Columna GRUPO_ETNICO
  1. Reemplazo de valores numericos por datos:
    1. Indígena
    2. Gitano(a) o Rrom
    3. Raizal del Archipiélago de San Andrés, Providencia y Santa Catalina
    4. Palenquero(a) de San Basilio
    5. Negro(a), mulato(a), afrocolombiano(a), afrodescendiente
    6. Ninguno de los anteriores
'''

df_habcalle['GRUPO_ETNICO'] = df_habcalle['GRUPO_ETNICO'].astype('str')
df_habcalle['GRUPO_ETNICO'] = df_habcalle['GRUPO_ETNICO'].replace('1.0', 'Indígena')
df_habcalle['GRUPO_ETNICO'] = df_habcalle['GRUPO_ETNICO'].replace('2.0', 'Gitano(a) o Rrom')
df_habcalle['GRUPO_ETNICO'] = df_habcalle['GRUPO_ETNICO'].replace('3.0', 'Raizal del Archipiélago de San Andrés, Providencia y Santa Catalina')
df_habcalle['GRUPO_ETNICO'] = df_habcalle['GRUPO_ETNICO'].replace('4.0', 'Palenquero(a) de San Basilio')
df_habcalle['GRUPO_ETNICO'] = df_habcalle['GRUPO_ETNICO'].replace('5.0', 'Negro(a), mulato(a), afrocolombiano(a), afrodescendiente')
df_habcalle['GRUPO_ETNICO'] = df_habcalle['GRUPO_ETNICO'].replace('6.0', 'Ninguno de los anteriores')

display(df_habcalle.head(15))

Unnamed: 0,LOCALIDAD_DUERME,SEXO_NACIMIENTO,LUGAR_ORIGEN,EDAD,GRUPO_ETNICO,NIVEL_ESCOLARIDAD,RAZON_VIVIR_CALLE,RAZON_PERMANENCIA_CALLE,EDAD_INICIO_CONSUMO,SUSTANCIAS_PSICOACTIVAS,VINCULACION_LABORAL_PREVIA
0,"Santa Fe, Bogotá, Colombia",Mujer,Bogotá,60,Ninguno de los anteriores,3.0,1.0,1.0,30.0,3.0,2.0
1,"Santa Fe, Bogotá, Colombia",Hombre,Otro municipio colombiano,40,Ninguno de los anteriores,3.0,1.0,1.0,25.0,1.0,2.0
3,"Santa Fe, Bogotá, Colombia",Hombre,Bogotá,35,Ninguno de los anteriores,6.0,2.0,1.0,6.0,3.0,1.0
4,"Santa Fe, Bogotá, Colombia",Hombre,En otro país,22,Ninguno de los anteriores,5.0,11.0,1.0,12.0,2.0,1.0
5,"Santa Fe, Bogotá, Colombia",Hombre,Otro municipio colombiano,40,Ninguno de los anteriores,7.0,5.0,1.0,18.0,2.0,1.0
6,"Santa Fe, Bogotá, Colombia",Hombre,Bogotá,65,Ninguno de los anteriores,5.0,1.0,1.0,6.0,2.0,1.0
9,"Santa Fe, Bogotá, Colombia",Hombre,Bogotá,42,Ninguno de los anteriores,4.0,1.0,1.0,9.0,2.0,1.0
10,"Santa Fe, Bogotá, Colombia",Hombre,En otro país,30,Ninguno de los anteriores,4.0,8.0,2.0,15.0,2.0,1.0
13,"Santa Fe, Bogotá, Colombia",Hombre,Bogotá,51,Ninguno de los anteriores,5.0,3.0,1.0,12.0,1.0,1.0
15,"Santa Fe, Bogotá, Colombia",Hombre,En otro país,42,Ninguno de los anteriores,6.0,5.0,1.0,8.0,2.0,1.0


In [15]:
# Reemplazo de Datos en columna NIVEL_ESCOLARIDAD

'''
Columna NIVEL_ESCOLARIDAD
  1. Reemplazo de valores numericos por datos:
    1. Ninguno
    2. Preescolar
    3. Básica primaria (1° - 5°)
    4. Básica secundaria (6° - 9°)
    5. Media (10° - 13°)
    6. Técnico o tecnológico
    7. Universitario
    8. Postgrado
    9. No sabe / No responde
'''

df_habcalle['NIVEL_ESCOLARIDAD'] = df_habcalle['NIVEL_ESCOLARIDAD'].astype('str')
df_habcalle['NIVEL_ESCOLARIDAD'] = df_habcalle['NIVEL_ESCOLARIDAD'].replace('1.0', 'Ninguno')
df_habcalle['NIVEL_ESCOLARIDAD'] = df_habcalle['NIVEL_ESCOLARIDAD'].replace('2.0', 'Preescolar')
df_habcalle['NIVEL_ESCOLARIDAD'] = df_habcalle['NIVEL_ESCOLARIDAD'].replace('3.0', 'Básica primaria (1° - 5°)')
df_habcalle['NIVEL_ESCOLARIDAD'] = df_habcalle['NIVEL_ESCOLARIDAD'].replace('4.0', 'Básica secundaria (6° - 9°)')
df_habcalle['NIVEL_ESCOLARIDAD'] = df_habcalle['NIVEL_ESCOLARIDAD'].replace('5.0', 'Media (10° - 13°)')
df_habcalle['NIVEL_ESCOLARIDAD'] = df_habcalle['NIVEL_ESCOLARIDAD'].replace('6.0', 'Técnico o tecnológico')
df_habcalle['NIVEL_ESCOLARIDAD'] = df_habcalle['NIVEL_ESCOLARIDAD'].replace('7.0', 'Universitario')
df_habcalle['NIVEL_ESCOLARIDAD'] = df_habcalle['NIVEL_ESCOLARIDAD'].replace('8.0', 'Postgrado')
df_habcalle['NIVEL_ESCOLARIDAD'] = df_habcalle['NIVEL_ESCOLARIDAD'].replace('9.0', 'No sabe / No responde')

display(df_habcalle.head(15))

Unnamed: 0,LOCALIDAD_DUERME,SEXO_NACIMIENTO,LUGAR_ORIGEN,EDAD,GRUPO_ETNICO,NIVEL_ESCOLARIDAD,RAZON_VIVIR_CALLE,RAZON_PERMANENCIA_CALLE,EDAD_INICIO_CONSUMO,SUSTANCIAS_PSICOACTIVAS,VINCULACION_LABORAL_PREVIA
0,"Santa Fe, Bogotá, Colombia",Mujer,Bogotá,60,Ninguno de los anteriores,Básica primaria (1° - 5°),1.0,1.0,30.0,3.0,2.0
1,"Santa Fe, Bogotá, Colombia",Hombre,Otro municipio colombiano,40,Ninguno de los anteriores,Básica primaria (1° - 5°),1.0,1.0,25.0,1.0,2.0
3,"Santa Fe, Bogotá, Colombia",Hombre,Bogotá,35,Ninguno de los anteriores,Técnico o tecnológico,2.0,1.0,6.0,3.0,1.0
4,"Santa Fe, Bogotá, Colombia",Hombre,En otro país,22,Ninguno de los anteriores,Media (10° - 13°),11.0,1.0,12.0,2.0,1.0
5,"Santa Fe, Bogotá, Colombia",Hombre,Otro municipio colombiano,40,Ninguno de los anteriores,Universitario,5.0,1.0,18.0,2.0,1.0
6,"Santa Fe, Bogotá, Colombia",Hombre,Bogotá,65,Ninguno de los anteriores,Media (10° - 13°),1.0,1.0,6.0,2.0,1.0
9,"Santa Fe, Bogotá, Colombia",Hombre,Bogotá,42,Ninguno de los anteriores,Básica secundaria (6° - 9°),1.0,1.0,9.0,2.0,1.0
10,"Santa Fe, Bogotá, Colombia",Hombre,En otro país,30,Ninguno de los anteriores,Básica secundaria (6° - 9°),8.0,2.0,15.0,2.0,1.0
13,"Santa Fe, Bogotá, Colombia",Hombre,Bogotá,51,Ninguno de los anteriores,Media (10° - 13°),3.0,1.0,12.0,1.0,1.0
15,"Santa Fe, Bogotá, Colombia",Hombre,En otro país,42,Ninguno de los anteriores,Técnico o tecnológico,5.0,1.0,8.0,2.0,1.0


In [16]:
# Reemplazo de Datos en columna RAZON_VIVIR_CALLE

'''
Columna RAZON_VIVIR_CALLE
  1. Reemplazo de valores numericos por datos:
    1. Conflictos de convivencia o violencia con familiares o personas con las que vivía
    2. Un problema de salud físico o mental
    3. Pérdida de fuente de ingresos suya o de su hogar
    4. Egreso de una institución (de protección o penitenciaria)
    5. Consumo de sustancias psicoactivas
    6. Por discriminación
    7. Abuso sexual
    8. Por decisión propia
    9. Pérdida de redes de apoyo
    10. Amenaza o riesgo para su vida o integridad física
    11. Por ser víctima o desplazado del conflicto armado
    12. Otra
'''

df_habcalle['RAZON_VIVIR_CALLE'] = df_habcalle['RAZON_VIVIR_CALLE'].astype('str')
df_habcalle['RAZON_VIVIR_CALLE'] = df_habcalle['RAZON_VIVIR_CALLE'].replace('1.0', 'Conflictos de convivencia o violencia con familiares o personas con las que vivía')
df_habcalle['RAZON_VIVIR_CALLE'] = df_habcalle['RAZON_VIVIR_CALLE'].replace('2.0', 'Un problema de salud físico o mental')
df_habcalle['RAZON_VIVIR_CALLE'] = df_habcalle['RAZON_VIVIR_CALLE'].replace('3.0', 'Pérdida de fuente de ingresos suya o de su hogar')
df_habcalle['RAZON_VIVIR_CALLE'] = df_habcalle['RAZON_VIVIR_CALLE'].replace('4.0', 'Egreso de una institución (de protección o penitenciaria)')
df_habcalle['RAZON_VIVIR_CALLE'] = df_habcalle['RAZON_VIVIR_CALLE'].replace('5.0', 'Consumo de sustancias psicoactivas')
df_habcalle['RAZON_VIVIR_CALLE'] = df_habcalle['RAZON_VIVIR_CALLE'].replace('6.0', 'Por discriminación')
df_habcalle['RAZON_VIVIR_CALLE'] = df_habcalle['RAZON_VIVIR_CALLE'].replace('7.0', 'Abuso sexual')
df_habcalle['RAZON_VIVIR_CALLE'] = df_habcalle['RAZON_VIVIR_CALLE'].replace('8.0', 'Por decisión propia')
df_habcalle['RAZON_VIVIR_CALLE'] = df_habcalle['RAZON_VIVIR_CALLE'].replace('9.0', 'Pérdida de redes de apoyo')
df_habcalle['RAZON_VIVIR_CALLE'] = df_habcalle['RAZON_VIVIR_CALLE'].replace('10.0', 'Amenaza o riesgo para su vida o integridad física')
df_habcalle['RAZON_VIVIR_CALLE'] = df_habcalle['RAZON_VIVIR_CALLE'].replace('11.0', 'Por ser víctima o desplazado del conflicto armado')
df_habcalle['RAZON_VIVIR_CALLE'] = df_habcalle['RAZON_VIVIR_CALLE'].replace('12.0', 'Otra')

display(df_habcalle.head(15))

Unnamed: 0,LOCALIDAD_DUERME,SEXO_NACIMIENTO,LUGAR_ORIGEN,EDAD,GRUPO_ETNICO,NIVEL_ESCOLARIDAD,RAZON_VIVIR_CALLE,RAZON_PERMANENCIA_CALLE,EDAD_INICIO_CONSUMO,SUSTANCIAS_PSICOACTIVAS,VINCULACION_LABORAL_PREVIA
0,"Santa Fe, Bogotá, Colombia",Mujer,Bogotá,60,Ninguno de los anteriores,Básica primaria (1° - 5°),Conflictos de convivencia o violencia con fami...,1.0,30.0,3.0,2.0
1,"Santa Fe, Bogotá, Colombia",Hombre,Otro municipio colombiano,40,Ninguno de los anteriores,Básica primaria (1° - 5°),Conflictos de convivencia o violencia con fami...,1.0,25.0,1.0,2.0
3,"Santa Fe, Bogotá, Colombia",Hombre,Bogotá,35,Ninguno de los anteriores,Técnico o tecnológico,Un problema de salud físico o mental,1.0,6.0,3.0,1.0
4,"Santa Fe, Bogotá, Colombia",Hombre,En otro país,22,Ninguno de los anteriores,Media (10° - 13°),Por ser víctima o desplazado del conflicto armado,1.0,12.0,2.0,1.0
5,"Santa Fe, Bogotá, Colombia",Hombre,Otro municipio colombiano,40,Ninguno de los anteriores,Universitario,Consumo de sustancias psicoactivas,1.0,18.0,2.0,1.0
6,"Santa Fe, Bogotá, Colombia",Hombre,Bogotá,65,Ninguno de los anteriores,Media (10° - 13°),Conflictos de convivencia o violencia con fami...,1.0,6.0,2.0,1.0
9,"Santa Fe, Bogotá, Colombia",Hombre,Bogotá,42,Ninguno de los anteriores,Básica secundaria (6° - 9°),Conflictos de convivencia o violencia con fami...,1.0,9.0,2.0,1.0
10,"Santa Fe, Bogotá, Colombia",Hombre,En otro país,30,Ninguno de los anteriores,Básica secundaria (6° - 9°),Por decisión propia,2.0,15.0,2.0,1.0
13,"Santa Fe, Bogotá, Colombia",Hombre,Bogotá,51,Ninguno de los anteriores,Media (10° - 13°),Pérdida de fuente de ingresos suya o de su hogar,1.0,12.0,1.0,1.0
15,"Santa Fe, Bogotá, Colombia",Hombre,En otro país,42,Ninguno de los anteriores,Técnico o tecnológico,Consumo de sustancias psicoactivas,1.0,8.0,2.0,1.0


In [17]:
# Reemplazo de Datos en columna RAZON_PERMANENCIA_CALLE

'''
Columna RAZON_PERMANENCIA_CALLE
  1. Reemplazo de valores numericos por datos:
    1. Consumo de sustancias psicoactivas
    2. Por decisión propia
    3. Amenaza o riesgo para su vida o integridad física
    4. Influencia de otras personas
    5. Falta de trabajo
    6. Conflictos o dificultades familiares
    7. Abuso sexual
    8. Siempre ha sido persona habitante de calle
    9. Por ser víctima o desplazado del conflicto armado
    10. Por discriminación
    11. Ausencia de redes de apoyo adecuadas
    12. Otra
'''

df_habcalle['RAZON_PERMANENCIA_CALLE'] = df_habcalle['RAZON_PERMANENCIA_CALLE'].astype('str')
df_habcalle['RAZON_PERMANENCIA_CALLE'] = df_habcalle['RAZON_PERMANENCIA_CALLE'].replace('1.0', 'Consumo de sustancias psicoactivas')
df_habcalle['RAZON_PERMANENCIA_CALLE'] = df_habcalle['RAZON_PERMANENCIA_CALLE'].replace('2.0', 'Por decisión propia')
df_habcalle['RAZON_PERMANENCIA_CALLE'] = df_habcalle['RAZON_PERMANENCIA_CALLE'].replace('3.0', 'Amenaza o riesgo para su vida o integridad física')
df_habcalle['RAZON_PERMANENCIA_CALLE'] = df_habcalle['RAZON_PERMANENCIA_CALLE'].replace('4.0', 'Influencia de otras personas')
df_habcalle['RAZON_PERMANENCIA_CALLE'] = df_habcalle['RAZON_PERMANENCIA_CALLE'].replace('5.0', 'Falta de trabajo')
df_habcalle['RAZON_PERMANENCIA_CALLE'] = df_habcalle['RAZON_PERMANENCIA_CALLE'].replace('6.0', 'Conflictos o dificultades familiares')
df_habcalle['RAZON_PERMANENCIA_CALLE'] = df_habcalle['RAZON_PERMANENCIA_CALLE'].replace('7.0', 'Abuso sexual')
df_habcalle['RAZON_PERMANENCIA_CALLE'] = df_habcalle['RAZON_PERMANENCIA_CALLE'].replace('8.0', 'Siempre ha sido persona habitante de calle')
df_habcalle['RAZON_PERMANENCIA_CALLE'] = df_habcalle['RAZON_PERMANENCIA_CALLE'].replace('9.0', 'Por ser víctima o desplazado del conflicto armado')
df_habcalle['RAZON_PERMANENCIA_CALLE'] = df_habcalle['RAZON_PERMANENCIA_CALLE'].replace('10.0', 'Por discriminación')
df_habcalle['RAZON_PERMANENCIA_CALLE'] = df_habcalle['RAZON_PERMANENCIA_CALLE'].replace('11.0', 'Ausencia de redes de apoyo adecuadas')
df_habcalle['RAZON_PERMANENCIA_CALLE'] = df_habcalle['RAZON_PERMANENCIA_CALLE'].replace('12.0', 'Otra')

display(df_habcalle.head(15))

Unnamed: 0,LOCALIDAD_DUERME,SEXO_NACIMIENTO,LUGAR_ORIGEN,EDAD,GRUPO_ETNICO,NIVEL_ESCOLARIDAD,RAZON_VIVIR_CALLE,RAZON_PERMANENCIA_CALLE,EDAD_INICIO_CONSUMO,SUSTANCIAS_PSICOACTIVAS,VINCULACION_LABORAL_PREVIA
0,"Santa Fe, Bogotá, Colombia",Mujer,Bogotá,60,Ninguno de los anteriores,Básica primaria (1° - 5°),Conflictos de convivencia o violencia con fami...,Consumo de sustancias psicoactivas,30.0,3.0,2.0
1,"Santa Fe, Bogotá, Colombia",Hombre,Otro municipio colombiano,40,Ninguno de los anteriores,Básica primaria (1° - 5°),Conflictos de convivencia o violencia con fami...,Consumo de sustancias psicoactivas,25.0,1.0,2.0
3,"Santa Fe, Bogotá, Colombia",Hombre,Bogotá,35,Ninguno de los anteriores,Técnico o tecnológico,Un problema de salud físico o mental,Consumo de sustancias psicoactivas,6.0,3.0,1.0
4,"Santa Fe, Bogotá, Colombia",Hombre,En otro país,22,Ninguno de los anteriores,Media (10° - 13°),Por ser víctima o desplazado del conflicto armado,Consumo de sustancias psicoactivas,12.0,2.0,1.0
5,"Santa Fe, Bogotá, Colombia",Hombre,Otro municipio colombiano,40,Ninguno de los anteriores,Universitario,Consumo de sustancias psicoactivas,Consumo de sustancias psicoactivas,18.0,2.0,1.0
6,"Santa Fe, Bogotá, Colombia",Hombre,Bogotá,65,Ninguno de los anteriores,Media (10° - 13°),Conflictos de convivencia o violencia con fami...,Consumo de sustancias psicoactivas,6.0,2.0,1.0
9,"Santa Fe, Bogotá, Colombia",Hombre,Bogotá,42,Ninguno de los anteriores,Básica secundaria (6° - 9°),Conflictos de convivencia o violencia con fami...,Consumo de sustancias psicoactivas,9.0,2.0,1.0
10,"Santa Fe, Bogotá, Colombia",Hombre,En otro país,30,Ninguno de los anteriores,Básica secundaria (6° - 9°),Por decisión propia,Por decisión propia,15.0,2.0,1.0
13,"Santa Fe, Bogotá, Colombia",Hombre,Bogotá,51,Ninguno de los anteriores,Media (10° - 13°),Pérdida de fuente de ingresos suya o de su hogar,Consumo de sustancias psicoactivas,12.0,1.0,1.0
15,"Santa Fe, Bogotá, Colombia",Hombre,En otro país,42,Ninguno de los anteriores,Técnico o tecnológico,Consumo de sustancias psicoactivas,Consumo de sustancias psicoactivas,8.0,2.0,1.0


In [18]:
# Cambiando el formato de la columna EDAD_INICIO_CONSUMO de float a int (por temas de formato al visualizar)

df_habcalle['EDAD_INICIO_CONSUMO'] = df_habcalle['EDAD_INICIO_CONSUMO'].astype('int64')
display(df_habcalle.head(15))

Unnamed: 0,LOCALIDAD_DUERME,SEXO_NACIMIENTO,LUGAR_ORIGEN,EDAD,GRUPO_ETNICO,NIVEL_ESCOLARIDAD,RAZON_VIVIR_CALLE,RAZON_PERMANENCIA_CALLE,EDAD_INICIO_CONSUMO,SUSTANCIAS_PSICOACTIVAS,VINCULACION_LABORAL_PREVIA
0,"Santa Fe, Bogotá, Colombia",Mujer,Bogotá,60,Ninguno de los anteriores,Básica primaria (1° - 5°),Conflictos de convivencia o violencia con fami...,Consumo de sustancias psicoactivas,30,3.0,2.0
1,"Santa Fe, Bogotá, Colombia",Hombre,Otro municipio colombiano,40,Ninguno de los anteriores,Básica primaria (1° - 5°),Conflictos de convivencia o violencia con fami...,Consumo de sustancias psicoactivas,25,1.0,2.0
3,"Santa Fe, Bogotá, Colombia",Hombre,Bogotá,35,Ninguno de los anteriores,Técnico o tecnológico,Un problema de salud físico o mental,Consumo de sustancias psicoactivas,6,3.0,1.0
4,"Santa Fe, Bogotá, Colombia",Hombre,En otro país,22,Ninguno de los anteriores,Media (10° - 13°),Por ser víctima o desplazado del conflicto armado,Consumo de sustancias psicoactivas,12,2.0,1.0
5,"Santa Fe, Bogotá, Colombia",Hombre,Otro municipio colombiano,40,Ninguno de los anteriores,Universitario,Consumo de sustancias psicoactivas,Consumo de sustancias psicoactivas,18,2.0,1.0
6,"Santa Fe, Bogotá, Colombia",Hombre,Bogotá,65,Ninguno de los anteriores,Media (10° - 13°),Conflictos de convivencia o violencia con fami...,Consumo de sustancias psicoactivas,6,2.0,1.0
9,"Santa Fe, Bogotá, Colombia",Hombre,Bogotá,42,Ninguno de los anteriores,Básica secundaria (6° - 9°),Conflictos de convivencia o violencia con fami...,Consumo de sustancias psicoactivas,9,2.0,1.0
10,"Santa Fe, Bogotá, Colombia",Hombre,En otro país,30,Ninguno de los anteriores,Básica secundaria (6° - 9°),Por decisión propia,Por decisión propia,15,2.0,1.0
13,"Santa Fe, Bogotá, Colombia",Hombre,Bogotá,51,Ninguno de los anteriores,Media (10° - 13°),Pérdida de fuente de ingresos suya o de su hogar,Consumo de sustancias psicoactivas,12,1.0,1.0
15,"Santa Fe, Bogotá, Colombia",Hombre,En otro país,42,Ninguno de los anteriores,Técnico o tecnológico,Consumo de sustancias psicoactivas,Consumo de sustancias psicoactivas,8,2.0,1.0


In [19]:
# Reemplazo de Datos en columna SUSTANCIAS_PSICOACTIVAS

'''
Columna SUSTANCIAS_PSICOACTIVAS
  1. Reemplazo de valores numericos por datos:
    1. Cigarrillo
    2. Basuco
    3. Marihuana
    4. Alcohol (bebidas alcohólicas, chamber, etílico)
    5. Inhalantes (Sacol, pegante, Bóxer, gasolina, tíner, etc.)
    6. Pepas
    7. Cocaína
    8. Heroína
    9. Otras (maduro, pistolo,Tusi, otros tipos de mezclas)
'''

df_habcalle['SUSTANCIAS_PSICOACTIVAS'] = df_habcalle['SUSTANCIAS_PSICOACTIVAS'].astype('str')
df_habcalle['SUSTANCIAS_PSICOACTIVAS'] = df_habcalle['SUSTANCIAS_PSICOACTIVAS'].replace('1.0', 'Cigarrillo')
df_habcalle['SUSTANCIAS_PSICOACTIVAS'] = df_habcalle['SUSTANCIAS_PSICOACTIVAS'].replace('2.0', 'Basuco')
df_habcalle['SUSTANCIAS_PSICOACTIVAS'] = df_habcalle['SUSTANCIAS_PSICOACTIVAS'].replace('3.0', 'Marihuana')
df_habcalle['SUSTANCIAS_PSICOACTIVAS'] = df_habcalle['SUSTANCIAS_PSICOACTIVAS'].replace('4.0', 'Alcohol (bebidas alcohólicas, chamber, etílico)')
df_habcalle['SUSTANCIAS_PSICOACTIVAS'] = df_habcalle['SUSTANCIAS_PSICOACTIVAS'].replace('5.0', 'Inhalantes (Sacol, pegante, Bóxer, gasolina, tíner, etc.)')
df_habcalle['SUSTANCIAS_PSICOACTIVAS'] = df_habcalle['SUSTANCIAS_PSICOACTIVAS'].replace('6.0', 'Pepas')
df_habcalle['SUSTANCIAS_PSICOACTIVAS'] = df_habcalle['SUSTANCIAS_PSICOACTIVAS'].replace('7.0', 'Cocaína')
df_habcalle['SUSTANCIAS_PSICOACTIVAS'] = df_habcalle['SUSTANCIAS_PSICOACTIVAS'].replace('8.0', 'Heroína')
df_habcalle['SUSTANCIAS_PSICOACTIVAS'] = df_habcalle['SUSTANCIAS_PSICOACTIVAS'].replace('9.0', 'Otras (maduro, pistolo,Tusi, otros tipos de mezclas)')

display(df_habcalle.head(15))

Unnamed: 0,LOCALIDAD_DUERME,SEXO_NACIMIENTO,LUGAR_ORIGEN,EDAD,GRUPO_ETNICO,NIVEL_ESCOLARIDAD,RAZON_VIVIR_CALLE,RAZON_PERMANENCIA_CALLE,EDAD_INICIO_CONSUMO,SUSTANCIAS_PSICOACTIVAS,VINCULACION_LABORAL_PREVIA
0,"Santa Fe, Bogotá, Colombia",Mujer,Bogotá,60,Ninguno de los anteriores,Básica primaria (1° - 5°),Conflictos de convivencia o violencia con fami...,Consumo de sustancias psicoactivas,30,Marihuana,2.0
1,"Santa Fe, Bogotá, Colombia",Hombre,Otro municipio colombiano,40,Ninguno de los anteriores,Básica primaria (1° - 5°),Conflictos de convivencia o violencia con fami...,Consumo de sustancias psicoactivas,25,Cigarrillo,2.0
3,"Santa Fe, Bogotá, Colombia",Hombre,Bogotá,35,Ninguno de los anteriores,Técnico o tecnológico,Un problema de salud físico o mental,Consumo de sustancias psicoactivas,6,Marihuana,1.0
4,"Santa Fe, Bogotá, Colombia",Hombre,En otro país,22,Ninguno de los anteriores,Media (10° - 13°),Por ser víctima o desplazado del conflicto armado,Consumo de sustancias psicoactivas,12,Basuco,1.0
5,"Santa Fe, Bogotá, Colombia",Hombre,Otro municipio colombiano,40,Ninguno de los anteriores,Universitario,Consumo de sustancias psicoactivas,Consumo de sustancias psicoactivas,18,Basuco,1.0
6,"Santa Fe, Bogotá, Colombia",Hombre,Bogotá,65,Ninguno de los anteriores,Media (10° - 13°),Conflictos de convivencia o violencia con fami...,Consumo de sustancias psicoactivas,6,Basuco,1.0
9,"Santa Fe, Bogotá, Colombia",Hombre,Bogotá,42,Ninguno de los anteriores,Básica secundaria (6° - 9°),Conflictos de convivencia o violencia con fami...,Consumo de sustancias psicoactivas,9,Basuco,1.0
10,"Santa Fe, Bogotá, Colombia",Hombre,En otro país,30,Ninguno de los anteriores,Básica secundaria (6° - 9°),Por decisión propia,Por decisión propia,15,Basuco,1.0
13,"Santa Fe, Bogotá, Colombia",Hombre,Bogotá,51,Ninguno de los anteriores,Media (10° - 13°),Pérdida de fuente de ingresos suya o de su hogar,Consumo de sustancias psicoactivas,12,Cigarrillo,1.0
15,"Santa Fe, Bogotá, Colombia",Hombre,En otro país,42,Ninguno de los anteriores,Técnico o tecnológico,Consumo de sustancias psicoactivas,Consumo de sustancias psicoactivas,8,Basuco,1.0


In [20]:
# Reemplazo de Datos columna VINCULACION_LABORAL_PREVIA

'''
Columna VINCULACION_LABORAL_PREVIA
  1. Reemplazo de valores numericos por datos:
    1. Sí
    2. No
'''

df_habcalle['VINCULACION_LABORAL_PREVIA'] = df_habcalle['VINCULACION_LABORAL_PREVIA'].astype('str')
df_habcalle['VINCULACION_LABORAL_PREVIA'] = df_habcalle['VINCULACION_LABORAL_PREVIA'].replace('1.0', 'Sí')
df_habcalle['VINCULACION_LABORAL_PREVIA'] = df_habcalle['VINCULACION_LABORAL_PREVIA'].replace('2.0', 'No')

display(df_habcalle.head(10))

Unnamed: 0,LOCALIDAD_DUERME,SEXO_NACIMIENTO,LUGAR_ORIGEN,EDAD,GRUPO_ETNICO,NIVEL_ESCOLARIDAD,RAZON_VIVIR_CALLE,RAZON_PERMANENCIA_CALLE,EDAD_INICIO_CONSUMO,SUSTANCIAS_PSICOACTIVAS,VINCULACION_LABORAL_PREVIA
0,"Santa Fe, Bogotá, Colombia",Mujer,Bogotá,60,Ninguno de los anteriores,Básica primaria (1° - 5°),Conflictos de convivencia o violencia con fami...,Consumo de sustancias psicoactivas,30,Marihuana,No
1,"Santa Fe, Bogotá, Colombia",Hombre,Otro municipio colombiano,40,Ninguno de los anteriores,Básica primaria (1° - 5°),Conflictos de convivencia o violencia con fami...,Consumo de sustancias psicoactivas,25,Cigarrillo,No
3,"Santa Fe, Bogotá, Colombia",Hombre,Bogotá,35,Ninguno de los anteriores,Técnico o tecnológico,Un problema de salud físico o mental,Consumo de sustancias psicoactivas,6,Marihuana,Sí
4,"Santa Fe, Bogotá, Colombia",Hombre,En otro país,22,Ninguno de los anteriores,Media (10° - 13°),Por ser víctima o desplazado del conflicto armado,Consumo de sustancias psicoactivas,12,Basuco,Sí
5,"Santa Fe, Bogotá, Colombia",Hombre,Otro municipio colombiano,40,Ninguno de los anteriores,Universitario,Consumo de sustancias psicoactivas,Consumo de sustancias psicoactivas,18,Basuco,Sí
6,"Santa Fe, Bogotá, Colombia",Hombre,Bogotá,65,Ninguno de los anteriores,Media (10° - 13°),Conflictos de convivencia o violencia con fami...,Consumo de sustancias psicoactivas,6,Basuco,Sí
9,"Santa Fe, Bogotá, Colombia",Hombre,Bogotá,42,Ninguno de los anteriores,Básica secundaria (6° - 9°),Conflictos de convivencia o violencia con fami...,Consumo de sustancias psicoactivas,9,Basuco,Sí
10,"Santa Fe, Bogotá, Colombia",Hombre,En otro país,30,Ninguno de los anteriores,Básica secundaria (6° - 9°),Por decisión propia,Por decisión propia,15,Basuco,Sí
13,"Santa Fe, Bogotá, Colombia",Hombre,Bogotá,51,Ninguno de los anteriores,Media (10° - 13°),Pérdida de fuente de ingresos suya o de su hogar,Consumo de sustancias psicoactivas,12,Cigarrillo,Sí
15,"Santa Fe, Bogotá, Colombia",Hombre,En otro país,42,Ninguno de los anteriores,Técnico o tecnológico,Consumo de sustancias psicoactivas,Consumo de sustancias psicoactivas,8,Basuco,Sí


In [21]:
df_habcalle.info()

<class 'pandas.core.frame.DataFrame'>
Index: 7135 entries, 0 to 10469
Data columns (total 11 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   LOCALIDAD_DUERME            7135 non-null   object
 1   SEXO_NACIMIENTO             7135 non-null   object
 2   LUGAR_ORIGEN                7135 non-null   object
 3   EDAD                        7135 non-null   object
 4   GRUPO_ETNICO                7135 non-null   object
 5   NIVEL_ESCOLARIDAD           7135 non-null   object
 6   RAZON_VIVIR_CALLE           7135 non-null   object
 7   RAZON_PERMANENCIA_CALLE     7135 non-null   object
 8   EDAD_INICIO_CONSUMO         7135 non-null   int64 
 9   SUSTANCIAS_PSICOACTIVAS     7135 non-null   object
 10  VINCULACION_LABORAL_PREVIA  7135 non-null   object
dtypes: int64(1), object(10)
memory usage: 668.9+ KB


### **3.4 Eliminación de duplicados**

Depuracion de conjunto de datos mediante la **eliminación** de los registros duplicados

In [22]:
print(f'Tamaño antes: {df_habcalle.shape[0]}')
df_habcalle.drop_duplicates(inplace=True)
print(f'Tamaño después: {df_habcalle.shape[0]}')

Tamaño antes: 7135
Tamaño después: 7117


## **4. Exportación**

In [23]:
ruta = '/content/Drive_LAOV/MyDrive/Proyecto Final/Base de datos habitantes de calle limpia.csv'
df_habcalle.to_csv(ruta, index=False)