In [3]:
# ==========================================
# PROYECTO FINAL - ANALISTA DE DATOS
# PRESUNTOS SUICIDIOS EN COLOMBIA (2020–2025)
# ==========================================

import pandas as pd  # 📦 Importamos Pandas

# 1️⃣ Cargar el archivo CSV completo
df_presuntos = pd.read_csv(  # Leemos el archivo CSV
    r"E:\TalentoTech_Analista_de_Datos\Ds_a_Importar\Presuntos_Suicidios._Colombia,_2015_a_2024._Cifras_definitivas_20251003.csv"
)

# 2️⃣ Filtrar solo los años desde 2020 hasta 2025
df_presuntos = df_presuntos[df_presuntos["Año del hecho"] >= 2020]  # Filtramos los años 2020 en adelante

# 3️⃣ Reiniciar el ID para que empiece desde 1
df_presuntos["ID"] = range(1, len(df_presuntos) + 1)  # Reasignamos la columna ID con valores 1...n

# 4️⃣ Establecer la columna ID como índice
df_presuntos.set_index("ID", inplace=True)  # Usamos la columna ID como índice del DataFrame

# 5️⃣ Verificar resultado
print("Cantidad de filas y columnas:", df_presuntos.shape)  # Muestra dimensiones del DataFrame
print("Años incluidos en el DataFrame:")  # Mensaje informativo
print(df_presuntos["Año del hecho"].unique())  # Confirma los años filtrados

# 6️⃣ Mostrar las primeras filas
df_presuntos.head()  # Visualiza las primeras 5 filas



Cantidad de filas y columnas: (14270, 31)
Años incluidos en el DataFrame:
[2020 2021 2022 2023 2024]


Unnamed: 0_level_0,Año del hecho,Grupo de Edad Quinquenal,Grupo Mayor Menor de Edad,Grupo de Edad judicial,Ciclo Vital,Sexo de la victima,Estado Civil,País de Nacimiento,Escolaridad,Pertenencia Grupal,...,Manera de Muerte,Mecanismo Causal de la Lesión Fatal,Diagnostico Topográfico de la Lesión Fatal,Razón del Suicidio,Localidad del Hecho,Ancestro Racial,Pueblo Indígena,Orientación Sexual,Identidad de Género,Transgénero
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,2020,(30 a 34),b) Mayores de Edad (>18 años),(29 a 34),(29 a 59) Adultez,Mujer,Unión libre,Colombia,Educación media o secundaria alta,Ninguno,...,2 Suicidios,Generadores de asfixia,Trauma de cuello,Conflicto con pareja o ex-pareja,Suba,Mestizo,No aplica,No había sido implementada,No había sido implementada,No había sido implementada
2,2020,(18 a 19),b) Mayores de Edad (>18 años),(18 a 19),(18 a 28) Juventud,Hombre,Soltero(a),Colombia,Educación técnica profesional y tecnológica,Ninguno,...,2 Suicidios,Tóxico,Sin lesiones,Enfermedad física o mental,San Cristobal,Mestizo,No aplica,No había sido implementada,No había sido implementada,No había sido implementada
3,2020,(20 a 24),b) Mayores de Edad (>18 años),(20 a 24),(18 a 28) Juventud,Hombre,Soltero(a),Colombia,Educación básica primaria,Ninguno,...,2 Suicidios,Generadores de asfixia,Trauma de cuello,Enfermedad física o mental,Ciudad Bolivar,Mestizo,No aplica,No había sido implementada,No había sido implementada,No había sido implementada
4,2020,(25 a 29),b) Mayores de Edad (>18 años),(25 a 28),(18 a 28) Juventud,Hombre,"Separado(a), divorciado(a)",Colombia,Sin información,Ninguno,...,2 Suicidios,Generadores de asfixia,Trauma de cuello,Conflicto con pareja o ex-pareja,Suba,Mestizo,No aplica,No había sido implementada,No había sido implementada,No había sido implementada
5,2020,(18 a 19),b) Mayores de Edad (>18 años),(18 a 19),(18 a 28) Juventud,Hombre,Soltero(a),Colombia,Educación media o secundaria alta,Ninguno,...,2 Suicidios,Tóxico,Sin lesiones,Enfermedad física o mental,Fontibon,Mestizo,No aplica,No había sido implementada,No había sido implementada,No había sido implementada


In [4]:
df_presuntos.info()

<class 'pandas.core.frame.DataFrame'>
Index: 14270 entries, 1 to 14270
Data columns (total 31 columns):
 #   Column                                      Non-Null Count  Dtype 
---  ------                                      --------------  ----- 
 0   Año del hecho                               14270 non-null  int64 
 1   Grupo de Edad Quinquenal                    14270 non-null  object
 2   Grupo Mayor Menor de Edad                   14270 non-null  object
 3   Grupo de Edad judicial                      14270 non-null  object
 4   Ciclo Vital                                 14270 non-null  object
 5   Sexo de la victima                          14270 non-null  object
 6   Estado Civil                                14270 non-null  object
 7   País de Nacimiento                          14270 non-null  object
 8   Escolaridad                                 14270 non-null  object
 9   Pertenencia Grupal                          14270 non-null  object
 10  Pertenencia Étnica         

In [5]:
# Nombres de las columnas
print(df_presuntos.columns.tolist())

# Ver las primeras 10 filas
df_presuntos.head(10)

['Año del hecho', 'Grupo de Edad Quinquenal ', 'Grupo Mayor Menor de Edad', 'Grupo de Edad judicial', 'Ciclo Vital', 'Sexo de la victima', 'Estado Civil', 'País de Nacimiento', 'Escolaridad', 'Pertenencia Grupal', 'Pertenencia Étnica', 'Mes del hecho', 'Dia del hecho', 'Rango de Hora del Hecho X 3 Horas', 'Código Dane Municipio', 'Municipio del hecho DANE', 'Departamento del hecho DANE', 'Código Dane Departamento', 'Escenario del Hecho', 'Zona del Hecho', 'Circunstancia del Hecho Detallada', 'Manera de Muerte', 'Mecanismo Causal de la Lesión Fatal', 'Diagnostico Topográfico de la Lesión Fatal', 'Razón del Suicidio', 'Localidad del Hecho', 'Ancestro Racial', 'Pueblo Indígena', 'Orientación Sexual', 'Identidad de Género', 'Transgénero']


Unnamed: 0_level_0,Año del hecho,Grupo de Edad Quinquenal,Grupo Mayor Menor de Edad,Grupo de Edad judicial,Ciclo Vital,Sexo de la victima,Estado Civil,País de Nacimiento,Escolaridad,Pertenencia Grupal,...,Manera de Muerte,Mecanismo Causal de la Lesión Fatal,Diagnostico Topográfico de la Lesión Fatal,Razón del Suicidio,Localidad del Hecho,Ancestro Racial,Pueblo Indígena,Orientación Sexual,Identidad de Género,Transgénero
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,2020,(30 a 34),b) Mayores de Edad (>18 años),(29 a 34),(29 a 59) Adultez,Mujer,Unión libre,Colombia,Educación media o secundaria alta,Ninguno,...,2 Suicidios,Generadores de asfixia,Trauma de cuello,Conflicto con pareja o ex-pareja,Suba,Mestizo,No aplica,No había sido implementada,No había sido implementada,No había sido implementada
2,2020,(18 a 19),b) Mayores de Edad (>18 años),(18 a 19),(18 a 28) Juventud,Hombre,Soltero(a),Colombia,Educación técnica profesional y tecnológica,Ninguno,...,2 Suicidios,Tóxico,Sin lesiones,Enfermedad física o mental,San Cristobal,Mestizo,No aplica,No había sido implementada,No había sido implementada,No había sido implementada
3,2020,(20 a 24),b) Mayores de Edad (>18 años),(20 a 24),(18 a 28) Juventud,Hombre,Soltero(a),Colombia,Educación básica primaria,Ninguno,...,2 Suicidios,Generadores de asfixia,Trauma de cuello,Enfermedad física o mental,Ciudad Bolivar,Mestizo,No aplica,No había sido implementada,No había sido implementada,No había sido implementada
4,2020,(25 a 29),b) Mayores de Edad (>18 años),(25 a 28),(18 a 28) Juventud,Hombre,"Separado(a), divorciado(a)",Colombia,Sin información,Ninguno,...,2 Suicidios,Generadores de asfixia,Trauma de cuello,Conflicto con pareja o ex-pareja,Suba,Mestizo,No aplica,No había sido implementada,No había sido implementada,No había sido implementada
5,2020,(18 a 19),b) Mayores de Edad (>18 años),(18 a 19),(18 a 28) Juventud,Hombre,Soltero(a),Colombia,Educación media o secundaria alta,Ninguno,...,2 Suicidios,Tóxico,Sin lesiones,Enfermedad física o mental,Fontibon,Mestizo,No aplica,No había sido implementada,No había sido implementada,No había sido implementada
6,2020,(55 a 59),b) Mayores de Edad (>18 años),(55 a 59),(29 a 59) Adultez,Hombre,Soltero(a),Colombia,Educación básica primaria,Ninguno,...,2 Suicidios,Generadores de asfixia,Trauma de cuello,Sin información,San Cristobal,Mestizo,No aplica,No había sido implementada,No había sido implementada,No había sido implementada
7,2020,(30 a 34),b) Mayores de Edad (>18 años),(29 a 34),(29 a 59) Adultez,Hombre,Soltero(a),Colombia,Educación media o secundaria alta,Sin información,...,2 Suicidios,Proyectil de arma de fuego,Trauma de Tórax,Conflicto con pareja o ex-pareja,Bosa,Mestizo,No aplica,No había sido implementada,No había sido implementada,No había sido implementada
8,2020,(15 a 17),a) Menores de Edad (<18 años),(14 a 17),(12 a 17) Adolescencia,Mujer,Soltero(a),Colombia,Educación media o secundaria alta,Otro,...,2 Suicidios,Tóxico,Sin lesiones,Enfermedad física o mental,Usaquen,Mestizo,No aplica,No había sido implementada,No había sido implementada,No había sido implementada
9,2020,(35 a 39),b) Mayores de Edad (>18 años),(35 a 39),(29 a 59) Adultez,Hombre,Unión libre,Colombia,Educación media o secundaria alta,Otro,...,2 Suicidios,Generadores de asfixia,Trauma de cuello,Conflicto con pareja o ex-pareja,Bosa,Mestizo,No aplica,No había sido implementada,No había sido implementada,No había sido implementada
10,2020,(70 a 74),b) Mayores de Edad (>18 años),(70 a 74),(Más de 60) Adulto Mayor,Hombre,Soltero(a),Colombia,Educación básica primaria,Ninguno,...,2 Suicidios,Generadores de asfixia,Por determinar,Enfermedad física o mental,Bosa,Sin Información,No aplica,No había sido implementada,No había sido implementada,No había sido implementada


In [6]:
df_presuntos.columns  #Muestra los nombres de Columna

Index(['Año del hecho', 'Grupo de Edad Quinquenal ',
       'Grupo Mayor Menor de Edad', 'Grupo de Edad judicial', 'Ciclo Vital',
       'Sexo de la victima', 'Estado Civil', 'País de Nacimiento',
       'Escolaridad', 'Pertenencia Grupal', 'Pertenencia Étnica',
       'Mes del hecho', 'Dia del hecho', 'Rango de Hora del Hecho X 3 Horas',
       'Código Dane Municipio', 'Municipio del hecho DANE',
       'Departamento del hecho DANE', 'Código Dane Departamento',
       'Escenario del Hecho', 'Zona del Hecho',
       'Circunstancia del Hecho Detallada', 'Manera de Muerte',
       'Mecanismo Causal de la Lesión Fatal',
       'Diagnostico Topográfico de la Lesión Fatal', 'Razón del Suicidio',
       'Localidad del Hecho', 'Ancestro Racial', 'Pueblo Indígena',
       'Orientación Sexual', 'Identidad de Género', 'Transgénero'],
      dtype='object')

In [7]:
# Conteo de valores nulos
df_presuntos.isnull().sum()


Año del hecho                                 0
Grupo de Edad Quinquenal                      0
Grupo Mayor Menor de Edad                     0
Grupo de Edad judicial                        0
Ciclo Vital                                   0
Sexo de la victima                            0
Estado Civil                                  0
País de Nacimiento                            0
Escolaridad                                   0
Pertenencia Grupal                            0
Pertenencia Étnica                            0
Mes del hecho                                 0
Dia del hecho                                 0
Rango de Hora del Hecho X 3 Horas             0
Código Dane Municipio                         0
Municipio del hecho DANE                      0
Departamento del hecho DANE                   0
Código Dane Departamento                      0
Escenario del Hecho                           0
Zona del Hecho                                0
Circunstancia del Hecho Detallada       

In [8]:
df_presuntos.info()

<class 'pandas.core.frame.DataFrame'>
Index: 14270 entries, 1 to 14270
Data columns (total 31 columns):
 #   Column                                      Non-Null Count  Dtype 
---  ------                                      --------------  ----- 
 0   Año del hecho                               14270 non-null  int64 
 1   Grupo de Edad Quinquenal                    14270 non-null  object
 2   Grupo Mayor Menor de Edad                   14270 non-null  object
 3   Grupo de Edad judicial                      14270 non-null  object
 4   Ciclo Vital                                 14270 non-null  object
 5   Sexo de la victima                          14270 non-null  object
 6   Estado Civil                                14270 non-null  object
 7   País de Nacimiento                          14270 non-null  object
 8   Escolaridad                                 14270 non-null  object
 9   Pertenencia Grupal                          14270 non-null  object
 10  Pertenencia Étnica         

In [9]:
# Conteo de valores nulos y su porcentaje
faltantes = df_presuntos.isnull().sum().sort_values(ascending=False)
porcentaje = (faltantes / len(df_presuntos) * 100).round(2)

# Unir en una sola tabla ordenada
faltantes_df = pd.DataFrame({'Valores Nulos': faltantes, '% del Total': porcentaje})
print(faltantes_df)


                                            Valores Nulos  % del Total
Año del hecho                                           0          0.0
Grupo de Edad Quinquenal                                0          0.0
Grupo Mayor Menor de Edad                               0          0.0
Grupo de Edad judicial                                  0          0.0
Ciclo Vital                                             0          0.0
Sexo de la victima                                      0          0.0
Estado Civil                                            0          0.0
País de Nacimiento                                      0          0.0
Escolaridad                                             0          0.0
Pertenencia Grupal                                      0          0.0
Pertenencia Étnica                                      0          0.0
Mes del hecho                                           0          0.0
Dia del hecho                                           0          0.0
Rango 

In [10]:
# Verificar cuántas veces aparece "Sin información" en todo el DataFrame
conteo_sin_info = (df_presuntos == "Sin información").sum().sum()
print("Total de celdas con 'Sin información':", conteo_sin_info)

sin_info_por_columna = (df_presuntos == "Sin información").sum()
sin_info_por_columna = sin_info_por_columna[sin_info_por_columna > 0]
print(sin_info_por_columna)

Total de celdas con 'Sin información': 37180
Estado Civil                          1401
País de Nacimiento                      13
Escolaridad                           1886
Pertenencia Grupal                    1626
Pertenencia Étnica                    1263
Rango de Hora del Hecho X 3 Horas    10726
Municipio del hecho DANE                 3
Departamento del hecho DANE              3
Escenario del Hecho                    317
Zona del Hecho                          93
Razón del Suicidio                    7455
Localidad del Hecho                  12394
dtype: int64


In [11]:
import numpy as np

df_presuntos.replace("Sin información", np.nan, inplace=True)

df_presuntos.isna().sum().sort_values(ascending=False).head(12)

Localidad del Hecho                  12394
Rango de Hora del Hecho X 3 Horas    10726
Razón del Suicidio                    7455
Escolaridad                           1886
Pertenencia Grupal                    1626
Estado Civil                          1401
Pertenencia Étnica                    1263
Escenario del Hecho                    317
Zona del Hecho                          93
País de Nacimiento                      13
Departamento del hecho DANE              3
Municipio del hecho DANE                 3
dtype: int64

In [12]:
# Calcular cantidad y porcentaje de nulos
faltantes = df_presuntos.isna().sum()
porcentaje = (faltantes / len(df_presuntos) * 100).round(2)

# Unir en una sola tabla
faltantes_df = pd.DataFrame({
    'Valores Nulos': faltantes,
    '% del Total': porcentaje.astype(str) + '%'
})

# Ordenar de mayor a menor
faltantes_df = faltantes_df.sort_values(by='Valores Nulos', ascending=False)

# Mostrar
print(faltantes_df)

""""| Nivel    | Rango (%) | Ejemplo en tu dataset                                                                                    | Recomendación                                                              |
| -------- | --------- | -------------------------------------------------------------------------------------------------------- | -------------------------------------------------------------------------- |
| 🔴 Alto  | +60 %     | `Localidad del Hecho` (86.8%), `Rango de Hora del Hecho X 3 Horas` (75.1%), `Razón del Suicidio` (52.2%) | **Eliminar o mantener solo para referencia**; están demasiado incompletas. |
| 🟡 Medio | 8–20 %    | `Escolaridad`, `Pertenencia Grupal`, `Pertenencia Étnica`, `Estado Civil`                                | **Mantener**, pero tener presente que no están completas.                  |
| 🟢 Bajo  | <5 %      | `Escenario del Hecho`, `Zona del Hecho`, `País de Nacimiento`, etc.                                      | **Mantener sin problema**.                                                 |
| 🟢 Cero  | 0 %       | `Año del hecho`, `Sexo de la víctima`, `Departamento del hecho DANE`, etc.                               | **Completas y confiables**.                                                |
"""

                                            Valores Nulos % del Total
Localidad del Hecho                                 12394      86.85%
Rango de Hora del Hecho X 3 Horas                   10726      75.16%
Razón del Suicidio                                   7455      52.24%
Escolaridad                                          1886      13.22%
Pertenencia Grupal                                   1626      11.39%
Estado Civil                                         1401       9.82%
Pertenencia Étnica                                   1263       8.85%
Escenario del Hecho                                   317       2.22%
Zona del Hecho                                         93       0.65%
País de Nacimiento                                     13       0.09%
Departamento del hecho DANE                             3       0.02%
Municipio del hecho DANE                                3       0.02%
Ciclo Vital                                             0        0.0%
Sexo de la victima  

'"| Nivel    | Rango (%) | Ejemplo en tu dataset                                                                                    | Recomendación                                                              |\n| -------- | --------- | -------------------------------------------------------------------------------------------------------- | -------------------------------------------------------------------------- |\n| 🔴 Alto  | +60 %     | `Localidad del Hecho` (86.8%), `Rango de Hora del Hecho X 3 Horas` (75.1%), `Razón del Suicidio` (52.2%) | **Eliminar o mantener solo para referencia**; están demasiado incompletas. |\n| 🟡 Medio | 8–20 %    | `Escolaridad`, `Pertenencia Grupal`, `Pertenencia Étnica`, `Estado Civil`                                | **Mantener**, pero tener presente que no están completas.                  |\n| 🟢 Bajo  | <5 %      | `Escenario del Hecho`, `Zona del Hecho`, `País de Nacimiento`, etc.                                      | **Mantener sin problema**.   

In [13]:
df_presuntos=df_presuntos.drop("Localidad del Hecho", axis=1)



In [14]:
df_presuntos= df_presuntos.drop("Rango de Hora del Hecho X 3 Horas", axis=1)

In [15]:
df_presuntos=df_presuntos.drop("Grupo de Edad Quinquenal ", axis=1)
df_presuntos=df_presuntos.drop("Grupo Mayor Menor de Edad", axis=1)
df_presuntos=df_presuntos.drop("Grupo de Edad judicial", axis=1)


In [16]:
df_presuntos = df_presuntos[df_presuntos["País de Nacimiento"].str.strip().str.lower() == "colombia"]


In [17]:
df_presuntos.info()

df_presuntos.head(10)

<class 'pandas.core.frame.DataFrame'>
Index: 13819 entries, 1 to 14270
Data columns (total 26 columns):
 #   Column                                      Non-Null Count  Dtype 
---  ------                                      --------------  ----- 
 0   Año del hecho                               13819 non-null  int64 
 1   Ciclo Vital                                 13819 non-null  object
 2   Sexo de la victima                          13819 non-null  object
 3   Estado Civil                                12481 non-null  object
 4   País de Nacimiento                          13819 non-null  object
 5   Escolaridad                                 12021 non-null  object
 6   Pertenencia Grupal                          12281 non-null  object
 7   Pertenencia Étnica                          12623 non-null  object
 8   Mes del hecho                               13819 non-null  object
 9   Dia del hecho                               13819 non-null  object
 10  Código Dane Municipio      

Unnamed: 0_level_0,Año del hecho,Ciclo Vital,Sexo de la victima,Estado Civil,País de Nacimiento,Escolaridad,Pertenencia Grupal,Pertenencia Étnica,Mes del hecho,Dia del hecho,...,Circunstancia del Hecho Detallada,Manera de Muerte,Mecanismo Causal de la Lesión Fatal,Diagnostico Topográfico de la Lesión Fatal,Razón del Suicidio,Ancestro Racial,Pueblo Indígena,Orientación Sexual,Identidad de Género,Transgénero
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,2020,(29 a 59) Adultez,Mujer,Unión libre,Colombia,Educación media o secundaria alta,Ninguno,Sin Pertenencia Étnica,enero,jueves,...,Autolesión voluntaria,2 Suicidios,Generadores de asfixia,Trauma de cuello,Conflicto con pareja o ex-pareja,Mestizo,No aplica,No había sido implementada,No había sido implementada,No había sido implementada
2,2020,(18 a 28) Juventud,Hombre,Soltero(a),Colombia,Educación técnica profesional y tecnológica,Ninguno,Sin Pertenencia Étnica,enero,jueves,...,Autolesión voluntaria,2 Suicidios,Tóxico,Sin lesiones,Enfermedad física o mental,Mestizo,No aplica,No había sido implementada,No había sido implementada,No había sido implementada
3,2020,(18 a 28) Juventud,Hombre,Soltero(a),Colombia,Educación básica primaria,Ninguno,Sin Pertenencia Étnica,enero,viernes,...,Autolesión voluntaria,2 Suicidios,Generadores de asfixia,Trauma de cuello,Enfermedad física o mental,Mestizo,No aplica,No había sido implementada,No había sido implementada,No había sido implementada
4,2020,(18 a 28) Juventud,Hombre,"Separado(a), divorciado(a)",Colombia,,Ninguno,Sin Pertenencia Étnica,enero,sábado,...,Autolesión voluntaria,2 Suicidios,Generadores de asfixia,Trauma de cuello,Conflicto con pareja o ex-pareja,Mestizo,No aplica,No había sido implementada,No había sido implementada,No había sido implementada
5,2020,(18 a 28) Juventud,Hombre,Soltero(a),Colombia,Educación media o secundaria alta,Ninguno,Sin Pertenencia Étnica,enero,viernes,...,Autolesión voluntaria,2 Suicidios,Tóxico,Sin lesiones,Enfermedad física o mental,Mestizo,No aplica,No había sido implementada,No había sido implementada,No había sido implementada
6,2020,(29 a 59) Adultez,Hombre,Soltero(a),Colombia,Educación básica primaria,Ninguno,Sin Pertenencia Étnica,enero,sábado,...,Autolesión voluntaria,2 Suicidios,Generadores de asfixia,Trauma de cuello,,Mestizo,No aplica,No había sido implementada,No había sido implementada,No había sido implementada
7,2020,(29 a 59) Adultez,Hombre,Soltero(a),Colombia,Educación media o secundaria alta,,,enero,domingo,...,Autolesión voluntaria,2 Suicidios,Proyectil de arma de fuego,Trauma de Tórax,Conflicto con pareja o ex-pareja,Mestizo,No aplica,No había sido implementada,No había sido implementada,No había sido implementada
8,2020,(12 a 17) Adolescencia,Mujer,Soltero(a),Colombia,Educación media o secundaria alta,Otro,Sin Pertenencia Étnica,enero,domingo,...,Autolesión voluntaria,2 Suicidios,Tóxico,Sin lesiones,Enfermedad física o mental,Mestizo,No aplica,No había sido implementada,No había sido implementada,No había sido implementada
9,2020,(29 a 59) Adultez,Hombre,Unión libre,Colombia,Educación media o secundaria alta,Otro,Sin Pertenencia Étnica,enero,lunes,...,Autolesión voluntaria,2 Suicidios,Generadores de asfixia,Trauma de cuello,Conflicto con pareja o ex-pareja,Mestizo,No aplica,No había sido implementada,No había sido implementada,No había sido implementada
10,2020,(Más de 60) Adulto Mayor,Hombre,Soltero(a),Colombia,Educación básica primaria,Ninguno,Sin Pertenencia Étnica,enero,miércoles,...,Autolesión voluntaria,2 Suicidios,Generadores de asfixia,Por determinar,Enfermedad física o mental,Sin Información,No aplica,No había sido implementada,No había sido implementada,No había sido implementada


In [18]:
print(df_presuntos.columns.tolist())

no_colombianos = df_presuntos[df_presuntos["País de Nacimiento"].str.strip().str.lower() != "colombia"]
print("Cantidad de registros NO colombianos:", len(no_colombianos))


['Año del hecho', 'Ciclo Vital', 'Sexo de la victima', 'Estado Civil', 'País de Nacimiento', 'Escolaridad', 'Pertenencia Grupal', 'Pertenencia Étnica', 'Mes del hecho', 'Dia del hecho', 'Código Dane Municipio', 'Municipio del hecho DANE', 'Departamento del hecho DANE', 'Código Dane Departamento', 'Escenario del Hecho', 'Zona del Hecho', 'Circunstancia del Hecho Detallada', 'Manera de Muerte', 'Mecanismo Causal de la Lesión Fatal', 'Diagnostico Topográfico de la Lesión Fatal', 'Razón del Suicidio', 'Ancestro Racial', 'Pueblo Indígena', 'Orientación Sexual', 'Identidad de Género', 'Transgénero']
Cantidad de registros NO colombianos: 0


In [19]:
df_presuntos.info()

<class 'pandas.core.frame.DataFrame'>
Index: 13819 entries, 1 to 14270
Data columns (total 26 columns):
 #   Column                                      Non-Null Count  Dtype 
---  ------                                      --------------  ----- 
 0   Año del hecho                               13819 non-null  int64 
 1   Ciclo Vital                                 13819 non-null  object
 2   Sexo de la victima                          13819 non-null  object
 3   Estado Civil                                12481 non-null  object
 4   País de Nacimiento                          13819 non-null  object
 5   Escolaridad                                 12021 non-null  object
 6   Pertenencia Grupal                          12281 non-null  object
 7   Pertenencia Étnica                          12623 non-null  object
 8   Mes del hecho                               13819 non-null  object
 9   Dia del hecho                               13819 non-null  object
 10  Código Dane Municipio      

ELIMINADERA DE COLUMNAS INNECESARIAS

In [20]:
df_presuntos=df_presuntos.drop("País de Nacimiento",axis = 1)

In [21]:
df_presuntos=df_presuntos.drop("Manera de Muerte",axis = 1)

In [22]:
df_presuntos=df_presuntos.drop("Código Dane Municipio",axis = 1)
df_presuntos=df_presuntos.drop("Código Dane Departamento",axis = 1)
df_presuntos=df_presuntos.drop("Pertenencia Grupal",axis = 1)
df_presuntos=df_presuntos.drop("Pertenencia Étnica",axis = 1)

In [23]:
df_presuntos.columns  #Muestra los nombres de Columna

Index(['Año del hecho', 'Ciclo Vital', 'Sexo de la victima', 'Estado Civil',
       'Escolaridad', 'Mes del hecho', 'Dia del hecho',
       'Municipio del hecho DANE', 'Departamento del hecho DANE',
       'Escenario del Hecho', 'Zona del Hecho',
       'Circunstancia del Hecho Detallada',
       'Mecanismo Causal de la Lesión Fatal',
       'Diagnostico Topográfico de la Lesión Fatal', 'Razón del Suicidio',
       'Ancestro Racial', 'Pueblo Indígena', 'Orientación Sexual',
       'Identidad de Género', 'Transgénero'],
      dtype='object')

In [24]:
df_presuntos.drop(["Dia del hecho", "Zona del Hecho", "Ancestro Racial","Pueblo Indígena", "Orientación Sexual", "Transgénero"], axis=1, inplace=True)
#ELIMINO VARIAS COLUMNAS A LA VEZ.

In [25]:
df_presuntos=df_presuntos.drop("Circunstancia del Hecho Detallada",axis = 1)


In [26]:
df_presuntos.info()

<class 'pandas.core.frame.DataFrame'>
Index: 13819 entries, 1 to 14270
Data columns (total 13 columns):
 #   Column                                      Non-Null Count  Dtype 
---  ------                                      --------------  ----- 
 0   Año del hecho                               13819 non-null  int64 
 1   Ciclo Vital                                 13819 non-null  object
 2   Sexo de la victima                          13819 non-null  object
 3   Estado Civil                                12481 non-null  object
 4   Escolaridad                                 12021 non-null  object
 5   Mes del hecho                               13819 non-null  object
 6   Municipio del hecho DANE                    13816 non-null  object
 7   Departamento del hecho DANE                 13816 non-null  object
 8   Escenario del Hecho                         13517 non-null  object
 9   Mecanismo Causal de la Lesión Fatal         13819 non-null  object
 10  Diagnostico Topográfico de 

In [27]:
df_presuntos.head(10)

Unnamed: 0_level_0,Año del hecho,Ciclo Vital,Sexo de la victima,Estado Civil,Escolaridad,Mes del hecho,Municipio del hecho DANE,Departamento del hecho DANE,Escenario del Hecho,Mecanismo Causal de la Lesión Fatal,Diagnostico Topográfico de la Lesión Fatal,Razón del Suicidio,Identidad de Género
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
1,2020,(29 a 59) Adultez,Mujer,Unión libre,Educación media o secundaria alta,enero,"Bogotá, D.C.","Bogotá, D.C.",Vivienda,Generadores de asfixia,Trauma de cuello,Conflicto con pareja o ex-pareja,No había sido implementada
2,2020,(18 a 28) Juventud,Hombre,Soltero(a),Educación técnica profesional y tecnológica,enero,"Bogotá, D.C.","Bogotá, D.C.",Vivienda,Tóxico,Sin lesiones,Enfermedad física o mental,No había sido implementada
3,2020,(18 a 28) Juventud,Hombre,Soltero(a),Educación básica primaria,enero,"Bogotá, D.C.","Bogotá, D.C.",Vivienda,Generadores de asfixia,Trauma de cuello,Enfermedad física o mental,No había sido implementada
4,2020,(18 a 28) Juventud,Hombre,"Separado(a), divorciado(a)",,enero,"Bogotá, D.C.","Bogotá, D.C.",Vivienda,Generadores de asfixia,Trauma de cuello,Conflicto con pareja o ex-pareja,No había sido implementada
5,2020,(18 a 28) Juventud,Hombre,Soltero(a),Educación media o secundaria alta,enero,"Bogotá, D.C.","Bogotá, D.C.",Vivienda,Tóxico,Sin lesiones,Enfermedad física o mental,No había sido implementada
6,2020,(29 a 59) Adultez,Hombre,Soltero(a),Educación básica primaria,enero,"Bogotá, D.C.","Bogotá, D.C.",Vivienda,Generadores de asfixia,Trauma de cuello,,No había sido implementada
7,2020,(29 a 59) Adultez,Hombre,Soltero(a),Educación media o secundaria alta,enero,"Bogotá, D.C.","Bogotá, D.C.",Vivienda,Proyectil de arma de fuego,Trauma de Tórax,Conflicto con pareja o ex-pareja,No había sido implementada
8,2020,(12 a 17) Adolescencia,Mujer,Soltero(a),Educación media o secundaria alta,enero,"Bogotá, D.C.","Bogotá, D.C.",Vivienda,Tóxico,Sin lesiones,Enfermedad física o mental,No había sido implementada
9,2020,(29 a 59) Adultez,Hombre,Unión libre,Educación media o secundaria alta,enero,"Bogotá, D.C.","Bogotá, D.C.",Vivienda,Generadores de asfixia,Trauma de cuello,Conflicto con pareja o ex-pareja,No había sido implementada
10,2020,(Más de 60) Adulto Mayor,Hombre,Soltero(a),Educación básica primaria,enero,"Bogotá, D.C.","Bogotá, D.C.",Vivienda,Generadores de asfixia,Por determinar,Enfermedad física o mental,No había sido implementada


In [28]:
"""# Total de registros válidos (no nulos)
total = df_presuntos["Orientación Sexual"].notna().sum()

# Filtramos los que son diferentes a "no había sido implementada"
diferentes = df_presuntos[df_presuntos["Orientación Sexual"] != "No había sido implementada"].shape[0]

# Calculamos el porcentaje
porcentaje = (diferentes / total) * 100

print(f"Porcentaje de respuestas diferentes a 'No había sido implementada': {porcentaje:.2f}%")"""

'# Total de registros válidos (no nulos)\ntotal = df_presuntos["Orientación Sexual"].notna().sum()\n\n# Filtramos los que son diferentes a "no había sido implementada"\ndiferentes = df_presuntos[df_presuntos["Orientación Sexual"] != "No había sido implementada"].shape[0]\n\n# Calculamos el porcentaje\nporcentaje = (diferentes / total) * 100\n\nprint(f"Porcentaje de respuestas diferentes a \'No había sido implementada\': {porcentaje:.2f}%")'

In [29]:
"""df_presuntos["Orientación Sexual"] = df_presuntos["Orientación Sexual"].astype(str).str.strip().str.lower()
print(df_presuntos["Orientación Sexual"].unique())


df_presuntos["Identidad de Género"] = df_presuntos["Identidad de Género"].astype(str).str.strip().str.lower()
print(df_presuntos["Identidad de Género"].unique())"""


'df_presuntos["Orientación Sexual"] = df_presuntos["Orientación Sexual"].astype(str).str.strip().str.lower()\nprint(df_presuntos["Orientación Sexual"].unique())\n\n\ndf_presuntos["Identidad de Género"] = df_presuntos["Identidad de Género"].astype(str).str.strip().str.lower()\nprint(df_presuntos["Identidad de Género"].unique())'

In [30]:
"""# Asegurarte de que sea texto y sin espacios extras
df_presuntos["Orientación Sexual"] = df_presuntos["Orientación Sexual"].astype(str).str.strip().str.lower()

# Total de respuestas válidas (no vacías)
total = df_presuntos["Orientación Sexual"].notna().sum()

# Cantidad de respuestas iguales a "no había sido implementada"
cantidad = (df_presuntos["Orientación Sexual"] == "no había sido implementada").sum()

# Porcentaje
porcentaje = (cantidad / total) * 100

print(f"Total de respuestas válidas: {total}")
print(f"Cantidad de 'No había sido implementada': {cantidad}")
print(f"Porcentaje: {porcentaje:.2f}%")"""


'# Asegurarte de que sea texto y sin espacios extras\ndf_presuntos["Orientación Sexual"] = df_presuntos["Orientación Sexual"].astype(str).str.strip().str.lower()\n\n# Total de respuestas válidas (no vacías)\ntotal = df_presuntos["Orientación Sexual"].notna().sum()\n\n# Cantidad de respuestas iguales a "no había sido implementada"\ncantidad = (df_presuntos["Orientación Sexual"] == "no había sido implementada").sum()\n\n# Porcentaje\nporcentaje = (cantidad / total) * 100\n\nprint(f"Total de respuestas válidas: {total}")\nprint(f"Cantidad de \'No había sido implementada\': {cantidad}")\nprint(f"Porcentaje: {porcentaje:.2f}%")'

In [31]:
df_presuntos["Razón del Suicidio"] = df_presuntos["Razón del Suicidio"].astype(str).str.strip().str.lower()
print(df_presuntos["Razón del Suicidio"].unique())


['conflicto con pareja o ex-pareja' 'enfermedad física o mental' 'nan'
 'muerte de un familiar o amigo' 'desamor' 'económicas'
 'maltrato físico - sexual - psicológico' 'otras'
 'abuso de sustancia y alcohol' 'escolares - educativas' 'laborales'
 'orientación sexual diversa' 'suicidio de un familiar o amigo' 'bullying'
 'jurídicas' 'accesos a armas de fuego' 'víctima de hostigamiento'
 'estado de gestación' 'enfermedad mental' 'abuso de sustancias y alcohol'
 'enfermedad física' 'acceso a armas de fuego'
 'maltrato fisico - sexual - psicologico'
 'conflicto con pareja o ex pareja' 'escolares / educativas'
 'contacto sexual engañoso' 'ciberacoso'
 'adiccion a los juegos de apuestas o azar'
 'adicción a los juegos de apuestas o azar']


In [32]:
print(df_presuntos["Razón del Suicidio"].value_counts(dropna=False))


Razón del Suicidio
nan                                         7223
enfermedad mental                           1756
desamor                                      914
económicas                                   813
conflicto con pareja o ex-pareja             693
conflicto con pareja o ex pareja             541
enfermedad física                            422
enfermedad física o mental                   388
abuso de sustancias y alcohol                387
muerte de un familiar o amigo                244
jurídicas                                     68
otras                                         44
maltrato físico - sexual - psicológico        44
laborales                                     41
abuso de sustancia y alcohol                  37
escolares / educativas                        31
bullying                                      31
escolares - educativas                        27
orientación sexual diversa                    26
suicidio de un familiar o amigo               24
a

In [33]:
df_presuntos.tail(5) #Con .tail(10) muestras las ultimas 10 filas del df


Unnamed: 0_level_0,Año del hecho,Ciclo Vital,Sexo de la victima,Estado Civil,Escolaridad,Mes del hecho,Municipio del hecho DANE,Departamento del hecho DANE,Escenario del Hecho,Mecanismo Causal de la Lesión Fatal,Diagnostico Topográfico de la Lesión Fatal,Razón del Suicidio,Identidad de Género
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
14266,2024,(18 a 28) Juventud,Hombre,,,Noviembre,Tuluá,Valle del Cauca,Vivienda,Tóxico,Sin lesiones,,No Sabe / No Informa
14267,2024,(29 a 59) Adultez,Hombre,Unión libre,Educación básica primaria,Noviembre,San Pedro,Valle del Cauca,Vivienda,Generadores de asfixia,Trauma de cuello,,No Sabe / No Informa
14268,2024,(18 a 28) Juventud,Mujer,Unión libre,Educación media o secundaria alta,Diciembre,Tuluá,Valle del Cauca,Vivienda,Proyectil de arma de fuego,Trauma craneano,desamor,Femenino
14269,2024,(18 a 28) Juventud,Mujer,Soltero(a),Educación básica primaria,Diciembre,Tuluá,Valle del Cauca,Vivienda,Generadores de asfixia,Trauma de cuello,,Femenino
14270,2024,(29 a 59) Adultez,Hombre,Unión libre,Educación básica primaria,Noviembre,Bucaramanga,Santander,,Tóxico,Sin lesiones,,Masculino


In [34]:
df_presuntos.columns  #Muestra los nombres de Columna

Index(['Año del hecho', 'Ciclo Vital', 'Sexo de la victima', 'Estado Civil',
       'Escolaridad', 'Mes del hecho', 'Municipio del hecho DANE',
       'Departamento del hecho DANE', 'Escenario del Hecho',
       'Mecanismo Causal de la Lesión Fatal',
       'Diagnostico Topográfico de la Lesión Fatal', 'Razón del Suicidio',
       'Identidad de Género'],
      dtype='object')

In [35]:
df_presuntos.info()

<class 'pandas.core.frame.DataFrame'>
Index: 13819 entries, 1 to 14270
Data columns (total 13 columns):
 #   Column                                      Non-Null Count  Dtype 
---  ------                                      --------------  ----- 
 0   Año del hecho                               13819 non-null  int64 
 1   Ciclo Vital                                 13819 non-null  object
 2   Sexo de la victima                          13819 non-null  object
 3   Estado Civil                                12481 non-null  object
 4   Escolaridad                                 12021 non-null  object
 5   Mes del hecho                               13819 non-null  object
 6   Municipio del hecho DANE                    13816 non-null  object
 7   Departamento del hecho DANE                 13816 non-null  object
 8   Escenario del Hecho                         13517 non-null  object
 9   Mecanismo Causal de la Lesión Fatal         13819 non-null  object
 10  Diagnostico Topográfico de 

In [36]:
df_presuntos.isna().sum()


Año del hecho                                    0
Ciclo Vital                                      0
Sexo de la victima                               0
Estado Civil                                  1338
Escolaridad                                   1798
Mes del hecho                                    0
Municipio del hecho DANE                         3
Departamento del hecho DANE                      3
Escenario del Hecho                            302
Mecanismo Causal de la Lesión Fatal              0
Diagnostico Topográfico de la Lesión Fatal       0
Razón del Suicidio                               0
Identidad de Género                              0
dtype: int64

In [37]:
df_presuntos.reset_index(drop=True, inplace=True) #Para que el índice refleje exactamente las 13.819 filas
df_presuntos.index += 1  # para que empiece en 1, no en 0


In [38]:
# 2️⃣ Exportar el DataFrame a CSV (codificación UTF-8)
df_presuntos.to_csv(
    r"E:\TalentoTech_Analista_de_Datos\Df_Exportados\df_presuntos_limpio_V1.csv",
    index=False,          # No incluir el índice en el archivo
    encoding='utf-8'      # Guardar con codificación UTF-8
)

# 3️⃣ Exportar el DataFrame a Excel
df_presuntos.to_excel(
    r"E:\TalentoTech_Analista_de_Datos\Df_Exportados\df_presuntos_limpio_V1.xlsx",
    index=False,          # No incluir el índice
    sheet_name='Presuntos_Suicidios'  # Nombre de la hoja en Excel
)
