### **ETL**

In [9]:
import pandas as pd
import numpy as np

# Cargar el dataset:
# Cargar el archivo CSV dataset_comunidades_senasoft.csv en un DataFrame de pandas.
df = pd.read_csv('dataset_comunidades_senasoft.csv', sep=',')

In [10]:
# Limpieza de datos:
# Eliminar todas las filas que contengan valores nulos en las columnas 'Comentario' y 'Ciudad'.
df.dropna(subset=['Comentario', 'Ciudad'], inplace=True)

# Mostrar las primeras filas del DataFrame limpio
display(df.head())

Unnamed: 0,ID,Nombre,Edad,Género,Ciudad,Comentario,Categoría del problema,Nivel de urgencia,Fecha del reporte,Acceso a internet,Atención previa del gobierno,Zona rural
0,1,Jorge,23.0,Otro,Manizales,las calles están muy oscuras y peligrosas.,Salud,Urgente,2023-08-11,0,1,0
1,2,Camilo,40.0,Otro,Santa Marta,no tenemos centros culturales ni bibliotecas.,Medio Ambiente,No urgente,2023-04-12,1,1,1
2,3,Pedro,35.0,Otro,Medellín,las basuras no se recogen a tiempo.,Medio Ambiente,No urgente,2023-06-09,1,1,0
3,4,Ana,,F,Bogotá,la contaminación del río está aumentando.,Seguridad,No urgente,2023-06-04,0,1,1
4,5,Jorge,62.0,M,Manizales,no hay suficientes escuelas públicas.,Seguridad,Urgente,2024-07-10,1,0,1


In [11]:
# Guardar el DataFrame limpio en un nuevo archivo CSV
df.to_csv('dataset_limpio.csv', index=False)

In [12]:
# Eliminar columnas innecesarias:
# Eliminar las columnas: 'Nombre', 'Edad', 'ID', 'Género', 'Acceso a internet', 'Zona rural' y 'Categoría del problema'.
columns_to_drop = ['Nombre', 'Edad', 'ID', 'Género', 'Acceso a internet', 'Zona rural', 'Categoría del problema']
df.drop(columns=columns_to_drop, inplace=True)

# Mostrar las primeras filas del DataFrame con las columnas eliminadas
display(df.head())

Unnamed: 0,Ciudad,Comentario,Nivel de urgencia,Fecha del reporte,Atención previa del gobierno
0,Manizales,las calles están muy oscuras y peligrosas.,Urgente,2023-08-11,1
1,Santa Marta,no tenemos centros culturales ni bibliotecas.,No urgente,2023-04-12,1
2,Medellín,las basuras no se recogen a tiempo.,No urgente,2023-06-09,1
3,Bogotá,la contaminación del río está aumentando.,No urgente,2023-06-04,1
4,Manizales,no hay suficientes escuelas públicas.,Urgente,2024-07-10,0


In [13]:
# Load the final dataset
df_final = pd.read_csv('dataset_limpio.csv')

# Drop the 'Categoría del problema' column
df_final.drop(columns=['Categoría del problema'], inplace=True)

# Display the first rows of the DataFrame without the dropped column
display(df_final.head())

Unnamed: 0,ID,Nombre,Edad,Género,Ciudad,Comentario,Nivel de urgencia,Fecha del reporte,Acceso a internet,Atención previa del gobierno,Zona rural
0,1,Jorge,23.0,Otro,Manizales,las calles están muy oscuras y peligrosas.,Urgente,2023-08-11,0,1,0
1,2,Camilo,40.0,Otro,Santa Marta,no tenemos centros culturales ni bibliotecas.,No urgente,2023-04-12,1,1,1
2,3,Pedro,35.0,Otro,Medellín,las basuras no se recogen a tiempo.,No urgente,2023-06-09,1,1,0
3,4,Ana,,F,Bogotá,la contaminación del río está aumentando.,No urgente,2023-06-04,0,1,1
4,5,Jorge,62.0,M,Manizales,no hay suficientes escuelas públicas.,Urgente,2024-07-10,1,0,1


In [14]:
# Crear columna de categoría del problema:
# Generar una nueva columna 'Categoría del problema' basada en el contenido de 'Comentario' usando las siguientes reglas:

def categorize_problem(comment):
    if 'médicos' in comment or 'agua potable' in comment:
        return 'Salud'
    elif 'presencia policial' in comment or 'oscuras y peligrosas' in comment:
        return 'Seguridad'
    elif 'centros culturales' in comment or 'bibliotecas' in comment or 'escuelas públicas' in comment or 'acceso a internet' in comment:
        return 'Educación'
    elif 'basuras no se recogen' in comment or 'contaminación del río' in comment or 'recolección de basura' in comment:
        return 'Medio Ambiente'
    else:
        return 'Otra'

df['Categoría del problema'] = df['Comentario'].apply(categorize_problem)

# Mostrar las primeras filas del DataFrame con la nueva columna
display(df.head())

Unnamed: 0,Ciudad,Comentario,Nivel de urgencia,Fecha del reporte,Atención previa del gobierno,Categoría del problema
0,Manizales,las calles están muy oscuras y peligrosas.,Urgente,2023-08-11,1,Seguridad
1,Santa Marta,no tenemos centros culturales ni bibliotecas.,No urgente,2023-04-12,1,Educación
2,Medellín,las basuras no se recogen a tiempo.,No urgente,2023-06-09,1,Medio Ambiente
3,Bogotá,la contaminación del río está aumentando.,No urgente,2023-06-04,1,Medio Ambiente
4,Manizales,no hay suficientes escuelas públicas.,Urgente,2024-07-10,0,Educación


In [15]:
# Crear columna numérica de categoría:
# Mapear la columna 'Categoría del problema' a valores numéricos según:
# {'Salud': 1, 'Educación': 2, 'Seguridad': 3, 'Medio Ambiente': 4}
# Guardar estos valores en una nueva columna 'Categoria numerica'.
category_mapping = {
    'Salud': 1,
    'Educación': 2,
    'Seguridad': 3,
    'Medio Ambiente': 4,
    'Otra': 0 # Assign a numerical value for 'Otra' category as well
}
df['Categoria numerica'] = df['Categoría del problema'].map(category_mapping)

# Mostrar las primeras filas del DataFrame con la nueva columna
display(df.head())

Unnamed: 0,Ciudad,Comentario,Nivel de urgencia,Fecha del reporte,Atención previa del gobierno,Categoría del problema,Categoria numerica
0,Manizales,las calles están muy oscuras y peligrosas.,Urgente,2023-08-11,1,Seguridad,3
1,Santa Marta,no tenemos centros culturales ni bibliotecas.,No urgente,2023-04-12,1,Educación,2
2,Medellín,las basuras no se recogen a tiempo.,No urgente,2023-06-09,1,Medio Ambiente,4
3,Bogotá,la contaminación del río está aumentando.,No urgente,2023-06-04,1,Medio Ambiente,4
4,Manizales,no hay suficientes escuelas públicas.,Urgente,2024-07-10,0,Educación,2


In [16]:
# Crear columna numérica de nivel de urgencia:
# Crear una nueva columna 'Nivel de urgencia numerico' siguiendo esta lógica:
# Urgente ('Nivel de urgencia' == 'Urgente') y asistencia previa del gobierno ('Atención previa del gobierno') = 0 → 4
# Urgente y asistencia = 1 → 3
# No urgente ('Nivel de urgencia' == 'No urgente') y asistencia = 0 → 2
# No urgente y asistencia = 1 → 1

def map_urgencia(row):
    if row['Nivel de urgencia'] == 'Urgente' and row['Atención previa del gobierno'] == 0:
        return 4
    elif row['Nivel de urgencia'] == 'Urgente' and row['Atención previa del gobierno'] == 1:
        return 3
    elif row['Nivel de urgencia'] == 'No urgente' and row['Atención previa del gobierno'] == 0:
        return 2
    elif row['Nivel de urgencia'] == 'No urgente' and row['Atención previa del gobierno'] == 1:
        return 1
    else:
        return None

df['Nivel de urgencia numerico'] = df.apply(map_urgencia, axis=1)

# Mostrar las primeras filas del DataFrame con la nueva columna
display(df.head())

Unnamed: 0,Ciudad,Comentario,Nivel de urgencia,Fecha del reporte,Atención previa del gobierno,Categoría del problema,Categoria numerica,Nivel de urgencia numerico
0,Manizales,las calles están muy oscuras y peligrosas.,Urgente,2023-08-11,1,Seguridad,3,3
1,Santa Marta,no tenemos centros culturales ni bibliotecas.,No urgente,2023-04-12,1,Educación,2,1
2,Medellín,las basuras no se recogen a tiempo.,No urgente,2023-06-09,1,Medio Ambiente,4,1
3,Bogotá,la contaminación del río está aumentando.,No urgente,2023-06-04,1,Medio Ambiente,4,1
4,Manizales,no hay suficientes escuelas públicas.,Urgente,2024-07-10,0,Educación,2,4


In [17]:
# Reordenar columnas:
# Organizar las columnas en el siguiente orden:
# 'Ciudad', 'Comentario', 'Categoría del problema', 'Categoria numerica', 'Nivel de urgencia', 'Nivel de urgencia numerico', 'Atención previa del gobierno', 'Fecha del reporte'
desired_order = [
    'Ciudad',
    'Comentario',
    'Categoría del problema',
    'Categoria numerica',
    'Nivel de urgencia',
    'Nivel de urgencia numerico',
    'Atención previa del gobierno',
    'Fecha del reporte'
]

df = df[desired_order]

# Mostrar las primeras filas del DataFrame con las columnas reordenadas
display(df.head())

Unnamed: 0,Ciudad,Comentario,Categoría del problema,Categoria numerica,Nivel de urgencia,Nivel de urgencia numerico,Atención previa del gobierno,Fecha del reporte
0,Manizales,las calles están muy oscuras y peligrosas.,Seguridad,3,Urgente,3,1,2023-08-11
1,Santa Marta,no tenemos centros culturales ni bibliotecas.,Educación,2,No urgente,1,1,2023-04-12
2,Medellín,las basuras no se recogen a tiempo.,Medio Ambiente,4,No urgente,1,1,2023-06-09
3,Bogotá,la contaminación del río está aumentando.,Medio Ambiente,4,No urgente,1,1,2023-06-04
4,Manizales,no hay suficientes escuelas públicas.,Educación,2,Urgente,4,0,2024-07-10


In [18]:
# Guardar el DataFrame final a un nuevo CSV
df.to_csv('dataset_para_prediccion.csv', index=False)

In [19]:
# Cargar el dataset final
df_prediccion = pd.read_csv('dataset_para_prediccion.csv')

# Eliminar las columnas 'Nivel de urgencia' y 'Atención previa del gobierno'
columns_to_drop = ['Nivel de urgencia', 'Atención previa del gobierno']
df_prediccion.drop(columns=columns_to_drop, inplace=True)

# Mostrar las primeras filas del DataFrame
display(df_prediccion.head())

# Guardar el DataFrame a un nuevo CSV
df_prediccion.to_csv('dataset_final_preparado.csv', index=False)

Unnamed: 0,Ciudad,Comentario,Categoría del problema,Categoria numerica,Nivel de urgencia numerico,Fecha del reporte
0,Manizales,las calles están muy oscuras y peligrosas.,Seguridad,3,3,2023-08-11
1,Santa Marta,no tenemos centros culturales ni bibliotecas.,Educación,2,1,2023-04-12
2,Medellín,las basuras no se recogen a tiempo.,Medio Ambiente,4,1,2023-06-09
3,Bogotá,la contaminación del río está aumentando.,Medio Ambiente,4,1,2023-06-04
4,Manizales,no hay suficientes escuelas públicas.,Educación,2,4,2024-07-10


In [20]:
# Cargar el dataset final preparado
df_prediccion = pd.read_csv('dataset_final_preparado.csv')

# Cambiar el nombre de la columna 'Nivel de urgencia numerico' a 'Nivel de urgencia'
df_prediccion.rename(columns={'Nivel de urgencia numerico': 'Nivel de urgencia'}, inplace=True)

# Mostrar las primeras filas del DataFrame con el nombre de columna cambiado
display(df_prediccion.head())

# Guardar el DataFrame actualizado en el mismo archivo CSV
df_prediccion.to_csv('dataset_final_preparado.csv', index=False)

Unnamed: 0,Ciudad,Comentario,Categoría del problema,Categoria numerica,Nivel de urgencia,Fecha del reporte
0,Manizales,las calles están muy oscuras y peligrosas.,Seguridad,3,3,2023-08-11
1,Santa Marta,no tenemos centros culturales ni bibliotecas.,Educación,2,1,2023-04-12
2,Medellín,las basuras no se recogen a tiempo.,Medio Ambiente,4,1,2023-06-09
3,Bogotá,la contaminación del río está aumentando.,Medio Ambiente,4,1,2023-06-04
4,Manizales,no hay suficientes escuelas públicas.,Educación,2,4,2024-07-10
