ENTREGABLE PROFESIONALES

Objetivo: Desarrollar en el alumno las competencias de entender, manipular, administrar y analizar datos mediante la creación de informes para la toma de decisiones.


Consideraciones:
* Creación de base de datos en Excel, Access o SQL. (La base de datos puede ser real o ficticia)

* Creación de un sistema de informes en Excel, Power BI o Looker Studio no menor a 6 vistas, en cada vista no menor a 5 objetos de visualización.

* Realizar un análisis sobre el informe creado, desarrollando puntos de análisis para la toma de decisiones.

Propuesta de un Análisis de datos y Modelo de IA para la Prevención del Abuso Sexual Infantil

Introducción:
El abuso sexual infantil es una problemática global que afecta a millones de menores de edad cada año. A pesar de los esfuerzos por mitigar este flagelo, sigue siendo un desafío identificar de manera temprana los factores de riesgo y prevenir los casos antes de que ocurran. La inteligencia artificial (IA) nos ofrece una herramienta innovadora y poderosa para hacer frente a este reto, utilizando la recolección de datos de manera ética y controlada para proteger a los más vulnerables.


Para verificar que el modelo funciona correctamente procederemos a crear una base de datos ficticios aleatorios, esto solo con el fin de solo realizar la validación y funcionalidad del programa.

Debemos realizar 2 tipos de análisis de datos diferentes, el primero será un análisis de datos enfocado en un proceso ETL para un modelo de regresión lineal de Python, el segundo será un análisis de datos enfocado en un contexto mas grafico para poder presentar un dashboard para presentar estos datos con PowerBI.

In [None]:
# 1 Instalamos la libreria de faker para poder generar datos random
pip install faker

In [35]:
# 2 Importamos las librerias que vamos a utilizar.
import pandas as pd
import random
from faker import Faker
import numpy as np
import os

In [36]:
# 3 Inicializar Faker para generar datos ficticios
fake = Faker()

# 4 aqui declaramos el numero de filas que vamos a utilizar para nuestra base.
num_rows = 10000

In [50]:
# 5 Generar datos aleatorios para cada columna utilizando un array de datos aleatorios, 
# usamos faker y usamos num_rows para la dantidad de row del dataframe en este caso usaremos 10.000 filas de datos

# Verificar si el archivo CSV ya existe
if os.path.exists("dataframe.csv"):
    # Cargar el archivo CSV en un DataFrame
    dataframe = pd.read_csv("dataframe.csv")
else:
    data = {
    "Edad": np.random.randint(13, 18, num_rows),
    "Edad Victima": np.random.randint(7, 14, num_rows),
    "Sexo": [random.choice(["Masculino", "Femenino"]) for _ in range(num_rows)],
    "Año agresión": np.random.randint(2015,2025, num_rows),
    "Lugar de residencia": [random.choice([
        "Antonio Narino", "Barrios Unidos", "Bosa", "Chapinero", 
        "Ciudad Bolivar", "Engativa", "Fontibon", "Kennedy", 
        "La Candelaria", "Los Martires", "Puente Aranda", 
        "Rafael Uribe Uribe", "San Cristobal", "Santa Fe", 
        "Suba", "Sumapaz", "Teusaquillo", "Tunjuelito", 
        "Usaquen", "Usme"]) for _ in range(num_rows)],
    
    "Composicion del hogar": [random.choice(["Nuclear", "Monoparental", "Extendida"]) for _ in range(num_rows)],
    "Grado de consanguinidad de persona a cargo": [random.choice(["Padres", "Hermanos", "Tios", "Abuelos", "Otros familiares"]) for _ in range(num_rows)],
    "Numero de personas con quienes vive": np.random.randint(1, 8, num_rows),
    "Profesion persona a cargo": [random.choice([
        "Agricultor", "Empleado","Profesional","Obrero","Desempleado", 
        "Independiente","Ambulante"]) for _ in range(num_rows)],
    
    "Nivel escolar": [random.choice(["Primaria", "Secundaria", "Tecnico", "Universitario"]) for _ in range(num_rows)],
    "Rendimiento academico promedio": np.random.randint(1, 10, num_rows),
    "Antecedentes de maltrato familiar o escolar": [random.choice(["Si", "No"]) for _ in range(num_rows)],
    "Participa en actividades extracurriculares": [random.choice(["Si", "No"]) for _ in range(num_rows)],
    
    "Usa redes sociales activamente": [random.choice(["Si", "No"]) for _ in range(num_rows)],
    "Contacto de forma inapropiada en redes": [random.choice(["Si", "No"]) for _ in range(num_rows)],
    
    "Involucrado en otros incidentes de agresion": [random.choice(["Si", "No"]) for _ in range(num_rows)],
    "Conocia a la victima": [random.choice(["Si", "No"]) for _ in range(num_rows)],
    "Antecedentes penales o disciplinarios": [random.choice(["Si", "No"]) for _ in range(num_rows)],
    
    "Trastorno psicologico o adiccion": [random.choice(["Si", "No"]) for _ in range(num_rows)],
    "Atencion psicologica previa": [random.choice(["Si", "No"]) for _ in range(num_rows)],
    "Se siente arrepentido": [random.choice(["Si", "No"]) for _ in range(num_rows)],
    "Reconoce que su comportamiento fue incorrecto": [random.choice(["Si", "No"]) for _ in range(num_rows)],
    
    "Premeditado o impulsivo": [random.choice(["Premeditado", "Impulsivo"]) for _ in range(num_rows)],
    "Violencia fisica o amenazas": [random.choice(["Si", "No"]) for _ in range(num_rows)],
    "Actuo solo o con otras personas": [random.choice(["Solo", "Con otras personas"]) for _ in range(num_rows)],
    
    "Edad inicio consumo pornografico": np.random.randint(6, 15, num_rows),
    "Contenido violento o explicito en material": [random.choice(["Si", "No"]) for _ in range(num_rows)],
}

In [51]:
# 6 Utilizamos pandas para crear el dataframe con el array de datos
# Verificamos que los datos funcionen como dataframe y damos un vistazo a las primeras 5 filas de datos
if os.path.exists("dataframe.csv"):
    dataframe.head(5)
else:
    dataframe = pd.DataFrame(data)


Metodología: 

* Utilizar metodología ETL

Metodología de ETL con Python
ETL (Extract, Transform, Load) es un proceso fundamental en el manejo de datos, donde se extraen datos de una fuente, se transforman para adecuarlos a un formato deseado y se cargan en un destino final (como bases de datos, sistemas de análisis o almacenes de datos). Este flujo garantiza que los datos sean consistentes, limpios y listos para ser analizados.

¿Por qué es importante el ETL?
* Integración de datos: Permite consolidar datos provenientes de múltiples fuentes en un único repositorio.
* Mejora de calidad: Durante la transformación, se eliminan inconsistencias, duplicados y valores erróneos.
* Toma de decisiones eficiente: Datos limpios y organizados aseguran análisis confiables para la toma de decisiones.
* Automatización y escalabilidad: Automatiza procesos rutinarios de preparación de datos, optimizando recursos.


Como lo mencione anteriormente, realizaremos dos procesos diferentes, un proceso ETL para Python y otro para PowerBI, en este orden de ideas de aquí en adelante realizare la conversión de datos para el modelo que necesitamos. Además de esto debemos realizar unos pasos adicionales para validar que cada vez que corramos el programa no se recree la base de datos nuevamente.

In [52]:
# 7 exportamos la base de datos a un documento csv. llamado dataframe de aqui en adelante
dataframe.to_csv("dataframe.csv", index=False)

Python y PowerBI

De aquí en adelante solo utilizare la transformación de datos en Python para poder realizar el correcto ajuste del modelo que queremos utilizar e implementar.

In [44]:
# Metodología de ETL con Python
# Primero que todo, creamos una funcion que pueda transformar todos los datos si en 1 y los no en 0
# Identificar columnas con valores "Si" / "No"
cols_si_no = dataframe.columns[dataframe.isin(['Si', 'No']).any()]

In [13]:
# Aplicar la transformación a binario: "Si" -> 1, "No" -> 0
dataframe[cols_si_no] = dataframe[cols_si_no].applymap(lambda x: 1 if x == 'Si' else 0)

In [45]:
dataframe.head(10)

Unnamed: 0,Edad,Sexo,Año agresión,Lugar de residencia,Composicion del hogar,Grado de consanguinidad de persona a cargo,Numero de personas con quienes vive,Profesion persona a cargo,Nivel escolar,Rendimiento academico promedio,...,Antecedentes penales o disciplinarios,Trastorno psicologico o adiccion,Atencion psicologica previa,Se siente arrepentido,Reconoce que su comportamiento fue incorrecto,Premeditado o impulsivo,Violencia fisica o amenazas,Actuo solo o con otras personas,Edad inicio consumo pornografico,Contenido violento o explicito en material
0,15,Masculino,2023,Engativa,Nuclear,Padres,2,Agricultor,Primaria,7,...,No,Si,Si,No,Si,Impulsivo,No,Con otras personas,8,No
1,13,Masculino,2001,Suba,Nuclear,Tios,1,Independiente,Universitario,3,...,No,Si,No,No,No,Impulsivo,Si,Con otras personas,6,Si
2,17,Masculino,2024,Usme,Nuclear,Tios,2,Ambulante,Tecnico,2,...,No,No,No,No,No,Premeditado,No,Solo,14,No
3,14,Femenino,2005,La Candelaria,Nuclear,Padres,5,Empleado,Primaria,1,...,No,Si,No,No,Si,Impulsivo,No,Solo,6,No
4,14,Femenino,2005,Barrios Unidos,Nuclear,Tios,7,Profesional,Universitario,2,...,Si,No,No,No,Si,Premeditado,Si,Con otras personas,6,Si
5,13,Masculino,2020,Antonio Narino,Nuclear,Abuelos,3,Ambulante,Universitario,3,...,No,Si,Si,No,Si,Premeditado,Si,Con otras personas,12,No
6,17,Femenino,2001,La Candelaria,Extendida,Otros familiares,4,Desempleado,Secundaria,1,...,No,Si,Si,Si,Si,Impulsivo,Si,Solo,13,Si
7,13,Femenino,2014,Fontibon,Extendida,Otros familiares,4,Desempleado,Secundaria,1,...,Si,No,No,Si,Si,Premeditado,Si,Con otras personas,13,No
8,16,Masculino,2020,Usme,Nuclear,Otros familiares,7,Ambulante,Tecnico,9,...,No,No,No,Si,Si,Impulsivo,No,Con otras personas,11,No
9,15,Femenino,2003,Antonio Narino,Monoparental,Tios,7,Independiente,Tecnico,7,...,Si,Si,No,No,Si,Premeditado,No,Con otras personas,9,No


In [None]:
# Continuamos con la limpieza de los datos ahora debemos crear los dumies para