ENTREGABLE PROFESIONALES

Objetivo: Desarrollar en el alumno las competencias de entender, manipular, administrar y analizar datos mediante la creación de informes para la toma de decisiones.


Consideraciones:
* Creación de base de datos en Excel, Access o SQL. (La base de datos puede ser real o ficticia)

* Creación de un sistema de informes en Excel, Power BI o Looker Studio no menor a 6 vistas, en cada vista no menor a 5 objetos de visualización.

* Realizar un análisis sobre el informe creado, desarrollando puntos de análisis para la toma de decisiones.

** Propuesta de un Análisis de datos y Modelo de IA para la Prevención del Abuso Sexual Infantil **

Introducción:

El abuso sexual infantil es una problemática global que afecta a millones de menores de edad cada año. A pesar de los esfuerzos por mitigar este flagelo, sigue siendo un desafío identificar de manera temprana los factores de riesgo y prevenir los casos antes de que ocurran. La inteligencia artificial (IA) nos ofrece una herramienta innovadora y poderosa para hacer frente a este reto, utilizando la recolección de datos de manera ética y controlada para proteger a los más vulnerables.


In [None]:
# Instalamos la libreria de faker para poder generar datos random
pip install faker

In [4]:
# Importamos las librerias que vamos a utilizar.
import pandas as pd
import random
from faker import Faker
import numpy as np

In [5]:
# Inicializar Faker para generar datos ficticios
fake = Faker()

# Número de filas
num_rows = 5000

In [7]:
# Generar datos aleatorios para cada columna
data = {
    "Edad": np.random.randint(3, 18, num_rows),
    "Fecha de nacimiento": [fake.date_of_birth(minimum_age=3, maximum_age=18) for _ in range(num_rows)],
    "Sexo": [random.choice(["Masculino", "Femenino", "Otro"]) for _ in range(num_rows)],
    "Lugar de residencia": [random.choice([
        "Antonio Narino", "Barrios Unidos", "Bosa", "Chapinero", 
        "Ciudad Bolivar", "Engativa", "Fontibon", "Kennedy", 
        "La Candelaria", "Los Martires", "Puente Aranda", 
        "Rafael Uribe Uribe", "San Cristobal", "Santa Fe", 
        "Suba", "Sumapaz", "Teusaquillo", "Tunjuelito", 
        "Usaquen", "Usme"]) for _ in range(num_rows)],
    
    "Composicion del hogar": [random.choice(["Nuclear", "Monoparental", "Extendida"]) for _ in range(num_rows)],
    "Grado de consanguinidad": [random.choice(["Padres", "Hermanos", "Tios", "Abuelos", "Otros familiares"]) for _ in range(num_rows)],
    "Numero de personas con quienes vive": np.random.randint(1, 8, num_rows),
    "Profesion de los padres": [random.choice([
        "Profesor", "Profesional", "Obrero", "Desempleado", 
        "Empresario", "Empleado publico"]) for _ in range(num_rows)],
    
    "Nivel escolar": [random.choice(["Primaria", "Secundaria", "Tecnico", "Universitario"]) for _ in range(num_rows)],
    "Rendimiento academico promedio": np.random.randint(1, 10, num_rows),
    "Antecedentes de maltrato familiar o escolar": [random.choice(["Si", "No"]) for _ in range(num_rows)],
    "Participa en actividades extracurriculares": [random.choice(["Si", "No"]) for _ in range(num_rows)],
    
    "Usa redes sociales activamente": [random.choice(["Si", "No"]) for _ in range(num_rows)],
    "Contacto de forma inapropiada en redes": [random.choice(["Si", "No"]) for _ in range(num_rows)],
    
    "Involucrado en otros incidentes de agresion": [random.choice(["Si", "No"]) for _ in range(num_rows)],
    "Conocia a la victima": [random.choice(["Si", "No"]) for _ in range(num_rows)],
    "Antecedentes penales o disciplinarios": [random.choice(["Si", "No"]) for _ in range(num_rows)],
    
    "Trastorno psicologico o adiccion": [random.choice(["Si", "No"]) for _ in range(num_rows)],
    "Atencion psicologica previa": [random.choice(["Si", "No"]) for _ in range(num_rows)],
    "Se siente arrepentido": [random.choice(["Si", "No"]) for _ in range(num_rows)],
    "Reconoce que su comportamiento fue incorrecto": [random.choice(["Si", "No"]) for _ in range(num_rows)],
    
    "Premeditado o impulsivo": [random.choice(["Premeditado", "Impulsivo"]) for _ in range(num_rows)],
    "Violencia fisica o amenazas": [random.choice(["Si", "No"]) for _ in range(num_rows)],
    "Actuo solo o con otras personas": [random.choice(["Solo", "Con otras personas"]) for _ in range(num_rows)],
    
    "Edad inicio consumo pornografico": np.random.randint(6, 15, num_rows),
    "Contenido violento o explicito en material": [random.choice(["Si", "No"]) for _ in range(num_rows)],
}

In [8]:
# Utilizamos pandas para crear el dataframe con el array de datos
df = pd.DataFrame(data)

In [11]:
# Verificamos que los datos funcionen como dataframe.
df.head()

Unnamed: 0,Edad,Fecha de nacimiento,Sexo,Lugar de residencia,Composicion del hogar,Grado de consanguinidad,Numero de personas con quienes vive,Profesion de los padres,Nivel escolar,Rendimiento academico promedio,...,Antecedentes penales o disciplinarios,Trastorno psicologico o adiccion,Atencion psicologica previa,Se siente arrepentido,Reconoce que su comportamiento fue incorrecto,Premeditado o impulsivo,Violencia fisica o amenazas,Actuo solo o con otras personas,Edad inicio consumo pornografico,Contenido violento o explicito en material
0,6,2017-05-31,Masculino,Rafael Uribe Uribe,Extendida,Hermanos,7,Obrero,Universitario,7,...,Si,No,No,No,Si,Impulsivo,Si,Solo,9,No
1,3,2005-12-29,Masculino,Engativa,Nuclear,Otros familiares,1,Empresario,Universitario,7,...,No,No,No,Si,Si,Impulsivo,No,Con otras personas,11,No
2,17,2010-02-07,Masculino,Teusaquillo,Extendida,Hermanos,3,Empresario,Primaria,1,...,No,No,Si,No,No,Premeditado,Si,Solo,13,Si
3,3,2019-07-14,Femenino,Engativa,Nuclear,Tios,3,Empleado publico,Secundaria,5,...,Si,No,Si,No,No,Impulsivo,Si,Con otras personas,9,No
4,17,2019-11-21,Femenino,La Candelaria,Extendida,Otros familiares,2,Desempleado,Secundaria,9,...,Si,No,Si,Si,No,Premeditado,Si,Con otras personas,12,No


Metodología: 

* Utilizar metodología ETL

Metodología de ETL con Python
ETL (Extract, Transform, Load) es un proceso fundamental en el manejo de datos, donde se extraen datos de una fuente, se transforman para adecuarlos a un formato deseado y se cargan en un destino final (como bases de datos, sistemas de análisis o almacenes de datos). Este flujo garantiza que los datos sean consistentes, limpios y listos para ser analizados.

¿Por qué es importante el ETL?
* Integración de datos: Permite consolidar datos provenientes de múltiples fuentes en un único repositorio.
* Mejora de calidad: Durante la transformación, se eliminan inconsistencias, duplicados y valores erróneos.
* Toma de decisiones eficiente: Datos limpios y organizados aseguran análisis confiables para la toma de decisiones.
* Automatización y escalabilidad: Automatiza procesos rutinarios de preparación de datos, optimizando recursos.


In [12]:
# Metodología de ETL con Python
# Primero que todo, creamos una funcion que pueda transformar todos los datos si en 1 y los no en 0
# Identificar columnas con valores "Si" / "No"
cols_si_no = df.columns[df.isin(['Si', 'No']).any()]

In [13]:
# Aplicar la transformación a binario: "Si" -> 1, "No" -> 0
df[cols_si_no] = df[cols_si_no].applymap(lambda x: 1 if x == 'Si' else 0)

In [14]:
df.head(10)

Unnamed: 0,Edad,Fecha de nacimiento,Sexo,Lugar de residencia,Composicion del hogar,Grado de consanguinidad,Numero de personas con quienes vive,Profesion de los padres,Nivel escolar,Rendimiento academico promedio,...,Antecedentes penales o disciplinarios,Trastorno psicologico o adiccion,Atencion psicologica previa,Se siente arrepentido,Reconoce que su comportamiento fue incorrecto,Premeditado o impulsivo,Violencia fisica o amenazas,Actuo solo o con otras personas,Edad inicio consumo pornografico,Contenido violento o explicito en material
0,6,2017-05-31,Masculino,Rafael Uribe Uribe,Extendida,Hermanos,7,Obrero,Universitario,7,...,1,0,0,0,1,Impulsivo,1,Solo,9,0
1,3,2005-12-29,Masculino,Engativa,Nuclear,Otros familiares,1,Empresario,Universitario,7,...,0,0,0,1,1,Impulsivo,0,Con otras personas,11,0
2,17,2010-02-07,Masculino,Teusaquillo,Extendida,Hermanos,3,Empresario,Primaria,1,...,0,0,1,0,0,Premeditado,1,Solo,13,1
3,3,2019-07-14,Femenino,Engativa,Nuclear,Tios,3,Empleado publico,Secundaria,5,...,1,0,1,0,0,Impulsivo,1,Con otras personas,9,0
4,17,2019-11-21,Femenino,La Candelaria,Extendida,Otros familiares,2,Desempleado,Secundaria,9,...,1,0,1,1,0,Premeditado,1,Con otras personas,12,0
5,16,2021-03-10,Otro,Puente Aranda,Extendida,Abuelos,7,Desempleado,Secundaria,5,...,0,1,1,1,1,Impulsivo,0,Con otras personas,6,1
6,12,2014-09-21,Femenino,La Candelaria,Nuclear,Otros familiares,7,Profesor,Universitario,2,...,1,0,1,0,0,Impulsivo,1,Solo,12,1
7,14,2021-03-19,Otro,Santa Fe,Extendida,Hermanos,7,Empresario,Universitario,6,...,1,0,1,1,0,Premeditado,1,Solo,6,1
8,13,2010-07-25,Otro,La Candelaria,Nuclear,Padres,4,Profesional,Tecnico,3,...,0,1,0,0,1,Premeditado,0,Con otras personas,7,1
9,15,2012-04-11,Otro,Sumapaz,Nuclear,Padres,6,Profesor,Secundaria,8,...,1,1,0,1,1,Impulsivo,1,Con otras personas,10,1


In [None]:
# Continuamos con la limpieza de los datos ahora debemos crear los dumies para