ENTREGABLE PROFESIONALES

Objetivo: Desarrollar en el alumno las competencias de entender, manipular, administrar y analizar datos mediante la creación de informes para la toma de decisiones.


Consideraciones:
* Creación de base de datos en Excel, Access o SQL. (La base de datos puede ser real o ficticia)

* Creación de un sistema de informes en Excel, Power BI o Looker Studio no menor a 6 vistas, en cada vista no menor a 5 objetos de visualización.

* Realizar un análisis sobre el informe creado, desarrollando puntos de análisis para la toma de decisiones.

Propuesta de un Análisis de datos y Modelo de IA para la Prevención del Abuso Sexual Infantil

Introducción:
El abuso sexual infantil es una problemática global que afecta a millones de menores de edad cada año. A pesar de los esfuerzos por mitigar este flagelo, sigue siendo un desafío identificar de manera temprana los factores de riesgo y prevenir los casos antes de que ocurran. La inteligencia artificial (IA) nos ofrece una herramienta innovadora y poderosa para hacer frente a este reto, utilizando la recolección de datos de manera ética y controlada para proteger a los más vulnerables.


Para verificar que el modelo funciona correctamente procederemos a crear una base de datos ficticios aleatorios, esto solo con el fin de solo realizar la validación y funcionalidad del programa.

Debemos realizar 2 tipos de análisis de datos diferentes, el primero será un análisis de datos enfocado en un proceso ETL para un modelo de regresión lineal de Python, el segundo será un análisis de datos enfocado en un contexto mas grafico para poder presentar un dashboard para presentar estos datos con PowerBI.

In [None]:
# 1 Instalamos la libreria de faker para poder generar datos random
pip install faker

In [1]:
# 2 Importamos las librerias que vamos a utilizar.
import pandas as pd
import random
from faker import Faker
import numpy as np
import os

In [2]:
# 3 Inicializar Faker para generar datos ficticios
fake = Faker()

# 4 aqui declaramos el numero de filas que vamos a utilizar para nuestra base.
num_rows = 10000

In [3]:
# 5 Generar datos aleatorios para cada columna utilizando un array de datos aleatorios, 
# usamos faker y usamos num_rows para la dantidad de row del dataframe en este caso usaremos 10.000 filas de datos

# Verificar si el archivo CSV ya existe
if os.path.exists("dataframe.csv"):
    # Cargar el archivo CSV en un DataFrame
    dataframe = pd.read_csv("dataframe.csv")
else:
    data = {
    "Edad": np.random.randint(13, 18, num_rows),
    "Edad Victima": np.random.randint(7, 14, num_rows),
    "Sexo": [random.choice(["Masculino", "Femenino"]) for _ in range(num_rows)],
    "Año agresión": np.random.randint(2015,2025, num_rows),
    "Lugar de residencia": [random.choice([
        "Antonio Narino", "Barrios Unidos", "Bosa", "Chapinero", 
        "Ciudad Bolivar", "Engativa", "Fontibon", "Kennedy", 
        "La Candelaria", "Los Martires", "Puente Aranda", 
        "Rafael Uribe Uribe", "San Cristobal", "Santa Fe", 
        "Suba", "Sumapaz", "Teusaquillo", "Tunjuelito", 
        "Usaquen", "Usme"]) for _ in range(num_rows)],
    
    "Composicion del hogar": [random.choice(["Nuclear", "Monoparental", "Extendida"]) for _ in range(num_rows)],
    "Grado de consanguinidad de persona a cargo": [random.choice(["Padres", "Hermanos", "Tios", "Abuelos", "Otros familiares"]) for _ in range(num_rows)],
    "Numero de personas con quienes vive": np.random.randint(1, 8, num_rows),
    "Profesion persona a cargo": [random.choice([
        "Agricultor", "Empleado","Profesional","Obrero","Desempleado", 
        "Independiente","Ambulante"]) for _ in range(num_rows)],
    
    "Nivel escolar": [random.choice(["Primaria", "Secundaria", "Tecnico", "Universitario"]) for _ in range(num_rows)],
    "Rendimiento academico promedio": np.random.randint(1, 10, num_rows),
    "Antecedentes de maltrato familiar o escolar": [random.choice(["Si", "No"]) for _ in range(num_rows)],
    "Participa en actividades extracurriculares": [random.choice(["Si", "No"]) for _ in range(num_rows)],
    
    "Usa redes sociales activamente": [random.choice(["Si", "No"]) for _ in range(num_rows)],
    "Contacto de forma inapropiada en redes": [random.choice(["Si", "No"]) for _ in range(num_rows)],
    
    "Involucrado en otros incidentes de agresion": [random.choice(["Si", "No"]) for _ in range(num_rows)],
    "Conocia a la victima": [random.choice(["Si", "No"]) for _ in range(num_rows)],
    "Antecedentes penales o disciplinarios": [random.choice(["Si", "No"]) for _ in range(num_rows)],
    
    "Trastorno psicologico o adiccion": [random.choice(["Si", "No"]) for _ in range(num_rows)],
    "Atencion psicologica previa": [random.choice(["Si", "No"]) for _ in range(num_rows)],
    "Se siente arrepentido": [random.choice(["Si", "No"]) for _ in range(num_rows)],
    "Reconoce que su comportamiento fue incorrecto": [random.choice(["Si", "No"]) for _ in range(num_rows)],
    
    "Premeditado o impulsivo": [random.choice(["Premeditado", "Impulsivo"]) for _ in range(num_rows)],
    "Violencia fisica o amenazas": [random.choice(["Si", "No"]) for _ in range(num_rows)],
    "Actuo solo o con otras personas": [random.choice(["Solo", "Con otras personas"]) for _ in range(num_rows)],
    
    "Edad inicio consumo pornografico": np.random.randint(6, 15, num_rows),
    "Contenido violento o explicito en material": [random.choice(["Si", "No"]) for _ in range(num_rows)],
}

In [4]:
# 6 Utilizamos pandas para crear el dataframe con el array de datos
# Verificamos que los datos funcionen como dataframe y damos un vistazo a las primeras 5 filas de datos
if os.path.exists("dataframe.csv"):
    dataframe.head(5)
else:
    dataframe = pd.DataFrame(data)

Metodología: 

* Utilizar metodología ETL

Metodología de ETL con Python
ETL (Extract, Transform, Load) es un proceso fundamental en el manejo de datos, donde se extraen datos de una fuente, se transforman para adecuarlos a un formato deseado y se cargan en un destino final (como bases de datos, sistemas de análisis o almacenes de datos). Este flujo garantiza que los datos sean consistentes, limpios y listos para ser analizados.

¿Por qué es importante el ETL?
* Integración de datos: Permite consolidar datos provenientes de múltiples fuentes en un único repositorio.
* Mejora de calidad: Durante la transformación, se eliminan inconsistencias, duplicados y valores erróneos.
* Toma de decisiones eficiente: Datos limpios y organizados aseguran análisis confiables para la toma de decisiones.
* Automatización y escalabilidad: Automatiza procesos rutinarios de preparación de datos, optimizando recursos.


Como lo mencione anteriormente, realizaremos dos procesos diferentes, un proceso ETL para Python y otro para PowerBI, en este orden de ideas de aquí en adelante realizare la conversión de datos para el modelo que necesitamos. Además de esto debemos realizar unos pasos adicionales para validar que cada vez que corramos el programa no se recree la base de datos nuevamente.

In [5]:
# 7 exportamos la base de datos a un documento csv llamado dataframe de aqui en adelante
if os.path.exists("dataframe.csv"):
    dataframe.head(5)
else:
    dataframe.to_csv("dataframe.csv", index=False)

Python y PowerBI

De aquí en adelante solo utilizare la transformación de datos en Python para poder realizar el correcto ajuste del modelo que queremos utilizar e implementar.

In [6]:
# 8 Metodología de ETL con Python
# Primero que todo, creamos una funcion que pueda transformar todos los datos si en 1 y los no en 0
# Identificar columnas con valores "Si" / "No"
cols_si_no = dataframe.columns[dataframe.isin(['Si', 'No']).any()]

In [7]:
# 9 Aplicar la transformación a binario: "Si" a 1, "No" a 0
dataframe[cols_si_no] = dataframe[cols_si_no].applymap(lambda x: 1 if x == 'Si' else 0)

  dataframe[cols_si_no] = dataframe[cols_si_no].applymap(lambda x: 1 if x == 'Si' else 0)


In [8]:
# 10 validamos que nuestro proceso de limpieza este funcionando.
modelDataframe = dataframe
modelDataframe.head(10)

Unnamed: 0,Edad,Edad Victima,Sexo,Año agresión,Lugar de residencia,Composicion del hogar,Grado de consanguinidad de persona a cargo,Numero de personas con quienes vive,Profesion persona a cargo,Nivel escolar,...,Antecedentes penales o disciplinarios,Trastorno psicologico o adiccion,Atencion psicologica previa,Se siente arrepentido,Reconoce que su comportamiento fue incorrecto,Premeditado o impulsivo,Violencia fisica o amenazas,Actuo solo o con otras personas,Edad inicio consumo pornografico,Contenido violento o explicito en material
0,17,13,Masculino,2016,Los Martires,Nuclear,Otros familiares,7,Profesional,Universitario,...,0,1,0,0,1,Impulsivo,1,Solo,7,0
1,15,8,Femenino,2020,Usaquen,Nuclear,Abuelos,2,Ambulante,Secundaria,...,1,0,0,0,0,Impulsivo,1,Solo,14,1
2,14,9,Femenino,2017,Rafael Uribe Uribe,Nuclear,Tios,2,Agricultor,Secundaria,...,0,0,1,1,0,Impulsivo,0,Con otras personas,14,0
3,14,13,Masculino,2018,Teusaquillo,Nuclear,Padres,6,Ambulante,Universitario,...,0,0,1,0,1,Impulsivo,0,Con otras personas,8,0
4,15,8,Femenino,2023,Rafael Uribe Uribe,Monoparental,Abuelos,5,Agricultor,Secundaria,...,0,1,1,0,1,Impulsivo,0,Solo,8,1
5,13,7,Femenino,2018,Chapinero,Nuclear,Padres,5,Obrero,Secundaria,...,1,0,0,1,0,Premeditado,0,Solo,14,0
6,14,8,Masculino,2020,Ciudad Bolivar,Monoparental,Abuelos,1,Empleado,Primaria,...,1,0,0,0,0,Premeditado,1,Solo,10,0
7,13,8,Masculino,2015,Kennedy,Extendida,Tios,6,Desempleado,Tecnico,...,1,0,0,0,0,Premeditado,1,Solo,12,0
8,16,13,Femenino,2021,Tunjuelito,Monoparental,Padres,5,Independiente,Tecnico,...,0,0,0,0,1,Impulsivo,1,Con otras personas,7,1
9,13,8,Femenino,2018,San Cristobal,Monoparental,Tios,4,Desempleado,Secundaria,...,0,0,1,0,0,Impulsivo,1,Solo,8,1


In [9]:
# 11 Debemos continuar con los procedimientos para la transformacion de los datos, usaremos 
# Ahora podemos revisar si los datos estan completos.
modelDataframe.isna().sum()

Edad                                             0
Edad Victima                                     0
Sexo                                             0
Año agresión                                     0
Lugar de residencia                              0
Composicion del hogar                            0
Grado de consanguinidad de persona a cargo       0
Numero de personas con quienes vive              0
Profesion persona a cargo                        0
Nivel escolar                                    0
Rendimiento academico promedio                   0
Antecedentes de maltrato familiar o escolar      0
Participa en actividades extracurriculares       0
Usa redes sociales activamente                   0
Contacto de forma inapropiada en redes           0
Involucrado en otros incidentes de agresion      0
Conocia a la victima                             0
Antecedentes penales o disciplinarios            0
Trastorno psicologico o adiccion                 0
Atencion psicologica previa    

In [10]:
# 12 Como nosotros mismos realizamos la generación de la base de datos, sabemos que no hay datos nulos.
# Continuaremos con la limpieza de los datos para nuestro modelo de regresión
# Debemos realizar la conversión de datos de las variables categóricas nominales y ordinales si es el caso y existen, 
# aunque en este modelo solo tenemos variables categóricas nominales. Usaremos el get dummies de pandas para la transformacion.
modelDataframe.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 27 columns):
 #   Column                                         Non-Null Count  Dtype 
---  ------                                         --------------  ----- 
 0   Edad                                           10000 non-null  int64 
 1   Edad Victima                                   10000 non-null  int64 
 2   Sexo                                           10000 non-null  object
 3   Año agresión                                   10000 non-null  int64 
 4   Lugar de residencia                            10000 non-null  object
 5   Composicion del hogar                          10000 non-null  object
 6   Grado de consanguinidad de persona a cargo     10000 non-null  object
 7   Numero de personas con quienes vive            10000 non-null  int64 
 8   Profesion persona a cargo                      10000 non-null  object
 9   Nivel escolar                                  10000 non-null 

In [12]:
# 13 Identificamos que hay 8 variables, o bueno mejor dicho 8 columnas que utilizan datos de variables nominales.
# Tomemos estas 8 columnas y las transformamos
dummies = pd.get_dummies(modelDataframe[[
    "Sexo",
    "Lugar de residencia",
    "Composicion del hogar",
    "Grado de consanguinidad de persona a cargo",
    "Profesion persona a cargo",
    "Nivel escolar",
    "Premeditado o impulsivo",
    "Actuo solo o con otras personas"
    ]], dtype=int)

print(dummies.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 45 columns):
 #   Column                                                       Non-Null Count  Dtype
---  ------                                                       --------------  -----
 0   Sexo_Femenino                                                10000 non-null  int32
 1   Sexo_Masculino                                               10000 non-null  int32
 2   Lugar de residencia_Antonio Narino                           10000 non-null  int32
 3   Lugar de residencia_Barrios Unidos                           10000 non-null  int32
 4   Lugar de residencia_Bosa                                     10000 non-null  int32
 5   Lugar de residencia_Chapinero                                10000 non-null  int32
 6   Lugar de residencia_Ciudad Bolivar                           10000 non-null  int32
 7   Lugar de residencia_Engativa                                 10000 non-null  int32
 8   Lugar d

In [15]:
# 14 Una vez realizada la transformación de los dummies a datos binarios, procedemos a borrar los datos de nuestra variable modelDataframe 
# y después procedemos a unir los dummies a nuestra variable.
modelDataframeLimpio = modelDataframe.drop([
    "Sexo",
    "Lugar de residencia",
    "Composicion del hogar",
    "Grado de consanguinidad de persona a cargo",
    "Profesion persona a cargo",
    "Nivel escolar",
    "Premeditado o impulsivo",
    "Actuo solo o con otras personas"
], axis=1)

print(modelDataframeLimpio.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 19 columns):
 #   Column                                         Non-Null Count  Dtype
---  ------                                         --------------  -----
 0   Edad                                           10000 non-null  int64
 1   Edad Victima                                   10000 non-null  int64
 2   Año agresión                                   10000 non-null  int64
 3   Numero de personas con quienes vive            10000 non-null  int64
 4   Rendimiento academico promedio                 10000 non-null  int64
 5   Antecedentes de maltrato familiar o escolar    10000 non-null  int64
 6   Participa en actividades extracurriculares     10000 non-null  int64
 7   Usa redes sociales activamente                 10000 non-null  int64
 8   Contacto de forma inapropiada en redes         10000 non-null  int64
 9   Involucrado en otros incidentes de agresion    10000 non-null  int64
 10 

In [16]:
# 15 Una vez limpio el dataset de las variables categóricas, procederemos a unir las variables de los dummies con la función join de pandas.
datasetModeloFinal = modelDataframeLimpio.join(dummies)
print(datasetModeloFinal.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 64 columns):
 #   Column                                                       Non-Null Count  Dtype
---  ------                                                       --------------  -----
 0   Edad                                                         10000 non-null  int64
 1   Edad Victima                                                 10000 non-null  int64
 2   Año agresión                                                 10000 non-null  int64
 3   Numero de personas con quienes vive                          10000 non-null  int64
 4   Rendimiento academico promedio                               10000 non-null  int64
 5   Antecedentes de maltrato familiar o escolar                  10000 non-null  int64
 6   Participa en actividades extracurriculares                   10000 non-null  int64
 7   Usa redes sociales activamente                               10000 non-null  int64
 8   Contact

In [None]:
# 16 verificamos una vez mas nuestros datos
datasetModeloFinal.describe()