ENTREGABLE PROFESIONALES

Objetivo: Desarrollar en el alumno las competencias de entender, manipular, administrar y analizar datos mediante la creación de informes para la toma de decisiones.


Consideraciones:
* Creación de base de datos en Excel, Access o SQL. (La base de datos puede ser real o ficticia)

* Creación de un sistema de informes en Excel, Power BI o Looker Studio no menor a 6 vistas, en cada vista no menor a 5 objetos de visualización.

* Realizar un análisis sobre el informe creado, desarrollando puntos de análisis para la toma de decisiones.

Propuesta de un Análisis de datos y Modelo de IA para la Prevención del Abuso Sexual Infantil

Introducción:
El abuso sexual infantil es una problemática global que afecta a millones de menores de edad cada año. A pesar de los esfuerzos por mitigar este flagelo, sigue siendo un desafío identificar de manera temprana los factores de riesgo y prevenir los casos antes de que ocurran. La inteligencia artificial (IA) nos ofrece una herramienta innovadora y poderosa para hacer frente a este reto, utilizando la recolección de datos de manera ética y controlada para proteger a los más vulnerables.


Para verificar que el modelo funciona correctamente procederemos a crear una base de datos ficticios aleatorios, esto solo con el fin de solo realizar la validación y funcionalidad del programa.

Debemos realizar 2 tipos de análisis de datos diferentes, el primero será un análisis de datos enfocado en un proceso ETL para un modelo de regresión lineal de Python, el segundo será un análisis de datos enfocado en un contexto mas grafico para poder presentar un dashboard para presentar estos datos con PowerBI.

In [None]:
# 1 Instalamos la libreria de faker para poder generar datos random
pip install faker

In [26]:
# 2 Importamos las librerias que vamos a utilizar.
import pandas as pd
import random
from faker import Faker
import numpy as np
import os

In [27]:
# 3 Inicializar Faker para generar datos ficticios
fake = Faker()

# 4 aqui declaramos el numero de filas que vamos a utilizar para nuestra base.
num_rows = 10000

In [28]:
# 5 Generar datos aleatorios para cada columna utilizando un array de datos aleatorios, 
# usamos faker y usamos num_rows para la dantidad de row del dataframe en este caso usaremos 10.000 filas de datos

# Verificar si el archivo CSV ya existe
if os.path.exists("dataframe.csv"):
    # Cargar el archivo CSV en un DataFrame
    dataframe = pd.read_csv("dataframe.csv")
else:
    data = {
    "Edad": np.random.randint(13, 18, num_rows),
    "Edad Victima": np.random.randint(7, 14, num_rows),
    "Sexo": [random.choice(["Masculino", "Femenino"]) for _ in range(num_rows)],
    "Año agresión": np.random.randint(2015,2025, num_rows),
    "Lugar de residencia": [random.choice([
        "Antonio Narino", "Barrios Unidos", "Bosa", "Chapinero", 
        "Ciudad Bolivar", "Engativa", "Fontibon", "Kennedy", 
        "La Candelaria", "Los Martires", "Puente Aranda", 
        "Rafael Uribe Uribe", "San Cristobal", "Santa Fe", 
        "Suba", "Sumapaz", "Teusaquillo", "Tunjuelito", 
        "Usaquen", "Usme"]) for _ in range(num_rows)],
    
    "Composicion del hogar": [random.choice(["Nuclear", "Monoparental", "Extendida"]) for _ in range(num_rows)],
    "Grado de consanguinidad de persona a cargo": [random.choice(["Padres", "Hermanos", "Tios", "Abuelos", "Otros familiares"]) for _ in range(num_rows)],
    "Numero de personas con quienes vive": np.random.randint(1, 8, num_rows),
    "Profesion persona a cargo": [random.choice([
        "Agricultor", "Empleado","Profesional","Obrero","Desempleado", 
        "Independiente","Ambulante"]) for _ in range(num_rows)],
    
    "Nivel escolar": [random.choice(["Primaria", "Secundaria", "Tecnico", "Universitario"]) for _ in range(num_rows)],
    "Rendimiento academico promedio": np.random.randint(1, 10, num_rows),
    "Antecedentes de maltrato familiar o escolar": [random.choice(["Si", "No"]) for _ in range(num_rows)],
    "Participa en actividades extracurriculares": [random.choice(["Si", "No"]) for _ in range(num_rows)],
    
    "Usa redes sociales activamente": [random.choice(["Si", "No"]) for _ in range(num_rows)],
    "Contacto de forma inapropiada en redes": [random.choice(["Si", "No"]) for _ in range(num_rows)],
    
    "Involucrado en otros incidentes de agresion": [random.choice(["Si", "No"]) for _ in range(num_rows)],
    "Conocia a la victima": [random.choice(["Si", "No"]) for _ in range(num_rows)],
    "Antecedentes penales o disciplinarios": [random.choice(["Si", "No"]) for _ in range(num_rows)],
    
    "Trastorno psicologico o adiccion": [random.choice(["Si", "No"]) for _ in range(num_rows)],
    "Atencion psicologica previa": [random.choice(["Si", "No"]) for _ in range(num_rows)],
    "Se siente arrepentido": [random.choice(["Si", "No"]) for _ in range(num_rows)],
    "Reconoce que su comportamiento fue incorrecto": [random.choice(["Si", "No"]) for _ in range(num_rows)],
    
    "Premeditado o impulsivo": [random.choice(["Premeditado", "Impulsivo"]) for _ in range(num_rows)],
    "Violencia fisica o amenazas": [random.choice(["Si", "No"]) for _ in range(num_rows)],
    "Actuo solo o con otras personas": [random.choice(["Solo", "Con otras personas"]) for _ in range(num_rows)],
    
    "Edad inicio consumo pornografico": np.random.randint(6, 15, num_rows),
    "Contenido violento o explicito en material": [random.choice(["Si", "No"]) for _ in range(num_rows)],
    "Agresion sexual Confirmada": [random.choice(["Si", "No"]) for _ in range(num_rows)]
}

In [29]:
# 6 Utilizamos pandas para crear el dataframe con el array de datos
# Verificamos que los datos funcionen como dataframe y damos un vistazo a las primeras 5 filas de datos
if os.path.exists("dataframe.csv"):
    dataframe.head(5)
else:
    dataframe = pd.DataFrame(data)

Metodología: 

* Utilizar metodología ETL

Metodología de ETL con Python
ETL (Extract, Transform, Load) es un proceso fundamental en el manejo de datos, donde se extraen datos de una fuente, se transforman para adecuarlos a un formato deseado y se cargan en un destino final (como bases de datos, sistemas de análisis o almacenes de datos). Este flujo garantiza que los datos sean consistentes, limpios y listos para ser analizados.

¿Por qué es importante el ETL?
* Integración de datos: Permite consolidar datos provenientes de múltiples fuentes en un único repositorio.
* Mejora de calidad: Durante la transformación, se eliminan inconsistencias, duplicados y valores erróneos.
* Toma de decisiones eficiente: Datos limpios y organizados aseguran análisis confiables para la toma de decisiones.
* Automatización y escalabilidad: Automatiza procesos rutinarios de preparación de datos, optimizando recursos.


Como lo mencione anteriormente, realizaremos dos procesos diferentes, un proceso ETL para Python y otro para PowerBI, en este orden de ideas de aquí en adelante realizare la conversión de datos para el modelo que necesitamos. Además de esto debemos realizar unos pasos adicionales para validar que cada vez que corramos el programa no se recree la base de datos nuevamente.

In [30]:
# 7 exportamos la base de datos a un documento csv llamado dataframe de aqui en adelante
if os.path.exists("dataframe.csv"):
    dataframe.head(5)
else:
    dataframe.to_csv("dataframe.csv", index=False)

Python y PowerBI

De aquí en adelante solo utilizare la transformación de datos en Python para poder realizar el correcto ajuste del modelo que queremos utilizar e implementar.

In [31]:
# 8 Metodología de ETL con Python
# Primero que todo, creamos una funcion que pueda transformar todos los datos si en 1 y los no en 0
# Identificar columnas con valores "Si" / "No"
cols_si_no = dataframe.columns[dataframe.isin(['Si', 'No']).any()]

In [32]:
# 9 Aplicar la transformación a binario: "Si" a 1, "No" a 0
dataframe[cols_si_no] = dataframe[cols_si_no].applymap(lambda x: 1 if x == 'Si' else 0)

  dataframe[cols_si_no] = dataframe[cols_si_no].applymap(lambda x: 1 if x == 'Si' else 0)


In [33]:
# 10 validamos que nuestro proceso de limpieza este funcionando.
modelDataframe = dataframe
modelDataframe.head(10)

Unnamed: 0,Edad,Edad Victima,Sexo,Año agresión,Lugar de residencia,Composicion del hogar,Grado de consanguinidad de persona a cargo,Numero de personas con quienes vive,Profesion persona a cargo,Nivel escolar,...,Trastorno psicologico o adiccion,Atencion psicologica previa,Se siente arrepentido,Reconoce que su comportamiento fue incorrecto,Premeditado o impulsivo,Violencia fisica o amenazas,Actuo solo o con otras personas,Edad inicio consumo pornografico,Contenido violento o explicito en material,Agresion sexual Confirmada
0,15,8,Femenino,2016,San Cristobal,Nuclear,Padres,3,Agricultor,Secundaria,...,1,1,1,1,Premeditado,0,Con otras personas,11,0,0
1,13,10,Femenino,2020,La Candelaria,Monoparental,Hermanos,2,Independiente,Primaria,...,1,1,1,1,Impulsivo,0,Con otras personas,12,0,1
2,16,13,Femenino,2018,Sumapaz,Extendida,Tios,2,Independiente,Universitario,...,0,1,0,0,Premeditado,0,Con otras personas,10,1,1
3,16,13,Masculino,2019,Ciudad Bolivar,Nuclear,Abuelos,2,Agricultor,Secundaria,...,1,0,0,0,Impulsivo,1,Con otras personas,9,0,1
4,13,11,Femenino,2015,Barrios Unidos,Monoparental,Tios,6,Independiente,Secundaria,...,1,0,0,1,Impulsivo,1,Con otras personas,7,0,1
5,16,12,Femenino,2016,La Candelaria,Extendida,Tios,4,Obrero,Primaria,...,1,1,0,0,Impulsivo,1,Solo,12,0,0
6,14,12,Femenino,2022,San Cristobal,Extendida,Padres,7,Independiente,Secundaria,...,0,1,1,0,Impulsivo,1,Solo,10,0,1
7,16,10,Femenino,2024,Usaquen,Nuclear,Hermanos,1,Ambulante,Tecnico,...,1,1,0,1,Premeditado,1,Con otras personas,7,1,1
8,17,7,Femenino,2016,Santa Fe,Extendida,Tios,1,Profesional,Tecnico,...,0,0,1,0,Impulsivo,0,Con otras personas,14,0,0
9,13,11,Masculino,2018,Chapinero,Monoparental,Padres,5,Agricultor,Universitario,...,1,1,1,1,Premeditado,0,Con otras personas,9,1,0


In [37]:
# 11 Debemos continuar con los procedimientos para la transformacion de los datos, usaremos 
# Ahora podemos revisar si los datos estan completos.
modelDataframe.isna().sum()

Edad                                             0
Edad Victima                                     0
Sexo                                             0
Año agresión                                     0
Lugar de residencia                              0
Composicion del hogar                            0
Grado de consanguinidad de persona a cargo       0
Numero de personas con quienes vive              0
Profesion persona a cargo                        0
Nivel escolar                                    0
Rendimiento academico promedio                   0
Antecedentes de maltrato familiar o escolar      0
Participa en actividades extracurriculares       0
Usa redes sociales activamente                   0
Contacto de forma inapropiada en redes           0
Involucrado en otros incidentes de agresion      0
Conocia a la victima                             0
Antecedentes penales o disciplinarios            0
Trastorno psicologico o adiccion                 0
Atencion psicologica previa    

In [38]:
# 12 Como nosotros mismos realizamos la generación de la base de datos, sabemos que no hay datos nulos.
# Continuaremos con la limpieza de los datos para nuestro modelo de regresión
# Debemos realizar la conversión de datos de las variables categóricas nominales y ordinales si es el caso y existen, 
# aunque en este modelo solo tenemos variables categóricas nominales. Usaremos el get dummies de pandas para la transformacion.
modelDataframe.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 28 columns):
 #   Column                                         Non-Null Count  Dtype 
---  ------                                         --------------  ----- 
 0   Edad                                           10000 non-null  int32 
 1   Edad Victima                                   10000 non-null  int32 
 2   Sexo                                           10000 non-null  object
 3   Año agresión                                   10000 non-null  int32 
 4   Lugar de residencia                            10000 non-null  object
 5   Composicion del hogar                          10000 non-null  object
 6   Grado de consanguinidad de persona a cargo     10000 non-null  object
 7   Numero de personas con quienes vive            10000 non-null  int32 
 8   Profesion persona a cargo                      10000 non-null  object
 9   Nivel escolar                                  10000 non-null 

In [39]:
# 13 Identificamos que hay 8 variables, o bueno mejor dicho 8 columnas que utilizan datos de variables nominales.
# Tomemos estas 8 columnas y las transformamos
dummies = pd.get_dummies(modelDataframe[[
    "Sexo",
    "Lugar de residencia",
    "Composicion del hogar",
    "Grado de consanguinidad de persona a cargo",
    "Profesion persona a cargo",
    "Nivel escolar",
    "Premeditado o impulsivo",
    "Actuo solo o con otras personas"
    ]], dtype=int)

print(dummies.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 45 columns):
 #   Column                                                       Non-Null Count  Dtype
---  ------                                                       --------------  -----
 0   Sexo_Femenino                                                10000 non-null  int32
 1   Sexo_Masculino                                               10000 non-null  int32
 2   Lugar de residencia_Antonio Narino                           10000 non-null  int32
 3   Lugar de residencia_Barrios Unidos                           10000 non-null  int32
 4   Lugar de residencia_Bosa                                     10000 non-null  int32
 5   Lugar de residencia_Chapinero                                10000 non-null  int32
 6   Lugar de residencia_Ciudad Bolivar                           10000 non-null  int32
 7   Lugar de residencia_Engativa                                 10000 non-null  int32
 8   Lugar d

In [40]:
# 14 Una vez realizada la transformación de los dummies a datos binarios, procedemos a borrar los datos de nuestra variable modelDataframe 
# y después procedemos a unir los dummies a nuestra variable.
modelDataframeLimpio = modelDataframe.drop([
    "Sexo",
    "Lugar de residencia",
    "Composicion del hogar",
    "Grado de consanguinidad de persona a cargo",
    "Profesion persona a cargo",
    "Nivel escolar",
    "Premeditado o impulsivo",
    "Actuo solo o con otras personas"
], axis=1)

print(modelDataframeLimpio.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 20 columns):
 #   Column                                         Non-Null Count  Dtype
---  ------                                         --------------  -----
 0   Edad                                           10000 non-null  int32
 1   Edad Victima                                   10000 non-null  int32
 2   Año agresión                                   10000 non-null  int32
 3   Numero de personas con quienes vive            10000 non-null  int32
 4   Rendimiento academico promedio                 10000 non-null  int32
 5   Antecedentes de maltrato familiar o escolar    10000 non-null  int64
 6   Participa en actividades extracurriculares     10000 non-null  int64
 7   Usa redes sociales activamente                 10000 non-null  int64
 8   Contacto de forma inapropiada en redes         10000 non-null  int64
 9   Involucrado en otros incidentes de agresion    10000 non-null  int64
 10 

In [41]:
# 15 Una vez limpio el dataset de las variables categóricas, procederemos a unir las variables de los dummies con la función join de pandas.
datasetModeloFinal = modelDataframeLimpio.join(dummies)
print(datasetModeloFinal.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 65 columns):
 #   Column                                                       Non-Null Count  Dtype
---  ------                                                       --------------  -----
 0   Edad                                                         10000 non-null  int32
 1   Edad Victima                                                 10000 non-null  int32
 2   Año agresión                                                 10000 non-null  int32
 3   Numero de personas con quienes vive                          10000 non-null  int32
 4   Rendimiento academico promedio                               10000 non-null  int32
 5   Antecedentes de maltrato familiar o escolar                  10000 non-null  int64
 6   Participa en actividades extracurriculares                   10000 non-null  int64
 7   Usa redes sociales activamente                               10000 non-null  int64
 8   Contact

In [44]:
# 16 verificamos una vez mas nuestros datos con una descripcion.
datasetModeloFinal.describe()

Unnamed: 0,Edad,Edad Victima,Año agresión,Numero de personas con quienes vive,Rendimiento academico promedio,Antecedentes de maltrato familiar o escolar,Participa en actividades extracurriculares,Usa redes sociales activamente,Contacto de forma inapropiada en redes,Involucrado en otros incidentes de agresion,...,Profesion persona a cargo_Obrero,Profesion persona a cargo_Profesional,Nivel escolar_Primaria,Nivel escolar_Secundaria,Nivel escolar_Tecnico,Nivel escolar_Universitario,Premeditado o impulsivo_Impulsivo,Premeditado o impulsivo_Premeditado,Actuo solo o con otras personas_Con otras personas,Actuo solo o con otras personas_Solo
count,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,...,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0
mean,14.9813,10.0128,2019.4769,4.0182,4.9929,0.4993,0.4986,0.5068,0.5068,0.4965,...,0.1445,0.1443,0.2535,0.2454,0.2503,0.2508,0.5033,0.4967,0.5027,0.4973
std,1.408882,2.002807,2.871113,2.014466,2.577307,0.500025,0.500023,0.499979,0.499979,0.500013,...,0.351614,0.351411,0.435036,0.430346,0.433207,0.433495,0.500014,0.500014,0.500018,0.500018
min,13.0,7.0,2015.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,14.0,8.0,2017.0,2.0,3.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
50%,15.0,10.0,2019.0,4.0,5.0,0.0,0.0,1.0,1.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0
75%,16.0,12.0,2022.0,6.0,7.0,1.0,1.0,1.0,1.0,1.0,...,0.0,0.0,1.0,0.0,1.0,1.0,1.0,1.0,1.0,1.0
max,17.0,13.0,2024.0,7.0,9.0,1.0,1.0,1.0,1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0


In [45]:
# 17 Ahora podemos continuar con el analisis y verificamos las correlaciones con la funcion corr()
datasetModeloFinal.corr()

Unnamed: 0,Edad,Edad Victima,Año agresión,Numero de personas con quienes vive,Rendimiento academico promedio,Antecedentes de maltrato familiar o escolar,Participa en actividades extracurriculares,Usa redes sociales activamente,Contacto de forma inapropiada en redes,Involucrado en otros incidentes de agresion,...,Profesion persona a cargo_Obrero,Profesion persona a cargo_Profesional,Nivel escolar_Primaria,Nivel escolar_Secundaria,Nivel escolar_Tecnico,Nivel escolar_Universitario,Premeditado o impulsivo_Impulsivo,Premeditado o impulsivo_Premeditado,Actuo solo o con otras personas_Con otras personas,Actuo solo o con otras personas_Solo
Edad,1.000000,-0.014199,-0.000070,-0.002981,0.021061,0.000904,-0.007774,-0.001310,0.000961,-0.004281,...,0.006061,-0.014345,-0.000587,0.003281,-0.000687,-0.001981,0.017337,-0.017337,0.002272,-0.002272
Edad Victima,-0.014199,1.000000,-0.010314,0.000165,-0.000467,0.012392,0.002215,-0.016067,0.008602,-0.012539,...,0.010439,-0.001630,-0.011185,0.004942,-0.004154,0.010471,-0.000741,0.000741,-0.001932,0.001932
Año agresión,-0.000070,-0.010314,1.000000,-0.006792,-0.013044,-0.000429,0.008929,0.011013,0.021533,0.013528,...,-0.003380,-0.005468,-0.004319,0.007098,0.004529,-0.007237,-0.019035,0.019035,0.004363,-0.004363
Numero de personas con quienes vive,-0.002981,0.000165,-0.006792,1.000000,-0.009606,0.008353,-0.002060,-0.006776,0.006133,-0.004901,...,0.012383,0.013949,-0.007205,0.005346,0.017585,-0.015649,-0.004031,0.004031,-0.007495,0.007495
Rendimiento academico promedio,0.021061,-0.000467,-0.013044,-0.009606,1.000000,0.014392,0.003911,-0.004348,-0.011488,-0.006499,...,0.011285,-0.007371,0.004192,0.007522,-0.013009,0.001325,0.013250,-0.013250,-0.003982,0.003982
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
Nivel escolar_Universitario,-0.001981,0.010471,-0.007237,-0.015649,0.001325,-0.006111,0.003004,0.000436,-0.018482,0.007280,...,-0.004859,-0.008472,-0.337162,-0.329947,-0.334312,1.000000,-0.004280,0.004280,0.018561,-0.018561
Premeditado o impulsivo_Impulsivo,0.017337,-0.000741,-0.019035,-0.004031,0.013250,-0.021991,-0.004182,0.004511,-0.012291,0.002846,...,0.009518,-0.020639,0.001441,-0.000975,0.003805,-0.004280,1.000000,-1.000000,-0.000836,0.000836
Premeditado o impulsivo_Premeditado,-0.017337,0.000741,0.019035,0.004031,-0.013250,0.021991,0.004182,-0.004511,0.012291,-0.002846,...,-0.009518,0.020639,-0.001441,0.000975,-0.003805,0.004280,-1.000000,1.000000,0.000836,-0.000836
Actuo solo o con otras personas_Con otras personas,0.002272,-0.001932,0.004363,-0.007495,-0.003982,-0.028793,-0.000185,0.008928,-0.007074,0.008438,...,0.002616,-0.011609,-0.003836,-0.008192,-0.006583,0.018561,-0.000836,0.000836,1.000000,-1.000000


In [48]:
# 18 En este espacio, separaremos los datos.
# En el eje X, dejamos todos los datos eliminando la columna ["Agresion sexual Confirmada"].
# En el eje Y, solamente dejamos la columna ["Agresion sexual Confirmada"].
x=datasetModeloFinal.drop(["Agresion sexual Confirmada"], axis=1)
y=datasetModeloFinal["Agresion sexual Confirmada"]

In [49]:
# 19 ahora importamos LinearRegression de sklearn para nuestros modelos
# Importamos LinearRegression asi (pip install scikit-learn) 
# Desde Sklearn importamos train_test_split para dividir los datos en 2
# Los datos que seran para entrenar el modelo y los datos para realizar la prueba.
from sklearn.model_selection import train_test_split
X_ent, X_pru, y_ent, y_pru = train_test_split(x, y, test_size=0.2)

In [50]:
# 20 Desde Sklearn importaremos la función LogisticRegression.
# Crearemos nuestro modelo
# Le especificamos a nuestro modelo que de un máximo de 1000 iteraciones.
from sklearn.linear_model import LogisticRegression
modelo = LogisticRegression(max_iter=1000)
modelo.fit(X_ent,y_ent)

In [51]:
# 21 Ahora usamos nuestro conjunto de datos X de pruebas y lo guardamos en predicciones.
predicciones = modelo.predict(X_pru)

In [52]:
# 22 Ahora podemos verificar como le fue a nuestro modelo,
# Si quedo bien entrenado o no.
from sklearn.metrics import accuracy_score
accuracy_score(y_pru, predicciones)

0.508

In [53]:
# 23 Podemos revisar algunas otras metricas
from sklearn.metrics import classification_report
print(classification_report(y_pru, predicciones))

              precision    recall  f1-score   support

           0       0.53      0.45      0.48      1028
           1       0.49      0.57      0.53       972

    accuracy                           0.51      2000
   macro avg       0.51      0.51      0.51      2000
weighted avg       0.51      0.51      0.51      2000



In [54]:
# 24 Esta matriz de confusiones, nos dará la claridad del porque tenemos varias métricas.
# Puede que por sí solo nos dé un arreglo que no nos dice mucho.
from sklearn.metrics import confusion_matrix
cm=confusion_matrix(y_pru, predicciones)
cm

array([[459, 569],
       [415, 557]], dtype=int64)

In [55]:
# 24 Podemos mejorarlo un poco, agregándolo a un dataframe de pandas con columnas he índices.
pd.DataFrame(cm, columns=["Predi : No", "Predi : Si"], index=["Real : No", "Real : Si"])

Unnamed: 0,Predi : No,Predi : Si
Real : No,459,569
Real : Si,415,557


Conclusiones:

