<img src="https://www.unir.net/wp-content/uploads/2019/11/Unir_2021_logo.svg" width="240" height="240" align="right"/>

<center><h1>Sistema inteligente para ayudar a detectar posibles reclamos (glosas) en las cuentas médicas previo al cobro, de una clínica en Colombia - Audimed</h1></center>
<center><h2>Trabajo Fin de Master<br>Máster Universitario en Análisis y Visualización de Datos Masivos / Visual Analytics and Big Data</h2></center>

<h3>Presentado por: Jacqueline Guzmán Rodriguez</h3>
<h4>Tipo de trabajo: Desarrollo Software <br>
Director: Juan Carlos Rincon Acuña <br>
Fecha: Junio/2024</h4>

<h3> <font color="#040078">Notebook de exploración de los datos, despues de transformados</font></h3>
<h4>Del proceso de transformación se obtiene un archivo CSV (claims.cvs), el cual es el que vamos a utilizar de ahora en adelante, en este script se exploran los datos para detectar posibles patrones de los datos, antes del modelo de datos</h4>
<h5><font color="#C62400">Licencia del Notebook CC BY-NC-SA 4.0 DEED <a href="https://creativecommons.org/licenses/by-nc-sa/4.0/" target="_blank]">https://creativecommons.org/licenses/by-nc-sa/4.0/</a></font></h5/>

## Importación de librerias necesarias

In [1]:
# Load libraries
import numpy as np
import pandas as pd
import seaborn as sns
from matplotlib import pyplot
import matplotlib.pyplot as plt 
from sklearn.preprocessing import MinMaxScaler
import dataframe_image as dfi

## Carga de archivo con datos transformados claims.cvs
#### Se pueden descargar los datos de la plataforma kaggle en el siguiente link: 
##### https://www.kaggle.com/datasets/jacquelineguzman/claims-of-medical-billing/

In [None]:
# Read file CSV Download of 
# https://www.kaggle.com/datasets/jacquelineguzman/claims-of-medical-billing/
file_cvs = "claims.csv"
# Create dataframe with information of file CSV
df = pd.read_csv(file_cvs, delimiter=',', encoding='utf-8')

##### Dividir el dataframe con los datos de entrada y la variable objetivo

In [None]:
# Define colums target (CLAIM)
columns = df.columns
target = "CLAIM"
x_columns = columns.drop(target)

In [None]:
df.info()

##### Actualizar los tipos de datos a 32 bits para mejorar el uso de la RAM

In [None]:
# Update datatype int64 to int32 and float64 to float32, because it is necessary to use less RAM
float_columns = ['QUANTITY_PRODUCT_SERVICE', 'SALES_PRICE', 'INVOICED_PRICE']
int_columns = columns.drop(float_columns)
df[float_columns]=df[float_columns].astype(np.float32)
df[int_columns]=df[int_columns].astype(int)

In [None]:
df.info()

##### Verificar valores nulos.

In [None]:
# Verify values null
print("Null Count: "+str(df.isnull().sum().sum())+"\n")
print(df.isnull().sum())

In [None]:
# Descritive Statistics
df_stats = df.describe()
df_stats = df_stats.transpose()

df_stats

##### Normalizar la información de los datos de entrada.

In [None]:
# Normalize data via MinMaxScaler function
scaler = MinMaxScaler()
df = scaler.fit_transform(df)
df = pd.DataFrame(df,columns=columns)

In [None]:
# Descritive Statistics
df_stats = df.describe()
df_stats = df_stats.transpose()

df_stats

##### Liberar espacio en memoria de los dataframe usados

In [None]:
# Free uo dataframe (dt_stats) memory space
df_stats.drop(df_stats.index, inplace=True)

##### Verificar la cantidad de datos por clase de la variable objetivo

In [None]:
sumary_target = pd.DataFrame({'COUNT':df[target].value_counts()})
dfi.export(sumary_target, 'sumary_target.png')
sumary_target.head()

##### Grafico de barras de la cantidad de clases de la variable objetivo

In [None]:
val_no_claim=str(sumary_target['COUNT'][0])
val_claim=str(sumary_target['COUNT'][1])
fig, ax = plt.subplots()
labels = ['No Claim', 'Claim']
counts=df[target].value_counts()
bar_labels = ['No Claim', 'Claim']
bar_colors = ['lightblue', 'darkblue']
ax.bar(labels, counts, label=bar_labels, color=bar_colors)
plt.text(0, counts[0], val_no_claim, ha='center', va='bottom')
plt.text(1, counts[1], val_claim, ha='center', va='bottom')
ax.set_ylabel('Number of Observations')
ax.legend(title='Target Class')
plt.savefig("target class.jpg")
plt.show()

##### Matriz de correlación

In [None]:
# Correlation matrix
corr = df.corr(method="pearson")
plt.figure(figsize=(20,20)) 
mask=np.triu(np.ones_like(corr,dtype=bool))
cmap='coolwarm'
sns.heatmap(corr, cmap=cmap, mask=mask, center=0,\
            linewidths=0.5, fmt='.2f', annot=False) 
plt.savefig("correlation matrix.jpg")
plt.show()

In [None]:
# Correlation matrix (Data)
corr

In [None]:
# Free uo dataframe (corr) memory space
corr.drop(corr.index, inplace=True)