<a href="https://colab.research.google.com/github/JP2620/Mentoria-Analisis-y-Visualizacion/blob/main/Susana_TP1_Datos_faltantes_Y_nulos__Mentoria09.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# **Mentoría Ciencia de datos aplicada a la predicción de licencias médicas y comportamiento de los colaboradores**
Trabajaremos con datos obtenidos de una plataforma de salud ocupacional con el **objetivo de predecir la carga de licencias médicas**. Se propone **realizar un análisis temporal a diferentes escalas**, e identificar las variables asociadas que **expliquen el número de licencias y/o diagnósticos involucrados**.
## **Trabajo Práctico 1: Análisis y Visualización de Datos**

---

# Datos



In [None]:
import io
import matplotlib
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns

sns.set_context('talk')

## Lectura del dataset


In [None]:
url = 'https://raw.githubusercontent.com/MentoriaDiploDatos/Presentacion/main/data.csv'
df = pd.read_csv(url, sep=';')

### #1 **¿Cuáles son las columnas relevantes del dataset? **
Selecciono las columnas más relevantes en base al objetivo:


*   observar si existe un sobredimensionamiento en la cantidad de días solicitados en las licencias médicas
*   el análisis debe ser temporal por lo que son importantes las fechas para realizarlo.

Para lo cual, reviso la info general del DS (dataset) lo que me permite determinar el total de filas,
los tipos de datos de cada columna,
las columnas que no contienen dato (nAn)




In [None]:
# Reviso la información gral. del dataset
df.info()

In [None]:
df.columns


De la info recogida en el item 1 se observa que las fechas tienen tipo de dato "object" y lo modificaré para posteriormente realizar análisis de series de tiempo

In [None]:
df['fecha_creacion'] = pd.to_datetime(df['fecha_creacion'])
df['fecha_inicio'] = pd.to_datetime(df['fecha_inicio'])
df['fecha_fin'] = pd.to_datetime(df['fecha_fin'])
df['fecha_nacimiento'] = pd.to_datetime(df['fecha_nacimiento'])
df.dtypes
df.info()

In [None]:
# Construyo un dataset con las columnas relevantes
relevant_columns = ['fecha_creacion',
       'dias_solicitados', 'fecha_inicio', 'fecha_fin', 'diagnostico',
       'id_diagnostico', 'fecha_nacimiento', 'genero',
       'tipo_licencia', 'estado_civil', 'dias_aprobados', 'decision_medica',
       'id_auditor', 'motivo_rechazo', 'categoria_diagnostico']
dfrelev = df[relevant_columns]
dfrelev[:3]

### 2 *¿Qué tipo de variable es cada una?
Asegurar que tengan el tipo de datos adecuado. Por ejemplo, para el caso de las fechas usar librería datetime para su conversión. En el paso anterior se realizó la transformación del tipo de dato de las fechas


In [None]:
dfrelev.dtypes
dfrelev.info()

In [None]:
#ordeno el set de datos por fecha de creación
dfrelev.sort_values(by='fecha_creacion', ascending=True).head(7)

## **3 Exploración del DataSet**
Se revisa el DataSet para revisar si se detectan:
**Valores faltantes**: aquellos datos que no se encuentran presentes en una variable o columna determinada, ya sea porque no se registraron o porque se perdieron.




In [None]:
# Se revisan los valores nulos (None o NaN)
null_values_count = dfrelev.isnull().sum()
null_values_count

In [None]:

import missingno as msno
#len(dfrelev)
#print(len(dfrelev.dias_solicitados))
#print(len(dfrelev.tipo_licencia))

msno.matrix(dfrelev , figsize=(12, 6), fontsize=12, color=[0,0,0.2])

#print(dfrelev['dias_solicitados'].isnull().sum())
#print(dfrelev['tipo_licencia'].isnull().sum())
#print(dfrelev['dias_solicitados'].describe() )
#print(dfrelev['tipo_licencia'].describe() )

Para encontrar valores **INCOMPLETOS o CORRUPTOS** se estudia y determinan rangos esperados o ciertos criteros que deben cumplir los valores de cada columna para imputar los correspondientes valores correctos con el método más adecuado o, en caso de ser posible, eliminar las filas con valores faltantes, incompletos o corruptos.

In [None]:
dfrelev.sort_values(by='fecha_creacion', ascending=True).head(7)

In [None]:
plt.figure(figsize=(10, 6))
plt.boxplot(data= dfrelev[dfrelev.dias_aprobados <365] , x='dias_aprobados',)
plt.show()


### Calculo la cantidad de días de licencia que fueron  efectivamente autorizados

In [None]:
#4 CALCULO LA CANTIDAD DE DÍAS EFECTIVAMENTE AUTORIZADOS DE LICENCIA
def days_between(row):
    d1 = pd.to_datetime(row['fecha_inicio'], format='%Y-%m-%d')
    d2 = pd.to_datetime(row['fecha_fin'], format='%Y-%m-%d')
    return abs((d2 - d1).days)

dfrelev['dias_lic_efectiva'] = dfrelev.apply(days_between, axis=1)

## #4 CALCULO LA EDAD
A partir de la fecha de nacimiento calcular la edad del colaborador que solicita la licencia.

In [None]:
#4 CALCULO LA EDAD A partir de la fecha de nacimiento calcular la edad del colaborador que solicita la licencia.
def calculate_age(row):
    fecha_nacimiento = pd.to_datetime(row['fecha_nacimiento'])
    fecha_inicio = pd.to_datetime(row['fecha_inicio'])
    return fecha_inicio.year - fecha_nacimiento.year - ((fecha_inicio.month, fecha_inicio.day) < (fecha_nacimiento.month, fecha_nacimiento.day))

dfrelev['edad'] = dfrelev.apply(calculate_age, axis=1)
dfrelev.dtypes


In [None]:
dfrelev[:3]


#6 Realicen un análisis estadístico de cada una de las variables numéricas:
Cantidad de datos, mínimo, máximo, media, mediana, varianza, desviación estándar, cuartil 1, cuartil 3, rango intercuartílico.
    6.A) Elijan una o dos variables categóricas, repetir este análisis y sacar conclusiones.
    6.B) ¿El tiempo es una variable influyente en las distribuciones de estas variables? Ayudarse de gráficos para contestar esta pregunta.

In [None]:
dfrelev.shape

In [None]:
dfrelev.describe()

In [None]:
# ESTADÍSTICAS DE DATOS NUMÉRICOS **DIAS SOLICITADOS**
import numpy as np
print(dfrelev['dias_solicitados'].describe() )
# dfrelev.apply(np.nanvar, axis=0) FALTA CALCULAR LA VARIANZA..

In [None]:
# ESTADÍSTICAS DE DATOS NUMÉRICOS **DIAS APROBADOS**
print(dfrelev['dias_aprobados'].describe() )
# dfrelev.apply(np.nanvar, axis=0) FALTA CALCULAR LA VARIANZA..

In [None]:
# ESTADÍSTICAS DE DATOS NUMÉRICOS **DIAS LICENCIA EFECTIVA**
print(dfrelev['dias_lic_efectiva'].describe() )
# dfrelev.apply(np.nanvar, axis=0) FALTA CALCULAR LA VARIANZA..

In [None]:
# ESTADÍSTICAS DE DATOS NUMÉRICOS **EDAD**
print(dfrelev['edad'].describe() )
# dfrelev.apply(np.nanvar, axis=0) FALTA CALCULAR LA VARIANZA..

### ** 6.A) Elijan una o dos variables categóricas, repetir este análisis y sacar conclusiones.**

In [None]:
# Se seleccionan las variables categóricas decision_medica y motivo_de_rechazo
dfrelev.decision_medica.unique()


In [None]:

fig = plt.figure(figsize=(8,4)) #se genera la figura y se define su tamaño
sns.countplot(x=dfrelev['decision_medica']) # gráfico de conteos de la primer columna (decision_medica)
plt.tick_params(axis = 'x', labelrotation=75)
plt.show()

Las licencias rechazadas son mínimas en comparación con las aprobadas y las que figuran EDITAR_APROBAR.

In [None]:
dfrelev.motivo_rechazo.unique()

dfrelev.loc[:,'motivo_rechazo'] = dfrelev.motivo_rechazo.replace({'Se aprueba la licencia':'lic.aprobada'
       ,'La documentacion adjuntada no cumple requisitos':'Docum.no cumple req.'
       ,'Se aprueba por menos dias':'Aprueba menos dias'
       ,'Diagnostico no valido': 'Diagnostico no valido'
       ,'Motivos formales':'Motivos formales'
       ,'Ausente a turno':'Ausente a turno'
       ,'Otros motivos':'Otros motivos'}).fillna(False)

In [None]:
fig = plt.figure(figsize=(8,4)) #se genera la figura y se define su tamaño
#sns.countplot(x=dfrelev.motivo_rechazo,orient="v", color='steelblue') # gráfico de conteos de la segunda columna (decision_medica)
sns.set_theme(style="whitegrid")
sns.countplot(x=dfrelev["motivo_rechazo"])
plt.tick_params(axis = 'x', labelrotation=75)
plt.show()

Se observa que en la columna motivo_rechazo se incluyen valores que no corresponden a un rechazo Ej. licencia aprobada, o el caso de los false que corresponden a datos None o NaN