# Visualizaciones interactivas

## Contenido
1. Fuentes de datos
2. Descripción de los datos
3. Limpieza de datos
4. Valores faltantes
5. Visualización de datos
6. Referencias

## 1. Fuentes de datos

La fuente de datos de este trabajo es **estructurada** en formato xlsx. Los datos son **privados** y se eliminó toda la información sensible por privacidad de los datos. Esta base de datos contiene información sobre rotación de personal de empresas manufactureras de Tala, Jalisco. 

Se trata de una base de datos transversal que comprende del 20 de abril del 2021 al 30 de abril del 2024.

In [2]:
# paquetes
import pandas as pd
import numpy as np
import datetime

import seaborn as sns
import itertools
import altair as alt
alt.renderers.enable('default')

%matplotlib inline

## 2. Descripción de los datos



#### Revisión inicial de los datos originales

In [3]:
# Carga de datos
df_0 = pd.read_csv('...\results\EDA\rotacion_personal_clean.csv')

In [4]:
# Primera visualización de los datos

df_0.head(3)

Unnamed: 0,FECHA DE INGRESO,FECHA ULTIMO REGISTRO,Estatus,Días Laborados,FECHA DE NACIMIENTO,No de Crédito Infonavit,PUESTO,AREA,TURNO,MUNICIPIO,SALARIO MENSUAL,ESCOLARIDAD,GENERO,Tipo de renuncia
0,2023-11-21,2023-11-22,baja,1,1979-08-26 00:00:00,SI,OP PRODUCCION,PRODUCCION,C,TALA,7500.0,SECUNDARIA,FEMENINO,VOLUNTARIA
1,2023-10-16,2023-10-17,baja,1,1993-09-02 00:00:00,NO,OP PRODUCCION,PRODUCCION,C,TALA,7500.0,SECUNDARIA_TRUNCA,FEMENINO,VOLUNTARIA
2,2022-02-21,2022-02-22,baja,1,1993-10-17 00:00:00,NO,OP PRODUCCION,PRODUCCION,C,TALA,6000.0,SECUNDARIA,FEMENINO,ABANDONO


In [None]:
#Esquema de la base de datos 
df_0.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 495 entries, 0 to 494
Data columns (total 14 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   FECHA DE INGRESO         495 non-null    object 
 1   FECHA ULTIMO REGISTRO    495 non-null    object 
 2   Estatus                  495 non-null    object 
 3   Días Laborados           495 non-null    int64  
 4   FECHA DE NACIMIENTO      495 non-null    object 
 5   No de Crédito Infonavit  495 non-null    object 
 6   PUESTO                   495 non-null    object 
 7   AREA                     495 non-null    object 
 8   TURNO                    495 non-null    object 
 9   MUNICIPIO                495 non-null    object 
 10  SALARIO MENSUAL          495 non-null    float64
 11  ESCOLARIDAD              495 non-null    object 
 12  GENERO                   495 non-null    object 
 13  Tipo de renuncia         495 non-null    object 
dtypes: float64(1), int64(1), o

In [6]:
# Datos nullos

df_0.isnull().sum()

FECHA DE INGRESO           0
FECHA ULTIMO REGISTRO      0
Estatus                    0
Días Laborados             0
FECHA DE NACIMIENTO        0
No de Crédito Infonavit    0
PUESTO                     0
AREA                       0
TURNO                      0
MUNICIPIO                  0
SALARIO MENSUAL            0
ESCOLARIDAD                0
GENERO                     0
Tipo de renuncia           0
dtype: int64

In [9]:
for column in df_0.columns:
    print(f"Conteo de valores para la columna '{column}':")
    print(df_0[column].value_counts(dropna=False))  # dropna=False incluye los valores NaN
    print("\n" + "-"*50 + "\n")

Conteo de valores para la columna 'FECHA DE INGRESO':
FECHA DE INGRESO
2023-10-30    11
2022-02-08    11
2022-01-24    11
2022-12-01     9
2022-02-14     8
              ..
2022-02-02     1
2023-12-06     1
2023-11-06     1
2021-06-12     1
2023-07-10     1
Name: count, Length: 233, dtype: int64

--------------------------------------------------

Conteo de valores para la columna 'FECHA ULTIMO REGISTRO':
FECHA ULTIMO REGISTRO
2024-04-30    70
2021-12-12     9
2023-05-04     8
2022-06-05     8
2023-12-24     7
              ..
2023-01-23     1
2023-01-31     1
2023-05-17     1
2023-09-07     1
2023-09-28     1
Name: count, Length: 250, dtype: int64

--------------------------------------------------

Conteo de valores para la columna 'Estatus':
Estatus
baja      425
activo     70
Name: count, dtype: int64

--------------------------------------------------

Conteo de valores para la columna 'Días Laborados':
Días Laborados
19     40
14     38
22     38
30     19
20     17
       ..
190

In [11]:
# Verificar filas duplicadas
duplicadas = df_0[df_0.duplicated()]
print(f"Filas duplicadas:\n{duplicadas}")


Filas duplicadas:
    FECHA DE INGRESO FECHA ULTIMO REGISTRO Estatus  Días Laborados  \
115       2023-04-15            2023-05-04    baja              19   

     FECHA DE NACIMIENTO No de Crédito Infonavit     PUESTO    AREA TURNO  \
115  1991-01-23 06:10:00                      NO  OP PRENSA  PRENSA     A   

    MUNICIPIO  SALARIO MENSUAL   ESCOLARIDAD     GENERO Tipo de renuncia  
115      TALA      7705.711806  SIN_ESTUDIOS  MASCULINO             BAJA  


In [12]:

num_duplicadas = df_0.duplicated().sum()
print(f"Total de filas duplicadas: {num_duplicadas}")

Total de filas duplicadas: 1


In [14]:
df_0.shape

(495, 14)

## 3. Limpieza de datos

### No fue necesario realizar un proceso extenso de limpieza, ya que no se encontraron campos nulos. Solo se identificó una fila duplicada, la cual se eliminó utilizando el siguiente código.

In [15]:
df_sin_duplicados = df_0.drop_duplicates()
print(f"Número de filas después de eliminar duplicados: {df_sin_duplicados.shape[0]}")
df_0.drop_duplicates(inplace=True)

Número de filas después de eliminar duplicados: 494


## 4. Valores faltantes

### No se encontraron datos faltantes para esta base de datos

## 4. Visualización de datos

In [18]:
df_0.head()

Unnamed: 0,FECHA DE INGRESO,FECHA ULTIMO REGISTRO,Estatus,Días Laborados,FECHA DE NACIMIENTO,No de Crédito Infonavit,PUESTO,AREA,TURNO,MUNICIPIO,SALARIO MENSUAL,ESCOLARIDAD,GENERO,Tipo de renuncia
0,2023-11-21,2023-11-22,baja,1,1979-08-26 00:00:00,SI,OP PRODUCCION,PRODUCCION,C,TALA,7500.0,SECUNDARIA,FEMENINO,VOLUNTARIA
1,2023-10-16,2023-10-17,baja,1,1993-09-02 00:00:00,NO,OP PRODUCCION,PRODUCCION,C,TALA,7500.0,SECUNDARIA_TRUNCA,FEMENINO,VOLUNTARIA
2,2022-02-21,2022-02-22,baja,1,1993-10-17 00:00:00,NO,OP PRODUCCION,PRODUCCION,C,TALA,6000.0,SECUNDARIA,FEMENINO,ABANDONO
3,2022-02-21,2022-02-22,baja,1,1999-08-27 00:00:00,NO,OP PRODUCCION,PRODUCCION,C,TALA,6000.0,SECUNDARIA,FEMENINO,ABANDONO
4,2023-10-23,2023-10-24,baja,1,2002-06-16 00:00:00,NO,OP PRODUCCION,PRODUCCION,C,TALA,7500.0,PREPARATORIA,FEMENINO,VOLUNTARIA


#### Distribución de Salarios por Género

In [26]:
import altair as alt
import pandas as pd

chart = alt.Chart(df_0).mark_bar().encode(
    x=alt.X('GENERO:N', title='Género'),
    y=alt.Y('mean(SALARIO MENSUAL):Q', title='Salario Mensual Promedio'),
    color='GENERO:N',
    tooltip=['GENERO', 'mean(SALARIO MENSUAL)']
).properties(
    title='Salario Promedio por Género',
    width=400,
    height=500 
).interactive()

chart

#### Duración en la Empresa por Área

In [27]:
chart = alt.Chart(df_0).mark_boxplot().encode(
    x=alt.X('AREA:N', title='Área'),
    y=alt.Y('Días Laborados:Q', title='Días Laborados'),
    color='AREA:N',
    tooltip=['AREA', 'Días Laborados']
).properties(
    title='Duración en la Empresa por Área',
    width=400,
    height=500 
).interactive()

chart

#### Tipo de Renuncia por Género

In [28]:
chart = alt.Chart(df_0).mark_bar().encode(
    x=alt.X('GENERO:N', title='Género'),
    y=alt.Y('count():Q', title='Número de Renuncias'),
    color='Tipo de renuncia:N',
    tooltip=['GENERO', 'Tipo de renuncia', 'count()']
).properties(
    title='Tipo de Renuncia por Género',
    width=400,
    height=500 
).interactive()

chart

#### Salario Mensual por Puesto

In [29]:
chart = alt.Chart(df_0).mark_circle(size=60).encode(
    x=alt.X('PUESTO:N', title='Puesto'),
    y=alt.Y('SALARIO MENSUAL:Q', title='Salario Mensual'),
    color='PUESTO:N',
    tooltip=['PUESTO', 'SALARIO MENSUAL']
).properties(
    title='Salario Mensual por Puesto',
    width=400,
    height=500
).interactive()

chart

#### Línea de Tiempo de Bajas

In [37]:
chart = alt.Chart(df_0).mark_bar().encode(
    x=alt.X('FECHA DE INGRESO:T', title='Fecha'),
    y=alt.Y('count():Q', title='Número de Bajas'),
    tooltip=['FECHA DE INGRESO', 'count()']
).properties(
    title='Línea de Tiempo de Bajas',
    width=600,
    height=500
).interactive()

chart

### Promedio de Salario Mensual por Municipio

In [41]:
salario_promedio = df_0.groupby('MUNICIPIO', as_index=False)['SALARIO MENSUAL'].mean()
chart = alt.Chart(salario_promedio).mark_bar().encode(
    x=alt.X('MUNICIPIO:N', sort='-y', title='Municipio'),
    y=alt.Y('SALARIO MENSUAL:Q', title='Salario Mensual Promedio'),
    color=alt.Color('SALARIO MENSUAL:Q', scale=alt.Scale(scheme='blues')),
    tooltip=['MUNICIPIO', 'SALARIO MENSUAL']
).properties(
    title='Promedio de Salario Mensual por Municipio',
    width=800,  
    height=400  
).interactive()

chart


### Distribución de Bajas por Edad

In [None]:
from datetime import datetime

df_0['FECHA DE NACIMIENTO'] = pd.to_datetime(df_0['FECHA DE NACIMIENTO'], errors='coerce')
df_0['EDAD'] = (datetime.now() - df_0['FECHA DE NACIMIENTO']).dt.days // 365
df_0 = df_0[df_0['EDAD'] > 0]
chart = alt.Chart(df_0).mark_bar().encode(
    x=alt.X('EDAD:Q', bin=alt.Bin(maxbins=20), title='Edad'),
    y=alt.Y('count()', title='Número de Bajas'),
    tooltip=['EDAD', 'count()']
).properties(
    title='Distribución de Bajas por Edad',
    width=800,
    height=400
)

chart

## 6. Referencias

[ Altair Gallery](https://altair-viz.github.io/altair-viz-v4/gallery/percentage_of_total.html)