# Análisis de sentimientos

## Contenido 

**Se tiene qué actualizar**

1. Fuentes de datos
2. Descripción de los datos
3. Limpieza de datos
4. Valores faltantes
5. Creación de df

## 1. Fuentes de datos

La fuente de datos de este trabajo es **estrucurada** en formato xlsx. Los datos son **privados** y se eliminó toda la información sensible por privacidad de los datos. Esta base de datos contiene información sobre rotación de personal de empresas manufactureras de Tala, Jalisco. 

Se trata de una base de datos transversal que comprende del 20 de abril del 2021 al 30 de abril del 2024.

Para este trabajo sólo se extraerá el corpus de texto para realizar un análisis de sentimientos posterior.

In [None]:
# paquetes

import pandas as pd

## 2. Descripción de los datos

#### Revisión inicial de los datos originales

In [2]:
# Carga de datos

ruta = r'C:\Users\luism\Documents\3_Proyectos\PrediccionRotacionPersonal\data\rotacion_personal.xlsx'
df_0 = pd.read_excel(ruta)

In [3]:
# Primera visualización de los datos

df_0.head(3)

Unnamed: 0,FECHA DE INGRESO,FECHA DE BAJA,Estatus,Días Laborados,FECHA DE NACIMIENTO,No de Crédito Infonavit,PUESTO,AREA,TURNO,MUNICIPIO,SALARIO DIARIO,SALARIO MENSUAL,ESCOLARIDAD,GENERO,Tipo de renuncia,Motivo de renuncia
0,2023-11-21 00:00:00,22/11/2023,baja,1.0,1979-08-26,Si,OP PRODUCCION,PRODUCCION,C,TALA,250.0,7500.0,SECUNDARIA,FEMENINO,RENUNCIA VOLUNTARIA,SE LE COMPLICÓ EL HORARIO DEL TRANSPORTE PARA ...
1,2023-10-16 00:00:00,17/10/2023,baja,1.0,1993-09-02,NO,OP PRODUCCION,PRODUCCION,C,TALA,250.0,7500.0,SECUNDARIA_TRUNCA,FEMENINO,SEPARACION VOLUNTARIA,PROBLEMA PERSONAL
2,2022-02-21 00:00:00,22/02/2022,baja,1.0,1993-10-17,NO,OP PRODUCCION,PRODUCCION,C,TALA,200.0,6000.0,SECUNDARIA,FEMENINO,ABANDONO,SOLO ACUDIÓ A INDUCCION


In [4]:
# Primera visualización de los datos

df_0.tail(3)

Unnamed: 0,FECHA DE INGRESO,FECHA DE BAJA,Estatus,Días Laborados,FECHA DE NACIMIENTO,No de Crédito Infonavit,PUESTO,AREA,TURNO,MUNICIPIO,SALARIO DIARIO,SALARIO MENSUAL,ESCOLARIDAD,GENERO,Tipo de renuncia,Motivo de renuncia
499,13/12/2021,,activo,,NaT,NO,OP PRODUCCION,PRODUCCION,C,TALA,,,SIN_ESTUDIOS,FEMENINO,,
500,26/09/2022,,activo,,NaT,SI,OP PRODUCCION,PRODUCCION,A,TALA,,,SIN_ESTUDIOS,FEMENINO,,
501,2022-03-23 00:00:00,,activo,,NaT,NO,OP PRODUCCION,PRODUCCION,C,TALA,,,SIN_ESTUDIOS,MASCULINO,,


In [7]:
# creamos df sólo con la variable a utilizarse

df = df_0[['Motivo de renuncia']].copy()

df.head(3)

Unnamed: 0,Motivo de renuncia
0,SE LE COMPLICÓ EL HORARIO DEL TRANSPORTE PARA ...
1,PROBLEMA PERSONAL
2,SOLO ACUDIÓ A INDUCCION


#### Descripción general de la variable Motivo de renuncia

In [8]:
# Información general

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 502 entries, 0 to 501
Data columns (total 1 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   Motivo de renuncia  446 non-null    object
dtypes: object(1)
memory usage: 4.1+ KB


In [9]:
print(df.isnull().sum())

print("Valores nulos totales", {df.isnull().sum().sum()})

Motivo de renuncia    56
dtype: int64
Valores nulos totales {56}


In [10]:
# Variables cuantitativas

df.describe()

Unnamed: 0,Motivo de renuncia
count,446
unique,203
top,0
freq,102


In [13]:
# Motivo de renuncia

print("- Los distintos motivos de renuncia:", df['Motivo de renuncia'].unique())

- Los distintos motivos de renuncia: ['SE LE COMPLICÓ EL HORARIO DEL TRANSPORTE PARA LLEVAR A TIEMPO A SU HIJA A LA ESCUELA'
 'PROBLEMA PERSONAL' 'SOLO ACUDIÓ A INDUCCION'
 'ENVIARON A TRABJAR FORANEO A SU ESPOSO Y EL CUIDARIA  A SUS HIJOS'
 'SOLO ACUDIÓ A INDUCCION, YA NO S EPRESENTÓ Y NO RESPONDIÓ LLAMDAS NI MENSAJES'
 'NO AGRADÓ EMPLEO'
 'SE LE HIZO EXTENSA LA RUTA DEL TRANSPORTE, NO ALCANZABA A LLEVAR A SU HIJA A LA ESCUELA'
 'YA NO SE PRESENTÓ Y NO RESPONDIÓ MENSJAES NI LLAMDAS' nan
 'ESTUVIMOS TRATANDO DE LOCALIZARLO PERO NO FUE POSIBLE CONTACTARLO, SOLO ACUDIÓ A INDUCCION'
 0 'ENOCNTRO MEJOR EMPLEO' 'SOLO SE PRESENTO A INDUCCION'
 'No responde llamdas ni mensajes' 'SE ENFERMÓ SU HIJO, SE PUSO GRAVE'
 'SE LE HIZO PESADO E TRABAJO' 'TEMAS PERSONALES'
 'SOLO TRABAJÓ 1 DIA-INDUCCION' 'SE LE HIZO PESADO TURNO C'
 'CONFLICTO FAMILIAR CON UNA COMPAÑERA' 'POR MEJOR OFERTA' 'FALLECIO MAMA'
 'SE LE COMPLICÓ TRASLADO' 'PROBLEMAS DE SALUD DE SU MAMA'
 'BUSCABA MEJOR SALARIO'
 'SEM 47 NI 1 D

## 3. Limpieza de datos

In [15]:
# Actualizamos título de la variable

df.rename(columns={'Motivo de renuncia': 'Motivo_renuncia'}, inplace=True)

df.head(1)

Unnamed: 0,Motivo_renuncia
0,SE LE COMPLICÓ EL HORARIO DEL TRANSPORTE PARA ...


## 4. Valores faltantes

In [16]:
## Se eliminan valores faltantes

df = df.dropna()

print("Valores nulos totales", {df.isnull().sum().sum()})

Valores nulos totales {0}


## 4. Creación de df

In [None]:
# Guardamos df con el que se realizará análisis de sentimientos

ruta_guardado = r'C:\Users\luism\Documents\3_Proyectos\PrediccionRotacionPersonal\results\motivo_renuncia.csv'
df.to_csv(ruta_guardado, index=False)