<a href="https://colab.research.google.com/github/vickpicco/analistaDeDatos/blob/main/Analista_evidencia2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Descripción del Proyecto

Análisis del grado de satisfacción de los usuarios en el funcionamiento de un gestor de reclamos internos: Evaluación basada en métricas de percepción y desempeño durante un período.

Este proyecto busca establecer un modelo de evaluación del grado de satisfacción de los usuarios en el funcionamiento de un gestor de reclamos internos, con el fin de optimizar su desempeño y mejorar la experiencia de los empleados. A través del análisis de datos, se pretende obtener insights que permitan identificar oportunidades de mejora y garantizar una gestión eficiente y transparente de los reclamos dentro de la organización.

## Objetivo principal:

Analizar el grado de satisfacción de los usuarios respecto al funcionamiento del gestor de reclamos internos, mediante la recopilación y procesamiento de datos relevantes, con el propósito de detectar oportunidades de mejora y contribuir a la optimización de la gestión organizacional en un periodo específico.

##Objetivo Específicos:


1.   Recolectar datos sobre la percepción y satisfacción de los usuarios del gestor de reclamos internos mediante encuestas de satisfacción.

2.   Procesar la información obtenida aplicando técnicas de análisis estadístico y exploración de datos para identificar patrones y tendencias.

3.   Identificar áreas de mejora en el funcionamiento del sistema, considerando los puntos críticos señalados por los usuarios.

4.   Proponer estrategias de optimización basadas en los hallazgos del análisis para mejorar la eficiencia del gestor de reclamos internos.

5.   Comunicar los resultados y recomendaciones a la empresa de manera clara y fundamentada para su posible implementación.

## Integrantes del Equipo de Trabajo:



*   Cabrera, Gabriel (GitHub: cjuangab)

*   Pereyra, Hebe. (GitHub: PereyraHebe)

*   Picco, Victoria. (GitHub: vickpicco)

*   Santarena, Florencia. (GitHub: mfsantarena)

*   Suárez, Mariela. (GitHub: MarielarosaSZ)



#EVIDENCIA N°2


#####Creado el notebook, importamos los datos

In [None]:
import pandas as pd
url = "https://raw.githubusercontent.com/vickpicco/analistaDeDatos/refs/heads/main/Datos/dataset_reclamos_internos_modificado.csv"
df = pd.read_csv(url)
df.head(10)


Unnamed: 0,Destino del reclamo,Quién lo resolvió,Tipo de reclamo,Fecha del reclamo,Estado del reclamo,Grado de satisfacción
0,INFRAESTRUCTURA,,Actualización de software,,Cerrado,3
1,soporte técnico,,problema de acceso,,Pendiente,0
2,Recursos humanos,Administrador TI,Solicitud de equipo,2024-01-03,resuelto,2
3,Infraestructura,Juan Pérez,Problema de acceso,2024-01-04,EN PROCESO,0
4,S0p0rte técnic0,help desk,Actualización de software,2024-01-05,RESUELTO,5
5,Soporte técnico,juan pérez,Solicitud de equipo,2024/01/06,,0
6,Infraestructura,Administrador TI,ERROR DE SISTEMA,2024-01-07,PENDIENTE,0
7,Recurs0s human0s,SOPORTE NIVEL 1,,2024-01-08,RESUELTO,5
8,Soporte técnico,Help Desk,Error de sistema,2024-01-09,Pendiente,0
9,,ADMINISTRADOR TI,Consulta general,2024-01-10,Pendiente,0


In [None]:
#Realizamos un pequeño filtrado de los valores igual a "0" porque esos valores son de trabajos no realizados o no terminados
# y no son valores que realmente nos interese analizar
satisfaccion_valida = df['Grado de satisfacción'][(df['Grado de satisfacción'] >= 1) & (df['Grado de satisfacción'] <= 5)]

# Del total de datos, nos quedamos con los validos y su numeracion
total = len(df['Grado de satisfacción'])
validos = satisfaccion_valida.count()
nulos = df['Grado de satisfacción'].isnull().sum()

# Realizamos las medidas de estadicas
media = satisfaccion_valida.mean()
mediana = satisfaccion_valida.median()
desviacion = satisfaccion_valida.std()

# Aca visualizamos los valores
print("Columna: Grado de satisfacción")
print(f"- Valores válidos (1 a 5): {validos} / {total}")
print(f"- Valores ausentes: {nulos}")
print(f"- Media: {media}")
print(f"- Mediana: {mediana}")
print(f"- Desviación estándar: {desviacion}")

Columna: Grado de satisfacción
- Valores válidos (1 a 5): 173 / 400
- Valores ausentes: 0
- Media: 3.005780346820809
- Mediana: 3.0
- Desviación estándar: 1.5192451837067515


In [None]:
def analizar_columna(col):
    print("Columna:", col)
    print("Categorías únicas:", df[col].nunique(dropna=False))
    print("Cantidad por categoría:")
    print(df[col].value_counts(dropna=False))
    print("Cantidad de nulos:", df[col].isnull().sum())
    print("-" * 40)

analizar_columna("Destino del reclamo")
analizar_columna("Quién lo resolvió")
analizar_columna("Tipo de reclamo")
analizar_columna("Estado del reclamo")

Columna: Destino del reclamo
Categorías únicas: 35
Cantidad por categoría:
Destino del reclamo
Sistemas                31
Recursos humanos        29
Soporte técnico         28
RECURSOS HUMANOS        27
Infraestructura         27
SOPORTE TÉCNICO         25
SISTEMAS                22
Finanzas                21
NaN                     20
INFRAESTRUCTURA         15
soporte técnico         13
sistemas                13
  Finanzas              12
finanzas                12
  Soporte técnico       12
infraestructura         11
FINANZAS                10
  Sistemas               9
recursos humanos         9
  Recursos humanos       8
  Infraestructura        7
  INFRAESTRUCTURA        5
  soporte técnico        4
  finanzas               4
  RECURSOS HUMANOS       4
S0p0rte técnic0          4
Recurs0s human0s         3
s0p0rte técnic0          3
  SOPORTE TÉCNICO        3
  infraestructura        2
  recursos humanos       2
  SISTEMAS               2
  s0p0rte técnic0        1
  S0p0rte técn

 En la variable fecha se analiza cantidad de registros válidos sobre el total, ausentes y mal registrados.


In [None]:
fecha_valida= df['Fecha del reclamo']
validos_f=fecha_valida.count()
nulos_f=df['Fecha del reclamo'].isnull().sum()
total_f=len(df ["Fecha del reclamo"])
fecha_convertida = pd.to_datetime(df['Fecha del reclamo'], errors='coerce')
mal_registradas = fecha_convertida.isnull().sum() - nulos_f
proporcion = (validos_f/total_f) * 100

# Visualizamos los valores
print("Columna: Fecha de Reclamo")
print(f"- Valores de fecha válidos : {validos_f} / {total_f} = {proporcion}%")
print(f"- Valores de fecha ausentes: {nulos_f}")
print(f"- Valores de fecha Mal Registrados:  {mal_registradas}")

Columna: Fecha de Reclamo
- Valores de fecha válidos : 380 / 400 = 95.0%
- Valores de fecha ausentes: 20
- Valores de fecha Mal Registrados:  92


Conclusiones iniciales

- Se identificaron errores de tipeo y formatos inconsistentes en varias columnas.
- Hay registros con fechas mal formateadas que deberán corregirse.
- Existen valores faltantes y categorías mal escritas (mayúsculas/minúsculas mezcladas).

Estas observaciones orientarán el proceso de limpieza que se realizará en próximas etapas.

# **EVIDENCIA N 3**

En esta evidencia se agrega la columna Dias de resolucion, que contiene una variable cuantitativa, y representa los dias que demoro el reclamo en resolverse desde su generacion hasta llegar al estado cerrado.
Para esta tarea, se utiliza la libreria Pandas y Numpy, solicitando la creacion de datos ramdom en un rango de 7 dias. Luego se ralizara la limpieza de los datos que no correspondan.

In [None]:
import pandas as pd
import numpy as np

# Se carga el archivo CSV existente en un DataFrame
url = "https://raw.githubusercontent.com/vickpicco/analistaDeDatos/refs/heads/main/Datos/dataset_reclamos_internos_modificado.csv"
df = pd.read_csv(url)

# Se crea los datos para la nueva columna
# Asegúrate de que el número de valores aleatorios coincida con el número de filas en tu DataFrame
num_filas = len(df)
dias_de_resolucion = np.random.randint(1, 8, size=num_filas) # Genera tantos números como filas

#  Se agrega esta nueva columna al DataFrame existente
df['Dias de resolucion'] = dias_de_resolucion

#  Se guarda el DataFrame modificado en el mismo archivo CSV
df.to_csv('dataset_reclamos_internos_modificado.csv', index=False)

#  Se muestra las primeras filas para verificar
print(df.head())

  Destino del reclamo Quién lo resolvió                Tipo de reclamo  \
0     INFRAESTRUCTURA               NaN      Actualización de software   
1     soporte técnico               NaN           problema de acceso     
2    Recursos humanos  Administrador TI          Solicitud de equipo     
3     Infraestructura      Juan Pérez               Problema de acceso   
4     S0p0rte técnic0         help desk    Actualización de software     

  Fecha del reclamo Estado del reclamo  Grado de satisfacción  \
0               NaN          Cerrado                        3   
1               NaN          Pendiente                      0   
2        2024-01-03           resuelto                      2   
3        2024-01-04         EN PROCESO                      0   
4        2024-01-05           RESUELTO                      5   

   Dias de resolucion  
0                   6  
1                   3  
2                   6  
3                   1  
4                   2  


**DATOS CON FOMATO INCORRECTO**

En el sprint anterior, se pudo observar que las columnas 'Destino del reclamo', 'Quién lo resolvió', 'Tipo de reclamo', 'Fecha del reclamo' y 'Estado del reclamo' contienen datos con formatos incorrectos o inconsistentes. Por lo tanto, se propone a continuación realizar un filtrado de todos los valores posibles en cada una de estas columnas para identificar las variaciones existentes. Posteriormente, se procederá a unificar los valores que, a pesar de sus diferencias de formato o tipeo, representan la misma categoría. Para ello se reutilizara una función creada en la evidencia anterior  'analizar-columna' en cada columna.

# Columna : 'Destino de reclamo'

In [None]:
#Filtrado de valores posibles de columna destino del reclamo que son todas las areas que se resgistran que han recibido reclamos.
def analizar_columna(col):
    print("Columna:", col)
    print("Categorías únicas:", df[col].nunique(dropna=False))
    print("Cantidad por categoría:")
    print(df[col].value_counts(dropna=False))


analizar_columna("Destino del reclamo")

Columna: Destino del reclamo
Categorías únicas: 35
Cantidad por categoría:
Destino del reclamo
Sistemas                31
Recursos humanos        29
Soporte técnico         28
RECURSOS HUMANOS        27
Infraestructura         27
SOPORTE TÉCNICO         25
SISTEMAS                22
Finanzas                21
NaN                     20
INFRAESTRUCTURA         15
soporte técnico         13
sistemas                13
  Finanzas              12
finanzas                12
  Soporte técnico       12
infraestructura         11
FINANZAS                10
  Sistemas               9
recursos humanos         9
  Recursos humanos       8
  Infraestructura        7
  INFRAESTRUCTURA        5
  soporte técnico        4
  finanzas               4
  RECURSOS HUMANOS       4
S0p0rte técnic0          4
Recurs0s human0s         3
s0p0rte técnic0          3
  SOPORTE TÉCNICO        3
  infraestructura        2
  recursos humanos       2
  SISTEMAS               2
  s0p0rte técnic0        1
  S0p0rte técn

Se observan que en esta columna hay 35 categorias, pero muchas estan repetidas. Se propone 1)Pasar todos los datos a mayuscula.
2) eliminar espacios.

In [None]:
#Se utiliza str.upper para pasar a mayusculas y str.strip para pasar eliminar espacios
print('Se pasan todos los datos a mayuscula y se quitan espacios')
df['Destino del reclamo'] = df['Destino del reclamo'].str.upper().str.strip()
#Se ejecuta nuevamente la funcion para verificar las categorias
analizar_columna("Destino del reclamo")

print('***************************************************')

#Al observan que hay ceros en vez de la 'o', se reemplazan con str.replace
print('Se reemplzan todos los ceros por letras O')
df['Destino del reclamo'] = df['Destino del reclamo'].str.replace('0', 'O')
#Se ejecuta nuevamente la funcion para verificar las categorias
analizar_columna("Destino del reclamo")



Se pasan todos los datos a mayuscula y se quitan espacios
Columna: Destino del reclamo
Categorías únicas: 6
Cantidad por categoría:
Destino del reclamo
SOPORTE TÉCNICO     94
RECURSOS HUMANOS    82
SISTEMAS            78
INFRAESTRUCTURA     67
FINANZAS            59
NaN                 20
Name: count, dtype: int64
***************************************************
Se reemplzan todos los ceros por letras O
Columna: Destino del reclamo
Categorías únicas: 6
Cantidad por categoría:
Destino del reclamo
SOPORTE TÉCNICO     94
RECURSOS HUMANOS    82
SISTEMAS            78
INFRAESTRUCTURA     67
FINANZAS            59
NaN                 20
Name: count, dtype: int64


#Resultado: Destino del reclamo

*Se obtienen 5 categorias  y se observan que hay datos ausentes, que se limpiaran en la proxima seccion.*

# Columna : 'Quién lo resolvió'

In [14]:
#Filtrado de valores posibles de columna Quien lo resolvio que son todas las areas que se resgistran que han recibido reclamos.
def analizar_columna(col):
    print("Columna:", col)
    print("Categorías únicas:", df[col].nunique(dropna=False))
    print("Cantidad por categoría:")
    print(df[col].value_counts(dropna=False))


analizar_columna("Quién lo resolvió")

Columna: Quién lo resolvió
Categorías únicas: 37
Cantidad por categoría:
Quién lo resolvió
Help Desk               36
Juan Pérez              34
JUAN PÉREZ              27
Administrador TI        27
Soporte Nivel 1         26
María López             24
NaN                     20
HELP DESK               17
MARÍA LÓPEZ             15
soporte nivel 1         14
SOPORTE NIVEL 1         14
  Juan Pérez            12
help desk               12
juan pérez              12
ADMINISTRADOR TI        12
maría lópez             12
administrador ti        11
  Soporte Nivel 1       11
  Help Desk              8
  MARÍA LÓPEZ            7
  María López            6
  help desk              6
  ADMINISTRADOR TI       5
  Administrador TI       5
  soporte nivel 1        4
  SOPORTE NIVEL 1        4
S0p0rte Nivel 1          4
  maría lópez            3
  administrador ti       3
  HELP DESK              2
  S0p0rte Nivel 1        1
Administrad0r TI         1
  Administrad0r TI       1
administrad0r ti  

In [20]:
#Se utiliza str.upper para pasar a mayusculas y str.strip para pasar eliminar espacios
print('Se pasan todos los datos a mayuscula y se quitan espacios')
df['Quién lo resolvió'] = df['Quién lo resolvió'].str.upper().str.strip()

#Se ejecuta nuevamente la funcion para verificar las categorias
analizar_columna("Quién lo resolvió")

print('***************************************************')

#Al observan que hay ceros en vez de la 'o', se reemplazan con str.replace
print('Se reemplzan todos los ceros por letras O')
df['Quién lo resolvió'] = df['Quién lo resolvió'].str.replace('0', 'O')
#Se ejecuta nuevamente la funcion para verificar las categorias
analizar_columna("Quién lo resolvió")

Se pasan todos los datos a mayuscula y se quitan espacios
Columna: Quién lo resolvió
Categorías únicas: 8
Cantidad por categoría:
Quién lo resolvió
JUAN PÉREZ          86
HELP DESK           81
SOPORTE NIVEL 1     73
MARÍA LÓPEZ         67
ADMINISTRADOR TI    63
NaN                 20
S0P0RTE NIVEL 1      6
ADMINISTRAD0R TI     4
Name: count, dtype: int64
***************************************************
Se reemplzan todos los ceros por letras O
Columna: Quién lo resolvió
Categorías únicas: 6
Cantidad por categoría:
Quién lo resolvió
JUAN PÉREZ          86
HELP DESK           81
SOPORTE NIVEL 1     79
ADMINISTRADOR TI    67
MARÍA LÓPEZ         67
NaN                 20
Name: count, dtype: int64


#Resultado: Columna: Quién lo resolvió

*Se obtienen 5 categorias  y se observan que hay datos ausentes, que se limpiaran en la proxima seccion.*

***DATOS AUSENTES***

Para visualizar y tener conocimiento de los datos ausentes, se utilizará el método isnull de Pandas. Como no podremos visualizar la totalidad de datos, sumaremos los valores True de cada columna para tener referencia de la cantidad de datos nulos obtenidos en cada columna, y así evaluar cómo proseguir.

In [None]:
#Vamos a visualizar los datos nullos o ausentes
#False=no nulo y True= nulo
nulos_df = df.isnull()
print(nulos_df)

     Destino del reclamo  Quién lo resolvió  Tipo de reclamo  \
0                  False               True            False   
1                  False               True            False   
2                  False              False            False   
3                  False              False            False   
4                  False              False            False   
..                   ...                ...              ...   
395                False              False            False   
396                False              False            False   
397                False              False            False   
398                 True              False            False   
399                False              False            False   

     Fecha del reclamo  Estado del reclamo  Grado de satisfacción  \
0                 True               False                  False   
1                 True               False                  False   
2                False  

In [None]:
#Sumamos la cantidad de valores nulos por cada columna del dataframe
nulos_por_columna = nulos_df.sum()
print("\nCantidad de valores nulos por columna:")
print(nulos_por_columna)


Cantidad de valores nulos por columna:
Destino del reclamo      20
Quién lo resolvió        20
Tipo de reclamo          20
Fecha del reclamo        20
Estado del reclamo       20
Grado de satisfacción     0
Dias de resolucion        0
dtype: int64


Como se puede observar, las columnas destino de reclamo tiene 20 datos nulos, quien lo resolvió tiene 20 datos nulos, tipo de reclamo tiene 20 datos nulos y fecha de reclamo tiene 20 datos nulos y estado del reclamo tambien tiene 20 datos nulos, en tanto las columnas grado de sastifacción y dias de resolución no poseen valores nulos