## PAIR PROGRAMMING - PANDAS 6

En los ejercicios de hoy pondremos en práctica los apply, y nos crearemos algunas funciones que nos van a permitir limpiar un poco los datos, para que podamos extraer conclusiones de una forma más sencilla. Para ellos seguiremos trabajando con mismos csv que en el pair anterior, el de los empleados que unimos en el pair de unión de datasets y el de los tickets de todos los años. Para ello, lo primero que tendremos que hacer es cargar estos dos csv.

Como hemos dicho hasta ahora, hemos estado explorando los datos, y puede que ya nos hayamos dado cuenta de que hay columnas de que están un poco "sucias". Hoy limpiaremos esas columnas para poder extraer conclusiones más eficaces.

In [2]:
import pandas as pd
import numpy as np
import matplotlib as plt

In [107]:
df_historico = pd.read_csv('datos/historico_tickets.csv', index_col = 0)
df_ep = pd.read_csv('datos/empleados_puestos.csv', index_col = 0)

In [4]:
df_historico.dtypes

id_ticket          object
fecha              object
id_empleado         int64
id_agente           int64
categoría          object
tipo               object
severidad          object
prioridad          object
días_resolución     int64
satisfacción        int64
semestre           object
año                 int64
dtype: object

In [108]:
df_historico_copia = df_historico.copy()

In [94]:
df_historico_copia.head(2)

Unnamed: 0,id_ticket,fecha,id_empleado,id_agente,categoría,tipo,severidad,prioridad,días_resolución,satisfacción,semestre,año
0,GDDENR-5042564453,2016-07-13,1735,4,Acceso&%Login,Problema,0 - Sin Clasificar,0 - Sin Asignar,0,5,2º semestre,2016
1,GDDENR-8042508060,2016-05-18,1566,10,Acceso&%Login,Problema,0 - Sin Clasificar,0 - Sin Asignar,0,5,1 semestre,2016


In [7]:
df_ep_copia = df_ep.copy()
df_ep_copia.head(2)

Unnamed: 0,Turno,ID Empleado,Apellido,Nombre,ID Puesto,Email,Puesto,Departamento,Tipo Puesto
0,A,6.0,VILLA,JESUS,50-32200,jesus.villa@tractchun.com,Comprador de Materiales,CONTROL DE PRODUCCION,Administrativo
1,,60.0,DIAZ,PATRICIA,50-32200,patricia.diaz@tractchun.com,Comprador de Materiales,CONTROL DE PRODUCCION,Administrativo


1. Cread una columna nueva y una función que nos de el mes en el que se solicitó el servicio. Tened en cuenta que todas las filas tienen la misma estructura. A la hora de escribir la función debemos tener en cuenta que puede que no haya la información de mes en la columna de la fecha. En ese caso devolved un nulo (NaN). (programación defensiva try/except)
   
   📌 Nota La fecha tendrá que ir formato de string como "Enero", "Febrero", etc.
   💡 Pista 💡Podréis usar regex, pero no es estrictamente necesario.

In [8]:
import datetime

In [10]:
# para trabajar con esta librería lo primero que tenemos que hacer es convertir el tipo de la
# columna "fecha" a formato datetime. Para eso usaremos un apply

df_historico_copia["fecha"] = df_historico_copia["fecha"].apply(pd.to_datetime)
df_historico_copia.head(1)

Unnamed: 0,id_ticket,fecha,id_empleado,id_agente,categoría,tipo,severidad,prioridad,días_resolución,satisfacción,semestre,año
0,GDDENR-5042564453,2016-07-13,1735,4,Acceso&%Login,Problema,0 - Sin Clasificar,0 - Sin Asignar,0,5,2º semestre,2016


In [11]:
df_historico_copia["fecha"].isnull().sum()

0

In [19]:
#definimos la función para obtener el mes

def sacar_mes(x):
    try:
        if x != np.nan:
            return x.strftime("%B") #como queremos obtener el nombre del mes completo, hemos utilizado %B, según la documentación de Datetime
    except:
        return np.nan

In [20]:
df_historico_copia["mes"] = df_historico_copia["fecha"].apply(sacar_mes)

In [95]:
df_historico_copia.head()

Unnamed: 0,id_ticket,fecha,id_empleado,id_agente,categoría,tipo,severidad,prioridad,días_resolución,satisfacción,semestre,año
0,GDDENR-5042564453,2016-07-13,1735,4,Acceso&%Login,Problema,0 - Sin Clasificar,0 - Sin Asignar,0,5,2º semestre,2016
1,GDDENR-8042508060,2016-05-18,1566,10,Acceso&%Login,Problema,0 - Sin Clasificar,0 - Sin Asignar,0,5,1 semestre,2016
2,GDDESR-1342539995,2016-06-18,569,29,Sistema,Problema,0 - Sin Clasificar,0 - Sin Asignar,3,5,1 semestre,2016
3,GDDTSR-5942488006,2016-04-28,320,40,Sistema,Solicitud,0 - Sin Clasificar,0 - Sin Asignar,9,5,1 semestre,2016
4,GDLEER-0042524120,2016-06-03,1842,31,Software,Problema,2 - Normal,0 - Sin Asignar,0,5,1 semestre,2016


2. En la tabla de empleados, tenemos los nombres y los apellidos de los empleados, pero en columnas separadas. En los ejercicios de pair de la lección del groupby vimos que si quisieramos agrupar por los nombres, esto se nos puede complicar. Ahora nos piden que creemos una columna donde tengamos el nombre y el apellido juntos.
   
   📌 NOTA La columna nueva debe tener el nombre y apellido con la primera letra en mayúsculas, por ejemplo "Jesús Villa".

   📌 NOTA Una vez hallamos creado la columna nueva, eliminad las columnas de nombre y apellido originales.

In [23]:
df_ep.head(2)

Unnamed: 0,Turno,ID Empleado,Apellido,Nombre,ID Puesto,Email,Puesto,Departamento,Tipo Puesto
0,A,6.0,VILLA,JESUS,50-32200,jesus.villa@tractchun.com,Comprador de Materiales,CONTROL DE PRODUCCION,Administrativo
1,,60.0,DIAZ,PATRICIA,50-32200,patricia.diaz@tractchun.com,Comprador de Materiales,CONTROL DE PRODUCCION,Administrativo


In [26]:
def nombre_completo(nombre):
    if type(nombre) != float:
        try:
            nombre1 = nombre.title()
            return nombre1 
        except:
            pass

In [31]:
df_ep["Nombre completo"].isnull().sum()

22

In [27]:
df_ep["Nombre completo"] = df_ep["Nombre"] + " " + df_ep["Apellido"]

In [28]:
df_ep["Nombre Completo"] = df_ep["Nombre completo"].apply(nombre_completo)

In [38]:
#A continuación borramos con drop las columnas Apellido, Nombre y la primera prueba de Nombre completo

df_dropeado1 = df_ep.drop(['Apellido'], axis=1)

In [39]:
df_dropeado2 = df_dropeado1.drop(['Nombre'], axis=1)

In [40]:
df_dropeado_final = df_dropeado2.drop(["Nombre completo"], axis = 1)

In [41]:
df_dropeado_final.head()

Unnamed: 0,Turno,ID Empleado,ID Puesto,Email,Puesto,Departamento,Tipo Puesto,Nombre Completo
0,A,6.0,50-32200,jesus.villa@tractchun.com,Comprador de Materiales,CONTROL DE PRODUCCION,Administrativo,Jesus Villa
1,,60.0,50-32200,patricia.diaz@tractchun.com,Comprador de Materiales,CONTROL DE PRODUCCION,Administrativo,Patricia Diaz
2,B,2.0,50-32200,antonio.duarte@tractchun.com,Comprador de Materiales,CONTROL DE PRODUCCION,Administrativo,Antonio Duarte
3,,24.0,50-32200,jesus.villanueva@tractchun.com,Comprador de Materiales,CONTROL DE PRODUCCION,Administrativo,Jesus Villanueva
4,,98.0,50-32200,patricia.gallegos@tractchun.com,Comprador de Materiales,CONTROL DE PRODUCCION,Administrativo,Patricia Gallegos


In [None]:
#Hemos visto que se puede hacer también creando una función con dos parámetros.
#Esto significa que a la hora de pasar el apply, tendríamos que hacerlo con una lambda

In [42]:
def nombre_completo(nombre, apellido):
    nombre1 = nombre.title()
    apellido1 = apellido.title()
    return nombre1 + " " + apellido1 # si ponemos solo coma, nos sale una tupla con los elementos separados por coma

In [38]:
nombre = "ANNA"
apellido = "PÉREZ"

In [43]:
nombre_completo (nombre, apellido)

'Anna Pérez'

3. En el pair programming desde a dirección nos pedían que agruparamos los datos en base a la columna de "categoría", puede que en aquel momento nos dieramos cuenta que había varías categorías que eran igual (en concreto "Acceso Login") pero que en algunos casos tenía unos símbolos raros (&, %, -). Es el momento de limpiar esta columna. El objetivo, reemplazar todos estos símbolos raros por "/", para conseguir homogeneizar los valores de esta columna. Para ellos deberemos crear una función.

In [96]:
df_historico_copia.head(1)

Unnamed: 0,id_ticket,fecha,id_empleado,id_agente,categoría,tipo,severidad,prioridad,días_resolución,satisfacción,semestre,año
0,GDDENR-5042564453,2016-07-13,1735,4,Acceso&%Login,Problema,0 - Sin Clasificar,0 - Sin Asignar,0,5,2º semestre,2016


In [48]:
df_histo_unicos = str(df_historico_copia["categoría"].unique())

In [89]:
df_histo_unicos

"['Acceso&%Login' 'Sistema' 'Software' 'Hardware' 'Acceso%&Login'\n 'Acceso-&Login' 'Acceso99Login' 'Acceso/Login']"

In [44]:
import re

In [113]:
# Reemplazar los signos de dólar ($) por signos de euro (€) en la columna "Precio"
df_historico_copia['categoría'] = df_historico_copia['categoría'].str.replace('[\d*,%*,&*,-]', '/')

  df_historico_copia['categoría'] = df_historico_copia['categoría'].str.replace('[\d*,%*,&*,-]', '/')


In [114]:
df_historico_copia["categoría"].unique()

array(['Acceso//Login', 'Sistema', 'Software', 'Hardware', 'Acceso/Login'],
      dtype=object)

In [102]:
df_historico_copia["categoría"].value_counts()

Sistema          38961
Acceso//Login    20506
Software         19543
Hardware          9717
Acceso/Login      8659
Name: categoría, dtype: int64

In [59]:
# qué necesitamos?
# eliminar símbolos raros &, %, - y reemplazarlos por /
# quizá crear un patrón de regex???

def eliminar_simbolos (categoria):
    categoria = str(categoria).split("Login")
    patron = '[.*]'
    categoria_limpia = categoria.replace(patron, '/')
    return categoria_limpia

4. Una vez que hayáis terminado eliminad las columnas originales conservando las nuevas.

5. Guardad el dataframe en un csv que usaremos más adelante

In [None]:
df.to_csv('ruta/nombrearchivo.ext')