#Solución reto sublección 6: 
##Análisis de deserción de empleados con sus sistemas operativos utilizados

##4) Cargar datos
Crea cuatro DataFrames en pandas, cada uno para cargar el contenido de los diferentes archivos.  

In [None]:
# Se importan los documentos desde la cuenta Google driveDrive
from google.colab import drive 
drive.mount('/content/gdrive')

Mounted at /content/gdrive


In [None]:
#Importación de módulos
import numpy as np
import pandas as pd

#Se almacena la información:
#Empleados en dataframes "dataEmp1" "dataEmp2"
#Sistemas operativos en tickets "dataST1" "dataST2"

#Lectura datos empleados
dataEmp1=pd.read_csv('/content/gdrive/MyDrive/Colab Notebooks/ArchivosCarga/Test.csv')
dataEmp2=pd.read_csv('/content/gdrive/MyDrive/Colab Notebooks/ArchivosCarga/Train.csv')

#Lectura datos Sistema operativo y Tickets
dataST1=pd.read_csv('/content/gdrive/MyDrive/Colab Notebooks/ArchivosCarga/Test2.csv')
dataST2=pd.read_csv('/content/gdrive/MyDrive/Colab Notebooks/ArchivosCarga/Train2.csv')

#Impresión de información de cada dataframe para entender estructura
print(dataEmp1.info())
print()
print(dataEmp2.info())
print()
print(dataST1.info())
print()
print(dataST2.info())

#Se eliminan los espacios en blanco en los encabezados para evitar problemas en consultas
dataEmp1.columns=dataEmp1.columns.str.strip()
dataEmp2.columns=dataEmp2.columns.str.strip()
dataST1.columns=dataST1.columns.str.strip()
dataST2.columns=dataST2.columns.str.strip()



<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3000 entries, 0 to 2999
Data columns (total 23 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   Employee_ID                3000 non-null   object 
 1   Gender                     3000 non-null   object 
 2   Age                        2839 non-null   float64
 3   Education_Level            3000 non-null   int64  
 4   Relationship_Status        3000 non-null   object 
 5   Hometown                   3000 non-null   object 
 6   Unit                       3000 non-null   object 
 7   Decision_skill_possess     3000 non-null   object 
 8   Time_of_service            2948 non-null   float64
 9   Time_since_promotion       3000 non-null   int64  
 10  growth_rate                3000 non-null   int64  
 11  Travel_Rate                3000 non-null   int64  
 12  Post_Level                 3000 non-null   int64  
 13  Pay_Scale                  2997 non-null   float

##5) Conjuntar dataframes
Conjunta de manera correcta la información, de tal forma que queden todos los
registros juntos en un solo DataFrame que contenga todas las columnas
necesarias.

In [93]:
#Proceso:
#1) Concatenación de dataframes con igual estructura: dataEmp1 con dataEmp2, dataST1 con dataST2
#2) Merge de campos de acuerdo con el ID del empleado

#Se concatenan los dataframes de empleados. Se usa ignore_index para evitar problemas de índice
fulldataEmp=pd.concat([dataEmp1,dataEmp2],ignore_index=True)

#Se concatenan los dataframes de Sistemas operativos y tickets. Se usa ignore_index para evitar problemas de índice
fulldataST=pd.concat([dataST1,dataST2],ignore_index=True)

#Merge de dataframes resultantes (Primeros 5 registros)
fulldata=pd.merge(fulldataEmp,fulldataST,left_on='Employee_ID',right_on='Employee_ID',suffixes=('_Emp','_ST'))
print(fulldata.head(5))



  Employee_ID Gender   Age  Education_Level Relationship_Status     Hometown  \
0   EID_22713      F  32.0                5              Single  Springfield   
1    EID_9658      M  65.0                2              Single      Lebanon   
2   EID_22203      M  52.0                3             Married  Springfield   
3    EID_7652      M  50.0                5              Single   Washington   
4    EID_6516      F  44.0                3             Married     Franklin   

        Unit Decision_skill_possess  Time_of_service  Time_since_promotion  \
0        R&D             Conceptual              7.0                     4   
1         IT              Directive             41.0                     2   
2      Sales              Directive             21.0                     3   
3  Marketing             Analytical             11.0                     4   
4        R&D             Conceptual             12.0                     4   

   ...  VAR5  VAR6  VAR7  Attrition_rate Computer_

## 6) no registrados
Para todos los registros que no tienen un valor para un sistema operativo, ya
sea de su computadora o de su dispositivo móvil, asignar el valor “no
registrado“. 

In [94]:
#Declaración de funciones
#____________________________________________________
def replacena(df,colnames,texto):
    #Función destinada a tomar un dataframe df, y reemplazar las posicionas NaN por un texto
    #Argumentos &Variables
      #df: Dataframe en el cual se realiza el reemplazo
      #colnames:Lista de atributos sobre los cuales se realiza el reemplazo
      #texto: Mensaje que reemplaza valores NaN
    #ReturnValues:
      #df: dataframe con valores reemplazados
    for col in colnames:
        df[col].loc[df[col].isna()]=texto  
    return df
#____________________________________________________

#Se realiza la búsqueda de posiciones con función replacena
fulldata= replacena(fulldata,['Computer_OS','Computer_OS_version','Mobile_OS'],'No Registrado')
print(fulldata.head(5))


  Employee_ID Gender   Age  Education_Level Relationship_Status     Hometown  \
0   EID_22713      F  32.0                5              Single  Springfield   
1    EID_9658      M  65.0                2              Single      Lebanon   
2   EID_22203      M  52.0                3             Married  Springfield   
3    EID_7652      M  50.0                5              Single   Washington   
4    EID_6516      F  44.0                3             Married     Franklin   

        Unit Decision_skill_possess  Time_of_service  Time_since_promotion  \
0        R&D             Conceptual              7.0                     4   
1         IT              Directive             41.0                     2   
2      Sales              Directive             21.0                     3   
3  Marketing             Analytical             11.0                     4   
4        R&D             Conceptual             12.0                     4   

   ...  VAR5  VAR6  VAR7  Attrition_rate Computer_

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df[col].loc[df[col].isna()]=texto


##7a) Porcentaje OS Escritorio
Ejecuta la instrucción adecuada en pandas para encontrar El porcentaje de personas que usan Windows / Mac / Linux / no
registrado como su sistema operativo en su computadora. 

In [None]:
#Declaración de funciones
#____________________________________________________________________________________________________________
def renamedf(df,kpiname,colname):
    #Frame utilizado para reiniciar el índice, y renombrar columna de los resultados calculados en el punto 7
    #Variables&Argumentos:
        # df: dataFrame a reestructurar
        # kpiname: Nuevo nombre para la columna de resultados
        # colname: Nuevo nombre de la columna agrupada
    #ReturnValues:
        #df: dataFrame reestructurado
      
    df=df.set_axis([kpiname],axis=1) #Se renombra la columna del cálculo
    df=df.reset_index()  #Reinicio de índice para poder completar títulos en el dataframe
    df=df.set_axis([colname,kpiname],axis=1) #Se renombra la columna faltante del dataframe
    return df
#____________________________________________________________________________________________________________


#Se calcula el porcentaje mediante la división entre el conteo de cada Sistema, y el total de usuarios
#Se agrupa el dataframe por el campo Computer_OS para esta operación

#Se almacena el resultado en el dataframe porcentOS
percentOS=fulldata.groupby(['Computer_OS']).agg({'Computer_OS': np.size})*100/fulldata.shape[0]
percentOS=renamedf(percentOS,'Porcentaje','Sistema Operativo')

print(percentOS)

  Sistema Operativo  Porcentaje
0             Linux        4.80
1             MacOS       16.34
2     No Registrado        1.58
3           Windows       77.28


##7b) Porcentaje OS Mobile
El porcentaje de personas que usan iOS / Android / No registrado como
su sistema operativo en su dispositivo móvil. 


In [None]:
#Se repite un proceso similar al del punto 7a), pero cambiando la columna de agrupamiento a Mobile_OS

#Se almacena el resultado en el dataframe porcmobile_OS
porcmobile_OS=fulldata.groupby(['Mobile_OS']).agg({'Mobile_OS': np.size})*100/fulldata.shape[0]
porcmobile_OS=renamedf(porcmobile_OS,'Porcentaje','Sistema Operativo')

print(porcmobile_OS)


  Sistema Operativo  Porcentaje
0           Android       76.59
1     No Registrado        2.87
2               iOS       20.54


##7c) Promedio Edad OS Escritorio
La edad promedio de la gente que utiliza cada sistema operativo de
escritorio

In [None]:
#Se realiza un groupby de la columna edad de acuerdo con el sistema operativo de escritorio

#se almacena el resultado en el dataframe edad_OS

edad_OS=fulldata[['Age','Computer_OS']].groupby('Computer_OS').mean()
edad_OS=renamedf(edad_OS,'Edad promedio','Sistema Operativo')
print(edad_OS)


  Sistema Operativo  Edad promedio
0             Linux      40.451902
1             MacOS      40.396251
2     No Registrado      40.523490
3           Windows      39.457441


##7d) Promedio Eductivo OS Escritorio
El nivel educativo promedio de la gente que utiliza cada sistema
operativo de escritorio.

In [None]:
#Se realiza un proceso similar al del punto 7c), pero agrupando por nivel educativo

#se almacena el resultado en el dataframe estudio_OS

estudio_OS=fulldata[['Education_Level','Computer_OS']].groupby('Computer_OS').mean()
estudio_OS=renamedf(estudio_OS,'Nivel Educativo','Sistema Operativo')
print(estudio_OS)


  Sistema Operativo  Nivel Educativo
0             Linux         3.243750
1             MacOS         3.168299
2     No Registrado         3.177215
3           Windows         3.203675


##7e) Total Tickets OS Escritorio
El número total de tickets generados por la gente con cada sistema
operativo de escritorio.

In [None]:
#Se realiza un proceso similar al del punto 7e), pero sumando el número de tickets por OS

#se almacena el resultado en el dataframe tickets_OS

tickets_OS=fulldata[['Computer_tickets','Computer_OS']].groupby('Computer_OS').sum()
tickets_OS=renamedf(tickets_OS,'Cantidad de Tickets','Sistema Operativo')
print(tickets_OS)


  Sistema Operativo  Cantidad de Tickets
0             Linux                  254
1             MacOS                 1880
2     No Registrado                  541
3           Windows                21169


##8) Impresión resultados

Envía el resultado de cada solicitud de información a un archivo XLS[X], donde
el resultado de cada consulta debe ir en su propia hoja de trabajo. 


In [None]:
#Se utiliza la función ExcelWriter del framework Pandas

with pd.ExcelWriter('Resultados.xlsx') as writer:
    percentOS.to_excel(writer, sheet_name='Porcent OS_Desktop')  
    porcmobile_OS.to_excel(writer, sheet_name='Porcentaje OS_Mobile')
    edad_OS.to_excel(writer, sheet_name='Edad OS_Desktop')
    estudio_OS.to_excel(writer, sheet_name='NivEducat OS_Desktop')
    tickets_OS.to_excel(writer, sheet_name='Tickets OS_Desktop')
    