<a href="https://colab.research.google.com/github/Georgemoralex/Data-Science-and-AI/blob/main/LIVE_DSA03PR_Plan_del_Reto.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# LIVE DSA03PR - Plan del Reto
## Reto | Análisis de deserción de empleados con sus sistemas operativos utilizados
### Elaborado por Jorge Morales

1. Descargar los 4 archivos adjuntados en la plataforma: Test.csv, Test2.csv, Train.csv y
Train2.csv

2. Abrir los archivos descargados para conocer su estructura y familiarizarse con la
información contenida en ellos

3. Genera una libreta en Google Colab para resolver el reto con scripts de Python.

4. Crear 4 DataFrames en pandas, cada uno para cargar el contenido de los diferentes
archivos.

In [43]:
import pandas as pd
import numpy as py

df_train = pd.read_csv('/content/Train.csv')
df_test = pd.read_csv('/content/Test.csv')
df_test2 = pd.read_csv('/content/Test2.csv')
df_train2 = pd.read_csv('/content/Train2.csv')

5. Conjuntar de manera correcta la información, de tal forma que queden todos los
registros juntos en un solo DataFrame que contenga todas las columnas necesarias

In [44]:
#se combinan los 4 dataframes creados anteriormente y se agrupan por número de empleado (PK)
dataframes = [df_train, df_train2, df_test, df_test2]
combined_df = pd.concat(dataframes, ignore_index=True).groupby('Employee_ID', as_index=False).first()
#se despliega solo las primeras 5 filas del dataframe creado para comprobar el resultado
combined_df.head()

Unnamed: 0,Employee_ID,Gender,Age,Education_Level,Relationship_Status,Hometown,Unit,Decision_skill_possess,Time_of_service,Time_since_promotion,...,VAR5,VAR6,VAR7,Attrition_rate,Computer_OS,Computer_OS_version,Computer_tickets,Mobile_OS,Mobile_OS_version,Mobile_tickets
0,EID_10000,M,37.0,3.0,Married,Springfield,Human Resource Management,Analytical,14.0,4.0,...,1.0,5.0,3.0,,MacOS,Catalina,2.0,iOS,13.0,0.0
1,EID_10001,F,46.0,2.0,Single,Lebanon,Operarions,Conceptual,20.0,3.0,...,4.0,5.0,4.0,0.0263,Windows,8,8.0,Android,7.0,1.0
2,EID_10003,F,37.0,4.0,Single,Washington,Logistics,Analytical,10.0,2.0,...,2.0,7.0,4.0,0.0124,Windows,7,1.0,Android,10.0,1.0
3,EID_10004,M,46.0,3.0,Married,Springfield,Purchasing,Analytical,22.0,1.0,...,3.0,6.0,3.0,,Windows,10,1.0,Android,10.0,1.0
4,EID_10006,M,37.0,3.0,Married,Franklin,Sales,Conceptual,9.0,2.0,...,2.0,8.0,3.0,0.0312,,,3.0,Android,7.0,0.0


6. Para todos los registros que no tienen un valor para un sistema operativo, ya sea de su
computadora o de su dispositivo móvil, asignar el valor “no registrado"

In [48]:
#las columnas que muestran el sistema operativo tienen espacios en blanco al inicio
#se le aplica un .str.strip para eliminar todos los espacios en blanco
combined_df.columns = combined_df.columns.str.strip()
#se reemplazan todos los espacios vacios, en blanco, nulls, none, etc por el valor "No registrado"
combined_df[['Computer_OS', 'Computer_OS_version', 'Mobile_OS', 'Mobile_OS_version']] = combined_df[['Computer_OS', 'Computer_OS_version', 'Mobile_OS', 'Mobile_OS_version']].replace(['', ' ', None], 'no registrado').fillna('no registrado')
combined_df.head()

Unnamed: 0,Employee_ID,Gender,Age,Education_Level,Relationship_Status,Hometown,Unit,Decision_skill_possess,Time_of_service,Time_since_promotion,...,VAR5,VAR6,VAR7,Attrition_rate,Computer_OS,Computer_OS_version,Computer_tickets,Mobile_OS,Mobile_OS_version,Mobile_tickets
0,EID_10000,M,37.0,3.0,Married,Springfield,Human Resource Management,Analytical,14.0,4.0,...,1.0,5.0,3.0,,MacOS,Catalina,2.0,iOS,13.0,0.0
1,EID_10001,F,46.0,2.0,Single,Lebanon,Operarions,Conceptual,20.0,3.0,...,4.0,5.0,4.0,0.0263,Windows,8,8.0,Android,7.0,1.0
2,EID_10003,F,37.0,4.0,Single,Washington,Logistics,Analytical,10.0,2.0,...,2.0,7.0,4.0,0.0124,Windows,7,1.0,Android,10.0,1.0
3,EID_10004,M,46.0,3.0,Married,Springfield,Purchasing,Analytical,22.0,1.0,...,3.0,6.0,3.0,,Windows,10,1.0,Android,10.0,1.0
4,EID_10006,M,37.0,3.0,Married,Franklin,Sales,Conceptual,9.0,2.0,...,2.0,8.0,3.0,0.0312,no registrado,no registrado,3.0,Android,7.0,0.0


7. Ejecutar la instrucción adecuada en pandas para encontrar:

a. El porcentaje de personas que usan Windows / Mac / Linux / no registrado como
su sistema operativo en su computadora

In [49]:
#value_counts muestra la cantidad de veces que aparece cada valor único en la columna Computer_OS
#normalize convierte la cantidad de veces en proporción en relación al total de filas
#se multiplica por 100 para obtener el porcentaje
computer_os_percentage = combined_df['Computer_OS'].value_counts(normalize=True) * 100
computer_os_percentage

Unnamed: 0_level_0,proportion
Computer_OS,Unnamed: 1_level_1
Windows,77.28
MacOS,16.34
Linux,4.8
no registrado,1.58


b. El porcentaje de personas que usan iOS / Android / No registrado como su sistema
operativo en su dispositivo móvil


In [50]:
#value_counts muestra la cantidad de veces que aparece cada valor único en la columna Mobile_OS
#normalize convierte la cantidad de veces en proporción en relación al total de filas
#se multiplica por 100 para obtener el porcentaje
mobile_os_percentage = combined_df['Mobile_OS'].value_counts(normalize=True) * 100
mobile_os_percentage

Unnamed: 0_level_0,proportion
Mobile_OS,Unnamed: 1_level_1
Android,76.59
iOS,20.54
no registrado,2.87


c. La edad promedio de la gente que utiliza cada sistema operativo de escritorio

In [51]:
#se calcula el promedio de edades en la agrupación por sistema operativo del dataframe combinado
age_avg_by_computer_os = combined_df.groupby('Computer_OS')['Age'].mean()
age_avg_by_computer_os

Unnamed: 0_level_0,Age
Computer_OS,Unnamed: 1_level_1
Linux,40.451902
MacOS,40.396251
Windows,39.457441
no registrado,40.52349



d. El nivel educativo promedio de la gente que utiliza cada sistema operativo de
escritorio

In [52]:
#se calcula el promedio del nivel de educación en la agrupación por sistema operativo del dataframe combinado
education_avg_by_computer_os = combined_df.groupby('Computer_OS')['Education_Level'].mean()
education_avg_by_computer_os

Unnamed: 0_level_0,Education_Level
Computer_OS,Unnamed: 1_level_1
Linux,3.24375
MacOS,3.168299
Windows,3.203675
no registrado,3.177215


e. El número total de tickets generados por la gente con cada sistema operativo de
escritorio

In [53]:
#se aplica la suma a la cantidad de tickets generados por sistema operativo de escritorio al dataframe combinado
tickets_by_computer_os = combined_df.groupby('Computer_OS')['Computer_tickets'].sum()
tickets_by_computer_os

Unnamed: 0_level_0,Computer_tickets
Computer_OS,Unnamed: 1_level_1
Linux,254.0
MacOS,1880.0
Windows,21169.0
no registrado,541.0


8. Enviar el resultado de cada solicitud de información a un archivo XLS[X], donde el
resultado de cada consulta debe ir en su propia hoja de trabajo

In [54]:
#cada uno de los puntos anteriores fue guardado en una variable
#se le asignará un nombre y se enviará al archivo "Final Results" en hojas separadas

with pd.ExcelWriter('/content/Final_Results.xlsx') as final:
  computer_os_percentage.to_frame('Percentage').to_excel(final, sheet_name='Computer OS Percentage')
  mobile_os_percentage.to_frame('Percentage').to_excel(final, sheet_name='Mobile OS Percentage')
  age_avg_by_computer_os.to_frame('Average Age').to_excel(final, sheet_name='Age by Computer OS')
  education_avg_by_computer_os.to_frame('Average Education Level').to_excel(final, sheet_name='Education by Computer OS')
  tickets_by_computer_os.to_frame('Total Tickets').to_excel(final, sheet_name='Tickets by Computer OS')
