# Manipulación de datos

Autora: Beatriz Ibarra Mendoza  
Última actualización: 18/09/2023  

Este notebook explora y manipula datos relacionados con los sistemas operativos que utilizan los empleados de una empresa para obtener nuevos dataframes a partir de esta información. El notebook incluye:  
* *Instalación* de paqueterías.  
* *Exploración* de data.  
* *Extracción* de información de interés.  
* *Generación de archivos .xlsx* con información extraída.




### Instalación

In [None]:
!pip install XlsxWriter
import xlsxwriter
import pandas as pd

Collecting XlsxWriter
  Downloading XlsxWriter-3.1.3-py3-none-any.whl (153 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/153.2 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[90m╺[0m[90m━━[0m [32m143.4/153.2 kB[0m [31m4.8 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m153.2/153.2 kB[0m [31m4.0 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: XlsxWriter
Successfully installed XlsxWriter-3.1.3


### Exploración de data

In [None]:
# Recuperar información de archivos .csv y crear dataframes.
employees_data1 = pd.read_csv('/content/Train.csv')
employees_data2 = pd.read_csv('/content/Test.csv')
employees_os1 = pd.read_csv('/content/Train2.csv')
employees_os2 = pd.read_csv('/content/Test2.csv')
# Exploración.
employees_data1.info()
employees_data2.info()
employees_os1.info()
employees_os2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7000 entries, 0 to 6999
Data columns (total 24 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   Employee_ID                7000 non-null   object 
 1   Gender                     7000 non-null   object 
 2   Age                        6588 non-null   float64
 3   Education_Level            7000 non-null   int64  
 4   Relationship_Status        7000 non-null   object 
 5   Hometown                   7000 non-null   object 
 6   Unit                       7000 non-null   object 
 7   Decision_skill_possess     7000 non-null   object 
 8   Time_of_service            6856 non-null   float64
 9   Time_since_promotion       7000 non-null   int64  
 10  growth_rate                7000 non-null   int64  
 11  Travel_Rate                7000 non-null   int64  
 12  Post_Level                 7000 non-null   int64  
 13  Pay_Scale                  6991 non-null   float

In [None]:
# Concatenar datos generales de empleados.
all_employees_data = pd.concat([employees_data1, employees_data2])
# Concatenar datos de sistemas operativos.
all_os_data = pd.concat([employees_os1, employees_os2])
# Unir todos los datos en un dataframe.
employees_df = all_employees_data.merge(
    all_os_data,
    how='left',
    left_on='Employee_ID',
    right_on='Employee_ID'
)
# Dataframe con las columnas necesarias para el siguiente paso.
final_df = employees_df[[
    'Employee_ID', 'Age', 'Education_Level', ' Computer_OS',
    ' Computer_tickets', ' Mobile_OS'
]]
final_df

Unnamed: 0,Employee_ID,Age,Education_Level,Computer_OS,Computer_tickets,Mobile_OS
0,EID_23371,42.0,4,Windows,1,Android
1,EID_18000,24.0,3,MacOS,1,iOS
2,EID_3891,58.0,3,Windows,1,Android
3,EID_17492,26.0,3,Windows,1,Android
4,EID_22534,31.0,1,Windows,9,Android
...,...,...,...,...,...,...
9995,EID_22547,32.0,3,Windows,4,Android
9996,EID_10066,,2,MacOS,2,Android
9997,EID_7126,60.0,4,Windows,0,Android
9998,EID_4929,51.0,1,Windows,6,Android


In [None]:
# Asignación de 'no registrado' a registros sin valores (en OS).
final_df[' Computer_OS'].fillna('No registrado', inplace=True)
final_df[' Mobile_OS'].fillna('No registrado', inplace=True)
final_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 10000 entries, 0 to 9999
Data columns (total 6 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Employee_ID        10000 non-null  object 
 1   Age                9427 non-null   float64
 2   Education_Level    10000 non-null  int64  
 3    Computer_OS       10000 non-null  object 
 4    Computer_tickets  10000 non-null  int64  
 5    Mobile_OS         10000 non-null  object 
dtypes: float64(1), int64(2), object(3)
memory usage: 546.9+ KB


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  final_df[' Computer_OS'].fillna('No registrado', inplace=True)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  final_df[' Mobile_OS'].fillna('No registrado', inplace=True)


### Extracción de información de interés

In [None]:
# % de personas que usan cada OS en computadora.
windows_perc = (final_df[' Computer_OS'] == 'Windows').sum() / len(final_df) *100
macos_perc = (final_df[' Computer_OS'] == 'MacOS').sum() / len(final_df) *100
linux_perc = (final_df[' Computer_OS'] == 'Linux').sum() / len(final_df) *100
nr_perc = (final_df[' Computer_OS'] == 'No registrado').sum() / len(final_df) *100
print(f'El porcentaje de personas que usan Windows en su computadora es {windows_perc:.1f}%.')
print(f'El porcentaje de personas que usan MacOS en su computadora es {macos_perc:.1f}%.')
print(f'El porcentaje de personas que usan Linux en su computadora es {linux_perc:.1f}%.')
print(f'El porcentaje de personas sin registro de OS en su computadora es {nr_perc:.1f}%.')

El porcentaje de personas que usan Windows en su computadora es 77.3%.
El porcentaje de personas que usan MacOS en su computadora es 16.3%.
El porcentaje de personas que usan Linux en su computadora es 4.8%.
El porcentaje de personas sin registro de OS en su computadora es 1.6%.


In [None]:
# % de personas que usan cada OS en teléfono móvil.
ios_perc = (final_df[' Mobile_OS'] == 'iOS').sum() / len(final_df) *100
android_perc = (final_df[' Mobile_OS'] == 'Android').sum() / len(final_df) *100
nrm_perc = (final_df[' Mobile_OS'] == 'No registrado').sum() / len(final_df) *100
print(f'El porcentaje de personas que usan iOS en su móvil es {ios_perc:.1f}%.')
print(f'El porcentaje de personas que usan Android en su móvil es {android_perc:.1f}%.')
print(f'El porcentaje de personas sin registro de OS en su móvil es {nrm_perc:.1f}%.')

El porcentaje de personas que usan iOS en su móvil es 20.5%.
El porcentaje de personas que usan Android en su móvil es 76.6%.
El porcentaje de personas sin registro de OS en su móvil es 2.9%.


In [None]:
# Edad promedio de las personas que usan c/u de los OS (de escritorio).
windows_mean = final_df.loc[(final_df[' Computer_OS'] == 'Windows'), 'Age'].mean()
macos_mean = final_df.loc[(final_df[' Computer_OS'] == 'MacOS'), 'Age'].mean()
linux_mean = final_df.loc[(final_df[' Computer_OS'] == 'Linux'), 'Age'].mean()
print(f'La edad promedio de las personas con Windows en escritorio es de '
      f'{windows_mean:.1f} años.')
print(f'La edad promedio de las personas con MacOS en escritorio es de '
      f'{macos_mean:.1f} años.')
print(f'La edad promedio de las personas con Linux en escritorio es de '
      f'{linux_mean:.1f} años.')

La edad promedio de las personas con Windows en escritorio es de 39.5 años.
La edad promedio de las personas con MacOS en escritorio es de 40.4 años.
La edad promedio de las personas con Linux en escritorio es de 40.5 años.


In [None]:
# Nivel educativo promedio de las personas que usan c/u de los OS (de escritorio).
windows_educ = final_df.loc[(final_df[' Computer_OS'] == 'Windows'), 'Education_Level'].mean()
macos_educ = final_df.loc[(final_df[' Computer_OS'] == 'MacOS'), 'Education_Level'].mean()
linux_educ = final_df.loc[(final_df[' Computer_OS'] == 'Linux'), 'Education_Level'].mean()
print(f'El nivel educativo de las personas que usan windows es {windows_educ:.1f}.')
print(f'El nivel educativo de las personas que usan MacOS es {macos_educ:.1f}.')
print(f'El nivel educativo de las personas que usan Linux es {linux_educ:.1f}.')

El nivel educativo de las personas que usan windows es 3.2.
El nivel educativo de las personas que usan MacOS es 3.2.
El nivel educativo de las personas que usan Linux es 3.2.


In [None]:
# Número de tickets generados por las personas en cada OS (de escritorio).
windows_tickets = final_df.loc[(final_df[' Computer_OS'] == 'Windows'), ' Computer_tickets'].sum()
macos_tickets = final_df.loc[(final_df[' Computer_OS'] == 'MacOS'), ' Computer_tickets'].sum()
linux_tickets = final_df.loc[(final_df[' Computer_OS'] == 'Linux'), ' Computer_tickets'].sum()
print('La cantidad de tickets generados con Windows son', windows_tickets,'.')
print('La cantidad de tickets generados con MacOS son', macos_tickets,'.')
print('La cantidad de tickets generados con Linux son', linux_tickets,'.')

La cantidad de tickets generados con Windows son 21169 .
La cantidad de tickets generados con MacOS son 1880 .
La cantidad de tickets generados con Linux son 254 .


### Generación de archivos .xlsx con información extraída

In [None]:
df1 = {
    'Computer_OS': ['Windows', 'MacOS', 'Linux', 'No registrado'],
    '%_people': [77.3, 16.3, 4.8, 1.6]
}
df2 = {
    'Mobile_OS': ['iOS', 'Android', 'No registrado'],
    '%_people': [20.5, 76.6, 2.9]
}
df3 = {
    'Computer_OS': ['Windows', 'MacOS', 'Linux'],
    'Mean_age(years)': [39.5, 40.4, 40.5]
}
df4 = {
    'Computer_OS': ['Windows', 'MacOS', 'Linux'],
    'Education_level': [3.2, 3.2, 3.2]
}
df5 = {
    'Computer_OS': ['Windows', 'MacOS', 'Linux'],
    'Tickets': [21169, 1880, 254]
}

df1 = pd.DataFrame(df1)
df2 = pd.DataFrame(df2)
df3 = pd.DataFrame(df3)
df4 = pd.DataFrame(df4)
df5 = pd.DataFrame(df5)

writer = pd.ExcelWriter('/content/employees_os_data.xlsx', engine='xlsxwriter')

df1.to_excel(writer, sheet_name='%_usuarios_os_comp', index=False)
df2.to_excel(writer, sheet_name='%_usuarios_os_mob', index=False)
df3.to_excel(writer, sheet_name='edad_promedio', index=False)
df4.to_excel(writer, sheet_name='nivel_educativo', index=False)
df5.to_excel(writer, sheet_name='tickets', index=False)

writer.close()

# Opcional: guardar los dataframes generados para las búsquedas en hojas diferentes:
# all_employees_data.to_excel(writer, sheet_name="general_employees_data", index=False)
# all_os_data.to_excel(writer, sheet_name="general_os_data", index=False)
# employees_df.to_excel(writer, sheet_name="employees_and_os", index=False)
# final_df.to_excel(writer, sheet_name="selected_data", index=False)