# Reto: Modelo de Datos Pandas

## Objetivo:

* Recuperar información de diferentes archivos utilizando la plataforma Pandas.
* Analizar, interpretar y conjuntar de manera correcta la información contenida en diferentes archivos para, posteriormente, recuperar información relevante.
*  Guardar los resultados de las consultas en un archivo con diferentes hojas de trabajo.

## Introducción
Actualmente en las empresas, la gente ya no dedica toda su vida a trabajar con una sola organización. Cada vez son más frecuente los casos en donde la gente cambia de trabajo.

 En esta primera aproximación, queremos saber:

 a) El porcentaje de personas que usan Windows, Mac, Linux o "No registrado" como su sistema operativo en su computadora. (Se espera un DataFrame con 4 renglones en esta respuesta.)

 b) El porcentaje de personas que usan iOS, Android o "No registrado" como su sistema operativo en su dispositivo móvil. (Se espera un DataFrame con 3 renglones en esta respuesta)

 c) La edad promedio de la gente que utiliza cada sistema operativo de escritorio. (Se espera un DataFrame con 4 renglones en esta respuesta.)

 d) El número total de tickets generados por la gente, con cada sistema operativo de escritorio. (Se espera un DataFrame con 4 renglones en esta respuesta.)

## A continuación realizamos el paso a paso de la resolución.

### Paso 1 y 2 -> OK:
### Paso 3:
Crea cuatro DataFrames en Pandas, cada uno para cargar el contenido de los diferentes archivos.

In [1]:
# Monatmos drive
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
import pandas as pd

# Cargar los cuatro archivos CSV con los 4 DF
df_train = pd.read_csv('/content/drive/MyDrive/Train.csv')
df_train2 = pd.read_csv('/content/drive/MyDrive/Train2.csv')
df_test = pd.read_csv('/content/drive/MyDrive/Test.csv')
df_test2 = pd.read_csv('/content/drive/MyDrive/Test2.csv')

# Mostrar primeras filas para verificar que la info este correcta
print("Train:")
display(df_train.head())

print("Train2:")
display(df_train2.head())

print("Test:")
display(df_test.head())

print("Test2:")
display(df_test2.head())


Train:


Unnamed: 0,Employee_ID,Gender,Age,Education_Level,Relationship_Status,Hometown,Unit,Decision_skill_possess,Time_of_service,Time_since_promotion,...,Compensation_and_Benefits,Work_Life_balance,VAR1,VAR2,VAR3,VAR4,VAR5,VAR6,VAR7,Attrition_rate
0,EID_23371,F,42.0,4,Married,Franklin,IT,Conceptual,4.0,4,...,type2,3.0,4,0.7516,1.8688,2.0,4,5,3,0.1841
1,EID_18000,M,24.0,3,Single,Springfield,Logistics,Analytical,5.0,4,...,type2,4.0,3,-0.9612,-0.4537,2.0,3,5,3,0.067
2,EID_3891,F,58.0,3,Married,Clinton,Quality,Conceptual,27.0,3,...,type2,1.0,4,-0.9612,-0.4537,3.0,3,8,3,0.0851
3,EID_17492,F,26.0,3,Single,Lebanon,Human Resource Management,Behavioral,4.0,3,...,type2,1.0,3,-1.8176,-0.4537,,3,7,3,0.0668
4,EID_22534,F,31.0,1,Married,Springfield,Logistics,Conceptual,5.0,4,...,type3,3.0,1,0.7516,-0.4537,2.0,2,8,2,0.1827


Train2:


Unnamed: 0,Employee_ID,Computer_OS,Computer_OS_version,Computer_tickets,Mobile_OS,Mobile_OS_version,Mobile_tickets
0,EID_18343,Windows,8,1,Android,9.0,0
1,EID_4861,Windows,7,2,Android,8.0,0
2,EID_16936,Windows,10,3,Android,10.0,0
3,EID_16384,Windows,10,1,Android,7.0,1
4,EID_10666,Windows,7,7,Android,10.0,4


Test:


Unnamed: 0,Employee_ID,Gender,Age,Education_Level,Relationship_Status,Hometown,Unit,Decision_skill_possess,Time_of_service,Time_since_promotion,...,Pay_Scale,Compensation_and_Benefits,Work_Life_balance,VAR1,VAR2,VAR3,VAR4,VAR5,VAR6,VAR7
0,EID_22713,F,32.0,5,Single,Springfield,R&D,Conceptual,7.0,4,...,4.0,type2,1.0,3,-0.9612,-0.4537,2.0,1,8,4
1,EID_9658,M,65.0,2,Single,Lebanon,IT,Directive,41.0,2,...,1.0,type2,1.0,4,-0.9612,0.7075,1.0,2,8,2
2,EID_22203,M,52.0,3,Married,Springfield,Sales,Directive,21.0,3,...,8.0,type3,1.0,4,-0.1048,0.7075,2.0,1,9,3
3,EID_7652,M,50.0,5,Single,Washington,Marketing,Analytical,11.0,4,...,2.0,type0,4.0,3,-0.1048,0.7075,2.0,2,8,3
4,EID_6516,F,44.0,3,Married,Franklin,R&D,Conceptual,12.0,4,...,2.0,type2,4.0,4,1.6081,0.7075,2.0,2,7,4


Test2:


Unnamed: 0,Employee_ID,Computer_OS,Computer_OS_version,Computer_tickets,Mobile_OS,Mobile_OS_version,Mobile_tickets
0,EID_19108,Windows,10,2,Android,8.0,0
1,EID_13997,Windows,10,12,Android,10.0,1
2,EID_10789,MacOS,Catalina,0,iOS,12.0,0
3,EID_1833,Windows,10,9,Android,7.0,0
4,EID_8825,Windows,8,3,Android,9.0,2


### Paso 4:
Conjunta de manera correcta la información, de tal forma que queden todos los registros en un solo DataFrame que contenga todas las columnas necesarias.

In [4]:
# Limpiamos espacios en columnas
df_train2.columns = df_train2.columns.str.strip()
df_test2.columns = df_test2.columns.str.strip()

# Unimos los DF de Train con Train2 y Test con Test2
df_train_full = pd.merge(df_train, df_train2, on='Employee_ID', how='left')
df_test_full = pd.merge(df_test, df_test2, on='Employee_ID', how='left')

# Unimos ambos y nos queda un solo DF
df_total = pd.concat([df_train_full, df_test_full], ignore_index=True)


### Paso 5:
Para todos los registros que no tienen un valor para un sistema operativo, ya sea de su computadora o de su dispositivo móvil, asígnales el valor “no registrado“.

In [5]:
df_total['Computer_OS'] = df_total['Computer_OS'].fillna('no registrado')
df_total['Mobile_OS'] = df_total['Mobile_OS'].fillna('no registrado')

### Paso 6
1) Porcentaje de personas según sistema operativo de computadora

In [6]:
# Contamos por cada sistema operativo
pc_os_counts = df_total['Computer_OS'].value_counts()

# Contamos la toalidad de registros
total_personas = len(df_total)

# Ahora calculamos el porcentaje
df_pc_os_porcentaje = (pc_os_counts / total_personas * 100).round(2).reset_index()
df_pc_os_porcentaje.columns = ['Sistema_Operativo_PC', 'Porcentaje']

# Mostrar resultado
print(df_pc_os_porcentaje)


  Sistema_Operativo_PC  Porcentaje
0              Windows       77.28
1                MacOS       16.34
2                Linux        4.80
3        no registrado        1.58


2) El porcentaje de personas que usan iOS, Android o "No registrado" como su sistema operativo en su dispositivo móvil.

In [7]:
# Conteo de cada sistema operativo móvil
mobile_os_counts = df_total['Mobile_OS'].value_counts()

# Total de registros (puede ser el mismo que para Computer_OS)
total_personas = len(df_total)

# Cálculo de porcentajes
df_mobile_os_porcentaje = (mobile_os_counts / total_personas * 100).round(2).reset_index()
df_mobile_os_porcentaje.columns = ['Sistema_Operativo_Movil', 'Porcentaje']

# Mostrar resultado
print(df_mobile_os_porcentaje)


  Sistema_Operativo_Movil  Porcentaje
0                 Android       76.59
1                     iOS       20.54
2           no registrado        2.87


3) La edad promedio de la gente que utiliza cada sistema operativo de escritorio.

In [8]:
# Agrupar por sistema operativo de computadora y calcular edad promedio
df_edad_promedio = df_total.groupby('Computer_OS')['Age'].mean().round(2).reset_index()
df_edad_promedio.columns = ['Sistema_Operativo_PC', 'Edad_Promedio']

# Mostrar resultado
print(df_edad_promedio)


  Sistema_Operativo_PC  Edad_Promedio
0                Linux          40.45
1                MacOS          40.40
2              Windows          39.46
3        no registrado          40.52


4) El nivel educativo promedio de la gente que utiliza cada sistema operativo de escritorio.

In [9]:
# Agrupamos por sistema operativo de computadora y calculamos el promedio del nivel educativo
df_educacion_promedio = df_total.groupby('Computer_OS')['Education_Level'].mean().round(2).reset_index()
df_educacion_promedio.columns = ['Sistema_Operativo_PC', 'Educacion_Promedio']

# Mostrar resultado
print(df_educacion_promedio)


  Sistema_Operativo_PC  Educacion_Promedio
0                Linux                3.24
1                MacOS                3.17
2              Windows                3.20
3        no registrado                3.18


Guardamos todos los resultados en un archivo excel

In [11]:
# Instalamos librerias para crear archivos excel
!pip install XlsxWriter

# Guardar todas las hojas en un solo archivo Excel
with pd.ExcelWriter('MDP_SebastianSerrano.xlsx', engine='xlsxwriter') as writer:
    df_pc_os_porcentaje.to_excel(writer, sheet_name='PC_OS_Porcentaje', index=False)
    df_mobile_os_porcentaje.to_excel(writer, sheet_name='Mobile_OS_Porcentaje', index=False)
    df_edad_promedio.to_excel(writer, sheet_name='Edad_Promedio_PC', index=False)
    df_educacion_promedio.to_excel(writer, sheet_name='Educacion_PC', index=False)



Collecting XlsxWriter
  Downloading XlsxWriter-3.2.3-py3-none-any.whl.metadata (2.7 kB)
Downloading XlsxWriter-3.2.3-py3-none-any.whl (169 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m169.4/169.4 kB[0m [31m3.8 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: XlsxWriter
Successfully installed XlsxWriter-3.2.3


Lo descargamos

In [12]:
from google.colab import files

files.download('MDP_SebastianSerrano.xlsx')


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>