# Actividad - Trabajando con DataFrames de Pandas.
## Criterios de evaluación.

* Se deben utilizar nombres de variables descriptivos y claros (Utilizar la nomeclatura correspondiente para los nombres de variables).
* Comentarios claros y concisos que expliquen el propósito de cada sección del código.
* Utilizar mensajes de commit **descriptivos**. (Puedes utilizar la extension CONVENTIONAL COMMIT de VS-CODE). 
* Entrega en tiempo y forma.
* Todo el código desarrollado debe ser subido a un repositorio en GitHub (el nombre del repositorio de seguir la siguiente estructura: pandas_df_tlp3_nombre_apellido).
* Para resolver las actividades se debe insertar casillas de codigo entre cada actividad del cuaderno de Jupyter
* Deben trabajar con el datasets adjunto a la actividad

### ¡Importante!
**El incumplimiento de los criterios de evaluación restará puntos en la nota final del práctico!**

In [4]:
import pandas as pd
import sqlite3

#Aqui agrega la conexión a la base de datos
conn = sqlite3.connect("Salaries.sqlite")

#Crea el dataframe con los datos del datasets
df = pd.read_sql_query("SELECT * FROM Salaries", conn)
conn.close()

In [11]:
df.shape

(148654, 13)

In [12]:
df.columns

Index(['Id', 'EmployeeName', 'JobTitle', 'BasePay', 'OvertimePay', 'OtherPay',
       'Benefits', 'TotalPay', 'TotalPayBenefits', 'Year', 'Notes', 'Agency',
       'Status'],
      dtype='object')

In [13]:
df.dtypes

Id                    int64
EmployeeName         object
JobTitle             object
BasePay              object
OvertimePay          object
OtherPay             object
Benefits             object
TotalPay            float64
TotalPayBenefits    float64
Year                  int64
Notes                object
Agency               object
Status               object
dtype: object

In [15]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 148654 entries, 0 to 148653
Data columns (total 13 columns):
 #   Column            Non-Null Count   Dtype  
---  ------            --------------   -----  
 0   Id                148654 non-null  int64  
 1   EmployeeName      148654 non-null  object 
 2   JobTitle          148654 non-null  object 
 3   BasePay           148049 non-null  object 
 4   OvertimePay       148654 non-null  object 
 5   OtherPay          148654 non-null  object 
 6   Benefits          112495 non-null  object 
 7   TotalPay          148654 non-null  float64
 8   TotalPayBenefits  148654 non-null  float64
 9   Year              148654 non-null  int64  
 10  Notes             0 non-null       object 
 11  Agency            148654 non-null  object 
 12  Status            38119 non-null   object 
dtypes: float64(2), int64(2), object(9)
memory usage: 14.7+ MB


In [16]:
df.isnull().sum()

Id                       0
EmployeeName             0
JobTitle                 0
BasePay                605
OvertimePay              0
OtherPay                 0
Benefits             36159
TotalPay                 0
TotalPayBenefits         0
Year                     0
Notes               148654
Agency                   0
Status              110535
dtype: int64

1. **Top 10 empleados con mayor salario total (incluyendo beneficios)**
Extrae e imprime un top 10 de expleados con mayor salario incluyendo los beneficios 


In [19]:
#todo
top10 = df.sort_values(by = 'TotalPayBenefits', ascending = False).head(10)

print(top10[['EmployeeName', 'JobTitle', 'TotalPayBenefits']])

                EmployeeName                                        JobTitle  \
0             NATHANIEL FORD  GENERAL MANAGER-METROPOLITAN TRANSIT AUTHORITY   
1               GARY JIMENEZ                 CAPTAIN III (POLICE DEPARTMENT)   
110531           David Shinn                                  Deputy Chief 3   
110532            Amy P Hart                               Asst Med Examiner   
110533  William J Coaker Jr.                        Chief Investment Officer   
72925         Gregory P Suhr                                 Chief of Police   
72926   Joanne M Hayes-White                          Chief, Fire Department   
110534        Gregory P Suhr                                 Chief of Police   
110535  Joanne M Hayes-White                          Chief, Fire Department   
110536       Ellen G Moffatt                               Asst Med Examiner   

        TotalPayBenefits  
0              567595.43  
1              538909.28  
110531         510732.68  
110532     

2. **Filtrar empleados con más de 50,000 en horas extra, la columna a tratar es: (OvertimePay)**

In [27]:
#todo

#Reemplazamos valores no numéricos vacios o raros por NaN y convertimos a float
df['OvertimePay'] = pd.to_numeric(df['OvertimePay'], errors='coerce')

#rellenamos los NaN con 0 (si tiene sentido en tu contexto)
df['OvertimePay'] = df['OvertimePay'].fillna(0)

#convertimos a int
df['OvertimePay'] = df['OvertimePay'].astype(int)

horas_extras = df[df['OvertimePay'] > 50000]
print(horas_extras[['EmployeeName', 'JobTitle', 'TotalPayBenefits', 'OvertimePay']])



              EmployeeName                              JobTitle  \
1             GARY JIMENEZ       CAPTAIN III (POLICE DEPARTMENT)   
2           ALBERT PARDINI       CAPTAIN III (POLICE DEPARTMENT)   
3        CHRISTOPHER CHONG  WIRE ROPE CABLE MAINTENANCE MECHANIC   
6                ALSON LEE    BATTALION CHIEF, (FIRE DEPARTMENT)   
8           MICHAEL MORRIS    BATTALION CHIEF, (FIRE DEPARTMENT)   
...                    ...                                   ...   
118288    Francisco A Arce                      Transit Operator   
118342    Felix Pagatpatan                      Transit Operator   
119450         Bobby Jones              Track Maintenance Worker   
119607       Hung V Nguyen             Diagnostic Imaging Tech I   
120204  Girma-Worku Zeleke               Parking Control Officer   

        TotalPayBenefits  OvertimePay  
1              538909.28       245131  
2              335279.91       106088  
3              332343.61        56120  
6              315981.0

3. **Contar cuántos empleados únicos hay por año**

In [33]:
#todo

empleados_unicos_anio = df.groupby('Year')['EmployeeName'].nunique().sort_values()
print(empleados_unicos_anio)


Year
2011    33878
2012    34349
2013    36150
2014    36684
Name: EmployeeName, dtype: int64


4. **Ver cuántos cargos únicos (JobTitle) existen y los 5 más comunes**

In [36]:
#todo

cant_cargos_unicos = df['JobTitle'].nunique()
print(cant_cargos_unicos)

2159


In [42]:
cargos_mas_comunes = df['JobTitle'].value_counts().head(5)
print(cargos_mas_comunes)

JobTitle
Transit Operator                7036
Special Nurse                   4389
Registered Nurse                3736
Public Svc Aide-Public Works    2518
Police Officer 3                2421
Name: count, dtype: int64


5. **Mostrar el salario total (TotalPay) promedio por año**

In [None]:
#todo
salario_promedio_anio = df.groupby('Year')['TotalPay'].mean().round()
print(salario_promedio_anio)


Year
2011    71744.0
2012    74113.0
2013    77611.0
2014    75464.0
Name: TotalPay, dtype: float64


6. **Exporta todos los datos a un CSV y muestra los ultimos 10 valores**

In [None]:
#todo