In [1]:
import pandas as pd, numpy as np

In [2]:
pd.options.display.float_format = '{:.1f}'.format

In [3]:
emp = pd.read_csv('empleados_2.csv')

dict = {'nombre': ['Areli', 'Beto'], 'es_directivo': ['True', 'False'], 'genero': ['F', 'M'],
       'fh_ant':['2015-02-21', '2017-03-15'], 'pct bono': [6.1, 10], 'area':['reclutamiento', 'staff DG'],
       'salario': [1800000, 780000]}
aux = pd.DataFrame(dict)

emp = pd.concat([emp, aux], ignore_index=True)
emp.head()

Unnamed: 0,nombre,es_directivo,genero,fh_ant,pct bono,area,salario
0,Ana,False,,1997-04-24,7.7,sistemas,2133821
1,Mónica,False,F,2012-06-15,14.2,corporate investments,339196
2,Ana,False,M,1985-12-10,10.0,compras,1886316
3,Bernardo,False,M,2017-11-26,8.7,riesgos,3232929
4,Laura,True,F,2001-03-16,12.1,valoración y desarrollo,2378736


In [5]:
emp.dtypes

nombre           object
es_directivo     object
genero           object
fh_ant           object
pct bono        float64
area             object
salario           int64
dtype: object

In [6]:
#convertir fh_ant, es_directivo a tipo fecha y booleana, respectivamente
emp['fh_ant'] = pd.to_datetime(emp['fh_ant'])
emp['es_directivo'] = emp['es_directivo'].astype('bool')
emp.dtypes

nombre                  object
es_directivo              bool
genero                  object
fh_ant          datetime64[ns]
pct bono               float64
area                    object
salario                  int64
dtype: object

### Filtrar un DF según ciertos criterios

In [7]:
emp.head(10)

Unnamed: 0,nombre,es_directivo,genero,fh_ant,pct bono,area,salario
0,Ana,False,,1997-04-24,7.7,sistemas,2133821
1,Mónica,False,F,2012-06-15,14.2,corporate investments,339196
2,Ana,False,M,1985-12-10,10.0,compras,1886316
3,Bernardo,False,M,2017-11-26,8.7,riesgos,3232929
4,Laura,True,F,2001-03-16,12.1,valoración y desarrollo,2378736
5,Daniel,True,M,2013-12-20,19.6,staff DG,4364527
6,René,True,M,2002-04-12,9.4,sistemas,4770660
7,Ignacio,False,M,1987-09-11,17.2,proyectos,1535389
8,Alessandra,False,F,1996-08-25,12.4,staff red,1774160
9,William,True,F,1991-03-22,6.3,ventas,2242909


In [9]:
#queremos por ejemplo, filtrar a los hombres:
emp['genero'].isnull().sum() #contando nulos en esa columna

16

In [10]:
es_masc = emp['genero'] == 'M'
es_masc

0      False
1      False
2       True
3       True
4      False
       ...  
617    False
618    False
619     True
620    False
621     True
Name: genero, Length: 622, dtype: bool

In [11]:
#una formar de filtrar a los hombres es:
emp[es_masc] #Sólo devuelve los renglones que cumplan la condición

Unnamed: 0,nombre,es_directivo,genero,fh_ant,pct bono,area,salario
2,Ana,False,M,1985-12-10,10.0,compras,1886316
3,Bernardo,False,M,2017-11-26,8.7,riesgos,3232929
5,Daniel,True,M,2013-12-20,19.6,staff DG,4364527
6,René,True,M,2002-04-12,9.4,sistemas,4770660
7,Ignacio,False,M,1987-09-11,17.2,proyectos,1535389
...,...,...,...,...,...,...,...
609,Alessandra,False,M,2014-05-07,11.2,reclutamiento,3153088
614,Fernanda,False,M,2020-05-31,10.6,,1397733
616,Luis,False,M,1983-09-06,11.0,operaciones,600175
619,Jerónimo,False,M,2011-05-09,14.1,staff red,3218007


### ¿Cómo podemos corregir la info de genero en este caso?
* Usaremos apply, pero ligeramente diferente y una función que definiremos

In [13]:
nombres_h = ['Eduardo','Luis','Alejandro','Jose','Daniel','Jerónimo','Francisco','Octavio',
           'Edgardo','Sean','Mariano','Javier','Josue','Ignacio','Esteban', 'Will','Pablo', 'Bernardo', 'Eugenio',
            'Miguel', 'Alessandro','William', 'René', 'Emilio', 'Darío', 'Juan', 'Victor', 'Camilo']

In [12]:
emp.head(3)

Unnamed: 0,nombre,es_directivo,genero,fh_ant,pct bono,area,salario
0,Ana,False,,1997-04-24,7.7,sistemas,2133821
1,Mónica,False,F,2012-06-15,14.2,corporate investments,339196
2,Ana,False,M,1985-12-10,10.0,compras,1886316


In [14]:
#Quiero:
# Si género es nulo, dejarlo en nulo
# Si nombre es nombre masculino, quiero que género = 'M'
# Si nombre es femenino, quiero gnéro = 'F'

def func_genero(row):
    if pd.isnull(row['genero']):
        return row['genero']
    elif row['nombre'] in nombres_h:
        return 'M'
    else:
        return 'F'

In [19]:
emp['genero'] = emp.apply(func_genero, axis = 1) #axis = 1 es necesario para evaluar más de una columna
emp.head()

Unnamed: 0,nombre,es_directivo,genero,fh_ant,pct bono,area,salario
0,Ana,False,,1997-04-24,7.7,sistemas,2133821
1,Mónica,False,F,2012-06-15,14.2,corporate investments,339196
2,Ana,False,F,1985-12-10,10.0,compras,1886316
3,Bernardo,False,M,2017-11-26,8.7,riesgos,3232929
4,Laura,True,F,2001-03-16,12.1,valoración y desarrollo,2378736


In [17]:
emp.tail(20)

Unnamed: 0,nombre,es_directivo,genero,fh_ant,pct bono,area,salario
602,René,False,M,1981-11-03,11.3,mesa de control,2943837
603,Jerónimo,False,M,1991-02-24,9.9,Finanzas,3889389
604,Natalia,False,F,1985-02-14,5.3,cobranza,598859
605,Alessandro,False,M,1988-04-23,19.6,ventas,1955600
606,Darío,False,M,2002-12-05,18.5,corporate investments,657814
607,Alejandro,False,M,2010-03-12,5.4,staff DG,441911
608,Natalia,False,F,2001-10-26,17.6,tecnología,893263
609,Alessandra,False,F,2014-05-07,11.2,reclutamiento,3153088
610,Laura Elena,False,F,2007-07-31,17.2,operaciones,3120092
611,Javier,True,M,2003-07-12,16.0,sistemas,1453815


In [20]:
import os
os.getcwd()

'/Users/alexiscaballero/Documents/DIPLOMADO CDD UNAM/M1G2'

In [21]:
#exportar nuestro archivo:
emp.to_csv('/Users/alexiscaballero/Documents/DIPLOMADO CDD UNAM/M1G2/empleados_3.csv', index=False)

In [22]:
es_masc = emp['genero']=='M'
emp[es_masc]   #boolean mask

Unnamed: 0,nombre,es_directivo,genero,fh_ant,pct bono,area,salario
3,Bernardo,False,M,2017-11-26,8.7,riesgos,3232929
5,Daniel,True,M,2013-12-20,19.6,staff DG,4364527
6,René,True,M,2002-04-12,9.4,sistemas,4770660
7,Ignacio,False,M,1987-09-11,17.2,proyectos,1535389
9,William,True,M,1991-03-22,6.3,ventas,2242909
...,...,...,...,...,...,...,...
607,Alejandro,False,M,2010-03-12,5.4,staff DG,441911
611,Javier,True,M,2003-07-12,16.0,sistemas,1453815
612,Bernardo,True,M,1983-02-26,7.8,proyectos,2342205
616,Luis,False,M,1983-09-06,11.0,operaciones,600175


#### Siguiendo con los filtros:

In [23]:
#Filtrar a las personas del área de 'resgos'
mask = emp['area']== 'riesgos'
emp[mask]

Unnamed: 0,nombre,es_directivo,genero,fh_ant,pct bono,area,salario
3,Bernardo,False,M,2017-11-26,8.7,riesgos,3232929
16,Melissa,False,F,1993-07-26,7.4,riesgos,2100226
24,Paula,False,F,1990-07-11,11.1,riesgos,2043242
34,Laura Elena,True,F,2018-05-11,13.4,riesgos,3889795
46,Alejandro,False,M,1989-10-08,3.8,riesgos,2893738
76,Penélope,False,F,1995-06-02,15.4,riesgos,951502
98,Luis,False,M,2008-05-15,13.2,riesgos,3014464
102,William,True,M,1986-05-10,9.3,riesgos,1754000
129,Octavio,True,M,1989-12-25,7.5,riesgos,4647093
146,Montserrat,False,F,1986-10-16,13.4,riesgos,541567


In [24]:
#equivalentemente:
emp[emp['area']=='riesgos']

Unnamed: 0,nombre,es_directivo,genero,fh_ant,pct bono,area,salario
3,Bernardo,False,M,2017-11-26,8.7,riesgos,3232929
16,Melissa,False,F,1993-07-26,7.4,riesgos,2100226
24,Paula,False,F,1990-07-11,11.1,riesgos,2043242
34,Laura Elena,True,F,2018-05-11,13.4,riesgos,3889795
46,Alejandro,False,M,1989-10-08,3.8,riesgos,2893738
76,Penélope,False,F,1995-06-02,15.4,riesgos,951502
98,Luis,False,M,2008-05-15,13.2,riesgos,3014464
102,William,True,M,1986-05-10,9.3,riesgos,1754000
129,Octavio,True,M,1989-12-25,7.5,riesgos,4647093
146,Montserrat,False,F,1986-10-16,13.4,riesgos,541567


In [25]:

emp.dtypes

nombre                  object
es_directivo              bool
genero                  object
fh_ant          datetime64[ns]
pct bono               float64
area                    object
salario                  int64
dtype: object

In [26]:
#queremos filtrar a los empleados que son directivos:
mask = emp['es_directivo']
emp[mask]

Unnamed: 0,nombre,es_directivo,genero,fh_ant,pct bono,area,salario
4,Laura,True,F,2001-03-16,12.1,valoración y desarrollo,2378736
5,Daniel,True,M,2013-12-20,19.6,staff DG,4364527
6,René,True,M,2002-04-12,9.4,sistemas,4770660
9,William,True,M,1991-03-22,6.3,ventas,2242909
11,William,True,M,2014-05-20,9.8,Contabilidad,2094868
...,...,...,...,...,...,...,...
611,Javier,True,M,2003-07-12,16.0,sistemas,1453815
612,Bernardo,True,M,1983-02-26,7.8,proyectos,2342205
618,Olga,True,F,2002-04-03,9.1,corporate investments,997318
620,Areli,True,F,2015-02-21,6.1,reclutamiento,1800000


In [32]:
emp[emp['es_directivo']] #porque 'es_directivo' es boolean

Unnamed: 0,nombre,es_directivo,genero,fh_ant,pct bono,area,salario
4,Laura,True,F,2001-03-16,12.1,valoración y desarrollo,2378736
5,Daniel,True,M,2013-12-20,19.6,staff DG,4364527
6,René,True,M,2002-04-12,9.4,sistemas,4770660
9,William,True,M,1991-03-22,6.3,ventas,2242909
11,William,True,M,2014-05-20,9.8,Contabilidad,2094868
...,...,...,...,...,...,...,...
611,Javier,True,M,2003-07-12,16.0,sistemas,1453815
612,Bernardo,True,M,1983-02-26,7.8,proyectos,2342205
618,Olga,True,F,2002-04-03,9.1,corporate investments,997318
620,Areli,True,F,2015-02-21,6.1,reclutamiento,1800000


In [33]:
#-- fin clase 19 jun 2024