## Acceder a registros usando `.loc[]` (accesor)

In [1]:
import pandas as pd, numpy as np

###  `.loc[ ]` es para acceder a registros mediante ETIQUETAS DE ÍNDICES

En pandas, `.loc[]` es otro método fundamental de selección de datos utilizado con objetos DataFrame y Series. Representa el índice "basado en etiquetas", lo que significa que accedes a los datos utilizando las etiquetas de filas o columnas.

### Características Clave de `.loc[]`
1. **Indexación Basada en Etiquetas**: Te permite seleccionar filas y columnas basadas en sus etiquetas. Las etiquetas pueden ser números, cadenas de texto u otros objetos de Python.

2. **Segmentación con Etiquetas**: `loc[]` usa segmentación basada en etiquetas. Esto significa que la etiqueta final en la segmentación es inclusiva.

3. **Indexación Booleana**: También puedes usar condiciones booleanas para la selección con `loc[]`.

4. **Acceso a Filas y Columnas**: `loc[]` se utiliza para acceder tanto a filas como a columnas por etiquetas.

### Cómo Utilizar `.loc[]`
#### Seleccionando Filas y Columnas
1. **Fila o Columna Única**:
   * Selecciona la fila con la etiqueta de índice 'a': `df.loc['a']`
   * Selecciona la columna con la etiqueta 'A': `df.loc[:, 'A']`

2. **Múltiples Filas o Columnas**:
   * Selecciona filas con etiquetas de índice de 'a' a 'c': `df.loc['a':'c']` (Tanto 'a' como 'c' están incluidos.)
   * Selecciona columnas de 'A' a 'C': `df.loc[:, 'A':'C']`

3. **Filas y Columnas Específicas**:
   * Selecciona filas 'a', 'c' y 'e' y columnas 'A' y 'B': `df.loc[['a', 'c', 'e'], ['A', 'B']]`

4. **Indexación Booleana**:
   * Selecciona filas donde la columna 'A' es mayor que 1: `df.loc[df['A'] > 1]`


In [4]:
#Ejemplo:

# Creando DataFrame con etiquetas
data = {'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}
df = pd.DataFrame(data, index=['a', 'b', 'c'])


# Usando loc para seleccionar fila con índice 'a'
row_a = df.loc['a']


# Seleccionando la columna 'B'
column_B = df.loc[:,'B']


# Seleccionando un subconbjunto específico
subset = df.loc['a':'b', 'B':'C']


In [5]:
df.head()

Unnamed: 0,A,B,C
a,1,4,7
b,2,5,8
c,3,6,9


In [6]:
row_a

A    1
B    4
C    7
Name: a, dtype: int64

In [7]:
column_B

a    4
b    5
c    6
Name: B, dtype: int64

In [8]:
#SLICING:
subset

Unnamed: 0,B,C
a,4,7
b,5,8


###  Utilizando nuestro dataset de empleados

In [9]:
df = pd.read_csv('empleados_3.csv', parse_dates = ['fh_ant'])
df.head(4)

Unnamed: 0,nombre,es_directivo,genero,fh_ant,pct bono,area,salario
0,Ana,False,,1997-04-24,7.719971,sistemas,2133821
1,Mónica,False,F,2012-06-15,14.23114,corporate investments,339196
2,Ana,False,F,1985-12-10,10.035779,compras,1886316
3,Bernardo,False,M,2017-11-26,8.657518,riesgos,3232929


In [10]:
df.set_index('fh_ant', inplace=True)
df.sort_index(inplace = True) #ordenar el índice
df.head(7)

Unnamed: 0_level_0,nombre,es_directivo,genero,pct bono,area,salario
fh_ant,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1980-02-18,Fernando,False,F,13.605168,tecnología,133561
1980-04-04,Paola,False,F,12.899269,proyectos,2075600
1980-06-04,Daniela,False,F,14.324062,crédito consumo,1562366
1980-06-28,Clara,False,F,9.488899,cobranza,1317267
1980-07-04,Sandra,False,F,17.05876,mesa de control,3435905
1980-07-22,Laura,False,F,13.893621,asset management,2295018
1980-08-21,Fernando,True,F,18.686733,cobranza,2996629


In [11]:
df.tail()

Unnamed: 0_level_0,nombre,es_directivo,genero,pct bono,area,salario
fh_ant,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2023-04-23,Darío,False,M,8.876089,proyectos,3016796
2023-05-17,Nicole,False,F,6.381458,riesgos,1049735
2023-07-22,Paula,False,F,3.871101,sistemas,2426281
2023-08-03,Natasha,False,F,17.101534,crédito consumo,3402726
2023-08-14,William,False,M,11.076261,staff DG,1228117


In [12]:
#Ejemplo: si queremos acceder al registro con fh_ant '2023-04-23':
df.loc['2023-04-23']

nombre              Darío
es_directivo        False
genero                  M
pct bono         8.876089
area            proyectos
salario           3016796
Name: 2023-04-23 00:00:00, dtype: object

In [13]:
type(df.loc['2023-04-23'])

pandas.core.series.Series

In [14]:
df.reset_index(inplace=True)
df.set_index('nombre', inplace=True)
df.head()

Unnamed: 0_level_0,fh_ant,es_directivo,genero,pct bono,area,salario
nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Fernando,1980-02-18,False,F,13.605168,tecnología,133561
Paola,1980-04-04,False,F,12.899269,proyectos,2075600
Daniela,1980-06-04,False,F,14.324062,crédito consumo,1562366
Clara,1980-06-28,False,F,9.488899,cobranza,1317267
Sandra,1980-07-04,False,F,17.05876,mesa de control,3435905


In [15]:
df.loc['Alejandro']

Unnamed: 0_level_0,fh_ant,es_directivo,genero,pct bono,area,salario
nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Alejandro,1980-12-06,False,M,5.486558,asset management,2875476
Alejandro,1988-06-22,False,M,9.925758,Contabilidad,1963149
Alejandro,1989-10-08,False,M,3.820054,riesgos,2893738
Alejandro,1995-10-16,False,M,15.964033,Contabilidad,1322217
Alejandro,1997-08-25,False,M,16.27933,,907194
Alejandro,1998-05-21,False,M,14.050435,corporate investments,3335073
Alejandro,2003-11-13,False,M,19.050541,operaciones,264411
Alejandro,2010-03-12,False,M,5.431928,staff DG,441911
Alejandro,2010-08-18,True,M,6.700113,staff DG,2474039
Alejandro,2012-05-06,False,M,11.318471,marketing,2026505


In [17]:
df.loc['Paola']

Unnamed: 0_level_0,fh_ant,es_directivo,genero,pct bono,area,salario
nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Paola,1980-04-04,False,F,12.899269,proyectos,2075600
Paola,1981-05-25,False,F,18.230904,compras,3440931
Paola,1986-06-25,False,F,5.458134,ventas,2321534
Paola,1990-04-13,False,,7.68245,sistemas,1892692
Paola,1991-03-24,False,F,13.828957,crédito consumo,2185163
Paola,1991-04-24,False,F,4.050334,Dllo de negocio,466187
Paola,1991-06-03,False,F,3.553824,banca digital,1221742
Paola,2001-02-21,True,F,16.202942,marketing,2317838
Paola,2008-11-16,False,F,12.910401,banca digital,3749949
Paola,2013-06-25,True,F,13.859722,staff DG,1931301


In [18]:
df.loc['Ana']

Unnamed: 0_level_0,fh_ant,es_directivo,genero,pct bono,area,salario
nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Ana,1985-12-10,False,F,10.035779,compras,1886316
Ana,1997-04-24,False,,7.719971,sistemas,2133821
Ana,2014-03-04,False,F,8.858033,red comecial,2087614
Ana,2014-12-25,False,F,9.86641,red comecial,1804116


In [19]:
#Importante: el índice debe existir, de lo contrario nos manda un error
df.loc['Alberto']

KeyError: 'Alberto'

In [20]:
df.sort_index(inplace=True)
df.head()

Unnamed: 0_level_0,fh_ant,es_directivo,genero,pct bono,area,salario
nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Alejandro,2017-08-08,False,M,19.103649,mesa de control,187342
Alejandro,2021-05-03,False,M,13.814441,cobranza,568179
Alejandro,1988-06-22,False,M,9.925758,Contabilidad,1963149
Alejandro,1998-05-21,False,M,14.050435,corporate investments,3335073
Alejandro,2010-03-12,False,M,5.431928,staff DG,441911


In [21]:
df.tail()

Unnamed: 0_level_0,fh_ant,es_directivo,genero,pct bono,area,salario
nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
William,2010-03-18,False,M,3.441178,crédito consumo,3133939
William,2010-05-13,False,M,12.132889,riesgos,773922
William,1991-03-22,True,M,6.314901,ventas,2242909
William,2002-10-24,False,M,3.218283,ventas,2472844
William,2023-08-14,False,M,11.076261,staff DG,1228117


In [22]:
#Slicing a través del índice:
df.loc['Alejandro': 'Natasha'] #Aquí el segundo valor SI ES INCLUSIVO

Unnamed: 0_level_0,fh_ant,es_directivo,genero,pct bono,area,salario
nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Alejandro,2017-08-08,False,M,19.103649,mesa de control,187342
Alejandro,2021-05-03,False,M,13.814441,cobranza,568179
Alejandro,1988-06-22,False,M,9.925758,Contabilidad,1963149
Alejandro,1998-05-21,False,M,14.050435,corporate investments,3335073
Alejandro,2010-03-12,False,M,5.431928,staff DG,441911
...,...,...,...,...,...,...
Natasha,2006-11-09,False,F,8.477486,Dllo de negocio,406804
Natasha,2023-08-03,False,F,17.101534,crédito consumo,3402726
Natasha,1986-09-23,False,F,18.400736,reclutamiento,522250
Natasha,1982-03-07,False,F,3.135547,banca digital,2753188


In [23]:
df.loc['Alejandro': 'Natasha': 2] #Tmb tenemos parámetro 'step'

Unnamed: 0_level_0,fh_ant,es_directivo,genero,pct bono,area,salario
nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Alejandro,2017-08-08,False,M,19.103649,mesa de control,187342
Alejandro,1988-06-22,False,M,9.925758,Contabilidad,1963149
Alejandro,2010-03-12,False,M,5.431928,staff DG,441911
Alejandro,2014-05-11,False,M,11.549706,Finanzas,2978134
Alejandro,2010-08-18,True,M,6.700113,staff DG,2474039
...,...,...,...,...,...,...
Natasha,1986-09-22,False,F,13.577214,compras,2267800
Natasha,2004-02-20,False,F,11.070071,riesgos,474937
Natasha,2006-11-09,False,F,8.477486,Dllo de negocio,406804
Natasha,1986-09-23,False,F,18.400736,reclutamiento,522250


In [24]:
#Slicing desde un valor hasta el final:
df.loc['Paola':] #desde Paola hasta el final

Unnamed: 0_level_0,fh_ant,es_directivo,genero,pct bono,area,salario
nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Paola,1990-04-13,False,,7.682450,sistemas,1892692
Paola,1980-04-04,False,F,12.899269,proyectos,2075600
Paola,2013-12-09,False,F,7.754558,proyectos,2268548
Paola,1981-05-25,False,F,18.230904,compras,3440931
Paola,1991-04-24,False,F,4.050334,Dllo de negocio,466187
...,...,...,...,...,...,...
William,2010-03-18,False,M,3.441178,crédito consumo,3133939
William,2010-05-13,False,M,12.132889,riesgos,773922
William,1991-03-22,True,M,6.314901,ventas,2242909
William,2002-10-24,False,M,3.218283,ventas,2472844


In [25]:
df.loc[:'Darío'] #desde el principio hasta el valor indicado

Unnamed: 0_level_0,fh_ant,es_directivo,genero,pct bono,area,salario
nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Alejandro,2017-08-08,False,M,19.103649,mesa de control,187342
Alejandro,2021-05-03,False,M,13.814441,cobranza,568179
Alejandro,1988-06-22,False,M,9.925758,Contabilidad,1963149
Alejandro,1998-05-21,False,M,14.050435,corporate investments,3335073
Alejandro,2010-03-12,False,M,5.431928,staff DG,441911
...,...,...,...,...,...,...
Darío,2014-03-13,False,M,17.005395,staff DG,1624421
Darío,2008-01-04,False,M,3.345587,staff red,3058505
Darío,2020-02-25,False,M,13.249011,valoración y desarrollo,2671550
Darío,2020-08-11,False,M,5.266294,red comecial,2795012


In [26]:
#Si queremos extraer más de una fila --> le paso una lista
df.loc[['Ana','Constanza', 'Natasha']]

Unnamed: 0_level_0,fh_ant,es_directivo,genero,pct bono,area,salario
nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Ana,2014-03-04,False,F,8.858033,red comecial,2087614
Ana,2014-12-25,False,F,9.86641,red comecial,1804116
Ana,1997-04-24,False,,7.719971,sistemas,2133821
Ana,1985-12-10,False,F,10.035779,compras,1886316
Constanza,2020-05-20,False,F,12.215096,corporate investments,1885396
Constanza,1988-04-07,False,F,5.747443,compras,127843
Constanza,1998-07-11,False,F,18.772397,asset management,2455931
Constanza,2002-11-05,False,F,13.950552,Contabilidad,830384
Constanza,2015-07-23,False,F,8.578066,,3133705
Constanza,2008-08-21,False,F,12.93969,asset management,2369273


In [27]:
#Cada valor de la lista debe existir en el índice.
df.loc[['Ana','Constanza', 'Natasha', 'Alberto']]

KeyError: "['Alberto'] not in index"

In [28]:
'Alberto' in df.index

False

In [29]:
'Ana' in df.index

True

## Extraer registros mediante su posición en el índice --> `iloc[ ]`

In [None]:
# 'integer-location based' indexing

En pandas, `iloc[]` es un método fundamental para la selección de datos utilizado principalmente en objetos DataFrame y Series. Representa el índice basado en la posición entera, lo que te permite acceder a los datos por su índice entero.

### Características Clave de `iloc[]`
1. **Indexación Entera**: Utiliza la indexación basada en enteros, similar a las listas de Python. Se utiliza para seleccionar filas y columnas por sus posiciones de índice enteras.

2. **Segmentación**: Al igual que con las listas de Python, puedes usar la segmentación con `iloc[]` para seleccionar múltiples filas o columnas.

3. **Basado en Índice**: La indexación se basa estrictamente en la posición entera de la fila/columna, comenzando desde `0`.

### Cómo Usar `iloc[]`

#### Seleccionando Filas y Columnas

1. **Fila o Columna Única**:
   - Selecciona la primera fila: `df.iloc[0]`
   - Selecciona la primera columna: `df.iloc[:, 0]` (El dos puntos `:` indica todas las filas y `0` es el índice de la columna.)

2. **Múltiples Filas o Columnas**:
   - Selecciona las primeras tres filas: `df.iloc[0:3]`
   - Selecciona las primeras tres columnas: `df.iloc[:, 0:3]`
   - Selecciona filas de 1 a 3 y columnas de 2 a 4: `df.iloc[1:4, 2:5]`

3. **Filas y Columnas Específicas**:
   - Selecciona filas 1, 3 y 5 y las primeras dos columnas: `df.iloc[[1, 3, 5], [0, 1]]`

4. **Indexación Negativa**:
   - Selecciona la última fila: `df.iloc[-1]`
   - Selecciona las últimas tres filas: `df.iloc[-3:]`


In [33]:
# Ejemplo:

#Generando un dataframe a partir de un diccionario
data = {'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}
df2 = pd.DataFrame(data)

# Usando iloc para seleccionar primera fila
primera_fila = df2.iloc[0]
#
segunda_col = df2.iloc[:,1]

# 
subset = df2.iloc[0:2, 1:3]


In [31]:
df2

Unnamed: 0,A,B,C
0,1,4,7
1,2,5,8
2,3,6,9


In [34]:
primera_fila

A    1
B    4
C    7
Name: 0, dtype: int64

In [35]:
segunda_col

0    4
1    5
2    6
Name: B, dtype: int64

In [36]:
subset

Unnamed: 0,B,C
0,4,7
1,5,8


In [37]:
df.head()

Unnamed: 0_level_0,fh_ant,es_directivo,genero,pct bono,area,salario
nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Alejandro,2017-08-08,False,M,19.103649,mesa de control,187342
Alejandro,2021-05-03,False,M,13.814441,cobranza,568179
Alejandro,1988-06-22,False,M,9.925758,Contabilidad,1963149
Alejandro,1998-05-21,False,M,14.050435,corporate investments,3335073
Alejandro,2010-03-12,False,M,5.431928,staff DG,441911


In [38]:
df.iloc[0] #primera fila

fh_ant          2017-08-08 00:00:00
es_directivo                  False
genero                            M
pct bono                  19.103649
area                mesa de control
salario                      187342
Name: Alejandro, dtype: object

In [39]:
df.iloc[[14,17]] #dame las filas con índices 14 y 17

Unnamed: 0_level_0,fh_ant,es_directivo,genero,pct bono,area,salario
nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Alejandro,1980-12-06,False,M,5.486558,asset management,2875476
Alessandra,1996-08-25,False,F,12.441263,staff red,1774160


In [40]:
df.iloc[4:8]

Unnamed: 0_level_0,fh_ant,es_directivo,genero,pct bono,area,salario
nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Alejandro,2010-03-12,False,M,5.431928,staff DG,441911
Alejandro,1995-10-16,False,M,15.964033,Contabilidad,1322217
Alejandro,2014-05-11,False,M,11.549706,Finanzas,2978134
Alejandro,2003-11-13,False,M,19.050541,operaciones,264411


### Con iloc[] el segundo valor NO es inclusivo

In [41]:
df.reset_index(inplace=True)
df.head(3)

Unnamed: 0,nombre,fh_ant,es_directivo,genero,pct bono,area,salario
0,Alejandro,2017-08-08,False,M,19.103649,mesa de control,187342
1,Alejandro,2021-05-03,False,M,13.814441,cobranza,568179
2,Alejandro,1988-06-22,False,M,9.925758,Contabilidad,1963149


In [42]:
#queremos los primeros 4 regustros:
df.iloc[:4]

Unnamed: 0,nombre,fh_ant,es_directivo,genero,pct bono,area,salario
0,Alejandro,2017-08-08,False,M,19.103649,mesa de control,187342
1,Alejandro,2021-05-03,False,M,13.814441,cobranza,568179
2,Alejandro,1988-06-22,False,M,9.925758,Contabilidad,1963149
3,Alejandro,1998-05-21,False,M,14.050435,corporate investments,3335073


In [43]:
df.iloc[[2,4,6,7,50]]

Unnamed: 0,nombre,fh_ant,es_directivo,genero,pct bono,area,salario
2,Alejandro,1988-06-22,False,M,9.925758,Contabilidad,1963149
4,Alejandro,2010-03-12,False,M,5.431928,staff DG,441911
6,Alejandro,2014-05-11,False,M,11.549706,Finanzas,2978134
7,Alejandro,2003-11-13,False,M,19.050541,operaciones,264411
50,Camilo,2021-11-10,True,M,19.540743,red comecial,2758425


In [44]:
df.iloc[15:] #del 15 al final

Unnamed: 0,nombre,fh_ant,es_directivo,genero,pct bono,area,salario
15,Alejandro,2013-04-04,True,M,6.259606,reclutamiento,3141851
16,Alessandra,1984-12-07,False,F,19.025592,proyectos,807513
17,Alessandra,1996-08-25,False,F,12.441263,staff red,1774160
18,Alessandra,1993-05-17,False,F,16.107543,operaciones,2693323
19,Alessandra,1996-01-21,False,F,4.456556,beneficios,753344
...,...,...,...,...,...,...,...
617,William,2010-03-18,False,M,3.441178,crédito consumo,3133939
618,William,2010-05-13,False,M,12.132889,riesgos,773922
619,William,1991-03-22,True,M,6.314901,ventas,2242909
620,William,2002-10-24,False,M,3.218283,ventas,2472844


In [46]:
#si un valor no existe, nos manda error:
#df.iloc[650]

In [47]:
df.set_index('fh_ant', inplace=True)
df.head()

Unnamed: 0_level_0,nombre,es_directivo,genero,pct bono,area,salario
fh_ant,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2017-08-08,Alejandro,False,M,19.103649,mesa de control,187342
2021-05-03,Alejandro,False,M,13.814441,cobranza,568179
1988-06-22,Alejandro,False,M,9.925758,Contabilidad,1963149
1998-05-21,Alejandro,False,M,14.050435,corporate investments,3335073
2010-03-12,Alejandro,False,M,5.431928,staff DG,441911


## Extraer combinaciones de renglon -columna

In [48]:
df.loc['2013-04-04']

nombre              Alejandro
es_directivo             True
genero                      M
pct bono             6.259606
area            reclutamiento
salario               3141851
Name: 2013-04-04 00:00:00, dtype: object

In [49]:
# df.loc[renglon, columna]
df.loc['2013-04-04', 'nombre']


'Alejandro'

In [50]:
df.loc['2013-04-04', ['nombre', 'salario']]

nombre     Alejandro
salario      3141851
Name: 2013-04-04 00:00:00, dtype: object

In [51]:
df.loc[['2013-04-04', '1991-03-22'],['nombre', 'salario']]

Unnamed: 0_level_0,nombre,salario
fh_ant,Unnamed: 1_level_1,Unnamed: 2_level_1
2013-04-04,Alejandro,3141851
1991-03-22,William,2242909


In [52]:
df.head(9)

Unnamed: 0_level_0,nombre,es_directivo,genero,pct bono,area,salario
fh_ant,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2017-08-08,Alejandro,False,M,19.103649,mesa de control,187342
2021-05-03,Alejandro,False,M,13.814441,cobranza,568179
1988-06-22,Alejandro,False,M,9.925758,Contabilidad,1963149
1998-05-21,Alejandro,False,M,14.050435,corporate investments,3335073
2010-03-12,Alejandro,False,M,5.431928,staff DG,441911
1995-10-16,Alejandro,False,M,15.964033,Contabilidad,1322217
2014-05-11,Alejandro,False,M,11.549706,Finanzas,2978134
2003-11-13,Alejandro,False,M,19.050541,operaciones,264411
2010-08-18,Alejandro,True,M,6.700113,staff DG,2474039


In [53]:
df.loc['2013-04-04', 'nombre': 'pct bono']

nombre          Alejandro
es_directivo         True
genero                  M
pct bono         6.259606
Name: 2013-04-04 00:00:00, dtype: object

In [54]:
df.sort_index(inplace=True)
df.head()

Unnamed: 0_level_0,nombre,es_directivo,genero,pct bono,area,salario
fh_ant,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1980-02-18,Fernando,False,F,13.605168,tecnología,133561
1980-04-04,Paola,False,F,12.899269,proyectos,2075600
1980-06-04,Daniela,False,F,14.324062,crédito consumo,1562366
1980-06-28,Clara,False,F,9.488899,cobranza,1317267
1980-07-04,Sandra,False,F,17.05876,mesa de control,3435905


In [55]:
df.loc['1980-02-18':'1980-07-04', 'nombre':'es_directivo']

Unnamed: 0_level_0,nombre,es_directivo
fh_ant,Unnamed: 1_level_1,Unnamed: 2_level_1
1980-02-18,Fernando,False
1980-04-04,Paola,False
1980-06-04,Daniela,False
1980-06-28,Clara,False
1980-07-04,Sandra,False


In [56]:
df.loc['1980-02-18':'1980-07-04', ['nombre','es_directivo']] #equivalente a lo anterior

Unnamed: 0_level_0,nombre,es_directivo
fh_ant,Unnamed: 1_level_1,Unnamed: 2_level_1
1980-02-18,Fernando,False
1980-04-04,Paola,False
1980-06-04,Daniela,False
1980-06-28,Clara,False
1980-07-04,Sandra,False


In [57]:
df.loc['1980-02-18':'1980-07-04', :'area'] #desde el inicio hasta la columna 'área'

Unnamed: 0_level_0,nombre,es_directivo,genero,pct bono,area
fh_ant,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1980-02-18,Fernando,False,F,13.605168,tecnología
1980-04-04,Paola,False,F,12.899269,proyectos
1980-06-04,Daniela,False,F,14.324062,crédito consumo
1980-06-28,Clara,False,F,9.488899,cobranza
1980-07-04,Sandra,False,F,17.05876,mesa de control


In [59]:
df.tail(20)

Unnamed: 0_level_0,nombre,es_directivo,genero,pct bono,area,salario
fh_ant,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2022-01-24,Alessandro,False,M,10.710575,Finanzas,254478
2022-04-04,Pablo,False,M,15.625381,operaciones,2424534
2022-04-05,Olga,True,F,14.623278,staff DG,2724539
2022-05-16,Daniel,False,M,16.04212,valoración y desarrollo,1456825
2022-07-26,Eugenio,False,M,16.357645,asset management,3026505
2022-08-09,Lucía,False,F,18.486543,red comecial,754453
2022-08-09,Alessandra,False,F,6.549426,Dllo de negocio,3718942
2022-08-21,Edith,False,,13.042264,ventas,2701034
2022-10-27,Francisco,False,M,17.168038,ventas,2171733
2022-12-25,Nikole,False,F,7.650141,,617353


In [60]:
df.loc[:'2020-04-28', :'es_directivo']
#renglones: desde el inicio hasta el 28 abr 2020
# cols : desde la primera hasta 'es_directivo'

Unnamed: 0_level_0,nombre,es_directivo
fh_ant,Unnamed: 1_level_1,Unnamed: 2_level_1
1980-02-18,Fernando,False
1980-04-04,Paola,False
1980-06-04,Daniela,False
1980-06-28,Clara,False
1980-07-04,Sandra,False
...,...,...
2020-02-25,Darío,False
2020-03-01,Luis,False
2020-04-02,René,True
2020-04-17,Francisco,False


In [62]:
df.index

DatetimeIndex(['1980-02-18', '1980-04-04', '1980-06-04', '1980-06-28',
               '1980-07-04', '1980-07-22', '1980-08-21', '1980-10-05',
               '1980-10-22', '1980-10-23',
               ...
               '2022-12-29', '2023-02-22', '2023-03-22', '2023-04-03',
               '2023-04-03', '2023-04-23', '2023-05-17', '2023-07-22',
               '2023-08-03', '2023-08-14'],
              dtype='datetime64[ns]', name='fh_ant', length=622, freq=None)

In [63]:
df.head()

Unnamed: 0_level_0,nombre,es_directivo,genero,pct bono,area,salario
fh_ant,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1980-02-18,Fernando,False,F,13.605168,tecnología,133561
1980-04-04,Paola,False,F,12.899269,proyectos,2075600
1980-06-04,Daniela,False,F,14.324062,crédito consumo,1562366
1980-06-28,Clara,False,F,9.488899,cobranza,1317267
1980-07-04,Sandra,False,F,17.05876,mesa de control,3435905


In [64]:
#Análogo para iloc
df.iloc[10:12, 0:5]

Unnamed: 0_level_0,nombre,es_directivo,genero,pct bono,area
fh_ant,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1980-11-05,Josue,True,M,9.636886,Contabilidad
1980-11-22,Juan,False,M,9.943876,beneficios


In [65]:
df.iloc[10:12, [0,2,3]]

Unnamed: 0_level_0,nombre,genero,pct bono
fh_ant,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1980-11-05,Josue,M,9.636886
1980-11-22,Juan,M,9.943876


In [66]:
df.reset_index(inplace=True)
df.head(3)

Unnamed: 0,fh_ant,nombre,es_directivo,genero,pct bono,area,salario
0,1980-02-18,Fernando,False,F,13.605168,tecnología,133561
1,1980-04-04,Paola,False,F,12.899269,proyectos,2075600
2,1980-06-04,Daniela,False,F,14.324062,crédito consumo,1562366


### Sup quiero cambiar una celda: intersección fila -columna

In [None]:
#Sup quiero cambiar una celda: intersección fila -columna
# df.loc[renglon, columna]

In [67]:
df.loc[1, 'area'] = 'marketing'
df.head(3)

Unnamed: 0,fh_ant,nombre,es_directivo,genero,pct bono,area,salario
0,1980-02-18,Fernando,False,F,13.605168,tecnología,133561
1,1980-04-04,Paola,False,F,12.899269,marketing,2075600
2,1980-06-04,Daniela,False,F,14.324062,crédito consumo,1562366


In [68]:
#Quiero cambiar múltiples valores:
# Sup quiero cambiar, para Paola, los valores del bono y de equipo
df.loc[1, ['pct bono', 'area']] = [13, 'finanzas']
df.head(3)


Unnamed: 0,fh_ant,nombre,es_directivo,genero,pct bono,area,salario
0,1980-02-18,Fernando,False,F,13.605168,tecnología,133561
1,1980-04-04,Paola,False,F,13.0,finanzas,2075600
2,1980-06-04,Daniela,False,F,14.324062,crédito consumo,1562366


In [69]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 622 entries, 0 to 621
Data columns (total 7 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   fh_ant        622 non-null    datetime64[ns]
 1   nombre        622 non-null    object        
 2   es_directivo  622 non-null    bool          
 3   genero        606 non-null    object        
 4   pct bono      622 non-null    float64       
 5   area          593 non-null    object        
 6   salario       622 non-null    int64         
dtypes: bool(1), datetime64[ns](1), float64(1), int64(1), object(3)
memory usage: 29.9+ KB


In [70]:
df.set_index('area', inplace=True)
df.head(3)

Unnamed: 0_level_0,fh_ant,nombre,es_directivo,genero,pct bono,salario
area,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
tecnología,1980-02-18,Fernando,False,F,13.605168,133561
finanzas,1980-04-04,Paola,False,F,13.0,2075600
crédito consumo,1980-06-04,Daniela,False,F,14.324062,1562366


In [71]:
df.index.isna()

array([False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
        True, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False,  True, False,
       False, False,  True, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False,

In [73]:
#Sup quiero las variables 'genero' y 'fh_ant' para los registros que tienen NULO el índice
df[df.index.isna()].loc[:,['fh_ant', 'genero']]

Unnamed: 0_level_0,fh_ant,genero
area,Unnamed: 1_level_1,Unnamed: 2_level_1
,1983-06-11,F
,1986-08-22,F
,1986-09-24,M
,1989-02-03,F
,1989-07-06,F
,1991-10-10,M
,1992-07-02,
,1995-08-04,F
,1996-01-11,F
,1996-09-24,M


In [74]:
df.reset_index(inplace=True)
df.head()

Unnamed: 0,area,fh_ant,nombre,es_directivo,genero,pct bono,salario
0,tecnología,1980-02-18,Fernando,False,F,13.605168,133561
1,finanzas,1980-04-04,Paola,False,F,13.0,2075600
2,crédito consumo,1980-06-04,Daniela,False,F,14.324062,1562366
3,cobranza,1980-06-28,Clara,False,F,9.488899,1317267
4,mesa de control,1980-07-04,Sandra,False,F,17.05876,3435905


In [75]:
df.nombre.value_counts()

nombre
Eugenio      19
Alejandro    16
Constanza    16
Sean         16
Juan         16
             ..
Penélope      5
Ana           4
Emilio        4
Areli         1
Beto          1
Name: count, Length: 65, dtype: int64

In [76]:
#Supongamos queremos cambiar el nombre: siempre que diga Alejandro, ahora que diga Alex:
is_Alejandro = df['nombre']=='Alejandro'
is_Alejandro

0      False
1      False
2      False
3      False
4      False
       ...  
617    False
618    False
619    False
620    False
621    False
Name: nombre, Length: 622, dtype: bool

In [78]:
df.loc[is_Alejandro,'nombre'] = 'Alex'

Unnamed: 0,area,fh_ant,nombre,es_directivo,genero,pct bono,salario
0,tecnología,1980-02-18,Fernando,False,F,13.605168,133561
1,finanzas,1980-04-04,Paola,False,F,13.0,2075600
2,crédito consumo,1980-06-04,Daniela,False,F,14.324062,1562366
3,cobranza,1980-06-28,Clara,False,F,9.488899,1317267
4,mesa de control,1980-07-04,Sandra,False,F,17.05876,3435905
5,asset management,1980-07-22,Laura,False,F,13.893621,2295018
6,cobranza,1980-08-21,Fernando,True,F,18.686733,2996629
7,red comecial,1980-10-05,Eugenio,False,M,6.313633,213317
8,operaciones,1980-10-22,Melissa,False,F,4.283086,1246497
9,mesa de control,1980-10-23,Paula,False,F,3.568785,1378710


In [79]:
is_Alejandro.sum()

16

In [80]:
any(is_Alejandro) #para saber si hay al menos un True

True

In [81]:
#idxmax --> método que nos dice la posición donde ocurre el valor máximo
is_Alejandro.idxmax() #la posición donde ocurre eo PRIMER True de la serie is_Alejandro

12

If variable is True <-> if variable (cuando variable es de tipo booleana)

In [82]:
#Nos gustaría saber TODAS LAS POSICIONES CON valor igual a truew de is_Alejandro: --> list comprehension:
[i for i in is_Alejandro.index if is_Alejandro[i]] #guárdame el índice de is_Alejandro si y sólo si su valor es True

[12, 131, 145, 226, 245, 253, 326, 407, 417, 447, 456, 483, 530, 535, 588, 593]

In [83]:
df.iloc[[12, 131, 145, 226, 245, 253, 326, 407, 417, 447, 456, 483, 530, 535, 588, 593]]

Unnamed: 0,area,fh_ant,nombre,es_directivo,genero,pct bono,salario
12,asset management,1980-12-06,Alex,False,M,5.486558,2875476
131,Contabilidad,1988-06-22,Alex,False,M,9.925758,1963149
145,riesgos,1989-10-08,Alex,False,M,3.820054,2893738
226,Contabilidad,1995-10-16,Alex,False,M,15.964033,1322217
245,,1997-08-25,Alex,False,M,16.27933,907194
253,corporate investments,1998-05-21,Alex,False,M,14.050435,3335073
326,operaciones,2003-11-13,Alex,False,M,19.050541,264411
407,staff DG,2010-03-12,Alex,False,M,5.431928,441911
417,staff DG,2010-08-18,Alex,True,M,6.700113,2474039
447,marketing,2012-05-06,Alex,False,M,11.318471,2026505


In [84]:
df.iloc[[i for i in is_Alejandro.index if is_Alejandro[i]]]

Unnamed: 0,area,fh_ant,nombre,es_directivo,genero,pct bono,salario
12,asset management,1980-12-06,Alex,False,M,5.486558,2875476
131,Contabilidad,1988-06-22,Alex,False,M,9.925758,1963149
145,riesgos,1989-10-08,Alex,False,M,3.820054,2893738
226,Contabilidad,1995-10-16,Alex,False,M,15.964033,1322217
245,,1997-08-25,Alex,False,M,16.27933,907194
253,corporate investments,1998-05-21,Alex,False,M,14.050435,3335073
326,operaciones,2003-11-13,Alex,False,M,19.050541,264411
407,staff DG,2010-03-12,Alex,False,M,5.431928,441911
417,staff DG,2010-08-18,Alex,True,M,6.700113,2474039
447,marketing,2012-05-06,Alex,False,M,11.318471,2026505


In [None]:
#df.iloc[ini:fin], fin es NO INCLUSIVO (fin-1)
#df.loc[ini:fin], fin SI ES INCLUSIVO

## List Comprehension

La comprensión de listas en Python es una forma concisa de crear listas. Ofrece una sintaxis más corta cuando quieres crear una nueva lista basada en los valores de una lista existente.

### Características Clave de las Comprensiones de Lista
1. **Concisa**: Permite escribir menos líneas de código para realizar operaciones comunes de listas, como filtrar elementos o aplicar una función a cada elemento.
2. **Expresiva**: Hace que el código sea más legible y expresivo.
3. **Eficiente**: En muchos casos, las comprensiones de lista son más eficientes en términos de tiempo de ejecución y uso de memoria que los bucles for tradicionales.

### Cómo Usar las Comprensiones de Lista

#### Sintaxis Básica
La sintaxis básica de una comprensión de lista es:
```python
[new_item for item in iterable if condition]
```

* new_item: La expresión que define cómo modificar los elementos del iterable.
* iterable: La colección de elementos que queremos iterar.
* condicion: Un filtro opcional para incluir solo aquellos elementos que cumplan con la condición.


In [85]:
#Ejemplo:
cuadrados = [x**2 for x in range(10)]
cuadrados

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

In [86]:
#Ejemplo 2:

lista = [1, 2, 3, 4, 5,6,7,8,9,10]
pares = [x for x in lista if x % 2 == 0]
pares

[2, 4, 6, 8, 10]

In [None]:
## Método drop para filas y columnas

In [None]:
# -- fin clase 26 junio