<a href="https://colab.research.google.com/github/institutohumai/cursos-python/blob/master/AnalisisDeDatos/1_Indexing/Indexing.ipynb"> <img src='https://colab.research.google.com/assets/colab-badge.svg' /> </a>
<div align="center"> Recordá abrir en una nueva pestaña </div>

In [4]:
# Siempre al principio, importamos las librerías.
import pandas as pd
import numpy as np

# Indexación y Agregación

Tabla de Contenidos

    I. Análisis de datos con Pandas
    II. Los objetos fundamentales de Pandas
        I. Series
        II. DataFrames
        III. Índices
    III. Exploración
        I. Filtrando un DataFrame (Indexing)
            I. Boolean Indexing
                I. Máscara booleana
                II. Máscara booleana con muchas condiciones
            II. Boolean indexing con query()
            III. Fancy Indexing
        II. Funciones de Agregación
    IV. Otros análisis descriptivos
        I. Para las variables numéricas
        II. Para las variables categóricas
        III. Ordenar por columnas y limitar la cantidad de resultados
    V. Anexo: volviendo al tema de la vectorización

## Exploración

Vamos a analizar datos de una fuente real. Los ingresos de los funcionarios son información pública que se libera anualmente en el <a href='https://data.buenosaires.gob.ar/dataset/sueldo-funcionarios'>portal de datos abiertos</a> de GCBA.  

En general los 4 primeros pasos para analizar un data set son:
1. Leerlo
2. Consultar cuáles son las columnas
3. Extraer una muestra
4. Verificar cuántos registros tiene

## 1- Para leer el data set usamos la función de pandas read_csv

Con esta función podemos leer archivos que estén en una url pública o en una ubicación del disco accesible desde la Jupyter Notebook.

In [None]:
df = pd.read_csv('http://cdn.buenosaires.gob.ar/datosabiertos/datasets/sueldo-funcionarios/sueldo_funcionarios_2019.csv')

## 2- Consultamos las columnas


In [None]:
df.columns

Index(['cuil', 'anio', 'mes', 'funcionario_apellido', 'funcionario_nombre',
       'reparticion', 'asignacion_por_cargo_i', 'aguinaldo_ii',
       'total_salario_bruto_i_+_ii', 'observaciones'],
      dtype='object')

## 3- Extraemos una muestra

In [None]:
df.sample(5)

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
35,20-13872301-2,2019,2,ASTARLOA,GABRIEL MARIA,Procuración General de la Ciudad de Buenos Aires,224516.62,0.0,224516.62,
183,20-16891539-0,2019,6,ROBREDO,GONZALO,Ente de Turismo Ley Nº 2627,226866.41,113433.21,340299.62,
78,27-17593512-1,2019,3,MONTIEL,MARIA LETICIA,SECR Legal y Técnica,225137.3,0.0,225137.3,
218,20-31164337-2,2019,7,DI BENEDETTO,FEDERICO,SS Comunicacion,239470.36,0.0,239470.36,
273,27-21759789-2,2019,9,LEGUIZAMON,ISABELLA KARINA,"Consejo de los Derechos de Niñas, Niños y Adol...",249972.87,0.0,249972.87,


## 4- Consultamos la cantidad de filas y de columnas

In [None]:
# La propiedad shape nos devuelve una tupla (filas,columnas)
df.shape

(385, 10)

## Vectorización con Pandas

Pandas es una de las librerías de Python más usadas para análisis de datos. El nombre pandas viene de "Panel Data Analysis" y su funcionalidad permite hacer operaciones sobre datos que se encuentran en memoria de manera eficiente.

Pandas es útil para trabajar sobre datos tabulares, con dos condiciones importantes:

I. Los datos se encuentran enteramente en la memoria RAM. Con lo cual, el tamaño de los datos que podemos manipular está limitado por el hardware. Como regla de pulgar, es una buena práctica no ocupar más de 1/3 de la memoria RAM de nuestro dispositivo con el dataset. Así, si estamos trabajando localmente en una notebook con 8GB de memoria RAM no es recomendable procesar datasets de más de 2.33GB.

II. En pandas, las operaciones sobre filas y columnas son, en general, eficientes porque se hacen de forma "vectorizada". En realidad esta optimización, se hace desde numpy, una librería para realizar operaciones matemáticas que se utilizó a su vez para escribir pandas.

Las operaciones vectorizadas son las que se realizan en bloque en vez de caso por caso. Las computadoras de hoy tienen la capacidad de recibir muchas instrucciones juntas y procesar varias de ellas a la vez. Por ejemplo, si nuestro hardware tiene la capacidad de procesar 4 operaciones juntas, el resultado de vectorizar una operación matemática es el siguiente:

<img src = 'https://datasets-humai.s3.amazonaws.com/images/vectorizacion.png' />


En el primer caso hay que hacer 5 operaciones y en el segundo caso sólo dos.

Es importante entender, entonces, que Pandas trabaja de esta manera y que por eso es una de las herramientas más elegidas para manipular datos en memoria.


In [None]:
## Ejemplo de vectorizacion

df['aguinaldo_porcentaje'] = df['aguinaldo_ii']*100 / df['asignacion_por_cargo_i']
df.tail()

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones,aguinaldo_porcentaje
380,20-26735689-1,2019,12,MENDEZ,JUAN JOSE,SECR Transporte y Obras Públicas,249972.86,124986.43,374959.29,,50.0
381,20-23864572-8,2019,12,STRAFACE,FERNANDO DIEGO,SECR General y Relaciones Internacionales,275089.75,137544.87,412634.62,,49.999998
382,20-21981279-6,2019,12,SCRENCI SILVA,BRUNO GUIDO,Ministerio de Gobierno,275089.75,137544.87,412634.62,,49.999998
383,20-30593774-7,2019,12,AVELLANEDA,PATRICIO IGNACIO,"SECR Planificación, Evaluación y Coordinación ...",249972.86,124986.43,374959.29,,50.0
384,27-27011181-0,2019,12,FERNANDEZ,KARINA BEATRIZ,SECR Asuntos Estratégicos,187539.45,15628.29,203167.74,alta desde el 10/12,8.333335


## Los objetos fundamentales de Pandas

### Series

Las series son "columnas" que de una tabla que están asociadas a un índice y a un nombre. Igual que una lista común de Python es una secuencia de elementos ordenados, pero a diferencia de la lista está asociada a más información.

In [None]:
# Las series se pueden crear a partir de una lista
serie = pd.Series(['a','b','c'])

In [None]:
# Propiedades importantes de las series
print('Tipo de objetos que tiene ', serie.dtype)
print('Nombre ', serie.name)
print('Index ',serie.index)
print('Valores ',serie.values)


## DataFrames

Los DataFrames son "tablas", compuestas por varias "columnas" o series que comparten todas un mismo índice. En general los DataFrames se crean a partir de leer tablas de archivos (pueden ser en formato json o csv) pero a veces también se crean a partir de listas de diccionarios o de otras maneras.

Los DataFrames tienen un objeto Index que describe los nombres de columnas y otro objeto Index que describen los nombres de las filas.

In [None]:
# Leemos un dataset público
df = pd.read_csv('http://cdn.buenosaires.gob.ar/datosabiertos/datasets/sueldo-funcionarios/sueldo_funcionarios_2019.csv')

In [None]:
# Propiedades importantes de los dataframes
print('Columnas ', df.columns)
print('Index ', df.index)
print('Dimensiones ',df.shape)


In [None]:
# Consultar las primeras filas
df.head()

Si queremos extraer una serie del DataFrame, podemos hacerlo de la misma forma en que extraemos un valor de un diccionario.



In [None]:
serie_mes = df['mes']

In [None]:
type(serie_mes)

## Índices

Los índices acompañan a las series y a los Data Frames. Son conjuntos ordenados e inmutables de elementos

In [None]:
df.index

In [None]:
df.columns

In [None]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

In [None]:
ind[1] = 0

### Ejercicio
Exploren el dataset público que se encuentra en la siguiente url: https://datasets-humai.s3.amazonaws.com/datasets/titanic.csv ¿De qué se trata? ¿Cuántas filas tiene? ¿Cuántas columnas? Al leerlo, pueden almacenarlo en la variable df_titanic.

In [5]:
# 1. Lectura
# Le agregamos el parametro "sep" para indicar cual es el separador. Si no lo incluimos, vemos que pd nos identifica solo 1 columna
df_titanic = pd.read_csv('https://datasets-humai.s3.amazonaws.com/datasets/titanic.csv', sep = '|')

In [None]:
# 2.  Vemos columnas
df.columns

Index(['PassengerId|Survived|Pclass|Name|Sex|Age|SibSp|Parch|Ticket|Fare|Cabin|Embarked'], dtype='object')

In [None]:
# 3. Shape
df.shape

(891, 12)

In [None]:
# 4. Exploracion
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


## Filtrando un DataFrame (Indexing)

Hay muchas técnicas para filtrar un DataFrame. Podemos querer filtrar por columnas o por filas, por posición o por nombre. También podemos querer filtrar por condiciones que se cumplen o no. Cuando no queremos filtrar sobre una dimensión (filas o columnas) usamos ":" para seleccionar todo.


<img src='https://github.com/institutohumai/cursos-python/blob/master/AnalisisDeDatos/1_Indexing/img/indexing.png?raw=1' style='height:350px' />



### Boolean Indexing

Supongamos que queremos tomar el dataset de funcionarios y quedarnos únicamente con los que pertenecen al Ministerio de Cultura.
Para eso lo que hacemos es indexar al DataFrame por una condición booleana. Eso implica que debemos crear una serie compuesta por valores True y False para aplicarla como índice a las filas.

Los operadores que sirven para evaluar condiciones sobre las series son:


| S  | Descripción   | S  | Descripción   |   |
|----|---------------|----|---------------|---|
| >= | Mayor o Igual | <= | Menor o Igual |   |
| == | Igual         | != | Distinto      |   |
| >  | Mayor         | <  | Menor         |   |

#### Máscara booleana

Veamos lo que pasa cuando le aplicamos a una serie una condición que devuelve un booleano

In [None]:
df['anio'] != 2019

In [None]:
mascara_booleana = df['anio'] != 2019

Nos devuelve una serie de la misma longitud que la original y que contiene sólo valores True o False.

In [None]:
type(mascara_booleana)

In [None]:
mascara_booleana.shape

In [None]:
mascara_booleana.dtype

Ahora seleccionemos entonces, los registros que corresponden al Ministerio de Cultura.

In [None]:
df_min_cul = df.loc[df['reparticion'] == 'Ministerio de Cultura',:]

In [None]:
# Veamos la cantidad de casos
df_min_cul.shape

Algo que puede llegar a confundir sobre el Indexing en Pandas es que en algunos casos se puede ser menos explícito a la hora de filtrar. Por ejemplo si ponemos una condición Booleana, pandas asume que el tipo de indexing es loc y que el filtro es sobre las filas y no sobre las columnas:


In [None]:
df_min_cul = df[df['reparticion'] == 'Ministerio de Cultura']

In [None]:
df_min_cul.shape

Probemos con otra condición.

### Ejercicio

Traer todos los sueldos de la segunda mitad del año...

In [None]:
df_sueldos_seg_mitad = df[df['mes'] >=7]
df_sueldos_seg_mitad.head()

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
188,20-17692128-6,2019,7,RODRIGUEZ LARRETA,HORACIO ANTONIO,Jefe de Gobierno,228396.4,0.0,228396.4,
189,20-17735449-0,2019,7,SANTILLI,DIEGO CESAR,Vicejefatura de Gobierno,228396.4,0.0,228396.4,
190,27-24483014-0,2019,7,ACUÑA,MARIA SOLEDAD,Ministerio de Educación e Innovación,263531.98,0.0,263531.98,
191,20-13872301-2,2019,7,ASTARLOA,GABRIEL MARIA,Procuración General de la Ciudad de Buenos Aires,263531.98,0.0,263531.98,
192,20-25641207-2,2019,7,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,263531.98,0.0,263531.98,


### Ejercicio
Volviendo al DataFrame del Titanic ¿Cuántos pasajeros sobrevivieron y cuántos no? ¿Cuántos pagaron una tarifa menor a 25?

In [None]:
# Sobrevivientes
sobrevivientes_titanic = df_titanic[df_titanic['Survived'] == 1]
no_sobrevivientes_titanic = df_titanic[df_titanic['Survived'] == 0]

# Vemos el shape del df ya que las filas nos dicen cuantos sobrevivieron y cuantos no
sobrevivientes_titanic.shape
no_sobrevivientes_titanic.shape

In [None]:
# Tarifa
df_ticket_25 = df_titanic[df_titanic['Fare'] < 25]
df_ticket_25.shape

(557, 12)

#### Máscara booleana con muchas condiciones

Ahora tratemos de filtrar el dataset por dos condiciones: por ejemplo tomar los sueldos de abril de la secretaria de innovación.
Para eso tenemos que combinar dos máscaras booleanas con una condición.

| S | Descripcion        | S  | Descripcion |   |
|---|--------------------|----|-------------|---|
| & | AND (y)            | \| | OR (o)      |   |
| ^ | XOR (o exclusivo)  | ~  | NOT (no)    |   |



Por ejemplo: seleccionemos los casos donde o bien se haya cobrado aguinaldo o bien el salario total haya sido mayor que 240.000, pero no las dos cosas.


In [None]:
df[(df['total_salario_bruto_i_+_ii'] > 240000) ^ (df['aguinaldo_ii'] > 0)]

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
55,20-26781618-3,2019,2,LARRE,PEDRO ANDRES,"SECR Ciencia, Tecnologia e Innovacion",204017.27,34002.88,238020.15,baja 28/2/2019
97,27-24483014-0,2019,4,ACUÑA,MARIA SOLEDAD,Ministerio de Educación e Innovación,249661.60,0.00,249661.60,
98,20-13872301-2,2019,4,ASTARLOA,GABRIEL MARIA,Procuración General de la Ciudad de Buenos Aires,249661.60,0.00,249661.60,
99,20-25641207-2,2019,4,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,249661.60,0.00,249661.60,
100,27-13221055-7,2019,4,BOU PEREZ,ANA MARIA,Ministerio de Salud,249661.60,0.00,249661.60,
...,...,...,...,...,...,...,...,...,...,...
360,20-28908968-4,2019,12,COELHO CHICANO,CHRISTIAN,SS Contenidos,74991.86,110404.68,185396.54,baja al 9/12
361,20-28908968-4,2019,12,COELHO CHICANO,CHRISTIAN,SECR de Medios,187539.45,15628.29,203167.74,alta desde el 10/12
362,20-24424714-9,2019,12,D'ALESSANDRO,MARCELO SILVIO,SECR Justicia y Seguridad,74991.86,110404.68,185396.54,baja al 9/12
363,20-24424714-9,2019,12,D'ALESSANDRO,MARCELO SILVIO,SECR Justicia y Seguridad,187539.45,15628.29,203167.74,alta desde el 10/12


Ahora veamos los sueldos de febrero de la SECR Ciencia, Tecnologia e Innovacion.

In [None]:
df[(df['mes'] == 2) & (df['reparticion'] == 'SECR Ciencia, Tecnologia e Innovacion')]

### Boolean indexing con query()

La sintaxis que se utiliza para hacer Boolean indexing es un poco repetitiva. Noten que filtrar (aún en su expresión más corta sin loc ni especificar filas o columnas) implica ESCRIBIR DOS VECES el nombre del dataset. Para crear un shortcut, Pandas ofrece la función .query()



In [None]:
df_cult = df.query('reparticion == "Ministerio de Cultura"')

También se puede hacer query sobre múltiples condiciones.

In [None]:
df2 = df.query('(asignacion_por_cargo_i > 240000) & (aguinaldo_ii > 0)')

In [None]:
df2.shape

(34, 10)

### Ejercicio: Piensen cómo traducir a la sintaxis de query, estas consultas que ya hicimos:

In [None]:
# df_sem2 = df[df['mes'] > 6]
df_sem2 = df.query('mes > 6')

In [None]:
# df[(df['mes'] == 2) & (df['reparticion'] == 'SECR Ciencia, Tecnologia e Innovacion')]
df_feb_SECR = df.query('(mes == 2) & (reparticion == "SECR Ciencia, Tecnologia e Innovacion")')

### Fancy Indexing

Ahora vamos a quedarnos con un subconjunto de columnas del DataFrame.

In [None]:
df_view = df.loc[:,['anio','mes']]

In [None]:
df_view.shape

Existe una forma menos explícita de hacer esta misma operación. Si pasamos una lista al indexing, pandas asume que el tipo de indexing es loc y que el filtro es sobre las columnas y no las filas:

In [None]:
df_view = df[['anio','mes']]

In [None]:
df_view.shape

Fíjense lo que pasa si tratamos de acceder a filas utilizando una lista de nombres, en este caso [0,1].

In [None]:
# Incorrecto
df_view = df[[3,8]]

Nos da un error porque cuando pasamos únicamente una lista al indexing, pandas asume que queremos un set de columnas y si los nombres no existen, da error. La forma correcta de hacerlo es pasar una lista de índices y explicitar que vamos a indizar con loc y que seleccionamos todas las columnas.

In [None]:
# Correcto
df_view = df.loc[[3,8],:]

In [None]:
df_view

### Ejercicio. Volviendo al ejemplo del titanic...

1) ¿Cuántos hombres y mujeres sobrevivieron?

2) ¿Cuántos menores de 18 años había? ¿Cuántos sobrevivieron?

3) Seleccionen únicamente las columnas Sex y Survived y almacenenlas en un nuevo DataFrame que se llame df_titanic_subset.


In [None]:
# 1)
sobrevivientes_titanic_hombres = sobrevivientes_titanic.query('Sex == "male"')
sobrevivientes_titanic_mujeres = sobrevivientes_titanic.query('Sex == "female"')

sobrevivientes_titanic_hombres.shape
sobrevivientes_titanic_mujeres.shape

(109, 12)

In [None]:
# 2

df_titanic_menores = df_titanic.query('Age < 18')

sobrevivientes_titanic_menores = df_titanic.query('(Survived == 1) & (Age < 18)')

# Menores en el titanic y menores sobrevivientes
df_titanic_menores.shape
sobrevivientes_titanic_menores.shape

(61, 12)

In [None]:
# 3

df_titanic_sex_survived = df_titanic[['Sex', 'Survived']]
df_titanic_sex_survived.head()

Unnamed: 0,Sex,Survived
0,male,0
1,female,1
2,female,1
3,female,1
4,male,0


In [None]:
#df_titanic_subset.head()

## Funciones de Agregación

Utilizando Pandas podemos aplicar funciones a nivel de columna. Algunas funciones predefinidas son la media, el desvío estándar y la sumatoria, el valor máximo y el mínimo.

Algunas de las funciones de agregación más comunes son:

<ul>
    <li>min</li>
    <li>max</li>
    <li>count</li>
    <li>sum</li>
    <li>prod</li>
    <li>mean</li>
    <li>median</li>
    <li>mode</li>
    <li>std</li>
    <li>var</li>
</ul>




In [None]:
df['mes'].max()

In [None]:
df['asignacion_por_cargo_i'].mean()

In [None]:
df['asignacion_por_cargo_i'].std()

In [None]:
df['total_salario_bruto_i_+_ii'].sum()

Podemos combinar los filtros que vimos antes con las funciones de agregación para responder preguntas cómo ¿Cuál fue en gasto en asignaciones de funcionarios para la Secretaría de Medios 2019? ¿Y para la de Justicia y Seguridad?

In [None]:
df[df['reparticion'] == 'SECR de Medios']['total_salario_bruto_i_+_ii'].sum()

In [None]:
df[df['reparticion'] == 'SECR Justicia y Seguridad']['total_salario_bruto_i_+_ii'].sum()

Ahora respondamos algunas preguntas: ¿Quién o quiénes del dataset cobran el salario más alto? ¿Y el más bajo?

In [None]:
df[df['total_salario_bruto_i_+_ii'] == df['total_salario_bruto_i_+_ii'].max()]

In [None]:
df[df['total_salario_bruto_i_+_ii'] == df['total_salario_bruto_i_+_ii'].min()]

## Otros análisis descriptivos

Pandas viene con algunas funciones built-in para ayudar al análisis descriptivo.

## Para las variables numéricas

In [6]:
df_titanic.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


## Para las variables categóricas


In [8]:
df_titanic['reparticion'].value_counts()

KeyError: ignored

### Ejercicio: Volviendo al ejemplo del Titanic.

1) ¿Cuál era la edad promedio de los pasajeros de cada clase (Pclass)?

2) ¿Cuál fue la tarifa que pagaron en promedio los hombres? ¿Y las mujeres?

3) ¿Cuánto pagaron en total los pasajeros de primera clase para subir al Titanic? ¿Y los de tercera?

4) ¿Cuántos pasajeros había en cada tipo de clase?

In [9]:
df_titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [11]:
# 1. Agrupamos por clase y agregamos
df_titanic.groupby('Pclass')['Age'].mean()

Pclass
1    38.233441
2    29.877630
3    25.140620
Name: Age, dtype: float64

In [12]:
df_titanic.groupby('Sex')['Fare'].mean()

Sex
female    44.479818
male      25.523893
Name: Fare, dtype: float64

In [13]:
df_titanic.groupby('Pclass')['Fare'].sum()

Pclass
1    18177.4125
2     3801.8417
3     6714.6951
Name: Fare, dtype: float64

In [14]:
df_titanic.groupby('Pclass')['PassengerId'].count()

Pclass
1    216
2    184
3    491
Name: PassengerId, dtype: int64

## Ordenar por columnas y limitar la cantidad de resultados

Otra forma de resolver el problema de encontrar el mayor y el menos es con el método sort_values. Este método puede recibir un valor único (nombre de columna) o una lista (con varias columnas) y un orden asc o desc. Por default el orden es asc.

Si combinamos el ordenamiento con el método head() para limitar la cantidad de resultados, podemos encontrar los N primeros.

In [None]:
# Recordemos cómo abrir la documentación de un método
df.sort_values?

In [None]:
# Calculamos el máximo
df.sort_values('total_salario_bruto_i_+_ii',ascending=False).head(1)

In [None]:
# Calculamos el mínimo
df.sort_values('total_salario_bruto_i_+_ii').head(1)

## Anexo: volviendo al tema de la vectorización

¿Por qué es tan importante trabajar con Pandas y no con funciones escritas por nosotros en Python nativo y que procesen los datos dentro de un for loop?

Por un lado está la comodidad. Hay mucha funcionalidad que ya está desarrollada en Pandas. Existen funciones que resuelven muchos de los problemas clásicos de manipular datos: agrupar, sumarizar, sacar estadísticas, filtrar, etc. Pero además hay una razón de performance.

Veamos una demostración de que vectorizar es más eficiente. Vamos a crear dos listas de 1.000.000 de números aleatorios cada una y vamos a tratar de multiplicar elemento por elemento con pandas y sin pandas:



In [None]:
lista1 = list(np.random.randint(1, 100, 1000000))
lista2 = list(np.random.randint(1, 100, 1000000))

In [None]:
%%timeit
for x,y in zip(lista1,lista2):
    x * y

Ahora probemos hacer lo mismo con dos series de Pandas

In [None]:
serie1 = pd.Series(lista1)
serie2 = pd.Series(lista2)

In [None]:
%%timeit
resultado = serie1 * serie2

Conclusión: la operación vectorizada es <strong> más de 70 veces más rápida.</strong>