# Curso Intermedio de Pandas en Python para Data Science

<center>
<img src=https://upload.wikimedia.org/wikipedia/commons/thumb/e/ed/Pandas_logo.svg/1200px-Pandas_logo.svg.png>

### Librería Pandas

<p style='text-align: justify;'> Pandas es una librería multipropósito la cual permite la lectura, manipulación, limpieza y análisis de datos.</p>

#### Entre sus principales funcionalidades encontramos

<p style='text-align: justify;'>1.	<font color = blue ><b>Variedad de formatos </b></font> Se pueden leer y manipular formatos como Excel,CSV,Html, SQL.   </p>
<p style='text-align: justify;'>2.	<font color = blue><b>Visibilidad por ubicaciones</b></font> Permite explorar y describir los datos a través de sus índices, filas y columnas </p>
<p style='text-align: justify;'>3.	<font color = blue><b>Estructuración</b></font> Además es posible ordenar, agrupar, ***combinar*** y seleccionar condicionalmente los datos </p>
<p style='text-align: justify;'>4.	<font color = blue><b>Descripción</b></font> Muestra estadisticos descriptivas de la data analizar.</p>
<p style='text-align: justify;'>5.	<font color = blue><b>Limpieza</b></font> Permite eliminar datos duplicados,valores vacíos y sustituir valores.</p>
    
A continuación se muestran en el indice cada una de las secciones de este curso de invel intermedio de Pandas.

<a id='Índice'></a>
## Indice
[Inicio ▲](#Indice)

1. [Tipos de objetos](#Tipos-de-objetos)
1. [Lectura de datos](#Lectura-de-datos)
1. [Indexando Datos en DataFrames](#Indexando-Datos-en-DataFrames)
1. [Agrupando datos](#Agrupando-datos)

El objetivo principal de este curso es comprender a través de ejemplos prácticos distintas funcionalidades de esta libreria que actualmente, se ha convertido en la piedra angular en manejo y exploración de conjuntos de datos para proyectos de ciencia de datos. Dependiendo de tu problema, Pandas puede o no ser la mejor opción, sin embargo, cuando trabajas con conjuntos de datos que no son excesivamente grandes, pandas es una buenisima opción.

Obviamente comenzaremos importando la libreria estrella del día de hoy!

In [1]:
import numpy as np
import pandas as pd

Pandas posee multiples funcionalidades para el manejo de datos, entre estas encontramos la lectura de conjuntos de datos, la agregación de datos, agrupación, el "merge" entre tablas distintas, la extracción de nuevos datos a partir de los ya existentes, el análisis descriptivo de los datos, etc...

<a id='Tipos-de-objetos'></a>
## Tipos de objetos 🥪

[Inicio ▲](#Indice)

Lo primero que tenemos que tener en cuenta en pandas es que trabajaremos *principalmente* con dos tipos de objetos.

## Series

Las *series* de Pandas son un tipo de objeto semejante a un *vector* con índices, donde cada índice es un identificador (que puede ser un literal o un número) que permite acceder a determinada posición de la *serie*. Para crear una serie podemos utilizar el comando *pd.Series()* donde tendremos distintas combinaciones de argumentos.

In [2]:
dicc = {"primero" : 1 , "segundo" : 2, "tercero" : 3}
serie_desde_diccionario = pd.Series(dicc)
print(serie_desde_diccionario)

primero    1
segundo    2
tercero    3
dtype: int64


In [3]:
lista = [0,1,2]
serie_desde_lista = pd.Series(lista)
print(serie_desde_lista)

0    0
1    1
2    2
dtype: int64


In [4]:
arreglo = np.array([0,1, 2])
serie_desde_arreglo = pd.Series(arreglo)
print(serie_desde_arreglo)

0    0
1    1
2    2
dtype: int32


Notamos que en nuestro primer caso los *índices* de nuestra serie son literales, mientras que en los otros dos, son números enteros. Esto sucede por que el crear una serie a través de un diccionario asigna inmediatamente el índice a un valor con su correspondiente llave. Si queremos cambiar el índice de una serie, podemos utilizar los siguientes comandos.

In [5]:
print(serie_desde_arreglo.index) #Obtención de los índices de la serie
serie_desde_arreglo.index = ["primero","segundo","tercero"] #reemplazo de los índices
print(serie_desde_arreglo) #Serie con índices cambiados

RangeIndex(start=0, stop=3, step=1)
primero    0
segundo    1
tercero    2
dtype: int32


Los siguientes comandos nos permiten obtener atributos importantes de cada serie que tengamos.

Tipo de datos en la serie

In [6]:
serie_desde_arreglo.dtype

dtype('int32')

Tamaño de la serie

In [7]:
serie_desde_arreglo.shape

(3,)

Número de dimensiones

In [8]:
serie_desde_arreglo.ndim

1

Atributo que entrega un booleano que alerta si nuestra serie tiene datos del tipo NaN

In [9]:
serie_desde_arreglo.hasnans

False

Uso de memoria

In [10]:
serie_desde_arreglo.memory_usage()

36

Ahora, para ejemplificar otro tipo de funciones en estos objetos crearemos una serie a partir de un arreglo de Numpy mas una componente aleatoria.

In [11]:
rango = np.arange(0.45,96,0.3)
rango = rango + np.random.rand(len(rango))
serie_rango = pd.Series(rango)
print(serie_rango)

0       1.253013
1       1.011056
2       1.257038
3       1.500107
4       1.658094
         ...    
314    95.181542
315    95.298920
316    96.024238
317    96.164319
318    96.357443
Length: 319, dtype: float64


Para obtener métricas importantes de nuestra serie podemos utilizar los siguientes comandos:

In [12]:
serie_rango.mean(),serie_rango.std(),serie_rango.count(),serie_rango.median()

(48.63643520164298, 27.687731292264125, 319, 48.806295098844146)

En este caso tenemos la media, desviación estándar, el conteo de datos, y la mediana respectivamente. Ahora volvamos a ver nuestros arreglos anteriores

In [35]:
serie_desde_arreglo

primero    0
segundo    1
tercero    2
dtype: int32

Podriamos preguntar si existe algun índice en especifico en nuestra serie. Cabe notar que esto no vale para los valores de la serie.

In [40]:
"primero" in serie_desde_arreglo,0 in serie_desde_arreglo ,"tercero" in serie_desde_arreglo,"cuarto" in serie_desde_arreglo

(True, False, True, False)

Creemos una nueva serie pero con datos nulos

In [43]:
dict_ = {"primero" : 1 , "segundo" : 34, "tercero": np.nan}
serie_nan = pd.Series(dict_)
serie_nan

primero     1.0
segundo    34.0
tercero     NaN
dtype: float64

Podemos preguntar si tenemos datos nulos dentro de nuestra serie

In [44]:
serie_nan.isnull() # Pregunta si el dato es nulo

primero    False
segundo    False
tercero     True
dtype: bool

In [46]:
serie_nan.isna() # Pregunta si el dato es NaN

primero    False
segundo    False
tercero     True
dtype: bool

Otro aspecto importante es que se puede operar entre las series. Tomemos en cuenta las siguientes dos series:

In [49]:
serie_1 = pd.Series({"primero" : 1 , "segundo" : 34, "tercero": 30})
serie_2 = pd.Series({"primero" : 2 , "segundo" : 56, "tercero": 41})
serie_1 + serie_2

primero     3
segundo    90
tercero    71
dtype: int64

Esto será muy util en un futuro pues, permitirá usar el manejo de series para el filtrado de datos.

Otra función muy importante que tienen las series de pandas son el atributo ".apply" que entrega una nueva Serie pero a la cual se le aplica una función. Para esto es conveniente utilizar funciones Lambda en python. Podemos crear por ejemplo una función que a cada número de una serie le reste un valor.

In [59]:
serie = pd.Series(np.arange(1,20))
print(f"serie original:\n{serie}")
print(f"serie modificada:\n{serie.apply(lambda x: x-3 )}")

serie original:
0      1
1      2
2      3
3      4
4      5
5      6
6      7
7      8
8      9
9     10
10    11
11    12
12    13
13    14
14    15
15    16
16    17
17    18
18    19
dtype: int32
serie modificada:
0     -2
1     -1
2      0
3      1
4      2
5      3
6      4
7      5
8      6
9      7
10     8
11     9
12    10
13    11
14    12
15    13
16    14
17    15
18    16
dtype: int64


Incluso, esto podemos mezclarlo con funciones mas complejas definidas por nosotros. Por ejemplo, verifiquemos si los números de la serie son pares o impares. Definamos entonces una función que verifique si un número es par o impar.

In [62]:
def es_par(numero):
    if numero%2 == 0:
        return True
    else:
        return False

Ahora apliquemos esta función a nuestra serie original.

In [70]:
print(f"serie original:\n{serie}")
print(f"serie modificada:\n{serie.apply(lambda x: es_par(x) )}")

serie original:
0      1
1      2
2      3
3      4
4      5
5      6
6      7
7      8
8      9
9     10
10    11
11    12
12    13
13    14
14    15
15    16
16    17
17    18
18    19
dtype: int32
serie modificada:
0     False
1      True
2     False
3      True
4     False
5      True
6     False
7      True
8     False
9      True
10    False
11     True
12    False
13     True
14    False
15     True
16    False
17     True
18    False
dtype: bool


No confundir el valor del *índice* con el valor del dato.

### Ahora, procederemos a trabajar con tablas

<a id='Lectura-de-datos'></a>
## Lectura de Datos 🧮

[Inicio ▲](#Indice)

Para una primera instancia, estudiaremos 2 tipos de lectura de archivos *locales*, es decir, que se encuentran dentro de tu computador. Es importante hacer esta aclaración, pues existen otras librerias o métodos que te permiten conectarte a bases de datos alojadas en algún servidor remoto, sin embargo, lo que veremos ahora es solamente local.

1. Lectura de CSV:
Un archivo CSV (Por sus siglas en ingles "Comma Separated values" es un archivo de *texto plano* en el cual cada linea del archivo se encuentran valores (numericos, literales, etc...) separados por un separador que generalmente es una coma *--,--*. Pandas posee una funcionalidad que le permite leer facilmente archivos CSV. Mas adelante estudiaremos otras formas de crear DataFrames

In [14]:
tabla = pd.read_csv("UCI_Credit_Card.csv")

En este caso ocuparemos un conjunto de datos que muestra un ranking de locales de alimentos en EEUU. Visualizaremos la tabla completa

In [15]:
tabla

Unnamed: 0,ID,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_0,PAY_2,PAY_3,PAY_4,...,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default.payment.next.month
0,1,20000.0,2,2,1,24,2,2,-1,-1,...,0.0,0.0,0.0,0.0,689.0,0.0,0.0,0.0,0.0,1
1,2,120000.0,2,2,2,26,-1,2,0,0,...,3272.0,3455.0,3261.0,0.0,1000.0,1000.0,1000.0,0.0,2000.0,1
2,3,90000.0,2,2,2,34,0,0,0,0,...,14331.0,14948.0,15549.0,1518.0,1500.0,1000.0,1000.0,1000.0,5000.0,0
3,4,50000.0,2,2,1,37,0,0,0,0,...,28314.0,28959.0,29547.0,2000.0,2019.0,1200.0,1100.0,1069.0,1000.0,0
4,5,50000.0,1,2,1,57,-1,0,-1,0,...,20940.0,19146.0,19131.0,2000.0,36681.0,10000.0,9000.0,689.0,679.0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
29995,29996,220000.0,1,3,1,39,0,0,0,0,...,88004.0,31237.0,15980.0,8500.0,20000.0,5003.0,3047.0,5000.0,1000.0,0
29996,29997,150000.0,1,3,2,43,-1,-1,-1,-1,...,8979.0,5190.0,0.0,1837.0,3526.0,8998.0,129.0,0.0,0.0,0
29997,29998,30000.0,1,2,2,37,4,3,2,-1,...,20878.0,20582.0,19357.0,0.0,0.0,22000.0,4200.0,2000.0,3100.0,1
29998,29999,80000.0,1,3,1,41,1,-1,0,0,...,52774.0,11855.0,48944.0,85900.0,3409.0,1178.0,1926.0,52964.0,1804.0,1


A veces trabajamos con conjuntos de datos demasiado grandes y por ello no podremos ver el conjunto de datos completo, por ello, Pandas por defecto muestra 5 filas superiores y 5 filas inferiores. Si solamente queremos ver las primeras *n* filas o  las ultimnas "m" filas podemos usar las funciones *.head() y .tail()*

In [16]:
n = 20
tabla.head(n)

Unnamed: 0,ID,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_0,PAY_2,PAY_3,PAY_4,...,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default.payment.next.month
0,1,20000.0,2,2,1,24,2,2,-1,-1,...,0.0,0.0,0.0,0.0,689.0,0.0,0.0,0.0,0.0,1
1,2,120000.0,2,2,2,26,-1,2,0,0,...,3272.0,3455.0,3261.0,0.0,1000.0,1000.0,1000.0,0.0,2000.0,1
2,3,90000.0,2,2,2,34,0,0,0,0,...,14331.0,14948.0,15549.0,1518.0,1500.0,1000.0,1000.0,1000.0,5000.0,0
3,4,50000.0,2,2,1,37,0,0,0,0,...,28314.0,28959.0,29547.0,2000.0,2019.0,1200.0,1100.0,1069.0,1000.0,0
4,5,50000.0,1,2,1,57,-1,0,-1,0,...,20940.0,19146.0,19131.0,2000.0,36681.0,10000.0,9000.0,689.0,679.0,0
5,6,50000.0,1,1,2,37,0,0,0,0,...,19394.0,19619.0,20024.0,2500.0,1815.0,657.0,1000.0,1000.0,800.0,0
6,7,500000.0,1,1,2,29,0,0,0,0,...,542653.0,483003.0,473944.0,55000.0,40000.0,38000.0,20239.0,13750.0,13770.0,0
7,8,100000.0,2,2,2,23,0,-1,-1,0,...,221.0,-159.0,567.0,380.0,601.0,0.0,581.0,1687.0,1542.0,0
8,9,140000.0,2,3,1,28,0,0,2,0,...,12211.0,11793.0,3719.0,3329.0,0.0,432.0,1000.0,1000.0,1000.0,0
9,10,20000.0,1,3,2,35,-2,-2,-2,-2,...,0.0,13007.0,13912.0,0.0,0.0,0.0,13007.0,1122.0,0.0,0


Si necesitamos revisar una descripción estadística rápida de los datos, podemos usar el método *.describe* como sigue:

In [17]:
tabla.describe()

Unnamed: 0,ID,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_0,PAY_2,PAY_3,PAY_4,...,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default.payment.next.month
count,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,...,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0
mean,15000.5,167484.322667,1.603733,1.853133,1.551867,35.4855,-0.0167,-0.133767,-0.1662,-0.220667,...,43262.948967,40311.400967,38871.7604,5663.5805,5921.163,5225.6815,4826.076867,4799.387633,5215.502567,0.2212
std,8660.398374,129747.661567,0.489129,0.790349,0.52197,9.217904,1.123802,1.197186,1.196868,1.169139,...,64332.856134,60797.15577,59554.107537,16563.280354,23040.87,17606.96147,15666.159744,15278.305679,17777.465775,0.415062
min,1.0,10000.0,1.0,0.0,0.0,21.0,-2.0,-2.0,-2.0,-2.0,...,-170000.0,-81334.0,-339603.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,7500.75,50000.0,1.0,1.0,1.0,28.0,-1.0,-1.0,-1.0,-1.0,...,2326.75,1763.0,1256.0,1000.0,833.0,390.0,296.0,252.5,117.75,0.0
50%,15000.5,140000.0,2.0,2.0,2.0,34.0,0.0,0.0,0.0,0.0,...,19052.0,18104.5,17071.0,2100.0,2009.0,1800.0,1500.0,1500.0,1500.0,0.0
75%,22500.25,240000.0,2.0,2.0,2.0,41.0,0.0,0.0,0.0,0.0,...,54506.0,50190.5,49198.25,5006.0,5000.0,4505.0,4013.25,4031.5,4000.0,0.0
max,30000.0,1000000.0,2.0,6.0,3.0,79.0,8.0,8.0,8.0,8.0,...,891586.0,927171.0,961664.0,873552.0,1684259.0,896040.0,621000.0,426529.0,528666.0,1.0


Trabajando en python es importante conocer que tipo de variable o datos estamos utilizando dentro de nuestro DataFrame, pues de no ser así, habrán ciertas funciones y/o operaciones que no podremos realizar. Un ejemplo claro de esto es cuando tenemos una columna de fechas, la cual contiene las fechas en formato *string*. Sin embargo, la libreria *Datetime* integrada en python nos permite rápidamente el manejo de fechas, pudiendo agregar o restar unidades de tiempo de manera muy fácil e incluso cambiar el huso horario que se tiene. Por ello, podemos revisar los tipos de datos que tiene nuestro DataFrame con la siguiente función:

In [18]:
tabla.dtypes

ID                              int64
LIMIT_BAL                     float64
SEX                             int64
EDUCATION                       int64
MARRIAGE                        int64
AGE                             int64
PAY_0                           int64
PAY_2                           int64
PAY_3                           int64
PAY_4                           int64
PAY_5                           int64
PAY_6                           int64
BILL_AMT1                     float64
BILL_AMT2                     float64
BILL_AMT3                     float64
BILL_AMT4                     float64
BILL_AMT5                     float64
BILL_AMT6                     float64
PAY_AMT1                      float64
PAY_AMT2                      float64
PAY_AMT3                      float64
PAY_AMT4                      float64
PAY_AMT5                      float64
PAY_AMT6                      float64
default.payment.next.month      int64
dtype: object

<a id='Indexando-Datos-en-DataFrames'></a>
## Indexando Datos en DataFrames 🎰

[Inicio ▲](#Indice)

Muchas veces, necesitaremos datos especificos de nuestro conjunto de datos, necesitaremos los primeros 30 o tal ves necesitaremos de datos que cumplan alguna carácteristica en particular, por ello *Pandas* posee una amplia variedad de formas de indexar nuestros datos para acceder a subconjuntos de nuestro conjunto de datos o también a valores individuales.

Antes de pasar a estos métodos, podemos ver que si queremos obtener las filas 40-50 podemos utilizar el siguiente código:

In [19]:
tabla[40:51]

Unnamed: 0,ID,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_0,PAY_2,PAY_3,PAY_4,...,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default.payment.next.month
40,41,360000.0,1,1,2,33,0,0,0,0,...,628699.0,195969.0,179224.0,10000.0,7000.0,6000.0,188840.0,28000.0,4000.0,0
41,42,70000.0,2,1,2,25,0,0,0,0,...,63699.0,64718.0,65970.0,3000.0,4500.0,4042.0,2500.0,2800.0,2500.0,0
42,43,10000.0,1,2,2,22,0,0,0,0,...,3576.0,3670.0,4451.0,1500.0,2927.0,1000.0,300.0,1000.0,500.0,0
43,44,140000.0,2,2,1,37,0,0,0,0,...,64280.0,67079.0,69802.0,3000.0,3000.0,3000.0,4000.0,4000.0,3000.0,0
44,45,40000.0,2,1,2,30,0,0,0,2,...,25209.0,26636.0,29197.0,3000.0,5000.0,0.0,2000.0,3000.0,0.0,0
45,46,210000.0,1,1,2,29,-2,-2,-2,-2,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1
46,47,20000.0,2,1,2,22,0,0,2,-1,...,16341.0,16675.0,0.0,3000.0,0.0,16741.0,334.0,0.0,0.0,1
47,48,150000.0,2,5,2,46,0,0,-1,0,...,1170.0,0.0,0.0,1013.0,1170.0,0.0,0.0,0.0,0.0,1
48,49,380000.0,1,2,2,32,-1,-1,-1,-1,...,32018.0,11849.0,11873.0,21540.0,15138.0,24677.0,11851.0,11875.0,8251.0,0
49,50,20000.0,1,1,2,24,0,0,0,0,...,19865.0,20480.0,20063.0,1318.0,1315.0,704.0,928.0,912.0,1069.0,0


Cuando vemos nuestra tabla, notamos que tiene nombres en las columnas, algo interesante es que las filas *también* tienen nombres, en nuestro caso, las filas tienen nombres númericos. Para obtener todos los nombres de las filas y de las columnas podemos usar las siguientes sentencias.

In [20]:
tabla.index

RangeIndex(start=0, stop=30000, step=1)

In [21]:
tabla.columns

Index(['ID', 'LIMIT_BAL', 'SEX', 'EDUCATION', 'MARRIAGE', 'AGE', 'PAY_0',
       'PAY_2', 'PAY_3', 'PAY_4', 'PAY_5', 'PAY_6', 'BILL_AMT1', 'BILL_AMT2',
       'BILL_AMT3', 'BILL_AMT4', 'BILL_AMT5', 'BILL_AMT6', 'PAY_AMT1',
       'PAY_AMT2', 'PAY_AMT3', 'PAY_AMT4', 'PAY_AMT5', 'PAY_AMT6',
       'default.payment.next.month'],
      dtype='object')

Un aspecto importante es que podemos cambiar los titulos de las columnas y filas con estos mismos comandos. Por ejemplo, utilicemos un ciclo for para crear una lista con nuevos nombres para nuestras filas.

In [22]:
nombres_fila = []
for counter in range(1,30001):
    nombres_fila.append("Fila " + str(counter))


Aquí modificaremos las filas

In [23]:
tabla.index = nombres_fila

In [24]:
tabla

Unnamed: 0,ID,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_0,PAY_2,PAY_3,PAY_4,...,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default.payment.next.month
Fila 1,1,20000.0,2,2,1,24,2,2,-1,-1,...,0.0,0.0,0.0,0.0,689.0,0.0,0.0,0.0,0.0,1
Fila 2,2,120000.0,2,2,2,26,-1,2,0,0,...,3272.0,3455.0,3261.0,0.0,1000.0,1000.0,1000.0,0.0,2000.0,1
Fila 3,3,90000.0,2,2,2,34,0,0,0,0,...,14331.0,14948.0,15549.0,1518.0,1500.0,1000.0,1000.0,1000.0,5000.0,0
Fila 4,4,50000.0,2,2,1,37,0,0,0,0,...,28314.0,28959.0,29547.0,2000.0,2019.0,1200.0,1100.0,1069.0,1000.0,0
Fila 5,5,50000.0,1,2,1,57,-1,0,-1,0,...,20940.0,19146.0,19131.0,2000.0,36681.0,10000.0,9000.0,689.0,679.0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
Fila 29996,29996,220000.0,1,3,1,39,0,0,0,0,...,88004.0,31237.0,15980.0,8500.0,20000.0,5003.0,3047.0,5000.0,1000.0,0
Fila 29997,29997,150000.0,1,3,2,43,-1,-1,-1,-1,...,8979.0,5190.0,0.0,1837.0,3526.0,8998.0,129.0,0.0,0.0,0
Fila 29998,29998,30000.0,1,2,2,37,4,3,2,-1,...,20878.0,20582.0,19357.0,0.0,0.0,22000.0,4200.0,2000.0,3100.0,1
Fila 29999,29999,80000.0,1,3,1,41,1,-1,0,0,...,52774.0,11855.0,48944.0,85900.0,3409.0,1178.0,1926.0,52964.0,1804.0,1


Entonces el Index de un DataFrame no necesita ser númerico, puede ser un *string* sin problemas. Ahora, veamos como conocer los nombres de filas y columnas nos puede servir para indexar datos.

Ahora, si queremos obtener solamente una columna de nuestro conjunto de datos (Por ejemplo la columna *AGE*) podemos hacer lo siguiente:

In [25]:
tabla["AGE"]

Fila 1        24
Fila 2        26
Fila 3        34
Fila 4        37
Fila 5        57
              ..
Fila 29996    39
Fila 29997    43
Fila 29998    37
Fila 29999    41
Fila 30000    46
Name: AGE, Length: 30000, dtype: int64

Si nos fijamos de esta manera, se obtiene un objeto *Series* de pandas

### Comandos .loc y .iloc

Para indexar nuestro conjunto de datos podemos utilizar el comando *.loc* si lo que queremos es utilizar los *nombres* de nuestras filas y columnas para llamarlos. Por ejemplo, si quiero llamar a la fila 1 puedo hacer lo siguiente:

In [26]:
tabla.loc["Fila 1"]

ID                                1.0
LIMIT_BAL                     20000.0
SEX                               2.0
EDUCATION                         2.0
MARRIAGE                          1.0
AGE                              24.0
PAY_0                             2.0
PAY_2                             2.0
PAY_3                            -1.0
PAY_4                            -1.0
PAY_5                            -2.0
PAY_6                            -2.0
BILL_AMT1                      3913.0
BILL_AMT2                      3102.0
BILL_AMT3                       689.0
BILL_AMT4                         0.0
BILL_AMT5                         0.0
BILL_AMT6                         0.0
PAY_AMT1                          0.0
PAY_AMT2                        689.0
PAY_AMT3                          0.0
PAY_AMT4                          0.0
PAY_AMT5                          0.0
PAY_AMT6                          0.0
default.payment.next.month        1.0
Name: Fila 1, dtype: float64

Lo que obtendremos es un conjunto de datos que se le conoce como *Series* en pandas. Mas adelante estudiaremos como trabajar con ellos.

Si queremos obtener un dato, sabiendo su fila y su columna, por ejemplo la columna *AGE* de la *Fila 1* podemos hacer lo siguiente:

In [27]:
tabla.loc["Fila 1","AGE"] 

24

Si queremos hacerlo con multiples filas y multiples columnas podemos hacer lo siguiente:

In [28]:
tabla.loc[["Fila 1","Fila 2"],["SEX","AGE"]]

Unnamed: 0,SEX,AGE
Fila 1,2,24
Fila 2,2,26


A veces, dentro de la misma indexación podemos filtrar datos, por ejemplo, si queremos la columna *SEX* pero solamente para aquellos datos con *AGE* menor que 35, podemos hacer lo siguiente:

In [29]:
tabla.loc[(tabla["AGE"] <=35), ["SEX","AGE"]]

Unnamed: 0,SEX,AGE
Fila 1,2,24
Fila 2,2,26
Fila 3,2,34
Fila 7,1,29
Fila 8,2,23
...,...,...
Fila 29988,1,34
Fila 29989,1,34
Fila 29990,1,35
Fila 29992,1,34


Si te sientes cómodo trabajando con índices númericos entonces puedes utilizar el comando *.iloc*.

Por ejemplo, si entregamos un solo argumento, nos irá entregando las filas del conjunto de datos. Si queremos la primera fila de un conjunto de datos podemos hacer lo siguiente:

In [72]:
tabla.iloc[0]

ID                                1.0
LIMIT_BAL                     20000.0
SEX                               2.0
EDUCATION                         2.0
MARRIAGE                          1.0
AGE                              24.0
PAY_0                             2.0
PAY_2                             2.0
PAY_3                            -1.0
PAY_4                            -1.0
PAY_5                            -2.0
PAY_6                            -2.0
BILL_AMT1                      3913.0
BILL_AMT2                      3102.0
BILL_AMT3                       689.0
BILL_AMT4                         0.0
BILL_AMT5                         0.0
BILL_AMT6                         0.0
PAY_AMT1                          0.0
PAY_AMT2                        689.0
PAY_AMT3                          0.0
PAY_AMT4                          0.0
PAY_AMT5                          0.0
PAY_AMT6                          0.0
default.payment.next.month        1.0
Name: Fila 1, dtype: float64

Y si en particular lo unico que necesitamos es la primera y segunda columna podemos hacer lo siguiente:

In [73]:
tabla.iloc[0,[0,1]]

ID               1.0
LIMIT_BAL    20000.0
Name: Fila 1, dtype: float64

Sin embargo, *a modo personal* no recomendamos el uso de este método al menos que estes seguro de que tu conjunto de datos no variará su estructura a lo largo del tiempo, pues la inclusión de nuevas columnas da puerta abierta a errores en flujos de datos automatizados. Además que la legibilidad de tu código se ve afectada.

También, es posible usar filtros de la siguiente manera:

In [30]:
tabla[tabla["AGE"]>=35]

Unnamed: 0,ID,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_0,PAY_2,PAY_3,PAY_4,...,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default.payment.next.month
Fila 4,4,50000.0,2,2,1,37,0,0,0,0,...,28314.0,28959.0,29547.0,2000.0,2019.0,1200.0,1100.0,1069.0,1000.0,0
Fila 5,5,50000.0,1,2,1,57,-1,0,-1,0,...,20940.0,19146.0,19131.0,2000.0,36681.0,10000.0,9000.0,689.0,679.0,0
Fila 6,6,50000.0,1,1,2,37,0,0,0,0,...,19394.0,19619.0,20024.0,2500.0,1815.0,657.0,1000.0,1000.0,800.0,0
Fila 10,10,20000.0,1,3,2,35,-2,-2,-2,-2,...,0.0,13007.0,13912.0,0.0,0.0,0.0,13007.0,1122.0,0.0,0
Fila 12,12,260000.0,2,1,2,51,-1,-1,-1,-1,...,8517.0,22287.0,13668.0,21818.0,9966.0,8583.0,22301.0,0.0,3640.0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
Fila 29996,29996,220000.0,1,3,1,39,0,0,0,0,...,88004.0,31237.0,15980.0,8500.0,20000.0,5003.0,3047.0,5000.0,1000.0,0
Fila 29997,29997,150000.0,1,3,2,43,-1,-1,-1,-1,...,8979.0,5190.0,0.0,1837.0,3526.0,8998.0,129.0,0.0,0.0,0
Fila 29998,29998,30000.0,1,2,2,37,4,3,2,-1,...,20878.0,20582.0,19357.0,0.0,0.0,22000.0,4200.0,2000.0,3100.0,1
Fila 29999,29999,80000.0,1,3,1,41,1,-1,0,0,...,52774.0,11855.0,48944.0,85900.0,3409.0,1178.0,1926.0,52964.0,1804.0,1


Ahora, obtengamos las personas con edad mayor a 35 pero cuyo nivel de educación es 3. Hay que fijarse que entre paréntesis se colocan las condiciones a pedir y se separan con el operador lógico *&* (Y) (Existe el operador lógico OR y se usa con $|$)

Ahora, utilizaremos la mezcla de los comandos de Series junto con funciones de series para obtener una tabla donde, tenemos a todas las personas con edad mayor de 35 años, con nivel de educación 3 y cuya columna "BILL_AMT4" es mayor que la media.

In [31]:
tabla.columns

Index(['ID', 'LIMIT_BAL', 'SEX', 'EDUCATION', 'MARRIAGE', 'AGE', 'PAY_0',
       'PAY_2', 'PAY_3', 'PAY_4', 'PAY_5', 'PAY_6', 'BILL_AMT1', 'BILL_AMT2',
       'BILL_AMT3', 'BILL_AMT4', 'BILL_AMT5', 'BILL_AMT6', 'PAY_AMT1',
       'PAY_AMT2', 'PAY_AMT3', 'PAY_AMT4', 'PAY_AMT5', 'PAY_AMT6',
       'default.payment.next.month'],
      dtype='object')

In [32]:
tabla[(tabla["AGE"]>=35) & (tabla["EDUCATION"]==3) & (tabla["BILL_AMT4"]>=tabla["BILL_AMT4"].mean())]

Unnamed: 0,ID,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_0,PAY_2,PAY_3,PAY_4,...,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default.payment.next.month
Fila 121,121,50000.0,1,3,2,37,2,2,2,3,...,48851.0,49318.0,51143.0,1000.0,4035.0,1000.0,1400.0,2800.0,0.0,1
Fila 127,127,200000.0,1,3,2,52,0,0,0,0,...,100914.0,103146.0,104993.0,3568.0,3585.0,3602.0,3848.0,3669.0,3784.0,0
Fila 134,134,330000.0,1,3,1,46,0,0,0,0,...,227587.0,227775.0,228203.0,8210.0,8095.0,8025.0,8175.0,8391.0,8200.0,0
Fila 159,159,210000.0,1,3,1,45,2,3,4,4,...,137277.0,145533.0,154105.0,10478.0,10478.0,11078.0,11078.0,11678.0,10478.0,1
Fila 176,176,130000.0,1,3,1,56,1,2,2,2,...,68557.0,72796.0,71345.0,3000.0,3000.0,3000.0,5500.0,0.0,0.0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
Fila 29937,29937,130000.0,1,3,2,40,0,0,0,0,...,127628.0,64345.0,62373.0,6000.0,6000.0,5161.0,2239.0,3000.0,2291.0,0
Fila 29972,29972,80000.0,1,3,1,36,0,0,0,0,...,69674.0,71070.0,73612.0,2395.0,2500.0,2530.0,2556.0,3700.0,3000.0,0
Fila 29981,29981,50000.0,1,3,2,42,0,0,0,0,...,50360.0,19971.0,19694.0,10000.0,4000.0,5000.0,3000.0,4500.0,2000.0,0
Fila 29996,29996,220000.0,1,3,1,39,0,0,0,0,...,88004.0,31237.0,15980.0,8500.0,20000.0,5003.0,3047.0,5000.0,1000.0,0


Si prestaste atención al comienzo del curso, te darás cuenta que la sintaxis dentro del filtro nos recuerda al trabajo con Series del comienzo. ¡Y es justamente eso! Cuando tu filtras un conjunto de datos de esta forma lo que estás haciendo es entregarle un conjunto de Series de tipo booleanas que caracterizan justamente los índices que tienes en tu conjunto de datos. Por ejemplo la linea que dice *tabla["BILL_AMT4"]>=tabla["BILL_AMT4"].mean()* entrega una Serie Booleana que compara cada dato de la columna "BILL_AMT4" con su media y verifica si es mayor o no. En caso de ser mayor, entonces se considerará ese dato para el filtrado, en caso contrario, se ignorará. Cuando aprendes a manejar esta lógica podrás hacer filtros muy complejos que permitan exprimir tu conjunto de datos para extraer información que a simple vista no la encuentras.

<a id='Agrupando-datos'></a>
## Agrupando datos 🧩

[Inicio ▲](#Indice)

Un aspecto interesante de trabajar con tablas, es poder agrupar los datos de acuerdo con alguna columna. Esto permitirá caracterizar de mejor manera nuestros datos.  
Para poder trabajar con los datos agregados será importante identificar sobre que tipo de dato estamos agregando, por ejemplo, en nuestro caso podríamos agrupar datos a través de la columna "EDUCATION", lo cual formará otra tabla que tendrá como índices los tipos de Educación y como columnas las mismas de la tabla original pero, se calcularan nuevos campos dependiendo de como queramos agregar los datos que aparecen en cada repetición de los tipos de educación. Para ejemplificarlo mejor veamos como se hace la agrupación de una tabla en pandas y comparemosla a métricas extraidas directamente de la misma tabla.

In [33]:
# Para agrupar los datos, primero se crea un objeto de agrupación, indicando cual es la columna que se utilizará para agrupar.
datos_grouped = tabla.groupby("EDUCATION")
# Luego podemos utilizar distintos tipos de funciones de agregación, lo que harán estas funciones será tomar todas las columnas en que determinado valor de la columna "EDUCATION" se repita
# y agregar los datos de las otras columnas dependiendo de la función especificada. Ejemplo de estas funciones son la suma de datos, el calculo de la media, el calculo de la mediana, etc... En este caso, 
# agregaremos el resto de las columnas con la función suma especificada por el atributo ".sum"
datos_grouped = datos_grouped.sum()
datos_grouped

Unnamed: 0_level_0,ID,LIMIT_BAL,SEX,MARRIAGE,AGE,PAY_0,PAY_2,PAY_3,PAY_4,PAY_5,...,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default.payment.next.month
EDUCATION,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
0,239279,3040000.0,20,24,544,-7,-14,-13,-12,-15,...,186903.0,103727.0,73821.0,83241.0,182433.0,123552.0,50688.0,35584.0,42101.0,0
1,155569991,2254140000.0,16816,17490,362344,-2476,-4320,-4508,-4890,-5071,...,454425325.0,427516414.0,409301585.0,71776182.0,77340596.0,69443800.0,61441327.0,61144911.0,67982743.0,2036
2,210790056,2063286000.0,22686,21368,487151,1434,316,-260,-1165,-1984,...,627825380.0,583487585.0,567260172.0,71278900.0,71647160.0,63931904.0,61386684.0,62471082.0,66172313.0,3330
3,75438158,622247700.0,7844,6988,198155,653,201,13,-327,-685,...,190379269.0,176802877.0,170642505.0,23928076.0,24847834.0,19491267.0,19631902.0,17699523.0,18811208.0,1237
4,2231644,27170000.0,204,197,4164,-62,-95,-94,-100,-96,...,4867143.0,4162334.0,3952744.0,670413.0,806266.0,1228847.0,627898.0,736972.0,527051.0,7
5,4884226,47086000.0,465,413,9968,-34,-85,-105,-105,-109,...,17437215.0,14999044.0,12903481.0,1671800.0,2495618.0,2161183.0,1379653.0,1297309.0,2176192.0,18
6,861646,7560000.0,77,76,2239,-9,-16,-19,-21,-26,...,2767234.0,2270048.0,2018504.0,498803.0,314998.0,389892.0,264154.0,596248.0,753469.0,8


In [34]:
# Como podemos ver hemos agrupado nuestros datos a través del nivel de educación, donde por ejemplo en la columna "BILL_AMT4" podemos ver a deuda total de cada grupo de personas
# con distintos tipos de educación. Sin embargo, hay columnas a las cuales no hace sentido calcular la suma total, por ejemplo, la edad. En este caso, tenemos otro tipo de atributo para 
# nuestra agrupación, lo que haremos será trabajar con la función *mean*. Podemos hacer aquello muy similar a como lo hicimos anteriormente.
datos_grouped = tabla.groupby("EDUCATION").mean()
datos_grouped
#Podemos observar entonces que el promedio de edad entre las personas de cada grupo tiene una media con rango de 30 a 45 años.

Unnamed: 0_level_0,ID,LIMIT_BAL,SEX,MARRIAGE,AGE,PAY_0,PAY_2,PAY_3,PAY_4,PAY_5,...,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default.payment.next.month
EDUCATION,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
0,17091.357143,217142.857143,1.428571,1.714286,38.857143,-0.5,-1.0,-0.928571,-0.857143,-1.071429,...,13350.214286,7409.071429,5272.928571,5945.785714,13030.928571,8825.142857,3620.571429,2541.714286,3007.214286,0.0
1,14697.212187,212956.06991,1.588663,1.652338,34.231838,-0.233916,-0.408125,-0.425886,-0.461974,-0.479074,...,42931.065187,40388.891261,38668.076051,6780.933585,7306.622201,6560.585735,5804.565612,5776.562211,6422.554842,0.192348
2,15024.237776,147062.437634,1.616964,1.523022,34.722096,0.10221,0.022523,-0.018532,-0.083036,-0.141411,...,44748.779758,41588.566287,40431.943835,5080.463293,5106.711333,4556.8,4375.387313,4452.678689,4716.487028,0.237349
3,15342.314013,126550.27049,1.595282,1.421192,40.29998,0.132805,0.040879,0.002644,-0.066504,-0.139313,...,38718.582266,35957.469392,34704.597315,4866.397397,5053.454139,3964.056742,3992.658532,3599.658938,3825.749034,0.251576
4,18143.447154,220894.308943,1.658537,1.601626,33.853659,-0.504065,-0.772358,-0.764228,-0.813008,-0.780488,...,39570.268293,33840.113821,32136.130081,5450.512195,6555.00813,9990.626016,5104.861789,5991.642276,4284.96748,0.056911
5,17443.664286,168164.285714,1.660714,1.475,35.6,-0.121429,-0.303571,-0.375,-0.375,-0.389286,...,62275.767857,53568.014286,46083.860714,5970.714286,8912.921429,7718.510714,4927.332143,4633.246429,7772.114286,0.064286
6,16895.019608,148235.294118,1.509804,1.490196,43.901961,-0.176471,-0.313725,-0.372549,-0.411765,-0.509804,...,54259.490196,44510.745098,39578.509804,9780.45098,6176.431373,7644.941176,5179.490196,11691.137255,14773.901961,0.156863


También es posible trabajar con funciones de agregaciones diferentes *dependiendo de la columna que estes trabajando*. Para esto se ocupa la función ".agg()" donde el argumento de la función viene a ser _**un diccionario**_ donde las claves del diccionario son los nombres de las columnas a agregar y los valores vienen a ser las funciones que utilizarás.

In [76]:
dict_funciones = {"SEX" : pd.Series.mode,
                  "AGE" : "mean",
                  "PAY_AMT2" : sum}
# En este caso, la columna "SEX" se agrupará por moda, la columna "AGE" se agrupará por la media
# y la columna "PAY_AMT2" se agrupara sumando los datos.
datos_grouped = tabla.groupby("EDUCATION").agg(dict_funciones)
datos_grouped

Unnamed: 0_level_0,SEX,AGE,PAY_AMT2
EDUCATION,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,1,38.857143,182433.0
1,2,34.231838,77340596.0
2,2,34.722096,71647160.0
3,2,40.29998,24847834.0
4,2,33.853659,806266.0
5,2,35.6,2495618.0
6,2,43.901961,314998.0


Podemos extraer entonces de los datos de nuestra tabla que contrario al resto de niveles educacionales, hay mas personas con "SEX" == 1 en el nivel educacional 0.