# **Clase 3 - Pandas**

# **Qué es Pandas?**

Pandas es una librería de Python empleada principalmente para el análisis de datos con enfoque hacia la ciencia de datos e inteligencia artificial.

## Carga de Librería

In [None]:
import pandas as pd
import numpy as np
import random

## Conexión a Google Drive

In [None]:
# Montar Google Drive
from google.colab import drive
drive.mount('/content/drive')

# Nos posicionamos en el directorio donde esta la tabla
%cd "/content/drive/My Drive/Colab Notebooks/Capacitacion IA - ECOM/"

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
/content/drive/My Drive/Colab Notebooks/Capacitacion IA - ECOM


# **Dos Conceptos Fundamentales**

Pandas posee dos objetos principales, los cuales empleamos en conjunto para llevar a cabo nuestros análisis. Estos conceptos son los de **DataFrame** y **Series**.

## DataFrames

En Pandas, los **DataFrames** son tablas. Esto significa que están formados por filas y columnas.

### Forma


Veamos a continuación un ejemplo de definición de un DataFrame.

In [None]:
# Creamos un DataFrame y lo asignamos a una variable
dataset = pd.DataFrame(
    {
        'Azul': [100, 43],
        'Rojo': [70, 12]
    }
)

# Visualizamos nuestro DataFrame
dataset

Unnamed: 0,Azul,Rojo
0,100,70
1,43,12


Como podemos ver, no solo se visualizan los datos que ingresamos para nuestro DataFrame, sino que además Pandas agregó automáticamente un índice autoincremental a nuestra tabla. En etapas posteriores veremos como podemos editar esta tabla.

## Series

Si los DataFrames podemos tomarlos como tablas de varias filas y columnas, a las Series podemos considerarlas como tablas de múltiples filas con **una única columna**.

### Forma

In [None]:
# Creamos una serie y la asignamos a una variable
single_dataset = pd.Series([random.randint(1, 999) for _ in range(10)])

# Visualizamos nuestra Serie
single_dataset

0    208
1     21
2    850
3    676
4     44
5    952
6    975
7    220
8    597
9    503
dtype: int64

Al igual que el caso anterior en DataFrame, Pandas agregó una columna de índice autoincremental a nuestros datos.

# **Operaciones en Pandas**

En las operaciones que se describen posteriormente, vamos a ver que algunos casos son aplicados sobre `DataFrames` y en otros casos son aplicados sobre `Series`. A su vez, ciertos procesamientos sobre `DataFrames` dan como resultado una `Serie`, como también es posible obtener un `DataFrame` mediante `Series`.

El punto que debemos resaltar es que nunca vamos a estar trabajando exclusivamente sobre `DataFrames` o `Series`, sino que siempre vamosa tener una combinación de ambos.

## Carga desde un archivo CSV

La gran mayoría de las veces no vamos a estar generando datos manualmente, sino que los vamos a cargar desde algún medio externo, ya sea una base de datos o algún archivo.

Para la carga de un archivo CSV empleamos la funcion **read_csv** de un `DataFrame` de Pandas. A continuación se explican las partes de dicha función.

In [None]:
file = "MOCK_DATA.csv"

dataset = pd.read_csv(
    file,                       # Nombre o variable que contenga el archivo
    header=0,                   # Fila a emplear como nombre de columnas
    index_col=0,                # Columna a emplear como índice
    encoding='ISO-8859-1',      # El tipo de codificación a emplear para el parsing del archivo
    sep=',',                    # Caracter empleado para separar campos
    na_values=' ',              # Strings adicionales que se emplean para detectar datos NaN
    low_memory=False            # Si está en verdadero, el archivo se lee en partes. Esto puede producir errores de tipos de datos.
)



> En el caso que no quisieramos que `read_csv()` tome una fila como nombre de la columna, simplemente debemos asignar a `header=None`.



## Forma del DataFrame

La forma del `DataFrame` nos muestra una tupla en donde se indica, ordenadamente, la cantidad de filas y columnas que posee.



In [None]:
dataset.shape

(1000, 11)

Si bien nuestro dataset posee 12 columnas, al realizar la carga del CSV definimos la columna de nuestro índice como la primer columna, que es exactamente la columna `id`.

## Descripción del DataFrame

La descripción o información de un `DataFrame` nos brinda información detallada sobre los tipos de datos por los que están formadas cada columna, como así también la cantidad de datos no nulos que existen en ellas. Ésto último resulta muy importante a la hora de realizar la limpieza de datos ya que nos permite definir el método a seguir para el procesamiento de datos nulos.

In [None]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1000 entries, 1 to 1000
Data columns (total 11 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   first_name    1000 non-null   object
 1   last_name     1000 non-null   object
 2   email         1000 non-null   object
 3   country       1000 non-null   object
 4   age           1000 non-null   int64 
 5   income        1000 non-null   object
 6   is_employed   1000 non-null   bool  
 7   group_id      1000 non-null   int64 
 8   last_access   1000 non-null   object
 9   last_updated  898 non-null    object
 10  has_default   802 non-null    object
dtypes: bool(1), int64(2), object(8)
memory usage: 86.9+ KB


## Visualización de un DataFrame

Para visualizar correctamente un `DataFrame`, y además permitir un mejor formato en Google Colab, empleamos la funcion **head**. Dicha función recibe como parámetro un número entero el cual indica la cantidad de filas que se deben mostrar. Si de lo contrario, la función es llamada sin un valor, entonces se muestran las cinco primeras filas del `DataFrame`.

In [None]:
dataset.head()

Unnamed: 0_level_0,first_name,last_name,email,country,age,income,is_employed,group_id,last_access,last_updated,has_default
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,Christean,Guihen,cguihen0@nationalgeographic.com,Indonesia,53,$28441.86,True,2,1973-08-11T03:34:36Z,2017-05-20T11:18:02Z,False
2,Hill,Pettyfar,hpettyfar1@uol.com.br,Indonesia,18,$10361.90,False,2,1986-09-19T13:06:02Z,1984-11-04T06:22:22Z,True
3,Janine,Bleeze,jbleeze2@instagram.com,China,19,$67932.75,False,4,1991-11-04T00:16:20Z,1980-12-01T01:03:43Z,True
4,Marwin,Rowen,mrowen3@pinterest.com,China,88,$17908.90,True,1,2010-08-27T14:18:47Z,2017-10-13T19:27:40Z,True
5,Paulie,Gayler,pgayler4@moonfruit.com,Poland,55,$82084.73,True,1,1988-09-28T17:38:42Z,1974-07-19T12:56:53Z,True


## Modificación del Índice

In [None]:
# Modificamos el nombre del índice de id a ID
dataset.index.name = 'ID'

# Visualizamos el DataFrame
dataset.head()

Unnamed: 0_level_0,first_name,last_name,email,country,age,income,is_employed,group_id,last_access,last_updated,has_default
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,Christean,Guihen,cguihen0@nationalgeographic.com,Indonesia,53,$28441.86,True,2,1973-08-11T03:34:36Z,2017-05-20T11:18:02Z,False
2,Hill,Pettyfar,hpettyfar1@uol.com.br,Indonesia,18,$10361.90,False,2,1986-09-19T13:06:02Z,1984-11-04T06:22:22Z,True
3,Janine,Bleeze,jbleeze2@instagram.com,China,19,$67932.75,False,4,1991-11-04T00:16:20Z,1980-12-01T01:03:43Z,True
4,Marwin,Rowen,mrowen3@pinterest.com,China,88,$17908.90,True,1,2010-08-27T14:18:47Z,2017-10-13T19:27:40Z,True
5,Paulie,Gayler,pgayler4@moonfruit.com,Poland,55,$82084.73,True,1,1988-09-28T17:38:42Z,1974-07-19T12:56:53Z,True


In [None]:
# Modificamos los valores del índice
index_values = {i: i*2 for i in range(dataset.shape[0])}

# Visualización del DataFrame
dataset.rename(index_values).head()

Unnamed: 0_level_0,first_name,last_name,email,country,age,income,is_employed,group_id,last_access,last_updated,has_default
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
2,Christean,Guihen,cguihen0@nationalgeographic.com,Indonesia,53,$28441.86,True,2,1973-08-11T03:34:36Z,2017-05-20T11:18:02Z,False
4,Hill,Pettyfar,hpettyfar1@uol.com.br,Indonesia,18,$10361.90,False,2,1986-09-19T13:06:02Z,1984-11-04T06:22:22Z,True
6,Janine,Bleeze,jbleeze2@instagram.com,China,19,$67932.75,False,4,1991-11-04T00:16:20Z,1980-12-01T01:03:43Z,True
8,Marwin,Rowen,mrowen3@pinterest.com,China,88,$17908.90,True,1,2010-08-27T14:18:47Z,2017-10-13T19:27:40Z,True
10,Paulie,Gayler,pgayler4@moonfruit.com,Poland,55,$82084.73,True,1,1988-09-28T17:38:42Z,1974-07-19T12:56:53Z,True


## Modificacion del Nombre de Columnas

In [None]:
# Renombramos las columnas empleando un mapping con diccionario
dataset.rename(columns={'group_id': 'category', 'has_default': 'is_retired'}, inplace=True)

# Visualizamos el DataFrame
dataset.head()

Unnamed: 0_level_0,first_name,last_name,email,country,age,income,is_employed,category,last_access,last_updated,is_retired
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,Christean,Guihen,cguihen0@nationalgeographic.com,Indonesia,53,$28441.86,True,2,1973-08-11T03:34:36Z,2017-05-20T11:18:02Z,False
2,Hill,Pettyfar,hpettyfar1@uol.com.br,Indonesia,18,$10361.90,False,2,1986-09-19T13:06:02Z,1984-11-04T06:22:22Z,True
3,Janine,Bleeze,jbleeze2@instagram.com,China,19,$67932.75,False,4,1991-11-04T00:16:20Z,1980-12-01T01:03:43Z,True
4,Marwin,Rowen,mrowen3@pinterest.com,China,88,$17908.90,True,1,2010-08-27T14:18:47Z,2017-10-13T19:27:40Z,True
5,Paulie,Gayler,pgayler4@moonfruit.com,Poland,55,$82084.73,True,1,1988-09-28T17:38:42Z,1974-07-19T12:56:53Z,True


El parámetro **inplace** especifica si los cambios o procesamiento que debe realizarse producen cambios permanente al objeto. Éste parámetro se hace presente en múltiples funciones de Panda.

## Indexación Simple

La indexación de `DataFrames` nos permite elegir una o un conjunto de columnas las cuales deseamos extraer del `DataFrame` para un posterior análisis.

In [None]:
# Obtenemos la columna 'country' mediante indexación
dataset['country']

ID
1       Indonesia
2       Indonesia
3           China
4           China
5          Poland
          ...    
996        Greece
997      Cambodia
998      Cameroon
999     Sri Lanka
1000       Sweden
Name: country, Length: 1000, dtype: object

In [None]:
# Inspeccionamos el tipo de dato devuelto por la indexación
type(dataset['country'])

pandas.core.series.Series

In [None]:
# Realizamos indexación múltiple para obtener varias columnas
dataset[['age', 'income', 'is_retired']]

Unnamed: 0_level_0,age,income,is_retired
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,53,$28441.86,False
2,18,$10361.90,True
3,19,$67932.75,True
4,88,$17908.90,True
5,55,$82084.73,True
...,...,...,...
996,24,$17597.76,True
997,83,$4320.42,False
998,63,$83449.29,False
999,48,$26705.07,False


Para este caso de indexación múltiple, el resultado siempre será un nuevo DataFrame.

In [None]:
# Inspeccionamos el tipo de dato devuelto por la indexación múltiple
type(dataset[['age', 'income', 'is_retired']])

pandas.core.frame.DataFrame

## Indexación de Pandas

Si bien es posible emplear una indexación simple como la vista anteriormente, Pandas ofrece su propios operadores de acceso los cuales son `loc` y `iloc`. Estos operadores son los que realmente deberíamos emplear al momento de realizar operaciones complejas.

La gran diferencia entre el operador de acceso simple (visto anteriormente) y estos operadores, es que estos últimos siguen el orden de **(fila, columna)**.

### Indexación con `iloc`

`iloc` refiere a una **selección basada en índices**. Esto quiere decir que `iloc` retorna datos ubicados en una posición numérica específica.

Resulta importante resaltar que `iloc` emplea el exquema de indexación de `stdlib` de Python, lo que significa que los elementos dados en un rango siguen el patrón **[n inclusivo, n-1]**. Es decir que si quisieramos obtener los primeros 10 elementos haríamos [0, 10], lo cual se traduce a [0, 9].

In [None]:
# Obtenemos la tercer fila
dataset.iloc[2]

first_name                      Janine
last_name                       Bleeze
email           jbleeze2@instagram.com
country                          China
age                                 19
income                       $67932.75
is_employed                      False
category                             4
last_access       1991-11-04T00:16:20Z
last_updated      1980-12-01T01:03:43Z
is_retired                        True
Name: 3, dtype: object

In [None]:
# Obtenemos de la décima fila hasta la décima-quinta fila
dataset.iloc[9:14]

Unnamed: 0_level_0,first_name,last_name,email,country,age,income,is_employed,category,last_access,last_updated,is_retired
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
10,Colleen,Stirman,cstirman9@wisc.edu,China,95,$3542.93,False,5,2003-08-16T22:24:58Z,1989-10-25T13:51:12Z,True
11,Marjory,Bickerstaff,mbickerstaffa@google.fr,Indonesia,40,$44665.55,False,5,1976-05-01T19:01:38Z,1954-07-02T01:04:21Z,True
12,Frasco,Chicchetto,fchicchettob@statcounter.com,Czech Republic,43,$79350.12,False,1,1967-08-29T08:25:45Z,2016-08-15T20:56:56Z,True
13,Jilli,Doag,jdoagc@who.int,China,28,$34839.88,False,1,1995-09-10T11:28:14Z,2016-02-10T15:33:08Z,False
14,Eberhard,O'Carran,eocarrand@sitemeter.com,China,69,$26337.67,False,3,1981-01-05T18:36:54Z,1964-08-25T01:21:31Z,


In [None]:
# Obtenemos las tres primeras filas de la columna `country`
dataset.iloc[:3, 3]

ID
1    Indonesia
2    Indonesia
3        China
Name: country, dtype: object

In [None]:
# Obtenemos la quinta, séptima y novena filas, con las columnas de `income` y `category`
dataset.iloc[[4, 6, 8], [5, 7]]

Unnamed: 0_level_0,income,category
ID,Unnamed: 1_level_1,Unnamed: 2_level_1
5,$82084.73,1
7,$52687.11,4
9,$771.31,4


In [None]:
# Obtenemos las últimas 5 filas
dataset.iloc[-5:]

Unnamed: 0_level_0,first_name,last_name,email,country,age,income,is_employed,category,last_access,last_updated,is_retired
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
996,Ortensia,Cashell,ocashellrn@blogs.com,Greece,24,$17597.76,False,3,1991-06-14T21:16:53Z,1998-09-13T16:28:48Z,True
997,Lucine,MacBey,lmacbeyro@cnbc.com,Cambodia,83,$4320.42,False,3,1963-01-16T06:12:07Z,1991-02-01T18:58:27Z,False
998,Shanon,Brasse,sbrasserp@multiply.com,Cameroon,63,$83449.29,True,1,2010-05-25T11:13:59Z,,False
999,Marcus,Borrowman,mborrowmanrq@dyndns.org,Sri Lanka,48,$26705.07,True,3,2005-02-19T11:27:11Z,2011-03-03T17:47:30Z,False
1000,Harold,Willbond,hwillbondrr@cdc.gov,Sweden,76,$70339.65,False,3,1986-10-03T14:58:07Z,2001-08-09T09:32:13Z,True


### Indexación con `loc`

A diferencia de `iloc`, `loc` refiere a una **selección basada en etiquetas**. Aquí lo que importa es el valor o dato que posee el índice y no su posición.

In [None]:
# Obtenemos la primer fila
dataset.loc[1]

first_name                            Christean
last_name                                Guihen
email           cguihen0@nationalgeographic.com
country                               Indonesia
age                                          53
income                                $28441.86
is_employed                                True
category                                      2
last_access                1973-08-11T03:34:36Z
last_updated               2017-05-20T11:18:02Z
is_retired                                False
Name: 1, dtype: object

Como podemos ver, el comando anterior retorna la fila cuyo índice posee como valor el número 1. Recordando y diferenciando con iloc, que en cuyo caso anterior para obtener el primer elemento nos referíamos a la fila en la posición 0.

Que pasaría ahora si quisieramos acceder a la primer fila empleando `loc` pero pensado como `iloc`? Para ello deberíamos pasar el valor 0 como parametro no? 

Veamos el siguiente ejemplo:

In [None]:
# Obtenemos la primer fila pensando con posiciones
dataset.loc[0]

KeyError: ignored

Como podemos observar, obtenemos un error `KeyError` el cual nos demuestra que no existe en la columna índice una fila que contenga un ID igual a 0.

In [None]:
# Obtenemos todas las filas, en las columnas `country` e `income`
dataset.loc[:, ['country', 'income']]

Unnamed: 0_level_0,country,income
ID,Unnamed: 1_level_1,Unnamed: 2_level_1
1,Indonesia,$28441.86
2,Indonesia,$10361.90
3,China,$67932.75
4,China,$17908.90
5,Poland,$82084.73
...,...,...
996,Greece,$17597.76
997,Cambodia,$4320.42
998,Cameroon,$83449.29
999,Sri Lanka,$26705.07


In [None]:
# Obtenemos las filas con ID 90, 114 y 235, con las columnas `first_name` y `last_name`
dataset.loc[[90, 114, 235], ['first_name', 'last_name']]

Unnamed: 0_level_0,first_name,last_name
ID,Unnamed: 1_level_1,Unnamed: 2_level_1
90,Will,Bierman
114,Missy,Fretter
235,Arvin,Connechy


## Selección Condicional

Además de poder realizar selección de datos basados en sus posiciones y/ o valor de índices, también es posible seleccionar datos empleando condiciones. Estas condiciones se resuelven principalmente retornando valores booleanos (verdadero o falso) de acuerdo a si el dato cumple o no con la condición de selección o búsqueda.

### Selección Condicional Simple

In [None]:
# Obtenemos una lista con los países que cumplen la condición de ser Argentina
dataset['country'] == 'Argentina'

ID
1       False
2       False
3       False
4       False
5       False
        ...  
996     False
997     False
998     False
999     False
1000    False
Name: country, Length: 1000, dtype: bool

Como podemos observar para el caso anterior, el resultado de aplicar una selección condicional nos retorna una Serie en donde cada elemento es un resultado booleano de acuerdo a si la condición, definida anteriormente, se cumple o no.

Para obtener finalmente la lista completa de aquellas filas que cumplen la condición de que `country` es igual a `Argentina` podemos emplear indexación con `loc`.

In [None]:
# Obteniendo el DataSet con aquellas filas que cumplen la condición anterior
dataset[dataset['country'] == 'Argentina']

Unnamed: 0_level_0,first_name,last_name,email,country,age,income,is_employed,category,last_access,last_updated,is_retired
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
215,Tess,Vockins,tvockins5y@marketwatch.com,Argentina,53,$66705.77,True,3,2009-06-12T15:34:19Z,1986-08-14T02:23:49Z,False
355,Jane,Risman,jrisman9u@dion.ne.jp,Argentina,80,$67547.87,True,4,1951-08-18T09:54:32Z,1955-04-10T18:26:36Z,False
491,Rolando,Kinchley,rkinchleydm@fda.gov,Argentina,41,$2397.92,False,5,2011-02-24T08:27:11Z,1977-09-07T13:43:05Z,True
537,Conway,Doick,cdoickew@artisteer.com,Argentina,26,$33899.82,False,1,1964-07-09T13:28:32Z,,False
570,Earl,MacDonough,emacdonoughft@google.com.hk,Argentina,67,$65210.98,False,2,1989-09-21T09:43:02Z,,
595,Basia,Crane,bcranegi@wp.com,Argentina,40,$66301.00,True,1,1953-07-12T10:18:12Z,1964-09-26T21:18:24Z,
715,Carley,Carayol,ccarayolju@cornell.edu,Argentina,58,$36094.37,False,1,2005-04-09T09:53:22Z,1969-03-14T21:12:11Z,False
765,Graehme,Peyto,gpeytol8@ocn.ne.jp,Argentina,63,$35278.36,False,1,1970-11-02T05:09:12Z,1964-11-23T12:55:58Z,True
921,Constancia,Pettus,cpettuspk@chronoengine.com,Argentina,87,$3190.31,True,3,1994-12-24T11:08:15Z,1953-03-08T02:30:15Z,False
961,Adina,Dunkerton,adunkertonqo@people.com.cn,Argentina,77,$13161.89,True,5,1979-10-08T15:36:27Z,1987-01-14T20:37:13Z,True


### Selección Condicional Compuesta

La selección condicional puede extenderse aplicando múltiples condiciones a nuestro `DataFrame`. Veamos los siguientes ejemplos.

In [None]:
# Obtenemos un DataFrame en donde `age` sea mayor o igual a 25 y la `category` sea 3
dataset[(dataset['age'] >= 25) & (dataset['category'] == 3)]

Unnamed: 0_level_0,first_name,last_name,email,country,age,income,is_employed,category,last_access,last_updated,is_retired
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
6,Emelia,Tuckwood,etuckwood5@amazon.com,Dominican Republic,43,$26159.26,False,3,1995-08-23T20:31:06Z,1950-02-16T17:59:22Z,
14,Eberhard,O'Carran,eocarrand@sitemeter.com,China,69,$26337.67,False,3,1981-01-05T18:36:54Z,1964-08-25T01:21:31Z,
15,Shurlock,Marsham,smarshame@indiatimes.com,Indonesia,40,$10332.09,False,3,1996-10-09T11:25:27Z,1994-09-29T10:36:17Z,False
16,Roman,Hewins,rhewinsf@uiuc.edu,Uruguay,83,$77032.76,True,3,1998-05-11T23:40:00Z,1962-12-26T08:29:58Z,False
17,Adiana,Camelin,acameling@opensource.org,China,81,$78555.56,True,3,1983-04-22T00:30:22Z,1966-04-26T19:12:46Z,
...,...,...,...,...,...,...,...,...,...,...,...
987,Isaiah,Abbys,iabbysre@chronoengine.com,Nicaragua,27,$73517.15,True,3,2003-08-02T18:40:09Z,2006-06-04T01:19:20Z,True
995,Thatcher,Ritch,tritchrm@vkontakte.ru,China,58,$94615.05,True,3,1990-11-14T10:27:02Z,2000-06-10T22:50:13Z,
997,Lucine,MacBey,lmacbeyro@cnbc.com,Cambodia,83,$4320.42,False,3,1963-01-16T06:12:07Z,1991-02-01T18:58:27Z,False
999,Marcus,Borrowman,mborrowmanrq@dyndns.org,Sri Lanka,48,$26705.07,True,3,2005-02-19T11:27:11Z,2011-03-03T17:47:30Z,False


Para las condiciones múltiples, los operadores condicionales de Python aplican normalmente. Estos operadores son:


1.   **&**: AND lógico
2.   **|**: OR lógico



### Selección Condicional con Funciones incorporadas de Pandas

Además de poder aplicar condiciones manualmente sobre un `DataFrame`, Pandas ofrece algunas funciones ya incorporadas con las cuales podemos realizar selecciones condicionales. Veremos algunas de ellas a continuación.

In [None]:
# Emplamos `isin()` para obtener aquellas filas que cumplan con la condición de pertenencia
dataset.loc[dataset['country'].isin(['Germany', 'Sweden'])]

Unnamed: 0_level_0,first_name,last_name,email,country,age,income,is_employed,category,last_access,last_updated,is_retired
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
28,Coriss,Calderon,ccalderonr@pagesperso-orange.fr,Sweden,25,$87177.68,True,2,2004-11-17T23:13:33Z,1973-03-06T16:14:04Z,True
53,Marci,Bantick,mbantick1g@drupal.org,Sweden,58,$46776.85,True,1,1963-12-27T14:53:26Z,1976-03-25T16:55:03Z,False
90,Will,Bierman,wbierman2h@addtoany.com,Sweden,41,$28768.36,False,2,1954-11-01T10:21:31Z,2017-05-18T02:55:37Z,False
94,Garrot,Winslade,gwinslade2l@goo.ne.jp,Sweden,57,$21626.22,True,4,2010-12-19T15:32:31Z,2005-11-26T18:27:10Z,
101,Wilfred,Ferencowicz,wferencowicz2s@prlog.org,Sweden,75,$10004.71,True,1,1985-09-08T20:02:57Z,1973-12-24T06:46:57Z,False
143,Allene,Haddick,ahaddick3y@tumblr.com,Sweden,94,$64785.03,False,3,2007-03-17T09:13:45Z,1962-05-06T15:58:05Z,True
195,Jeanna,O' Molan,jomolan5e@mail.ru,Sweden,54,$18606.22,False,5,1956-09-01T04:50:36Z,1976-06-14T22:36:36Z,False
209,Selene,Klas,sklas5s@ezinearticles.com,Sweden,94,$34454.58,True,2,1962-02-04T07:31:17Z,2000-01-31T02:55:55Z,True
210,Gal,Kidney,gkidney5t@xrea.com,Sweden,73,$40371.61,False,1,2020-06-14T16:27:49Z,,False
214,Andrei,Astlet,aastlet5x@joomla.org,Sweden,82,$22898.48,True,4,2009-07-13T23:27:14Z,1971-03-30T13:11:50Z,


In [None]:
# Emplamos `~` para negar `isin()` y obtener todas aquellas filas que no contengan la condición especificada
dataset.loc[~dataset['country'].isin(['China'])]

Unnamed: 0_level_0,first_name,last_name,email,country,age,income,is_employed,category,last_access,last_updated,is_retired
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,Christean,Guihen,cguihen0@nationalgeographic.com,Indonesia,53,$28441.86,True,2,1973-08-11T03:34:36Z,2017-05-20T11:18:02Z,False
2,Hill,Pettyfar,hpettyfar1@uol.com.br,Indonesia,18,$10361.90,False,2,1986-09-19T13:06:02Z,1984-11-04T06:22:22Z,True
5,Paulie,Gayler,pgayler4@moonfruit.com,Poland,55,$82084.73,True,1,1988-09-28T17:38:42Z,1974-07-19T12:56:53Z,True
6,Emelia,Tuckwood,etuckwood5@amazon.com,Dominican Republic,43,$26159.26,False,3,1995-08-23T20:31:06Z,1950-02-16T17:59:22Z,
8,Thoma,Leathe,tleathe7@imgur.com,Venezuela,48,$14267.30,True,2,2008-06-26T00:30:53Z,,False
...,...,...,...,...,...,...,...,...,...,...,...
996,Ortensia,Cashell,ocashellrn@blogs.com,Greece,24,$17597.76,False,3,1991-06-14T21:16:53Z,1998-09-13T16:28:48Z,True
997,Lucine,MacBey,lmacbeyro@cnbc.com,Cambodia,83,$4320.42,False,3,1963-01-16T06:12:07Z,1991-02-01T18:58:27Z,False
998,Shanon,Brasse,sbrasserp@multiply.com,Cameroon,63,$83449.29,True,1,2010-05-25T11:13:59Z,,False
999,Marcus,Borrowman,mborrowmanrq@dyndns.org,Sri Lanka,48,$26705.07,True,3,2005-02-19T11:27:11Z,2011-03-03T17:47:30Z,False


Como podemos observar, emplamos el símbolo `~` para denotar una negación a la función `isin()`, la cual la transformaría en `not_in()`, siendo que ésta última función no existe en Pandas pero igualmente es posible de realizarla gracias a los operadores lógicos.

In [None]:
# Empleamos `isnull()` para obtener aquellas filas que cumplen con la condición de poseer datos nulos en `last_updated`
dataset.loc[dataset['last_updated'].isnull()]

Unnamed: 0_level_0,first_name,last_name,email,country,age,income,is_employed,category,last_access,last_updated,is_retired
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
7,Celie,Beining,cbeining6@facebook.com,China,52,$52687.11,True,4,1962-07-09T06:43:24Z,,False
8,Thoma,Leathe,tleathe7@imgur.com,Venezuela,48,$14267.30,True,2,2008-06-26T00:30:53Z,,False
19,Lucille,Underwood,lunderwoodi@psu.edu,China,88,$94152.37,False,5,1993-09-08T00:25:07Z,,False
50,Creight,Rilings,crilings1d@google.de,Indonesia,91,$3519.66,False,4,1996-11-24T17:57:15Z,,False
71,Cedric,Kenaway,ckenaway1y@sogou.com,Syria,69,$89309.30,True,2,1957-02-25T00:39:32Z,,False
...,...,...,...,...,...,...,...,...,...,...,...
943,Rudie,Jirzik,rjirzikq6@cnet.com,China,39,$6401.31,True,4,2008-07-31T17:37:22Z,,True
962,Viviyan,Eynon,veynonqp@posterous.com,Colombia,91,$78938.02,False,2,1979-06-19T22:37:17Z,,False
964,Anna-diana,Izod,aizodqr@hc360.com,Canada,48,$95290.56,False,2,1986-12-26T05:33:33Z,,
982,Mac,Dudleston,mdudlestonr9@angelfire.com,Indonesia,58,$5324.27,True,1,1993-10-23T19:06:41Z,,True


In [None]:
# Emplamos, de manera contraria al ejemplo anterior, `notnull()` para obtener aquellas filas en las cuales `last_updated` no es nulo
dataset.loc[dataset['last_updated'].notnull()]

Unnamed: 0_level_0,first_name,last_name,email,country,age,income,is_employed,category,last_access,last_updated,is_retired
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,Christean,Guihen,cguihen0@nationalgeographic.com,Indonesia,53,$28441.86,True,2,1973-08-11T03:34:36Z,2017-05-20T11:18:02Z,False
2,Hill,Pettyfar,hpettyfar1@uol.com.br,Indonesia,18,$10361.90,False,2,1986-09-19T13:06:02Z,1984-11-04T06:22:22Z,True
3,Janine,Bleeze,jbleeze2@instagram.com,China,19,$67932.75,False,4,1991-11-04T00:16:20Z,1980-12-01T01:03:43Z,True
4,Marwin,Rowen,mrowen3@pinterest.com,China,88,$17908.90,True,1,2010-08-27T14:18:47Z,2017-10-13T19:27:40Z,True
5,Paulie,Gayler,pgayler4@moonfruit.com,Poland,55,$82084.73,True,1,1988-09-28T17:38:42Z,1974-07-19T12:56:53Z,True
...,...,...,...,...,...,...,...,...,...,...,...
995,Thatcher,Ritch,tritchrm@vkontakte.ru,China,58,$94615.05,True,3,1990-11-14T10:27:02Z,2000-06-10T22:50:13Z,
996,Ortensia,Cashell,ocashellrn@blogs.com,Greece,24,$17597.76,False,3,1991-06-14T21:16:53Z,1998-09-13T16:28:48Z,True
997,Lucine,MacBey,lmacbeyro@cnbc.com,Cambodia,83,$4320.42,False,3,1963-01-16T06:12:07Z,1991-02-01T18:58:27Z,False
999,Marcus,Borrowman,mborrowmanrq@dyndns.org,Sri Lanka,48,$26705.07,True,3,2005-02-19T11:27:11Z,2011-03-03T17:47:30Z,False


Resulta muy probable encontrarnos con implementaciones en las cuales en vez de emplear **isnull()** se usa **isna()**. En cuanto a Pandas se refiere, ambas funciones realizan exactamente el mismo proceso, el cual es detectar aquellas celdas que no posean valores o posean valores nulos. **isnull()** es en realidad un alias de **isna()** y es por esto que ambos poseen el mismo comportamiento.

Esta diferenciación solo es en nombre. El porque de la existencia de ambos, se debe a que los `DataFrame` de Pandas están basados en los `DataFrame` de **R**, software empleado para la computación estadística. Allí, los datos NaN y Null son considerados distintos.

## Funciones Sumatorias

Pandas nos ofrece un conjunto de funciones sumatorias las cuales nos facilitan ciertas operaciones sobre los datos. A continuación, veremos algunas de ellas.

### Descripción de una Columna

Éste método nos ofrece un "resúmen" de una columna. Además, dicho método se adapta al tipo de dato que se esté trabajando.

In [None]:
# Emplamos `describe()` en una columna con elementos numéricos
dataset['age'].describe()

count    1000.000000
mean       59.204000
std        23.086389
min        18.000000
25%        40.000000
50%        59.500000
75%        79.000000
max       100.000000
Name: age, dtype: float64

In [None]:
# Empleamos `describe()` en una columna con elementos alfanuméricos
dataset['country'].describe()

count      1000
unique      114
top       China
freq        178
Name: country, dtype: object

### Sumatoria

In [None]:
# Sumatoria de una columna
dataset['age'].sum()

59204

### Media

In [None]:
# Media de una columna
dataset['age'].mean()

59.204

### Moda

In [None]:
# Moda de una columna
dataset['age'].mode()

0    81
dtype: int64

### Elementos Únicos

In [None]:
# Elementos únicos en una columna
dataset['category'].unique()

array([2, 4, 1, 3, 5])

### Cantidad de Elementos

In [None]:
# Obtenemos una lista de elementos únicos y cuantas veces se repiten
dataset['country'].value_counts()

China               178
Indonesia           115
Philippines          58
Poland               49
Russia               48
                   ... 
Bahrain               1
United Kingdom        1
French Polynesia      1
Bhutan                1
Nicaragua             1
Name: country, Length: 114, dtype: int64

## Funciones de Mapeo

Las funciones de mapeo se emplean para poder crear o transformar datos en otros tipos de representaciones o aplicar un procesamiento específico.

Resulta importante aclarar que, al momento de aplicar funicones de mapeo, es necesario considerar la complejidad que se está por aplicar. Una mala implementación de estas funciones puede llevar a que el procesamiento tome minutos en vez de segundos.

### Función `map()`

La función `map()` se emplea únicamente a una `Series` y acepta como parámetro un diccionario, `Series` o una función.

In [None]:
# Empleamos `map()` con una función lambda para procesar la columna `income`.

# Como la colunma income posee el símbolo $ lo quitamos empleando un map()
dataset_income = dataset['income'].map(lambda x: x[1:])

# Convertimos el resultado a float
dataset_income = pd.to_numeric(dataset_income)

# Asignamos los datos numéricos a nuestro dataset
dataset['income'] = dataset_income

# Visualizamos nuestra Series
dataset_income.head()

ID
1    28441.86
2    10361.90
3    67932.75
4    17908.90
5    82084.73
Name: income, dtype: float64

In [None]:
# Empleamos `map()` para reducir `income` dado porcentajes aleatorios
dataset_income.map(lambda x: x * random.random())

ID
1       13266.881405
2        2433.604053
3        2909.619972
4       14905.496708
5       30041.148798
            ...     
996     17137.416535
997      2696.710723
998     80160.509631
999     10146.826655
1000    16835.595575
Name: income, Length: 1000, dtype: float64

### Función `apply()`

Esta función es aplicable tanto a `Series` como `DataFrames` y la idea general es la de poder aplicar un procesamiento a filas completas.

A diferencia de `map()`, `apply()` solo acepta una función como parámetro.

In [None]:
# Definimos una función que obtiene un `row` como parámetro de entrada y reduce en un porcentaje aleatorio el `income`
def reduce_income(row):
  row['income'] *= random.random()
  return row

# Empleamos `apply()` sobre nuestro DataFrame
dataset.apply(reduce_income, axis=1).head()

Unnamed: 0_level_0,first_name,last_name,email,country,age,income,is_employed,category,last_access,last_updated,is_retired
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,Christean,Guihen,cguihen0@nationalgeographic.com,Indonesia,53,23614.254472,True,2,1973-08-11T03:34:36Z,2017-05-20T11:18:02Z,False
2,Hill,Pettyfar,hpettyfar1@uol.com.br,Indonesia,18,9881.200508,False,2,1986-09-19T13:06:02Z,1984-11-04T06:22:22Z,True
3,Janine,Bleeze,jbleeze2@instagram.com,China,19,5437.51451,False,4,1991-11-04T00:16:20Z,1980-12-01T01:03:43Z,True
4,Marwin,Rowen,mrowen3@pinterest.com,China,88,9457.855885,True,1,2010-08-27T14:18:47Z,2017-10-13T19:27:40Z,True
5,Paulie,Gayler,pgayler4@moonfruit.com,Poland,55,69569.294519,True,1,1988-09-28T17:38:42Z,1974-07-19T12:56:53Z,True


En el comando anterior podemos observar que, además de la llamada a la función `reduce_income`, existe otro parámetro llamdo `axis`. `axis` puede tomar dos valores, los cuales tienen los siguientes comportamientos:

*   **`axis=0`**: Indica que un método o 
función debe aplicarse a cada columna.
*   **`axis=1`**: Indica que un método o función debe aplicarse a cada fila.



Otro punto a tener en cuenta en cuanto se refiere a los llamados de funciones aplicadas en `apply()` es que las funciones pasadas como parámetros (en nuestro caso `reduce_income`) siempre son llamadas sin los paréntesis. Ésto se debe a que estamos pasando como parámetro la función en sí (lo que se conoce como un `callback` en Python) y no la resolución o resultado de una función.

## Agrupamiento y Ordenamiento

Pandas nos ofrece herramientas con las cuales podemos agrupar y ordenar la información de manera mucho más específica. Veremos a continuación algunos ejemplos.

### Agrupamiento Simple

In [None]:
# Agrupamos por `category`
dataset_category = dataset.groupby('category')

# Obtenemos total de `income` por `category`
dataset_category['income'].sum()

category
1     8901713.74
2     9532991.81
3    10460379.45
4    10085726.71
5     9707591.57
Name: income, dtype: float64

In [None]:
# Obtenemos la media de `income` por cada `category`
dataset_category['income'].mean()

category
1    45885.122371
2    46730.352010
3    52564.720854
4    49439.836814
5    48781.867186
Name: income, dtype: float64

### Agrupamiento Múltiple

Además de poder realizar agrupamientos simples, Pandas nos permite realizar agrupamientos por múltiples columnas. Veamos los siguientes ejemplos.

In [None]:
# Ordenamos por `country` y `category`
dataset_country_category = dataset.groupby(['country', 'category'])

# Obtenemos un `DataFrame` con aquellas personas de mayor `income`, ordenados por `country` y `category`
dataset_country_category.apply(lambda df: df.loc[df['income'].idxmax()])

Unnamed: 0_level_0,Unnamed: 1_level_0,first_name,last_name,email,country,age,income,is_employed,category,last_access,last_updated,is_retired
country,category,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
Afghanistan,3,Antonin,Beastall,abeastallmw@paginegialle.it,Afghanistan,41,95184.05,True,3,1992-10-04T14:42:23Z,,
Afghanistan,5,Latia,Bertin,lbertinrh@salon.com,Afghanistan,40,80424.87,False,5,2018-07-03T23:49:57Z,1992-06-24T04:24:25Z,True
Albania,2,Richard,Sorensen,rsorensenqy@plala.or.jp,Albania,34,48997.79,True,2,1955-11-15T08:15:53Z,1986-11-26T20:36:57Z,
Albania,3,Adelice,Jayume,ajayumerb@va.gov,Albania,95,17901.95,False,3,1990-07-15T15:17:27Z,1959-10-22T20:47:35Z,True
Albania,4,Jody,Osbiston,josbistoncf@networksolutions.com,Albania,70,98683.79,False,4,1965-09-22T10:42:50Z,1999-09-08T12:10:47Z,False
...,...,...,...,...,...,...,...,...,...,...,...,...
Vietnam,4,Costa,Delgado,cdelgadod4@intel.com,Vietnam,64,79794.05,False,4,2021-02-17T07:19:44Z,1972-04-29T21:08:15Z,True
Vietnam,5,Gabriellia,Jewer,gjewera2@usda.gov,Vietnam,39,99665.41,True,5,1951-10-31T04:18:13Z,1975-05-06T11:34:45Z,False
Yemen,4,Saloma,Haining,shainingpl@rediff.com,Yemen,58,85903.03,True,4,1951-08-11T11:49:36Z,1970-01-09T01:58:35Z,True
Yemen,5,Cale,Hatherill,chatherillnx@typepad.com,Yemen,93,61165.23,True,5,2007-01-23T14:40:03Z,2002-09-13T18:45:15Z,False


La función `idxmax()` empleada en nuestro mapeo anterior, retorna el índice de las filas que cumplen con el máximo valor de algún dato dado. Como en nuestro ejemplo estamos aplicando `df['income'].idxmax()`, esto significa que estamos obteniendo los índicies de aquellas filas cuyos `income` sean los valores más altos.

### Agrupamientos con Agregaciones

Además de realizar agrupamientos y aplicar funciones, podemos emplear un método de Pandas que nos permite realizar múltiples operaciones simultáneamente.

In [None]:
# Obtenemos un agrupamiento por `country`
dataset_country = dataset.groupby('country')

# Realizamos una agregación con múltiples funciones
dataset_country['income'].agg([min, max, np.mean])

Unnamed: 0_level_0,min,max,mean
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Afghanistan,45405.07,95184.05,72323.427500
Albania,17901.95,98683.79,62457.062500
Angola,43782.44,43782.44,43782.440000
Argentina,2397.92,70789.78,40928.554167
Armenia,7957.78,50882.36,27994.356000
...,...,...,...
Uzbekistan,3092.00,3092.00,3092.000000
Venezuela,7080.79,91667.88,40140.973333
Vietnam,11101.19,99665.41,60627.596000
Yemen,61165.23,85903.03,73534.130000


### Ordenamiento

Otra funcionalidad de Pandas que resulta importante a la hora de realizar el análisis y procesamiento de datos, es la del ordenamiento de datos.

In [None]:
# Ordenamos por `age` ascendente
dataset['age'].sort_values()

ID
935     18
824     18
121     18
947     18
843     18
      ... 
879    100
287    100
828    100
956    100
458    100
Name: age, Length: 1000, dtype: int64

In [None]:
# Ordenamos por `income` descendiente
dataset['income'].sort_values(ascending=False)

ID
278    99899.99
319    99884.45
797    99860.50
60     99685.56
363    99665.41
         ...   
574      700.24
224      591.93
526      391.68
832      167.90
717      123.07
Name: income, Length: 1000, dtype: float64

In [None]:
# Ordenamos por múltiples columnas, de forma descendiente
dataset.sort_values(by=['country', 'category'], ascending=False)

Unnamed: 0_level_0,first_name,last_name,email,country,age,income,is_employed,category,last_access,last_updated,is_retired
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
658,Sandi,Wilton,swiltoni9@ca.gov,Zimbabwe,87,60381.59,False,3,1958-09-23T22:59:50Z,1989-08-05T12:48:56Z,True
862,Cale,Hatherill,chatherillnx@typepad.com,Yemen,93,61165.23,True,5,2007-01-23T14:40:03Z,2002-09-13T18:45:15Z,False
922,Saloma,Haining,shainingpl@rediff.com,Yemen,58,85903.03,True,4,1951-08-11T11:49:36Z,1970-01-09T01:58:35Z,True
347,Allina,Reddlesden,areddlesden9m@forbes.com,Vietnam,33,65978.76,False,5,1973-11-03T15:34:43Z,1986-04-18T09:28:31Z,False
363,Gabriellia,Jewer,gjewera2@usda.gov,Vietnam,39,99665.41,True,5,1951-10-31T04:18:13Z,1975-05-06T11:34:45Z,False
...,...,...,...,...,...,...,...,...,...,...,...
971,Richard,Sorensen,rsorensenqy@plala.or.jp,Albania,34,48997.79,True,2,1955-11-15T08:15:53Z,1986-11-26T20:36:57Z,
154,Blinnie,Ligertwood,bligertwood49@home.pl,Afghanistan,87,45405.07,False,5,1978-04-22T14:37:50Z,1954-12-01T17:18:49Z,True
867,Carmelia,Worters,cworterso2@go.com,Afghanistan,28,68279.72,True,5,2006-01-24T03:43:00Z,1974-09-29T18:45:31Z,
990,Latia,Bertin,lbertinrh@salon.com,Afghanistan,40,80424.87,False,5,2018-07-03T23:49:57Z,1992-06-24T04:24:25Z,True


## Datos Faltantes

Al momento de realizar análisis de datos, es muy probable que nos encontremos con casos en donde ciertas columnas, que poseen datos significativos, contienen entradas faltantes.

El análisis de como se deben tratar estos datos y como afecta al dataset en general dependerá pura y exclusivamente de lo que estemos analizando en todo su conjunto. Para este tipo de casos no existe una solución única.

De todas formas, Pandas nos ofrece las herramientas para facilitarnos el tratamiento para estos casos.

### Función `isnull()`

`isnull()` fue revisada anteriormente cuando vimos las `Selección Condicional`. Veamos nuevamente su aplicación a continuación.

In [None]:
# Obtenemos aquellas filas que poseen datos nulos en `is_retired`
dataset[pd.isnull(dataset['is_retired'])]

Unnamed: 0_level_0,first_name,last_name,email,country,age,income,is_employed,category,last_access,last_updated,is_retired
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
6,Emelia,Tuckwood,etuckwood5@amazon.com,Dominican Republic,43,26159.26,False,3,1995-08-23T20:31:06Z,1950-02-16T17:59:22Z,
14,Eberhard,O'Carran,eocarrand@sitemeter.com,China,69,26337.67,False,3,1981-01-05T18:36:54Z,1964-08-25T01:21:31Z,
17,Adiana,Camelin,acameling@opensource.org,China,81,78555.56,True,3,1983-04-22T00:30:22Z,1966-04-26T19:12:46Z,
34,Schuyler,Bolver,sbolverx@about.com,Philippines,79,2690.59,True,2,2013-09-25T00:01:45Z,1971-09-17T11:14:15Z,
46,Cash,McMarquis,cmcmarquis19@reuters.com,Poland,99,35643.46,True,3,1971-12-25T02:59:12Z,1965-07-31T21:39:57Z,
...,...,...,...,...,...,...,...,...,...,...,...
968,Leora,Brandi,lbrandiqv@jugem.jp,Ireland,76,49778.43,False,4,2000-10-03T19:03:27Z,2007-05-12T00:27:18Z,
971,Richard,Sorensen,rsorensenqy@plala.or.jp,Albania,34,48997.79,True,2,1955-11-15T08:15:53Z,1986-11-26T20:36:57Z,
988,Ozzy,Monument,omonumentrf@unesco.org,Brazil,28,3823.82,False,2,1986-11-27T09:02:55Z,1953-07-27T00:00:11Z,
991,Janifer,Crossan,jcrossanri@paypal.com,Indonesia,98,88719.04,True,4,1962-08-10T23:10:01Z,1967-02-03T08:55:39Z,


Como podemos observar, obtuvimos todas las filas que poseen datos nulos en `is_retired`.

Para poder trabajar con los datos, necesitamos poder cambiar estos datos nulos por otros datos no nulos. Que tipos de datos dependerá del análisis que se realizó sobre el dataset o el contexto del mismo.



Suponemos ahora que en la columna `is_retired` los datos booleanos que tenemos son los datos seguros de que una persona se encuentra o no retirada, y para ello éstas personas deberían haber presentado la documentación necesaria. Todas aquellas personas que no lo hicieron no podemos conocer su estado de retiro, por lo tanto en la base de datos se decidió por usar `NaN` como valor predeterminado.

Dado éste análisis, como los datos `NaN` representan datos desconocidos procedemos a reemplazarlos por un string no nulo `Unknown`.

In [None]:
# Reemplazamos los datos `NaN` en `is_retired` por `Unknown`
dataset['is_retired'].fillna('Unknown', inplace=True)

# Visualizamos el dataset en `is_retired`
dataset[dataset['is_retired'] == 'Unknown']['is_retired']

ID
6      Unknown
14     Unknown
17     Unknown
34     Unknown
46     Unknown
        ...   
968    Unknown
971    Unknown
988    Unknown
991    Unknown
995    Unknown
Name: is_retired, Length: 198, dtype: object

Como podemos observar, los datos `NaN` fueron reemplazados por `Unknown`.

### Función `replace()`

Para los casos en donde los datos nulos no existan como tales, es decir, no son `NaN` sino un string representante como el caso anterior de `Unknown`, podemos emplear la función `replace()` para reemplazarlos, ya que `fillna()` no tendría ningún efecto para este caso.

In [None]:
# Reemplazamos los datos `Unknown` anteriores por `Missing`
dataset['is_retired'].replace(to_replace='Unknown', value='Missing', inplace=True)

# Visualizamos el dataset
dataset[dataset['is_retired'] == 'Missing']['is_retired']

ID
6      Missing
14     Missing
17     Missing
34     Missing
46     Missing
        ...   
968    Missing
971    Missing
988    Missing
991    Missing
995    Missing
Name: is_retired, Length: 198, dtype: object

## Unión de `DataFrames`

Durante el análisis de nuestros dataset, puede ocurrir que tengamos la necesidad de analizar varios datasets juntos. Por suerte, Pandas nos ofrece las funcionalidades exactas para poder realziar este tipo de uniones.

### Función `concat()`

`concat()` es una de las uniones más sencillas. Dados dos `DataFrames`, `concat()` realiza una unión sencilla sin muchas opciones de control.

In [None]:
# Obtenemos las primeras 5 filas y las últimas 5 filas
dataset_first = dataset[:5]
dataset_last = dataset[-5:]

# Realizamos una union sencilla con `concat()`
dataset_final = pd.concat([dataset_first, dataset_last])

# Visualizamos el resultado
dataset_final.head(10)

Unnamed: 0_level_0,first_name,last_name,email,country,age,income,is_employed,category,last_access,last_updated,is_retired
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,Christean,Guihen,cguihen0@nationalgeographic.com,Indonesia,53,28441.86,True,2,1973-08-11T03:34:36Z,2017-05-20T11:18:02Z,False
2,Hill,Pettyfar,hpettyfar1@uol.com.br,Indonesia,18,10361.9,False,2,1986-09-19T13:06:02Z,1984-11-04T06:22:22Z,True
3,Janine,Bleeze,jbleeze2@instagram.com,China,19,67932.75,False,4,1991-11-04T00:16:20Z,1980-12-01T01:03:43Z,True
4,Marwin,Rowen,mrowen3@pinterest.com,China,88,17908.9,True,1,2010-08-27T14:18:47Z,2017-10-13T19:27:40Z,True
5,Paulie,Gayler,pgayler4@moonfruit.com,Poland,55,82084.73,True,1,1988-09-28T17:38:42Z,1974-07-19T12:56:53Z,True
996,Ortensia,Cashell,ocashellrn@blogs.com,Greece,24,17597.76,False,3,1991-06-14T21:16:53Z,1998-09-13T16:28:48Z,True
997,Lucine,MacBey,lmacbeyro@cnbc.com,Cambodia,83,4320.42,False,3,1963-01-16T06:12:07Z,1991-02-01T18:58:27Z,False
998,Shanon,Brasse,sbrasserp@multiply.com,Cameroon,63,83449.29,True,1,2010-05-25T11:13:59Z,,False
999,Marcus,Borrowman,mborrowmanrq@dyndns.org,Sri Lanka,48,26705.07,True,3,2005-02-19T11:27:11Z,2011-03-03T17:47:30Z,False
1000,Harold,Willbond,hwillbondrr@cdc.gov,Sweden,76,70339.65,False,3,1986-10-03T14:58:07Z,2001-08-09T09:32:13Z,True


`concat()` funciona mejor cuando ambos `DataFrames` poseen las mismas columnas.

### Función `join()`

`join()` es un poco más compleja, pero a la vez mucho más capaz que `concat()`. Veamos un ejemplo.

In [None]:
# Emplando las dos definiciones anteriores, realizamos un `join()`
dataset_first.join(dataset_last, lsuffix='_LEFT', rsuffix='_RIGHT').head(10)

Unnamed: 0_level_0,first_name_LEFT,last_name_LEFT,email_LEFT,country_LEFT,age_LEFT,income_LEFT,is_employed_LEFT,category_LEFT,last_access_LEFT,last_updated_LEFT,...,last_name_RIGHT,email_RIGHT,country_RIGHT,age_RIGHT,income_RIGHT,is_employed_RIGHT,category_RIGHT,last_access_RIGHT,last_updated_RIGHT,is_retired_RIGHT
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,Christean,Guihen,cguihen0@nationalgeographic.com,Indonesia,53,28441.86,True,2,1973-08-11T03:34:36Z,2017-05-20T11:18:02Z,...,,,,,,,,,,
2,Hill,Pettyfar,hpettyfar1@uol.com.br,Indonesia,18,10361.9,False,2,1986-09-19T13:06:02Z,1984-11-04T06:22:22Z,...,,,,,,,,,,
3,Janine,Bleeze,jbleeze2@instagram.com,China,19,67932.75,False,4,1991-11-04T00:16:20Z,1980-12-01T01:03:43Z,...,,,,,,,,,,
4,Marwin,Rowen,mrowen3@pinterest.com,China,88,17908.9,True,1,2010-08-27T14:18:47Z,2017-10-13T19:27:40Z,...,,,,,,,,,,
5,Paulie,Gayler,pgayler4@moonfruit.com,Poland,55,82084.73,True,1,1988-09-28T17:38:42Z,1974-07-19T12:56:53Z,...,,,,,,,,,,


Para el caso de `join()` se vuelve necesario definir los parámetros `lsuffix` y `rsuffix`. Como podemos ver, cada columna posee su sufijo de acuerdo a la condición de unión.

Éste tipo de union nos sive si quisieramos realizar análisis en conjunto de dos o más datos específicos. Por ejemplo, realizar un `join()` de únicamente dos países.

Veamos otro ejemplo.

In [None]:
# Obtenemos agregaciones de `age` e `income` de dos países
dataset_china = dataset[dataset['country'] == 'China'][['age', 'income']].agg([min, max, np.mean])
dataset_indonesia = dataset[dataset['country'] == 'Indonesia'][['age', 'income']].agg([min, max, np.mean])

In [None]:
# Unimos ambos emplando un `join()`
dataset_joined = dataset_china.join(dataset_indonesia, lsuffix='_CH', rsuffix='_IND')

dataset_joined

Unnamed: 0,age_CH,income_CH,age_IND,income_IND
min,18.0,591.93,18.0,391.68
max,100.0,99860.5,98.0,99685.56
mean,60.679775,51017.717022,59.791304,49619.706435
