# TRANSFORMACIÓN, FILTRACIÓN Y REORDENAMIENTO

## Introducción

En esta sesión vamos a aprender 3 de las herramientas más importantes que tenemos como Procesadores de Datos: transformación, filtración y ordenamiento. Veremos como convertir tipos de datos a otros tipos de datos, cómo manipular strings y cómo aplicar funciones custom a un DataFrame. También aprendemos a filtrar nuestros datos para crear subconjuntos y a ordenarlos usando índices y columnas para su fácil comprensión.

## Objetivo

- Hacer casting de tipos de datos.
- Manipular strings usando el módulo str.
- Aplicar funciones custom a un DataFrame.
- Aplicar filtros a nuestros datos.
- Ordenar nuestro dataset por columnas.

## Transformación de Datos

Uno de los pasos más importantes en todo este proceso es el de la Transformación de Datos. Transformar datos significa exactamente lo que suena: tomar un dato y convertirlo en otro dato o en otro tipo de dato. La razón por la que necesitamos transformar nuestros datos es porque pocas veces vienen en el formato que lo necesitamos. Ya hemos realizado algunas transformaciones de nuestro dataset, como por ejemplo cuando convertimos NaNs en 0s. El día de hoy aumentaremos las herramientas que tenemos para transformar datos con varias técnicas que son ampliamente utilizadas por los Procesadores de Datos.

**Casting**

Una de las cosas más comunes con la que nos toparemos es la transformación de un tipo de dato a otro tipo de dato. Es muy normal que los datos que obtengamos no estén exactamente en el tipo de dato que necesitamos. En ese caso, es importante entender qué tipo de dato es el que necesitamos y también cómo lograr una transformación exitosa.

Primero que nada, vamos a importar un dataset:

In [82]:
import pandas as pd

In [80]:
df = pd.read_csv('../Datasets/new_york_times_bestsellers-dirty.csv', index_col=0)

In [83]:
df.head()

Unnamed: 0,amazon_product_url,author,description,publisher,title,oid,bestsellers_date.numberLong,published_date.numberLong,rank.numberInt,rank_last_week.numberInt,weeks_on_list.numberInt,price.numberDouble
0,http://www.amazon.com/The-Host-Novel-Stephenie...,Stephenie Meyer,Descr: Aliens have taken control of the minds ...,"Little, Brown",THE HOST,5b4aa4ead3089013507db18c,2008-05-24 00:00:00,1212883200000,2,1,3,25.99
1,http://www.amazon.com/Love-Youre-With-Emily-Gi...,Emily Giffin,Descr: A woman's happy marriage is shaken when...,St. Martin's,LOVE THE ONE YOU'RE WITH,5b4aa4ead3089013507db18d,2008-05-24 00:00:00,1212883200000,3,2,2,24.95
2,http://www.amazon.com/The-Front-Garano-Patrici...,Patricia Cornwell,Descr: A Massachusetts state investigator and ...,Putnam,THE FRONT,5b4aa4ead3089013507db18e,2008-05-24 00:00:00,1212883200000,4,0,1,22.95
3,http://www.amazon.com/Snuff-Chuck-Palahniuk/dp...,Chuck Palahniuk,Descr: An aging porn queens aims to cap her ca...,Doubleday,SNUFF,5b4aa4ead3089013507db18f,2008-05-24 00:00:00,1212883200000,5,0,1,24.95
5,http://www.amazon.com/Phantom-Prey-John-Sandfo...,John Sandford,Descr: The Minneapolis detective Lucas Davenpo...,Putnam,PHANTOM PREY,5b4aa4ead3089013507db191,2008-05-24 00:00:00,1212883200000,7,4,3,26.95


Éstas son las columnas restantes que no podíamos ver en la primera vista:

![imagen1](../img/sesion-7_2.png)

Veamos los tipos de datos que contiene:

In [84]:
df.dtypes

amazon_product_url              object
author                          object
description                     object
publisher                       object
title                           object
oid                             object
bestsellers_date.numberLong     object
published_date.numberLong        int64
rank.numberInt                  object
rank_last_week.numberInt         int64
weeks_on_list.numberInt          int64
price.numberDouble             float64
dtype: object

Hay 3 cosas que llaman mi atención:

1. price.numberDouble es tipo object y debería de ser float.
2. rank.numberInt es tipo object y debería de ser int (como si nombre bien lo dice).
3. bestsellers_date.numberLong y published_date.numberLong son tipo object e int64 respectivamente, mientras que deberían de ser algún tipo de dato de fecha y tiempo.

¿Por qué ha pasado esto?

Veamos cada caso uno por uno.

**astype** 

La manera más sencilla de transformar un dato en otro tipo de dato es usando el método astype. Basta con seleccionar la Serie que quieres transformar, llamar el método y pasarle el tipo de dato final:

In [85]:
df['price.numberDouble'].astype(float)

0       25.99
1       24.95
2       22.95
3       24.95
5       26.95
        ...  
3027    26.95
3028    27.95
3029    27.95
3030    26.95
3031    28.99
Name: price.numberDouble, Length: 2266, dtype: float64

Ahí está nuestra Serie ya convertida a float64 (que si recuerdas es el tipo de datos en pandas equivalente a float de Python). Ahora, para que esa nueva Serie sea parte de nuestro DataFrame tenemos que reasignar el resultado a la columna original:

In [86]:
df['price.numberDouble'] = df['price.numberDouble'].astype(float)

In [20]:
df.dtypes

amazon_product_url              object
author                          object
description                     object
publisher                       object
title                           object
oid                             object
bestsellers_date.numberLong     object
published_date.numberLong        int64
rank.numberInt                  object
rank_last_week.numberInt         int64
weeks_on_list.numberInt          int64
price.numberDouble             float64
dtype: object

'¡Listo!

Ahora, ¿qué pasa si quisiéramos convertir varias columnas al mismo tiempo? En vez de tener hacer este mismo proceso columna por columna podemos escribir un diccionario que sea un mapa entre las columnas que queremos transformar y el tipo de dato al que queremos transformarlas. Por ejemplo, imaginemos que además de la columna price.numberDouble tenemos otras columnas con los tipos de datos incorrectos. Podríamos hacer algo como esto:'

In [87]:
diccionario_casting= {
    'rank_last_week.numberInt':int,
    'weeks_on_list.numberInt':int,
    'price.numberDouble': float
}

In [88]:
df.astype(diccionario_casting).dtypes


amazon_product_url              object
author                          object
description                     object
publisher                       object
title                           object
oid                             object
bestsellers_date.numberLong     object
published_date.numberLong        int64
rank.numberInt                  object
rank_last_week.numberInt         int32
weeks_on_list.numberInt          int32
price.numberDouble             float64
dtype: object

Y ahora necesitamos reasignar el DataFrame completo para que los cambios persistan:

In [89]:
df = df.astype(diccionario_casting)

Esto está facílisimo, ¿no? Sólo hay un problema. Mira lo que pasa cuando intentamos convertir rank.numberInt a int:

In [90]:
df['rank.numberInt'].astype(int)

ValueError: invalid literal for int() with base 10: 'No Rank'

Al parecer hay por ahí algunas celdas con el valor 'No Rank' que (obviamente) no pueden ser convertidas a int. Hasta ahora nuestras conversiones habían sido muy sencillas porque nuestros datos se podían transformar fácilmente. Pero cuando hay datos que no pueden ser transformados al tipo que queremos, necesitamos usar otro método.

to_numeric

pandas tiene toda una serie de métodos que están hechos específicamente para hacer conversión (casting) a un tipo de dato. Para convertir datos a datos numéricos tenemos to_numeric. Primero, vamos a ver qué onda con ese dato que no podemos convertir. Vamos a usar un filtro para obtener sólo las filas donde tenemos el valor 'No Rank' (no te preocupes si no entiendes este paso, ¡más adelante en esta misma sesión aprendemos filtros!):

In [91]:
df[df['rank.numberInt']=='No Rank']

Unnamed: 0,amazon_product_url,author,description,publisher,title,oid,bestsellers_date.numberLong,published_date.numberLong,rank.numberInt,rank_last_week.numberInt,weeks_on_list.numberInt,price.numberDouble
13,http://www.amazon.com/The-Host-Novel-Stephenie...,Stephenie Meyer,Descr: Aliens have taken control of the minds ...,"Little, Brown",THE HOST,5b4aa4ead3089013507db1a0,2008-05-31 00:00:00,1213488000000,No Rank,2,4,25.99
72,http://www.amazon.com/The-Broken-Window-Lincol...,Jeffery Deaver,Descr: Detectives Lincoln Rhyme and Amelia Sac...,Simon & Schuster,THE BROKEN WINDOW,5b4aa4ead3089013507db1fa,2008-06-28 00:00:00,1215907200000,No Rank,8,3,26.95
133,http://www.amazon.com/Fearless-Fourteen-Janet-...,Janet Evanovich,Descr: Stephanie Plum and her boyfriend Joe Mo...,St. Martin’s,FEARLESS FOURTEEN,5b4aa4ead3089013507db25e,2008-08-02 00:00:00,1218931200000,No Rank,9,7,27.95
154,http://www.amazon.com/The-Mercedes-Coffin-Deck...,Faye Kellerman,Descr: Decker and Lazarus investigate cases of...,Morrow,THE MERCEDES COFFIN,5b4aa4ead3089013507db282,2008-08-16 00:00:00,1220140800000,No Rank,0,1,25.95
158,http://www.amazon.com/Foreign-Body-Robin-Cook/...,Robin Cook,Descr: A medical student investigates a rising...,Putnam,FOREIGN BODY,5b4aa4ead3089013507db287,2008-08-16 00:00:00,1220140800000,No Rank,9,2,25.95
...,...,...,...,...,...,...,...,...,...,...,...,...
2920,http://www.amazon.com/Twelve-Digital-Edition-V...,Ayana Mathis,Descr: Fifty-some years in the life of an Afri...,Knopf,THE TWELVE TRIBES OF HATTIE,5b4aa4ead3089013507dc4cb,2013-02-09 00:00:00,1361664000000,No Rank,14,9,24.95
2942,http://www.amazon.com/The-Sound-Broken-Glass-K...,Deborah Crombie,"Descr: Detectives Gemma Jones and her husband,...",Morrow/HarperCollins,THE SOUND OF BROKEN GLASS,5b4aa4ead3089013507dc4f3,2013-02-23 00:00:00,1362873600000,No Rank,0,1,25.99
2952,http://www.amazon.com/A-Week-Winter-Maeve-Binc...,Maeve Binchy,Descr: Guests at an inn by the sea on Ireland’...,Knopf,A WEEK IN WINTER,5b4aa4ead3089013507dc503,2013-03-02 00:00:00,1363478400000,No Rank,2,3,26.95
2961,http://www.amazon.com/The-Storyteller-Jodi-Pic...,Jodi Picoult,Descr: A New Hampshire baker finds herself in ...,Emily Bestler/Atria,THE STORYTELLER,5b4aa4ead3089013507dc515,2013-03-09 00:00:00,1364083200000,No Rank,2,2,28.99


Efectivamente, hay por ahí algunos datos que no pueden ser convertidos a int. Para lograr la conversión podemos usar entonces to_numeric. Llamamos to_numeric de esta forma:

In [92]:
pd.to_numeric(df['rank.numberInt'])

ValueError: Unable to parse string "No Rank" at position 11

Ok... Eso no salió muy bien. Lo que sucede es que tenemos que avisarle a nuestro método qué hacer con los datos que no pueden ser convertidos. Para esto usamos el argumento errors= y le pasamos una de 3 opciones:

1. 'ignore': Cuando encontremos un dato que no pueda ser convertido, simplemente regresamos el dato original (lo cual no queremos porque al final de cuenta el tipo de dato de la Serie va a ser object).
1. 'raise': Cuando no podamos convertir un dato, lancemos un error (esto es justo lo que acaba de suceder).
1. 'coerce': Cuando no podamos un convertir un dato, lo convertimos a NaN y continuamos con la conversión.
Vamos a usar coerce:

In [93]:
pd.to_numeric(df['rank.numberInt'], errors='coerce')

0        2.0
1        3.0
2        4.0
3        5.0
5        7.0
        ... 
3027     8.0
3028     9.0
3029    11.0
3030    13.0
3031    14.0
Name: rank.numberInt, Length: 2266, dtype: float64

Esto está mucho mejor. Hemos obtenido una Serie con tipo de dato float64. Ya es un dato numérico, aunque esta columna claramente debería de ser int64. Lo que podemos hacer ahora que tenemos NaNs, es limpiar los NaNs y convertir a int los valores restantes. Primero, reasignamos nuestra columna:

In [94]:
df['rank.numberInt'] = pd.to_numeric(df['rank.numberInt'], errors='coerce')

Ahora, limpiamos los NaNs:

In [95]:
df = df.dropna(axis=0)

Ahora reseteamos el índice:

In [96]:
df = df.reset_index(drop=True)

Y para finalizar, realizamos ahora sí la conversión a int:

In [97]:
df['rank.numberInt'] =df['rank.numberInt'].astype(int)

Veamos el resultado:

In [98]:
df.dtypes

amazon_product_url              object
author                          object
description                     object
publisher                       object
title                           object
oid                             object
bestsellers_date.numberLong     object
published_date.numberLong        int64
rank.numberInt                   int32
rank_last_week.numberInt         int32
weeks_on_list.numberInt          int32
price.numberDouble             float64
dtype: object

Vamos a ver ahora qué onda con las fechas.

Datetime64

No hemos todavía hablado acerca del tipo de dato datetime64. Este tipo de dato, como su nombre lo indica, sirve para trabajar con fechas y horarios. En este módulo no vamos a trabajar a detalle con datetime64, pero es importante que sepas que utilizando objectos de este tipo puedes manipular fechas y horarios con muchísima flexibilidad (aquí puedes ver la documentación). Por lo pronto vamos a aprender simplemente cómo transformar datos en tipo datetime64. Esto puede lograrse muy fácilmente con el método to_datetime de pandas.

Es importante observar que hay dos tipos diferentes de fechas en nuestro DataFrame:

In [99]:
df

Unnamed: 0,amazon_product_url,author,description,publisher,title,oid,bestsellers_date.numberLong,published_date.numberLong,rank.numberInt,rank_last_week.numberInt,weeks_on_list.numberInt,price.numberDouble
0,http://www.amazon.com/The-Host-Novel-Stephenie...,Stephenie Meyer,Descr: Aliens have taken control of the minds ...,"Little, Brown",THE HOST,5b4aa4ead3089013507db18c,2008-05-24 00:00:00,1212883200000,2,1,3,25.99
1,http://www.amazon.com/Love-Youre-With-Emily-Gi...,Emily Giffin,Descr: A woman's happy marriage is shaken when...,St. Martin's,LOVE THE ONE YOU'RE WITH,5b4aa4ead3089013507db18d,2008-05-24 00:00:00,1212883200000,3,2,2,24.95
2,http://www.amazon.com/The-Front-Garano-Patrici...,Patricia Cornwell,Descr: A Massachusetts state investigator and ...,Putnam,THE FRONT,5b4aa4ead3089013507db18e,2008-05-24 00:00:00,1212883200000,4,0,1,22.95
3,http://www.amazon.com/Snuff-Chuck-Palahniuk/dp...,Chuck Palahniuk,Descr: An aging porn queens aims to cap her ca...,Doubleday,SNUFF,5b4aa4ead3089013507db18f,2008-05-24 00:00:00,1212883200000,5,0,1,24.95
4,http://www.amazon.com/Phantom-Prey-John-Sandfo...,John Sandford,Descr: The Minneapolis detective Lucas Davenpo...,Putnam,PHANTOM PREY,5b4aa4ead3089013507db191,2008-05-24 00:00:00,1212883200000,7,4,3,26.95
...,...,...,...,...,...,...,...,...,...,...,...,...
2041,http://www.amazon.com/Unintended-Consequences-...,Stuart Woods,Descr: The New York lawyer Stone Barrington di...,Putnam,UNINTENDED CONSEQUENCES,5b4aa4ead3089013507dc592,2013-04-20 00:00:00,1367712000000,8,4,2,26.95
2042,http://www.amazon.com/Six-Years-Harlan-Coben/d...,Harlan Coben,Descr: Jake Fisher discovers that neither the ...,Dutton,SIX YEARS,5b4aa4ead3089013507dc593,2013-04-20 00:00:00,1367712000000,9,8,5,27.95
2043,http://www.amazon.com/The-Interestings-Novel-M...,Meg Wolitzer,Descr: Six friends meet in the 1970s at a summ...,Riverhead,THE INTERESTINGS,5b4aa4ead3089013507dc595,2013-04-20 00:00:00,1367712000000,11,11,2,27.95
2044,http://www.amazon.com/Man-Without-Breath-Berni...,Philip Kerr,"Descr: Bernie Gunther, the Berlin cop, is sent...",Marian Wood/Putnam,A MAN WITHOUT BREATH,5b4aa4ead3089013507dc597,2013-04-20 00:00:00,1367712000000,13,0,1,26.95


bestsellers_date.numberLong (que además tiene un pésimo nombre) es una string que representa la fecha junto con hora, minutos y segundos (aunque estos últimos están en ceros). published_date.numberLong es un int que representa el número de milisegundos que han transcurrido desde "la Época". La "Época" es la medianoche UTC del 1 de enero de 1970, y si quieres saber por qué a veces contamos el tiempo a partir de esa fecha puedes ir aquí para aprender sobre Tiempo Unix. Ambos pueden ser convertidos a datetime64 usando el mismo método. Para bestsellers_date.numberLong es tan sencillo como hacer lo siguiente:

In [100]:
pd.to_datetime(df['bestsellers_date.numberLong'])

0      2008-05-24
1      2008-05-24
2      2008-05-24
3      2008-05-24
4      2008-05-24
          ...    
2041   2013-04-20
2042   2013-04-20
2043   2013-04-20
2044   2013-04-20
2045   2013-04-20
Name: bestsellers_date.numberLong, Length: 2046, dtype: datetime64[ns]

Si intentamos convertir published_date.numberLong obtenemos el siguiente resultado:

In [101]:
pd.to_datetime(df['published_date.numberLong'])

0      1970-01-01 00:20:12.883200
1      1970-01-01 00:20:12.883200
2      1970-01-01 00:20:12.883200
3      1970-01-01 00:20:12.883200
4      1970-01-01 00:20:12.883200
                  ...            
2041   1970-01-01 00:22:47.712000
2042   1970-01-01 00:22:47.712000
2043   1970-01-01 00:22:47.712000
2044   1970-01-01 00:22:47.712000
2045   1970-01-01 00:22:47.712000
Name: published_date.numberLong, Length: 2046, dtype: datetime64[ns]

Ok, eso está un poco raro... ¿1970? Lo que está sucediendo es que pandas no está seguro de cuál es la unidad que estamos usando. El default es asumir que la fecha está representada en 'nanosegundos' desde "la Época", pero la fecha que nosotros tenemos está en milisegundos. Vamos a darle esa información a pandas de manera explícita:

In [102]:
pd.to_datetime(df['published_date.numberLong'], unit='ms')

0      2008-06-08
1      2008-06-08
2      2008-06-08
3      2008-06-08
4      2008-06-08
          ...    
2041   2013-05-05
2042   2013-05-05
2043   2013-05-05
2044   2013-05-05
2045   2013-05-05
Name: published_date.numberLong, Length: 2046, dtype: datetime64[ns]

Ahora vamos a asignar los resultados a nuestro DataFrame:



In [103]:
df['published_date.numberLong'] = pd.to_datetime(df['published_date.numberLong'])
df['published_date.numberLong'] = pd.to_datetime(df['published_date.numberLong'], unit='ms')

In [25]:
df.dtypes

amazon_product_url              object
author                          object
description                     object
publisher                       object
title                           object
oid                             object
bestsellers_date.numberLong     object
published_date.numberLong        int64
rank.numberInt                  object
rank_last_week.numberInt         int32
weeks_on_list.numberInt          int32
price.numberDouble             float64
dtype: object

In [104]:
diccionario_renombramiento = {
    'bestsellers_date.numberLong':'bestsellers_date',
    'published_date.numberLong':'published_date',
    'rank.numberInt':'rank',
    'rank_last_week.numberInt':'rank_last_week',
    'weeks_on_list.numberInt':'weeks_on_list',
    'price.numberDoble':'price'
}

df=df.rename(columns=diccionario_renombramiento)

## Manipulación de strings  

Las strings son un bicho raro y requieren a veces de mucho trabajo para ser limpiadas y estructuradas de manera que resulten útiles para nuestros análisis. Es por eso que hay toda una serie de herramientas especializadas en trabajar con strings. Vamos a conocer algunas de ellas en este momento.

replace y strip

Comencemos viendo qué hay dentro de nuestra columna description:




In [105]:
df['description']

0       Descr: Aliens have taken control of the minds ...
1       Descr: A woman's happy marriage is shaken when...
2       Descr: A Massachusetts state investigator and ...
3       Descr: An aging porn queens aims to cap her ca...
4       Descr: The Minneapolis detective Lucas Davenpo...
                              ...                        
2041    Descr: The New York lawyer Stone Barrington di...
2042    Descr: Jake Fisher discovers that neither the ...
2043    Descr: Six friends meet in the 1970s at a summ...
2044    Descr: Bernie Gunther, the Berlin cop, is sent...
2045    Descr: A New Hampshire baker finds herself in ...
Name: description, Length: 2046, dtype: object

Todas las strings comienzan con el texto 'Descr:' que es en realidad bastante redundante puesto que pertenecen a la columna description. Podemos remover esa parte del texto usando el método replace de la propiedad str de nuestra Serie. Dentro de la propiedad str podemos encontrar muchos métodos que sirven para realizar manipulación de strings en nuestras Series. El método replace recibe la secuencia de caracteres que queremos buscar en nuestras strings y también la secuencia de caracteres que queremos usar para reemplazarla. En este caso, vamos a reemplazar 'Descr:' por una string vacía (''):

In [106]:
df['description'].str.replace('Descr:','')

0        Aliens have taken control of the minds and bo...
1        A woman's happy marriage is shaken when she e...
2        A Massachusetts state investigator and his te...
3        An aging porn queens aims to cap her career b...
4        The Minneapolis detective Lucas Davenport inv...
                              ...                        
2041     The New York lawyer Stone Barrington discover...
2042     Jake Fisher discovers that neither the woman ...
2043     Six friends meet in the 1970s at a summer art...
2044     Bernie Gunther, the Berlin cop, is sent to Sm...
2045     A New Hampshire baker finds herself in the mi...
Name: description, Length: 2046, dtype: object

Tan fácil como eso. Recuerda siempre reasignar tu resultado para modificar el DataFrame original:

In [107]:
df['description']=df['description'].str.replace('Descr:','')

Revisemos una sola de nuestras strings para ver si ya tienen el formato adecuado:

In [108]:
df.loc[0,'description']

' Aliens have taken control of the minds and bodies of most humans, but one woman won’t surrender.     '

Interesante... Parece ser que hay espacios vacíos al principio y al final de la string. Obviamente no queremos eso. Afortunadamente, str también ofrece un método para remover espacios vacíos al principio y al final de una string:

In [109]:
df['description']=df['description'].str.strip()

Veamos ahora la string que revisamos anteriormente:

In [110]:
df.loc[0,'description']

'Aliens have taken control of the minds and bodies of most humans, but one woman won’t surrender.'

Perfecto. La columna 'description' está lista.

title, upper, lower

Los métodos title, upper y lower pueden ser utilizados para modificar el patrón de mayúsculas y minúsculas en una string. title convierte a mayúsculas la primera letra de cada palabra y a minúsculas el resto; upper convierte todo a mayúsculas; y lower todo a minúsculas.

Tenemos una columna llamada "title" que tiene los títulos de nuestros libros. Pero los títulos están todos en mayúsculas:

In [111]:
df['title']

0                       THE HOST
1       LOVE THE ONE YOU'RE WITH
2                      THE FRONT
3                          SNUFF
4                   PHANTOM PREY
                  ...           
2041     UNINTENDED CONSEQUENCES
2042                   SIX YEARS
2043            THE INTERESTINGS
2044        A MAN WITHOUT BREATH
2045             THE STORYTELLER
Name: title, Length: 2046, dtype: object

In [112]:
df['title'].str.title()

0                       The Host
1       Love The One You'Re With
2                      The Front
3                          Snuff
4                   Phantom Prey
                  ...           
2041     Unintended Consequences
2042                   Six Years
2043            The Interestings
2044        A Man Without Breath
2045             The Storyteller
Name: title, Length: 2046, dtype: object

Asignemos nuestra nueva Serie al DataFrame original y estamos listos:

In [113]:
df['title']=df['title'].str.title()

---

split

Hay veces que tienes una string y lo que quieres hacer es dividirla en varias partes. Para dividir una string tienes que saber cuál es el "separador" o "delimitador" que será usado para realizar la división. Cada vez que dicho "separador" es encontrado, la string se separa en ese punto específico y la parte anterior y posterior al "separador" se vuelven independientes. Esto puede suceder una vez o múltiples veces a través de la string. Una vez que todas las divisiones se realizan, se regresa una lista que contiene todas las partes segmentadas.

Digamos que queremos separar la columna author en dos columnas: autor_first_name y author_last_name. La columna author tiene todos los datos que queremos (el primer nombre y el apellido). El separador en este caso es un espacio vacío, ya que es lo que está dividiendo el primer nombre del apellido. Podríamos entonces separar estos nombres en dos usando el método split:

---

In [114]:
df['author']

0         Stephenie Meyer
1            Emily Giffin
2       Patricia Cornwell
3         Chuck Palahniuk
4           John Sandford
              ...        
2041         Stuart Woods
2042         Harlan Coben
2043         Meg Wolitzer
2044          Philip Kerr
2045         Jodi Picoult
Name: author, Length: 2046, dtype: object

In [115]:
df['author'].str.split('\\s')

0         [Stephenie, Meyer]
1            [Emily, Giffin]
2       [Patricia, Cornwell]
3         [Chuck, Palahniuk]
4           [John, Sandford]
                ...         
2041         [Stuart, Woods]
2042         [Harlan, Coben]
2043         [Meg, Wolitzer]
2044          [Philip, Kerr]
2045         [Jodi, Picoult]
Name: author, Length: 2046, dtype: object

Usamos el identificador regex \s que significa "espacios vacíos" para encontrar todos los espacios vacíos y separar la string a partir de los hallazgos. Como puedes ver, obtenemos una Serie cuyos valores son strings con formato de listas que contienen los dos valores obtenidos a partir de la separación. Para obtener dos columnas que contengan esos valores, en vez de una sola, podemos usar la bandera expand=True:

In [116]:
df['author'].str.split('\\s',expand=True)

Unnamed: 0,0,1
0,Stephenie,Meyer
1,Emily,Giffin
2,Patricia,Cornwell
3,Chuck,Palahniuk
4,John,Sandford
...,...,...
2041,Stuart,Woods
2042,Harlan,Coben
2043,Meg,Wolitzer
2044,Philip,Kerr


In [117]:
df2 = df.copy()

In [118]:
df2['author'] =df2['author'].str.replace(' ',',')

In [119]:
df2['author']

0         Stephenie,Meyer
1            Emily,Giffin
2       Patricia,Cornwell
3         Chuck,Palahniuk
4           John,Sandford
              ...        
2041         Stuart,Woods
2042         Harlan,Coben
2043         Meg,Wolitzer
2044          Philip,Kerr
2045         Jodi,Picoult
Name: author, Length: 2046, dtype: object

In [120]:
df2['author'].str.split(',',expand=True)

Unnamed: 0,0,1
0,Stephenie,Meyer
1,Emily,Giffin
2,Patricia,Cornwell
3,Chuck,Palahniuk
4,John,Sandford
...,...,...
2041,Stuart,Woods
2042,Harlan,Coben
2043,Meg,Wolitzer
2044,Philip,Kerr


In [121]:
df2[['firstname','lastname']]=df2['author'].str.split(',',expand=True)

In [122]:
df2.head()

Unnamed: 0,amazon_product_url,author,description,publisher,title,oid,bestsellers_date,published_date,rank,rank_last_week,weeks_on_list,price.numberDouble,firstname,lastname
0,http://www.amazon.com/The-Host-Novel-Stephenie...,"Stephenie,Meyer",Aliens have taken control of the minds and bod...,"Little, Brown",The Host,5b4aa4ead3089013507db18c,2008-05-24 00:00:00,1970-01-01 00:20:12.883200,2,1,3,25.99,Stephenie,Meyer
1,http://www.amazon.com/Love-Youre-With-Emily-Gi...,"Emily,Giffin",A woman's happy marriage is shaken when she en...,St. Martin's,Love The One You'Re With,5b4aa4ead3089013507db18d,2008-05-24 00:00:00,1970-01-01 00:20:12.883200,3,2,2,24.95,Emily,Giffin
2,http://www.amazon.com/The-Front-Garano-Patrici...,"Patricia,Cornwell",A Massachusetts state investigator and his tea...,Putnam,The Front,5b4aa4ead3089013507db18e,2008-05-24 00:00:00,1970-01-01 00:20:12.883200,4,0,1,22.95,Patricia,Cornwell
3,http://www.amazon.com/Snuff-Chuck-Palahniuk/dp...,"Chuck,Palahniuk",An aging porn queens aims to cap her career by...,Doubleday,Snuff,5b4aa4ead3089013507db18f,2008-05-24 00:00:00,1970-01-01 00:20:12.883200,5,0,1,24.95,Chuck,Palahniuk
4,http://www.amazon.com/Phantom-Prey-John-Sandfo...,"John,Sandford",The Minneapolis detective Lucas Davenport inve...,Putnam,Phantom Prey,5b4aa4ead3089013507db191,2008-05-24 00:00:00,1970-01-01 00:20:12.883200,7,4,3,26.95,John,Sandford


## Aplicando funciones y mappeos a nuestro DataFrame
Otra manera de transformar nuestros datos es usando funciones y mappeos. ¿Recuerdas la función map? ¿Y las funciones vectorizadas? Bueno, pues eso era tansformación de datos. Ahora vamos a ver un par de métodos que permiten transformar datos aplicando mapas o funciones custom.

map

map es un método de Series que sirve para sustituir un valor con otro valor. Hay dos maneras de especificar la sustitución: usando un "mapa" o usando una función. Un "mapa" es básicamente un diccionario que "mappea" de un valor a otro valor. Entra un valor (la "llave") y sale otro valor (el "valor" que corresponde a dicha "llave"). Por ejemplo, digamos que queremos mappear los valores de la columna 'rank' de ints a letras. En la vida real esto tal vez no sería la mejor idea, pero es un ejemplo de juguete.

Primero tenemos que ver qué valores tenemos en esa columna:

In [124]:
df['rank'].unique()

array([ 2,  3,  4,  5,  7,  8,  9, 10, 12, 13, 14,  6, 11, 15,  1, 16])

Usando el agregador unique podemos ver todos los valores únicos que tenemo en esa columna. Ahora vamos a crear nuestro mapa:

In [125]:
int_a_letra = {
    1: 'a',
    2: 'b',
    3: 'c',
    4: 'd',
    5: 'e',
    6: 'f',
    7: 'g',
    8: 'h',
    9: 'i',
    10: 'j',
    11: 'k',
    12: 'l',
    13: 'm',
    14: 'n',
    15: 'o',
    16: 'p'
}

Ahora usemos el método map para transformar nuestros datos:

In [127]:
df['rank'].map(int_a_letra).head(20)

0     b
1     c
2     d
3     e
4     g
5     h
6     i
7     j
8     l
9     m
10    n
11    d
12    f
13    g
14    h
15    i
16    j
17    k
18    l
19    m
Name: rank, dtype: object

También podemos usar una función para map. Por ejemplo esta función que realiza una correspondencia entre el precio de un libro y su representación en string:

In [128]:
def double_to_money(value):
    
    return f'${value} USD'

In [131]:
df['price.numberDouble'].map(double_to_money)

0       $25.99 USD
1       $24.95 USD
2       $22.95 USD
3       $24.95 USD
4       $26.95 USD
           ...    
2041    $26.95 USD
2042    $27.95 USD
2043    $27.95 USD
2044    $26.95 USD
2045    $28.99 USD
Name: price.numberDouble, Length: 2046, dtype: object

In [132]:
def funcion_int_a_letra(int_):
    if int_ == 1: return 'a'
    elif int_ == 2: return 'b'
    elif int_ == 3: return 'c'
    elif int_ == 4: return 'd'
    elif int_ == 5: return 'e'
    elif int_ == 6: return 'f'
    elif int_ == 7: return 'g'
    elif int_ == 8: return 'h'
    elif int_ == 9: return 'i'
    elif int_ == 10: return 'j'
    elif int_ == 11: return 'k'
    elif int_ == 12: return 'l'
    elif int_ == 13: return 'm'
    elif int_ == 14: return 'n' 
    elif int_ == 15: return 'o'
    elif int_ == 16: return 'p'

In [133]:
df['rank'] = df['rank'].map(funcion_int_a_letra)

In [134]:
df.head()

Unnamed: 0,amazon_product_url,author,description,publisher,title,oid,bestsellers_date,published_date,rank,rank_last_week,weeks_on_list,price.numberDouble
0,http://www.amazon.com/The-Host-Novel-Stephenie...,Stephenie Meyer,Aliens have taken control of the minds and bod...,"Little, Brown",The Host,5b4aa4ead3089013507db18c,2008-05-24 00:00:00,1970-01-01 00:20:12.883200,b,1,3,25.99
1,http://www.amazon.com/Love-Youre-With-Emily-Gi...,Emily Giffin,A woman's happy marriage is shaken when she en...,St. Martin's,Love The One You'Re With,5b4aa4ead3089013507db18d,2008-05-24 00:00:00,1970-01-01 00:20:12.883200,c,2,2,24.95
2,http://www.amazon.com/The-Front-Garano-Patrici...,Patricia Cornwell,A Massachusetts state investigator and his tea...,Putnam,The Front,5b4aa4ead3089013507db18e,2008-05-24 00:00:00,1970-01-01 00:20:12.883200,d,0,1,22.95
3,http://www.amazon.com/Snuff-Chuck-Palahniuk/dp...,Chuck Palahniuk,An aging porn queens aims to cap her career by...,Doubleday,Snuff,5b4aa4ead3089013507db18f,2008-05-24 00:00:00,1970-01-01 00:20:12.883200,e,0,1,24.95
4,http://www.amazon.com/Phantom-Prey-John-Sandfo...,John Sandford,The Minneapolis detective Lucas Davenport inve...,Putnam,Phantom Prey,5b4aa4ead3089013507db191,2008-05-24 00:00:00,1970-01-01 00:20:12.883200,g,4,3,26.95


Lo único que tienes que pensar al usar map es: "¿Este dato tiene una correspondencia con otro dato que pueda representar con un diccionario o una función?". Y listo.

**apply**

También podemos usar la función apply para aplicar una función a una Serie o a un DataFrame. Si la aplicamos a una Serie, podemos aplicar una función "elemento por elemento" o como agregación. Si la aplicamos a un DataFrame podemos elegir si aplicarla a través del axis 0 (aplicar la función a cada columna) o a través del axis 1(a cada fila).

In [135]:
df.apply(lambda x: x['oid'] + x['author'], axis=1)

0         5b4aa4ead3089013507db18cStephenie Meyer
1            5b4aa4ead3089013507db18dEmily Giffin
2       5b4aa4ead3089013507db18ePatricia Cornwell
3         5b4aa4ead3089013507db18fChuck Palahniuk
4           5b4aa4ead3089013507db191John Sandford
                          ...                    
2041         5b4aa4ead3089013507dc592Stuart Woods
2042         5b4aa4ead3089013507dc593Harlan Coben
2043         5b4aa4ead3089013507dc595Meg Wolitzer
2044          5b4aa4ead3089013507dc597Philip Kerr
2045         5b4aa4ead3089013507dc598Jodi Picoult
Length: 2046, dtype: object

Digamos que queremos crear una columna llamada gender_in_description que contenga 'Women' si la palabra 'woman' o 'women' aparece en la columna description; 'Men' si description contiene la palabra 'man' o 'men'; 'Both' si ambos géneros aparecen en description; o 'Neither' si ninguna de estas palabras está contenida en la descripción.

Podríamos generar esa columna aplicando una función custom a la columna description. Primero voy a crear dos objetos regex que sirvan para encontrar las palabras que busco

In [138]:
import re

# Corregido y mejorado
regex_to_find_women = re.compile(r'(^wom[ae]n\s|\swom[ae]n\s|\swom[ae]n\.)', flags=re.IGNORECASE)
regex_to_find_men = re.compile(r'(^m[ae]n\s|\sm[ae]n\s|\sm[ae]n\.)', flags=re.IGNORECASE)

Ahora, voy a crear una función que revise una string y me regrese qué género está presente en dicha string:

In [139]:
def return_gender_in_description(value):

    women_found = False
    men_found = False
    
    if len(regex_to_find_women.findall(value)) > 0:
        women_found = True
    
    if len(regex_to_find_men.findall(value)) > 0:
        men_found = True
        
    if women_found and men_found:
        return 'Both'
    elif women_found:
        return 'Women'
    elif men_found:
        return 'Men'
    else:
        return 'Neither'

Mira qué pasa si aplicamos la función a la columna description (la función se aplica "elemento por elemento" y regresa una Serie de la misma longitud que la Serie original):

In [140]:
df_copy = df.copy()

In [141]:
df['description'].apply(return_gender_in_description)

0         Women
1       Neither
2       Neither
3           Men
4       Neither
         ...   
2041    Neither
2042      Women
2043    Neither
2044    Neither
2045    Neither
Name: description, Length: 2046, dtype: object

Ahora, vamos a asignarla a nuestro DataFrame con el nombre gender_in_description:

In [142]:
df_copy['gender_in_description'] = df['description'].apply(return_gender_in_description)

Podemos revisar si todo salió bien filtrando nuestro DataFrame para obtener las filas donde gender_in_description sea igual a 'Both':

In [143]:
df_copy[df_copy['gender_in_description'] == 'Both']

Unnamed: 0,amazon_product_url,author,description,publisher,title,oid,bestsellers_date,published_date,rank,rank_last_week,weeks_on_list,price.numberDouble,gender_in_description
1308,http://www.amazon.com/The-Priests-Graveyard-Te...,Ted Dekker,A priest and a young woman cross paths as they...,Center Street,The Priest'S Graveyard,5b4aa4ead3089013507dbd73,2011-04-23 00:00:00,1970-01-01 00:21:44.812800,i,0,1,24.99,Both
1496,http://www.amazon.com/The-Best-Me-Nicholas-Spa...,Nicholas Sparks,Twenty-five years after their high school roma...,Grand Central,The Best Of Me,5b4aa4ead3089013507dbf5f,2011-10-15 00:00:00,1970-01-01 00:21:59.932800,a,0,1,25.99,Both
1517,http://www.amazon.com/The-Best-Me-Nicholas-Spa...,Nicholas Sparks,Twenty-five years after their high school roma...,Grand Central,The Best Of Me,5b4aa4ead3089013507dbf89,2011-10-29 00:00:00,1970-01-01 00:22:01.142400,c,1,3,25.99,Both
1532,http://www.amazon.com/The-Best-Me-Nicholas-Spa...,Nicholas Sparks,Twenty-five years after their high school roma...,Grand Central,The Best Of Me,5b4aa4ead3089013507dbfb2,2011-11-12 00:00:00,1970-01-01 00:22:02.352000,d,3,5,25.99,Both
1539,http://www.amazon.com/The-Best-Me-Nicholas-Spa...,Nicholas Sparks,Twenty-five years after their high school roma...,Grand Central,The Best Of Me,5b4aa4ead3089013507dbfc8,2011-11-19 00:00:00,1970-01-01 00:22:02.956800,f,4,6,25.99,Both
1547,http://www.amazon.com/The-Best-Me-Nicholas-Spa...,Nicholas Sparks,Twenty-five years after their high school roma...,Grand Central,The Best Of Me,5b4aa4ead3089013507dbfdd,2011-11-26 00:00:00,1970-01-01 00:22:03.561600,g,6,7,25.99,Both
1553,http://www.amazon.com/The-Best-Me-Nicholas-Spa...,Nicholas Sparks,Twenty-five years after their high school roma...,Grand Central,The Best Of Me,5b4aa4ead3089013507dbff0,2011-12-03 00:00:00,1970-01-01 00:22:04.166400,f,7,8,25.99,Both
1561,http://www.amazon.com/The-Best-Me-Nicholas-Spa...,Nicholas Sparks,Twenty-five years after their high school roma...,Grand Central,The Best Of Me,5b4aa4ead3089013507dc006,2011-12-10 00:00:00,1970-01-01 00:22:04.771200,h,6,9,25.99,Both
1568,http://www.amazon.com/The-Best-Me-Nicholas-Spa...,Nicholas Sparks,Twenty-five years after their high school roma...,Grand Central,The Best Of Me,5b4aa4ead3089013507dc018,2011-12-17 00:00:00,1970-01-01 00:22:05.376000,f,8,10,25.99,Both
1582,http://www.amazon.com/The-Best-Me-Nicholas-Spa...,Nicholas Sparks,Twenty-five years after their high school roma...,Grand Central,The Best Of Me,5b4aa4ead3089013507dc041,2011-12-31 00:00:00,1970-01-01 00:22:06.585600,g,6,12,25.99,Both


Y ahora veamos la descripción de una de las filas que debería de tener ambos géneros en la descripción:

In [144]:
df_copy.loc[1308, 'description']

'A priest and a young woman cross paths as they seek to bring a powerful man to justice.'

## Filtros

Los filtros sirven para filtrar nuestro DataFrame.

Primero, usamos un operador de comparación para realizar una comparación "elemento por elemento" de alguna Serie. Por ejemplo, vamos a ver el filtro que acabamos de usar:

In [147]:
df_copy['gender_in_description'] == 'Both'

0       False
1       False
2       False
3       False
4       False
        ...  
2041    False
2042    False
2043    False
2044    False
2045    False
Name: gender_in_description, Length: 2046, dtype: bool

Al realizar la comparación lo que obtenemos de regreso es una Serie con la misma longitud que la Serie original. La comparación se aplica "elemento por elemento", cuando la comparación es cierta, regresamos True, cuando es false, regresamos False. Entonces lo que obtenemos es una Serie con Trues y Falses que nos indica en qué índices la comparación fue cierta y en cuáles no.

Esta "serie-filtro" podemos guardarla en una variable y luego usarla como filtro para pedirle al DataFrame solamente las filas donde el valor correspondiente sea True:

In [149]:
filtro_both = df_copy['gender_in_description'] == 'Both'

In [151]:
df_copy[filtro_both]

Unnamed: 0,amazon_product_url,author,description,publisher,title,oid,bestsellers_date,published_date,rank,rank_last_week,weeks_on_list,price.numberDouble,gender_in_description
1308,http://www.amazon.com/The-Priests-Graveyard-Te...,Ted Dekker,A priest and a young woman cross paths as they...,Center Street,The Priest'S Graveyard,5b4aa4ead3089013507dbd73,2011-04-23 00:00:00,1970-01-01 00:21:44.812800,i,0,1,24.99,Both
1496,http://www.amazon.com/The-Best-Me-Nicholas-Spa...,Nicholas Sparks,Twenty-five years after their high school roma...,Grand Central,The Best Of Me,5b4aa4ead3089013507dbf5f,2011-10-15 00:00:00,1970-01-01 00:21:59.932800,a,0,1,25.99,Both
1517,http://www.amazon.com/The-Best-Me-Nicholas-Spa...,Nicholas Sparks,Twenty-five years after their high school roma...,Grand Central,The Best Of Me,5b4aa4ead3089013507dbf89,2011-10-29 00:00:00,1970-01-01 00:22:01.142400,c,1,3,25.99,Both
1532,http://www.amazon.com/The-Best-Me-Nicholas-Spa...,Nicholas Sparks,Twenty-five years after their high school roma...,Grand Central,The Best Of Me,5b4aa4ead3089013507dbfb2,2011-11-12 00:00:00,1970-01-01 00:22:02.352000,d,3,5,25.99,Both
1539,http://www.amazon.com/The-Best-Me-Nicholas-Spa...,Nicholas Sparks,Twenty-five years after their high school roma...,Grand Central,The Best Of Me,5b4aa4ead3089013507dbfc8,2011-11-19 00:00:00,1970-01-01 00:22:02.956800,f,4,6,25.99,Both
1547,http://www.amazon.com/The-Best-Me-Nicholas-Spa...,Nicholas Sparks,Twenty-five years after their high school roma...,Grand Central,The Best Of Me,5b4aa4ead3089013507dbfdd,2011-11-26 00:00:00,1970-01-01 00:22:03.561600,g,6,7,25.99,Both
1553,http://www.amazon.com/The-Best-Me-Nicholas-Spa...,Nicholas Sparks,Twenty-five years after their high school roma...,Grand Central,The Best Of Me,5b4aa4ead3089013507dbff0,2011-12-03 00:00:00,1970-01-01 00:22:04.166400,f,7,8,25.99,Both
1561,http://www.amazon.com/The-Best-Me-Nicholas-Spa...,Nicholas Sparks,Twenty-five years after their high school roma...,Grand Central,The Best Of Me,5b4aa4ead3089013507dc006,2011-12-10 00:00:00,1970-01-01 00:22:04.771200,h,6,9,25.99,Both
1568,http://www.amazon.com/The-Best-Me-Nicholas-Spa...,Nicholas Sparks,Twenty-five years after their high school roma...,Grand Central,The Best Of Me,5b4aa4ead3089013507dc018,2011-12-17 00:00:00,1970-01-01 00:22:05.376000,f,8,10,25.99,Both
1582,http://www.amazon.com/The-Best-Me-Nicholas-Spa...,Nicholas Sparks,Twenty-five years after their high school roma...,Grand Central,The Best Of Me,5b4aa4ead3089013507dc041,2011-12-31 00:00:00,1970-01-01 00:22:06.585600,g,6,12,25.99,Both


Para saber cuántas filas regresó el filtro podemos usar el método count:

In [152]:
df_copy[filtro_both].count()

amazon_product_url       15
author                   15
description              15
publisher                15
title                    15
oid                      15
bestsellers_date         15
published_date           15
rank                     15
rank_last_week           15
weeks_on_list            15
price.numberDouble       15
gender_in_description    15
dtype: int64

Podemos ver que hay 15 filas (en cada columna, pero son la misma en todas) donde la gender_in_description es igual a "Both".

No es necesario asignar el filtro a una variable para después pasarlo al operador de indexaciòn del DataFrame. Mira cómo aplicamos otro filtro directamente. Este filtro nos regresa las filas donde el nombre en la columna author_first_name empiece con la letra 'A':

In [158]:
df2[df2['firstname'].str.startswith('A')]



Unnamed: 0,amazon_product_url,author,description,publisher,title,oid,bestsellers_date,published_date,rank,rank_last_week,weeks_on_list,price.numberDouble,firstname,lastname
109,http://www.amazon.com/The-Gargoyle-Andrew-Davi...,"Andrew,Davidson",A hideously burned man is cared for by a sculp...,Doubleday,The Gargoyle,5b4aa4ead3089013507db274,2008-08-09 00:00:00,1970-01-01 00:20:19.536000,14,0,1,25.95,Andrew,Davidson
119,http://www.amazon.com/The-Gargoyle-Andrew-Davi...,"Andrew,Davidson",A hideously burned man is cared for by a sculp...,Doubleday,The Gargoyle,5b4aa4ead3089013507db28a,2008-08-16 00:00:00,1970-01-01 00:20:20.140800,16,14,2,25.95,Andrew,Davidson
126,http://www.amazon.com/The-Gargoyle-Andrew-Davi...,"Andrew,Davidson",A hideously burned man is cared for by a sculp...,Doubleday,The Gargoyle,5b4aa4ead3089013507db29b,2008-08-23 00:00:00,1970-01-01 00:20:20.745600,13,16,3,25.95,Andrew,Davidson
202,http://www.amazon.com/Testimony-A-Novel-Anita-...,"Anita,Shreve",A sex scandal at a Vermont prep school is caug...,"Little, Brown",Testimony,5b4aa4ead3089013507db34a,2008-10-25 00:00:00,1970-01-01 00:20:26.188800,8,0,1,25.99,Anita,Shreve
211,http://www.amazon.com/Testimony-A-Novel-Anita-...,"Anita,Shreve",A sex scandal at a Vermont prep school is caug...,"Little, Brown",Testimony,5b4aa4ead3089013507db35f,2008-11-01 00:00:00,1970-01-01 00:20:26.793600,9,8,2,25.99,Anita,Shreve
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1948,http://www.amazon.com/Twelve-Digital-Edition-V...,"Ayana,Mathis",Fifty-some years in the life of an African-Ame...,Knopf,The Twelve Tribes Of Hattie,5b4aa4ead3089013507dc48e,2013-01-19 00:00:00,1970-01-01 00:22:39.849600,8,7,6,24.95,Ayana,Mathis
1958,http://www.amazon.com/Twelve-Digital-Edition-V...,"Ayana,Mathis",Fifty-some years in the life of an African-Ame...,Knopf,The Twelve Tribes Of Hattie,5b4aa4ead3089013507dc4a4,2013-01-26 00:00:00,1970-01-01 00:22:40.454400,10,8,7,24.95,Ayana,Mathis
1969,http://www.amazon.com/Twelve-Digital-Edition-V...,"Ayana,Mathis",Fifty-some years in the life of an African-Ame...,Knopf,The Twelve Tribes Of Hattie,5b4aa4ead3089013507dc4bc,2013-02-02 00:00:00,1970-01-01 00:22:41.059200,14,10,8,24.95,Ayana,Mathis
1982,http://www.amazon.com/Night-Ranger-John-Wells-...,"Alex,Berenson",The former C.I.A. operative John Wells pitches...,Putnam,The Night Ranger,5b4aa4ead3089013507dc4e0,2013-02-16 00:00:00,1970-01-01 00:22:42.268800,10,0,1,27.95,Alex,Berenson


Y este filtro nos regresa todas las filas donde el valor de la columna price sea mayor a 20:

In [165]:
df[df['price.numberDouble']> 20]

Unnamed: 0,amazon_product_url,author,description,publisher,title,oid,bestsellers_date,published_date,rank,rank_last_week,weeks_on_list,price.numberDouble
0,http://www.amazon.com/The-Host-Novel-Stephenie...,Stephenie Meyer,Aliens have taken control of the minds and bod...,"Little, Brown",The Host,5b4aa4ead3089013507db18c,2008-05-24 00:00:00,1970-01-01 00:20:12.883200,b,1,3,25.99
1,http://www.amazon.com/Love-Youre-With-Emily-Gi...,Emily Giffin,A woman's happy marriage is shaken when she en...,St. Martin's,Love The One You'Re With,5b4aa4ead3089013507db18d,2008-05-24 00:00:00,1970-01-01 00:20:12.883200,c,2,2,24.95
2,http://www.amazon.com/The-Front-Garano-Patrici...,Patricia Cornwell,A Massachusetts state investigator and his tea...,Putnam,The Front,5b4aa4ead3089013507db18e,2008-05-24 00:00:00,1970-01-01 00:20:12.883200,d,0,1,22.95
3,http://www.amazon.com/Snuff-Chuck-Palahniuk/dp...,Chuck Palahniuk,An aging porn queens aims to cap her career by...,Doubleday,Snuff,5b4aa4ead3089013507db18f,2008-05-24 00:00:00,1970-01-01 00:20:12.883200,e,0,1,24.95
4,http://www.amazon.com/Phantom-Prey-John-Sandfo...,John Sandford,The Minneapolis detective Lucas Davenport inve...,Putnam,Phantom Prey,5b4aa4ead3089013507db191,2008-05-24 00:00:00,1970-01-01 00:20:12.883200,g,4,3,26.95
...,...,...,...,...,...,...,...,...,...,...,...,...
2041,http://www.amazon.com/Unintended-Consequences-...,Stuart Woods,The New York lawyer Stone Barrington discovers...,Putnam,Unintended Consequences,5b4aa4ead3089013507dc592,2013-04-20 00:00:00,1970-01-01 00:22:47.712000,h,4,2,26.95
2042,http://www.amazon.com/Six-Years-Harlan-Coben/d...,Harlan Coben,Jake Fisher discovers that neither the woman h...,Dutton,Six Years,5b4aa4ead3089013507dc593,2013-04-20 00:00:00,1970-01-01 00:22:47.712000,i,8,5,27.95
2043,http://www.amazon.com/The-Interestings-Novel-M...,Meg Wolitzer,Six friends meet in the 1970s at a summer arts...,Riverhead,The Interestings,5b4aa4ead3089013507dc595,2013-04-20 00:00:00,1970-01-01 00:22:47.712000,k,11,2,27.95
2044,http://www.amazon.com/Man-Without-Breath-Berni...,Philip Kerr,"Bernie Gunther, the Berlin cop, is sent to Smo...",Marian Wood/Putnam,A Man Without Breath,5b4aa4ead3089013507dc597,2013-04-20 00:00:00,1970-01-01 00:22:47.712000,m,0,1,26.95


Si eres observador, ya te habrás percatado de que hay libros repetidos en nuestros filtros. Esto significa que hay múltiples entradas por libro en nuestro conjunto de datos. Algo que podríamos hacer (en otro momento) sería eliminar los libros duplicados.

Lo último que vamos a ver nos sirve para plantearnos la siguiente pregunta: Si tengo todos los libros con un precio mayor a 20, ¿cuál es el libro más caro de todos?

`sort`

Una de las maneras en las que podríamos responder esta pregunta es filtrando nuestro `DataFrame` para obtener los libros cuyo precio sea mayor a 20 y después ordenarlos del mayor valor al menor valor en `price` (es decir, en orden descendente). Si hacemos esto, la primera fila de nuestro `DataFrame` resultante va a contener el libro más caro de todos:

In [166]:
df[df['price.numberDouble'] > 20].sort_values('price.numberDouble', ascending=False)

Unnamed: 0,amazon_product_url,author,description,publisher,title,oid,bestsellers_date,published_date,rank,rank_last_week,weeks_on_list,price.numberDouble
1548,http://www.amazon.com/1Q84-Haruki-Murakami-ebo...,Haruki Murakami,"In 1980s Tokyo, a woman who punishes perpetrat...",Knopf,1Q84,5b4aa4ead3089013507dbfe2,2011-11-26 00:00:00,1970-01-01 00:22:03.561600,l,10,5,30.50
1578,http://www.amazon.com/1Q84-Haruki-Murakami-ebo...,Haruki Murakami,"In 1980s Tokyo, a woman who punishes perpetrat...",Knopf,1Q84,5b4aa4ead3089013507dc032,2011-12-24 00:00:00,1970-01-01 00:22:05.980800,l,12,9,30.50
1564,http://www.amazon.com/1Q84-Haruki-Murakami-ebo...,Haruki Murakami,"In 1980s Tokyo, a woman who punishes perpetrat...",Knopf,1Q84,5b4aa4ead3089013507dc00b,2011-12-10 00:00:00,1970-01-01 00:22:04.771200,m,11,7,30.50
1541,http://www.amazon.com/1Q84-Haruki-Murakami-ebo...,Haruki Murakami,"In 1980s Tokyo, a woman who punishes perpetrat...",Knopf,1Q84,5b4aa4ead3089013507dbfcc,2011-11-19 00:00:00,1970-01-01 00:22:02.956800,j,6,4,30.50
1571,http://www.amazon.com/1Q84-Haruki-Murakami-ebo...,Haruki Murakami,"In 1980s Tokyo, a woman who punishes perpetrat...",Knopf,1Q84,5b4aa4ead3089013507dc01e,2011-12-17 00:00:00,1970-01-01 00:22:05.376000,l,13,8,30.50
...,...,...,...,...,...,...,...,...,...,...,...,...
1092,http://www.amazon.com/Squirrel-Seeks-Chipmunk-...,David Sedaris,The humorist looks at human nature through sto...,"Little, Brown",Squirrel Seeks Chipmunk,5b4aa4ead3089013507dbb6b,2010-10-24 00:00:00,1970-01-01 00:21:29.088000,i,8,4,21.99
1063,http://www.amazon.com/Squirrel-Seeks-Chipmunk-...,David Sedaris,The humorist looks at human nature through sto...,Little Brown,Squirrel Seeks Chipmunk,5b4aa4ead3089013507dbb2b,2010-10-03 00:00:00,1970-01-01 00:21:27.273600,e,0,1,21.99
1075,http://www.amazon.com/Squirrel-Seeks-Chipmunk-...,David Sedaris,The humorist looks at human nature through sto...,"Little, Brown",Squirrel Seeks Chipmunk,5b4aa4ead3089013507dbb40,2010-10-10 00:00:00,1970-01-01 00:21:27.878400,f,5,2,21.99
1084,http://www.amazon.com/Squirrel-Seeks-Chipmunk-...,David Sedaris,The humorist looks at human nature through sto...,"Little, Brown",Squirrel Seeks Chipmunk,5b4aa4ead3089013507dbb56,2010-10-17 00:00:00,1970-01-01 00:21:28.483200,h,6,3,21.99


Como puedes, esto se logra usando el método sort_values que recibe el nombre de la columna que quieres usar para ordenar tu DataFrame y luego una bandera ascending para indicar si quieres orden "ascendente" o "descendente".

También podríamos ordenar nuestro DataFrame para ver cuáles fueron los 5 libros que se mantuvieron más tiempo en la lista de "best sellers":

In [167]:
df.sort_values('weeks_on_list', ascending=False).head()

Unnamed: 0,amazon_product_url,author,description,publisher,title,oid,bestsellers_date,published_date,rank,rank_last_week,weeks_on_list,price.numberDouble
1459,http://www.amazon.com/The-Help-Kathryn-Stocket...,Kathryn Stockett,A young white woman and two black maids in 196...,Amy Einhorn/Putnam,The Help,5b4aa4ead3089013507dbf07,2011-09-10 00:00:00,1970-01-01 00:21:56.908800,m,9,108,24.95
1451,http://www.amazon.com/The-Help-Kathryn-Stocket...,Kathryn Stockett,A young white woman and two black maids in 196...,Amy Einhorn/Putnam,The Help,5b4aa4ead3089013507dbeef,2011-09-03 00:00:00,1970-01-01 00:21:56.304000,i,8,107,24.95
1440,http://www.amazon.com/The-Help-Kathryn-Stocket...,Kathryn Stockett,A young white woman and two black maids in 196...,Amy Einhorn/Putnam,The Help,5b4aa4ead3089013507dbeda,2011-08-27 00:00:00,1970-01-01 00:21:55.699200,h,4,106,24.95
1428,http://www.amazon.com/The-Help-Kathryn-Stocket...,Kathryn Stockett,A young white woman and two black maids in 196...,Amy Einhorn/Putnam,The Help,5b4aa4ead3089013507dbec2,2011-08-20 00:00:00,1970-01-01 00:21:55.094400,d,11,105,24.95
1424,http://www.amazon.com/The-Help-Kathryn-Stocket...,Kathryn Stockett,A young white woman and two black maids in 196...,Amy Einhorn/Putnam,The Help,5b4aa4ead3089013507dbeb5,2011-08-13 00:00:00,1970-01-01 00:21:54.489600,k,0,104,24.95


¡108 semanas! ¡Felicidades, Kathryn Stockett! Como puedes, el misterio ha sido revelado. Hay una entrada en nuestro DataFrame por cada semana en la que un libro fue "best seller". Es por eso que "The Help" aparece en las 5 primeras entradas: porque no hay ningún otro libro que haya estado más de 104 semanas como "best seller".

