# TRANSFORMACIÓN, FILTRACIÓN Y REORDENAMIENTO

## Introducción

En esta sesión vamos a aprender 3 de las herramientas más importantes que tenemos como Procesadores de Datos: transformación, filtración y ordenamiento. Veremos como convertir tipos de datos a otros tipos de datos, cómo manipular strings y cómo aplicar funciones custom a un DataFrame. También aprendemos a filtrar nuestros datos para crear subconjuntos y a ordenarlos usando índices y columnas para su fácil comprensión.

## Objetivo

- Hacer casting de tipos de datos.
- Manipular strings usando el módulo str.
- Aplicar funciones custom a un DataFrame.
- Aplicar filtros a nuestros datos.
- Ordenar nuestro dataset por columnas.

## Transformación de Datos

Uno de los pasos más importantes en todo este proceso es el de la Transformación de Datos. Transformar datos significa exactamente lo que suena: tomar un dato y convertirlo en otro dato o en otro tipo de dato. La razón por la que necesitamos transformar nuestros datos es porque pocas veces vienen en el formato que lo necesitamos. Ya hemos realizado algunas transformaciones de nuestro dataset, como por ejemplo cuando convertimos NaNs en 0s. El día de hoy aumentaremos las herramientas que tenemos para transformar datos con varias técnicas que son ampliamente utilizadas por los Procesadores de Datos.

**Casting**

Una de las cosas más comunes con la que nos toparemos es la transformación de un tipo de dato a otro tipo de dato. Es muy normal que los datos que obtengamos no estén exactamente en el tipo de dato que necesitamos. En ese caso, es importante entender qué tipo de dato es el que necesitamos y también cómo lograr una transformación exitosa.

Primero que nada, vamos a importar un dataset:

In [43]:
import pandas as pd

In [44]:
df = pd.read_csv('./Dataset/new_york_times_bestsellers-dirty.csv', index_col=0)

In [45]:
df.head()

Unnamed: 0,amazon_product_url,author,description,publisher,title,oid,bestsellers_date.numberLong,published_date.numberLong,rank.numberInt,rank_last_week.numberInt,weeks_on_list.numberInt,price.numberDouble
0,http://www.amazon.com/The-Host-Novel-Stephenie...,Stephenie Meyer,Descr: Aliens have taken control of the minds ...,"Little, Brown",THE HOST,5b4aa4ead3089013507db18c,2008-05-24 00:00:00,1212883200000,2,1,3,25.99
1,http://www.amazon.com/Love-Youre-With-Emily-Gi...,Emily Giffin,Descr: A woman's happy marriage is shaken when...,St. Martin's,LOVE THE ONE YOU'RE WITH,5b4aa4ead3089013507db18d,2008-05-24 00:00:00,1212883200000,3,2,2,24.95
2,http://www.amazon.com/The-Front-Garano-Patrici...,Patricia Cornwell,Descr: A Massachusetts state investigator and ...,Putnam,THE FRONT,5b4aa4ead3089013507db18e,2008-05-24 00:00:00,1212883200000,4,0,1,22.95
3,http://www.amazon.com/Snuff-Chuck-Palahniuk/dp...,Chuck Palahniuk,Descr: An aging porn queens aims to cap her ca...,Doubleday,SNUFF,5b4aa4ead3089013507db18f,2008-05-24 00:00:00,1212883200000,5,0,1,24.95
5,http://www.amazon.com/Phantom-Prey-John-Sandfo...,John Sandford,Descr: The Minneapolis detective Lucas Davenpo...,Putnam,PHANTOM PREY,5b4aa4ead3089013507db191,2008-05-24 00:00:00,1212883200000,7,4,3,26.95


Vamos a observar los tipos de datos de las columnas

In [46]:
df.dtypes

amazon_product_url              object
author                          object
description                     object
publisher                       object
title                           object
oid                             object
bestsellers_date.numberLong     object
published_date.numberLong        int64
rank.numberInt                  object
rank_last_week.numberInt         int64
weeks_on_list.numberInt          int64
price.numberDouble             float64
dtype: object

Hay 3 cosas que llaman mi atención:

1. price.numberDouble es tipo object y debería de ser float.
2. rank.numberInt es tipo object y debería de ser int (como si nombre bien lo dice).
3. bestsellers_date.numberLong y published_date.numberLong son tipo object e int64 respectivamente, mientras que deberían de ser algún tipo de dato de fecha y tiempo.

¿Por qué ha pasado esto?

Veamos cada caso uno por uno.

**astype** 

La manera más sencilla de transformar un dato en otro tipo de dato es usando el método astype. Basta con seleccionar la Serie que quieres transformar, llamar el método y pasarle el tipo de dato final:

In [47]:
df['price.numberDouble'].astype(float)

0       25.99
1       24.95
2       22.95
3       24.95
5       26.95
        ...  
3027    26.95
3028    27.95
3029    27.95
3030    26.95
3031    28.99
Name: price.numberDouble, Length: 2266, dtype: float64

Ahí está nuestra Serie ya convertida a float64 (que si recuerdas es el tipo de datos en pandas equivalente a float de Python). Ahora, para que esa nueva Serie sea parte de nuestro DataFrame tenemos que reasignar el resultado a la columna original:

In [48]:
df_2 = df.copy()


In [49]:
df_2['price.numberDouble'] = df_2['price.numberDouble'].astype(float)


In [50]:
df_2.dtypes

amazon_product_url              object
author                          object
description                     object
publisher                       object
title                           object
oid                             object
bestsellers_date.numberLong     object
published_date.numberLong        int64
rank.numberInt                  object
rank_last_week.numberInt         int64
weeks_on_list.numberInt          int64
price.numberDouble             float64
dtype: object

¡Listo!

Ahora, ¿qué pasa si quisiéramos convertir varias columnas al mismo tiempo? En vez de tener hacer este mismo proceso columna por columna podemos escribir un diccionario que sea un mapa entre las columnas que queremos transformar y el tipo de dato al que queremos transformarlas. Por ejemplo, imaginemos que además de la columna price.numberDouble tenemos otras columnas con los tipos de datos incorrectos. Podríamos hacer algo como esto:

In [51]:
diccionario_casting = {
    'rank_last_week.numberInt':int,
    'weeks_on_list.numberInt' : int,
    'price.numberDouble': float
}

In [52]:
df_2.astype(diccionario_casting)

Unnamed: 0,amazon_product_url,author,description,publisher,title,oid,bestsellers_date.numberLong,published_date.numberLong,rank.numberInt,rank_last_week.numberInt,weeks_on_list.numberInt,price.numberDouble
0,http://www.amazon.com/The-Host-Novel-Stephenie...,Stephenie Meyer,Descr: Aliens have taken control of the minds ...,"Little, Brown",THE HOST,5b4aa4ead3089013507db18c,2008-05-24 00:00:00,1212883200000,2,1,3,25.99
1,http://www.amazon.com/Love-Youre-With-Emily-Gi...,Emily Giffin,Descr: A woman's happy marriage is shaken when...,St. Martin's,LOVE THE ONE YOU'RE WITH,5b4aa4ead3089013507db18d,2008-05-24 00:00:00,1212883200000,3,2,2,24.95
2,http://www.amazon.com/The-Front-Garano-Patrici...,Patricia Cornwell,Descr: A Massachusetts state investigator and ...,Putnam,THE FRONT,5b4aa4ead3089013507db18e,2008-05-24 00:00:00,1212883200000,4,0,1,22.95
3,http://www.amazon.com/Snuff-Chuck-Palahniuk/dp...,Chuck Palahniuk,Descr: An aging porn queens aims to cap her ca...,Doubleday,SNUFF,5b4aa4ead3089013507db18f,2008-05-24 00:00:00,1212883200000,5,0,1,24.95
5,http://www.amazon.com/Phantom-Prey-John-Sandfo...,John Sandford,Descr: The Minneapolis detective Lucas Davenpo...,Putnam,PHANTOM PREY,5b4aa4ead3089013507db191,2008-05-24 00:00:00,1212883200000,7,4,3,26.95
...,...,...,...,...,...,...,...,...,...,...,...,...
3027,http://www.amazon.com/Unintended-Consequences-...,Stuart Woods,Descr: The New York lawyer Stone Barrington di...,Putnam,UNINTENDED CONSEQUENCES,5b4aa4ead3089013507dc592,2013-04-20 00:00:00,1367712000000,8,4,2,26.95
3028,http://www.amazon.com/Six-Years-Harlan-Coben/d...,Harlan Coben,Descr: Jake Fisher discovers that neither the ...,Dutton,SIX YEARS,5b4aa4ead3089013507dc593,2013-04-20 00:00:00,1367712000000,9,8,5,27.95
3029,http://www.amazon.com/The-Interestings-Novel-M...,Meg Wolitzer,Descr: Six friends meet in the 1970s at a summ...,Riverhead,THE INTERESTINGS,5b4aa4ead3089013507dc595,2013-04-20 00:00:00,1367712000000,11,11,2,27.95
3030,http://www.amazon.com/Man-Without-Breath-Berni...,Philip Kerr,"Descr: Bernie Gunther, the Berlin cop, is sent...",Marian Wood/Putnam,A MAN WITHOUT BREATH,5b4aa4ead3089013507dc597,2013-04-20 00:00:00,1367712000000,13,0,1,26.95


In [53]:
df_2 = df_2.astype(diccionario_casting)

In [54]:
df_2['rank.numberInt'].astype(int)

ValueError: invalid literal for int() with base 10: 'No Rank'

In [55]:
df_2['rank.numberInt']

0        2
1        3
2        4
3        5
5        7
        ..
3027     8
3028     9
3029    11
3030    13
3031    14
Name: rank.numberInt, Length: 2266, dtype: object

In [56]:
df_2[df_2['rank.numberInt'] == 'No Rank'].head()

Unnamed: 0,amazon_product_url,author,description,publisher,title,oid,bestsellers_date.numberLong,published_date.numberLong,rank.numberInt,rank_last_week.numberInt,weeks_on_list.numberInt,price.numberDouble
13,http://www.amazon.com/The-Host-Novel-Stephenie...,Stephenie Meyer,Descr: Aliens have taken control of the minds ...,"Little, Brown",THE HOST,5b4aa4ead3089013507db1a0,2008-05-31 00:00:00,1213488000000,No Rank,2,4,25.99
72,http://www.amazon.com/The-Broken-Window-Lincol...,Jeffery Deaver,Descr: Detectives Lincoln Rhyme and Amelia Sac...,Simon & Schuster,THE BROKEN WINDOW,5b4aa4ead3089013507db1fa,2008-06-28 00:00:00,1215907200000,No Rank,8,3,26.95
133,http://www.amazon.com/Fearless-Fourteen-Janet-...,Janet Evanovich,Descr: Stephanie Plum and her boyfriend Joe Mo...,St. Martin’s,FEARLESS FOURTEEN,5b4aa4ead3089013507db25e,2008-08-02 00:00:00,1218931200000,No Rank,9,7,27.95
154,http://www.amazon.com/The-Mercedes-Coffin-Deck...,Faye Kellerman,Descr: Decker and Lazarus investigate cases of...,Morrow,THE MERCEDES COFFIN,5b4aa4ead3089013507db282,2008-08-16 00:00:00,1220140800000,No Rank,0,1,25.95
158,http://www.amazon.com/Foreign-Body-Robin-Cook/...,Robin Cook,Descr: A medical student investigates a rising...,Putnam,FOREIGN BODY,5b4aa4ead3089013507db287,2008-08-16 00:00:00,1220140800000,No Rank,9,2,25.95


Al parecer hay por ahí algunas celdas con el valor 'No Rank' que (obviamente) no pueden ser convertidas a int. Hasta ahora nuestras conversiones habían sido muy sencillas porque nuestros datos se podían transformar fácilmente. Pero cuando hay datos que no pueden ser transformados al tipo que queremos, necesitamos usar otro método.

to_numeric

pandas tiene toda una serie de métodos que están hechos específicamente para hacer conversión (casting) a un tipo de dato. Para convertir datos a datos numéricos tenemos to_numeric. Primero, vamos a ver qué onda con ese dato que no podemos convertir. Vamos a usar un filtro para obtener sólo las filas donde tenemos el valor 'No Rank' (no te preocupes si no entiendes este paso, ¡más adelante en esta misma sesión aprendemos filtros!):

Efectivamente, hay por ahí algunos datos que no pueden ser convertidos a int. Para lograr la conversión podemos usar entonces to_numeric. Llamamos to_numeric de esta forma:


In [57]:
pd.to_numeric(df_2['rank.numberInt'])

ValueError: Unable to parse string "No Rank" at position 11

k... Eso no salió muy bien. Lo que sucede es que tenemos que avisarle a nuestro método qué hacer con los datos que no pueden ser convertidos. Para esto usamos el argumento errors= y le pasamos una de 3 opciones:

1. 'ignore': Cuando encontremos un dato que no pueda ser convertido, simplemente regresamos el dato original (lo cual no queremos porque al final de cuenta el tipo de dato de la Serie va a ser object).
1. 'raise': Cuando no podamos convertir un dato, lancemos un error (esto es justo lo que acaba de suceder).
1. 'coerce': Cuando no podamos un convertir un dato, lo convertimos a NaN y continuamos con la conversión.
Vamos a usar coerce:

In [58]:
pd.to_numeric(df_2['rank.numberInt'], errors='coerce')

0        2.0
1        3.0
2        4.0
3        5.0
5        7.0
        ... 
3027     8.0
3028     9.0
3029    11.0
3030    13.0
3031    14.0
Name: rank.numberInt, Length: 2266, dtype: float64

In [59]:
df_2['rank.numberInt'] = pd.to_numeric(df_2['rank.numberInt'], errors='coerce')

In [60]:
df_2['rank.numberInt'].isna().sum()

220

Ahora, limpiamos los NaNs:

In [61]:
df_2 = df_2.dropna(axis=0)

Ahora reseteamos el índice:

In [62]:
df_2.reset_index(drop=True)

Unnamed: 0,amazon_product_url,author,description,publisher,title,oid,bestsellers_date.numberLong,published_date.numberLong,rank.numberInt,rank_last_week.numberInt,weeks_on_list.numberInt,price.numberDouble
0,http://www.amazon.com/The-Host-Novel-Stephenie...,Stephenie Meyer,Descr: Aliens have taken control of the minds ...,"Little, Brown",THE HOST,5b4aa4ead3089013507db18c,2008-05-24 00:00:00,1212883200000,2.0,1,3,25.99
1,http://www.amazon.com/Love-Youre-With-Emily-Gi...,Emily Giffin,Descr: A woman's happy marriage is shaken when...,St. Martin's,LOVE THE ONE YOU'RE WITH,5b4aa4ead3089013507db18d,2008-05-24 00:00:00,1212883200000,3.0,2,2,24.95
2,http://www.amazon.com/The-Front-Garano-Patrici...,Patricia Cornwell,Descr: A Massachusetts state investigator and ...,Putnam,THE FRONT,5b4aa4ead3089013507db18e,2008-05-24 00:00:00,1212883200000,4.0,0,1,22.95
3,http://www.amazon.com/Snuff-Chuck-Palahniuk/dp...,Chuck Palahniuk,Descr: An aging porn queens aims to cap her ca...,Doubleday,SNUFF,5b4aa4ead3089013507db18f,2008-05-24 00:00:00,1212883200000,5.0,0,1,24.95
4,http://www.amazon.com/Phantom-Prey-John-Sandfo...,John Sandford,Descr: The Minneapolis detective Lucas Davenpo...,Putnam,PHANTOM PREY,5b4aa4ead3089013507db191,2008-05-24 00:00:00,1212883200000,7.0,4,3,26.95
...,...,...,...,...,...,...,...,...,...,...,...,...
2041,http://www.amazon.com/Unintended-Consequences-...,Stuart Woods,Descr: The New York lawyer Stone Barrington di...,Putnam,UNINTENDED CONSEQUENCES,5b4aa4ead3089013507dc592,2013-04-20 00:00:00,1367712000000,8.0,4,2,26.95
2042,http://www.amazon.com/Six-Years-Harlan-Coben/d...,Harlan Coben,Descr: Jake Fisher discovers that neither the ...,Dutton,SIX YEARS,5b4aa4ead3089013507dc593,2013-04-20 00:00:00,1367712000000,9.0,8,5,27.95
2043,http://www.amazon.com/The-Interestings-Novel-M...,Meg Wolitzer,Descr: Six friends meet in the 1970s at a summ...,Riverhead,THE INTERESTINGS,5b4aa4ead3089013507dc595,2013-04-20 00:00:00,1367712000000,11.0,11,2,27.95
2044,http://www.amazon.com/Man-Without-Breath-Berni...,Philip Kerr,"Descr: Bernie Gunther, the Berlin cop, is sent...",Marian Wood/Putnam,A MAN WITHOUT BREATH,5b4aa4ead3089013507dc597,2013-04-20 00:00:00,1367712000000,13.0,0,1,26.95


Y para finalizar, realizamos ahora sí la conversión a int:

In [63]:
df_2['rank.numberInt'] = df_2['rank.numberInt'].astype(int)

In [64]:
df_2.dtypes

amazon_product_url              object
author                          object
description                     object
publisher                       object
title                           object
oid                             object
bestsellers_date.numberLong     object
published_date.numberLong        int64
rank.numberInt                   int32
rank_last_week.numberInt         int32
weeks_on_list.numberInt          int32
price.numberDouble             float64
dtype: object

Vamos a ver ahora qué onda con las fechas.

Datetime64

No hemos todavía hablado acerca del tipo de dato datetime64. Este tipo de dato, como su nombre lo indica, sirve para trabajar con fechas y horarios. En este módulo no vamos a trabajar a detalle con datetime64, pero es importante que sepas que utilizando objectos de este tipo puedes manipular fechas y horarios con muchísima flexibilidad (aquí puedes ver la documentación). Por lo pronto vamos a aprender simplemente cómo transformar datos en tipo datetime64. Esto puede lograrse muy fácilmente con el método to_datetime de pandas.

Es importante observar que hay dos tipos diferentes de fechas en nuestro DataFrame:

In [65]:
df_2

Unnamed: 0,amazon_product_url,author,description,publisher,title,oid,bestsellers_date.numberLong,published_date.numberLong,rank.numberInt,rank_last_week.numberInt,weeks_on_list.numberInt,price.numberDouble
0,http://www.amazon.com/The-Host-Novel-Stephenie...,Stephenie Meyer,Descr: Aliens have taken control of the minds ...,"Little, Brown",THE HOST,5b4aa4ead3089013507db18c,2008-05-24 00:00:00,1212883200000,2,1,3,25.99
1,http://www.amazon.com/Love-Youre-With-Emily-Gi...,Emily Giffin,Descr: A woman's happy marriage is shaken when...,St. Martin's,LOVE THE ONE YOU'RE WITH,5b4aa4ead3089013507db18d,2008-05-24 00:00:00,1212883200000,3,2,2,24.95
2,http://www.amazon.com/The-Front-Garano-Patrici...,Patricia Cornwell,Descr: A Massachusetts state investigator and ...,Putnam,THE FRONT,5b4aa4ead3089013507db18e,2008-05-24 00:00:00,1212883200000,4,0,1,22.95
3,http://www.amazon.com/Snuff-Chuck-Palahniuk/dp...,Chuck Palahniuk,Descr: An aging porn queens aims to cap her ca...,Doubleday,SNUFF,5b4aa4ead3089013507db18f,2008-05-24 00:00:00,1212883200000,5,0,1,24.95
5,http://www.amazon.com/Phantom-Prey-John-Sandfo...,John Sandford,Descr: The Minneapolis detective Lucas Davenpo...,Putnam,PHANTOM PREY,5b4aa4ead3089013507db191,2008-05-24 00:00:00,1212883200000,7,4,3,26.95
...,...,...,...,...,...,...,...,...,...,...,...,...
3027,http://www.amazon.com/Unintended-Consequences-...,Stuart Woods,Descr: The New York lawyer Stone Barrington di...,Putnam,UNINTENDED CONSEQUENCES,5b4aa4ead3089013507dc592,2013-04-20 00:00:00,1367712000000,8,4,2,26.95
3028,http://www.amazon.com/Six-Years-Harlan-Coben/d...,Harlan Coben,Descr: Jake Fisher discovers that neither the ...,Dutton,SIX YEARS,5b4aa4ead3089013507dc593,2013-04-20 00:00:00,1367712000000,9,8,5,27.95
3029,http://www.amazon.com/The-Interestings-Novel-M...,Meg Wolitzer,Descr: Six friends meet in the 1970s at a summ...,Riverhead,THE INTERESTINGS,5b4aa4ead3089013507dc595,2013-04-20 00:00:00,1367712000000,11,11,2,27.95
3030,http://www.amazon.com/Man-Without-Breath-Berni...,Philip Kerr,"Descr: Bernie Gunther, the Berlin cop, is sent...",Marian Wood/Putnam,A MAN WITHOUT BREATH,5b4aa4ead3089013507dc597,2013-04-20 00:00:00,1367712000000,13,0,1,26.95


In [66]:
df_2.dtypes

amazon_product_url              object
author                          object
description                     object
publisher                       object
title                           object
oid                             object
bestsellers_date.numberLong     object
published_date.numberLong        int64
rank.numberInt                   int32
rank_last_week.numberInt         int32
weeks_on_list.numberInt          int32
price.numberDouble             float64
dtype: object

In [67]:
df_2['bestsellers_date.numberLong']

0       2008-05-24 00:00:00
1       2008-05-24 00:00:00
2       2008-05-24 00:00:00
3       2008-05-24 00:00:00
5       2008-05-24 00:00:00
               ...         
3027    2013-04-20 00:00:00
3028    2013-04-20 00:00:00
3029    2013-04-20 00:00:00
3030    2013-04-20 00:00:00
3031    2013-04-20 00:00:00
Name: bestsellers_date.numberLong, Length: 2046, dtype: object

In [68]:
pd.to_datetime(df_2['bestsellers_date.numberLong'])

0      2008-05-24
1      2008-05-24
2      2008-05-24
3      2008-05-24
5      2008-05-24
          ...    
3027   2013-04-20
3028   2013-04-20
3029   2013-04-20
3030   2013-04-20
3031   2013-04-20
Name: bestsellers_date.numberLong, Length: 2046, dtype: datetime64[ns]

In [69]:
df_2['published_date.numberLong']  

0       1212883200000
1       1212883200000
2       1212883200000
3       1212883200000
5       1212883200000
            ...      
3027    1367712000000
3028    1367712000000
3029    1367712000000
3030    1367712000000
3031    1367712000000
Name: published_date.numberLong, Length: 2046, dtype: int64

Si intentamos convertir published_date.numberLong obtenemos el siguiente resultado:


In [70]:
pd.to_datetime(df_2['published_date.numberLong'])

0      1970-01-01 00:20:12.883200
1      1970-01-01 00:20:12.883200
2      1970-01-01 00:20:12.883200
3      1970-01-01 00:20:12.883200
5      1970-01-01 00:20:12.883200
                  ...            
3027   1970-01-01 00:22:47.712000
3028   1970-01-01 00:22:47.712000
3029   1970-01-01 00:22:47.712000
3030   1970-01-01 00:22:47.712000
3031   1970-01-01 00:22:47.712000
Name: published_date.numberLong, Length: 2046, dtype: datetime64[ns]

Ok, eso está un poco raro... ¿1970? Lo que está sucediendo es que pandas no está seguro de cuál es la unidad que estamos usando. El default es asumir que la fecha está representada en 'nanosegundos' desde "la Época", pero la fecha que nosotros tenemos está en milisegundos. Vamos a darle esa información a pandas de manera explícita:

In [71]:
pd.to_datetime(df_2['published_date.numberLong'], unit='ms')

0      2008-06-08
1      2008-06-08
2      2008-06-08
3      2008-06-08
5      2008-06-08
          ...    
3027   2013-05-05
3028   2013-05-05
3029   2013-05-05
3030   2013-05-05
3031   2013-05-05
Name: published_date.numberLong, Length: 2046, dtype: datetime64[ns]

Ahora vamos a asignar los resultados a nuestro DataFrame:

In [72]:
df_2['bestsellers_date.numberLong'] = pd.to_datetime(df_2['bestsellers_date.numberLong'])
df_2['published_date.numberLong'] = pd.to_datetime(df_2['published_date.numberLong'], unit='ms')


In [73]:
df_2.dtypes

amazon_product_url                     object
author                                 object
description                            object
publisher                              object
title                                  object
oid                                    object
bestsellers_date.numberLong    datetime64[ns]
published_date.numberLong      datetime64[ns]
rank.numberInt                          int32
rank_last_week.numberInt                int32
weeks_on_list.numberInt                 int32
price.numberDouble                    float64
dtype: object

In [74]:
df_2.head()

Unnamed: 0,amazon_product_url,author,description,publisher,title,oid,bestsellers_date.numberLong,published_date.numberLong,rank.numberInt,rank_last_week.numberInt,weeks_on_list.numberInt,price.numberDouble
0,http://www.amazon.com/The-Host-Novel-Stephenie...,Stephenie Meyer,Descr: Aliens have taken control of the minds ...,"Little, Brown",THE HOST,5b4aa4ead3089013507db18c,2008-05-24,2008-06-08,2,1,3,25.99
1,http://www.amazon.com/Love-Youre-With-Emily-Gi...,Emily Giffin,Descr: A woman's happy marriage is shaken when...,St. Martin's,LOVE THE ONE YOU'RE WITH,5b4aa4ead3089013507db18d,2008-05-24,2008-06-08,3,2,2,24.95
2,http://www.amazon.com/The-Front-Garano-Patrici...,Patricia Cornwell,Descr: A Massachusetts state investigator and ...,Putnam,THE FRONT,5b4aa4ead3089013507db18e,2008-05-24,2008-06-08,4,0,1,22.95
3,http://www.amazon.com/Snuff-Chuck-Palahniuk/dp...,Chuck Palahniuk,Descr: An aging porn queens aims to cap her ca...,Doubleday,SNUFF,5b4aa4ead3089013507db18f,2008-05-24,2008-06-08,5,0,1,24.95
5,http://www.amazon.com/Phantom-Prey-John-Sandfo...,John Sandford,Descr: The Minneapolis detective Lucas Davenpo...,Putnam,PHANTOM PREY,5b4aa4ead3089013507db191,2008-05-24,2008-06-08,7,4,3,26.95


In [75]:
diccionario_renombramiento = {
    'bestsellers_date.numberLong':'bestsellers_date',
    'published_date.numberLong':'published_date',
    'rank.numberInt':'rank',
    'rank_last_week.numberInt':'rank_last_week',
    'weeks_on_list.numberInt':'weeks_on_list',
    'price.numberDoble':'price'
}

In [76]:
df_2 = df_2.rename(columns=diccionario_renombramiento)    

In [77]:
df_2.head(2)

Unnamed: 0,amazon_product_url,author,description,publisher,title,oid,bestsellers_date,published_date,rank,rank_last_week,weeks_on_list,price.numberDouble
0,http://www.amazon.com/The-Host-Novel-Stephenie...,Stephenie Meyer,Descr: Aliens have taken control of the minds ...,"Little, Brown",THE HOST,5b4aa4ead3089013507db18c,2008-05-24,2008-06-08,2,1,3,25.99
1,http://www.amazon.com/Love-Youre-With-Emily-Gi...,Emily Giffin,Descr: A woman's happy marriage is shaken when...,St. Martin's,LOVE THE ONE YOU'RE WITH,5b4aa4ead3089013507db18d,2008-05-24,2008-06-08,3,2,2,24.95


## Manipulación de strings  

Las strings son un bicho raro y requieren a veces de mucho trabajo para ser limpiadas y estructuradas de manera que resulten útiles para nuestros análisis. Es por eso que hay toda una serie de herramientas especializadas en trabajar con strings. Vamos a conocer algunas de ellas en este momento.

replace y strip

Comencemos viendo qué hay dentro de nuestra columna description:


In [78]:
df_2['description']

0       Descr: Aliens have taken control of the minds ...
1       Descr: A woman's happy marriage is shaken when...
2       Descr: A Massachusetts state investigator and ...
3       Descr: An aging porn queens aims to cap her ca...
5       Descr: The Minneapolis detective Lucas Davenpo...
                              ...                        
3027    Descr: The New York lawyer Stone Barrington di...
3028    Descr: Jake Fisher discovers that neither the ...
3029    Descr: Six friends meet in the 1970s at a summ...
3030    Descr: Bernie Gunther, the Berlin cop, is sent...
3031    Descr: A New Hampshire baker finds herself in ...
Name: description, Length: 2046, dtype: object

Todas las strings comienzan con el texto 'Descr:' que es en realidad bastante redundante puesto que pertenecen a la columna description. Podemos remover esa parte del texto usando el método replace de la propiedad str de nuestra Serie. Dentro de la propiedad str podemos encontrar muchos métodos que sirven para realizar manipulación de strings en nuestras Series. El método replace recibe la secuencia de caracteres que queremos buscar en nuestras strings y también la secuencia de caracteres que queremos usar para reemplazarla. En este caso, vamos a reemplazar 'Descr:' por una string vacía (''):

In [79]:
df_2['description'].str.replace('Descr:', ' ')

0         Aliens have taken control of the minds and b...
1         A woman's happy marriage is shaken when she ...
2         A Massachusetts state investigator and his t...
3         An aging porn queens aims to cap her career ...
5         The Minneapolis detective Lucas Davenport in...
                              ...                        
3027      The New York lawyer Stone Barrington discove...
3028      Jake Fisher discovers that neither the woman...
3029      Six friends meet in the 1970s at a summer ar...
3030      Bernie Gunther, the Berlin cop, is sent to S...
3031      A New Hampshire baker finds herself in the m...
Name: description, Length: 2046, dtype: object

Modificar el cambio en el DataFrame Original

In [80]:
df_2['description'] = df_2['description'].str.replace('Descr:', ' ')

In [81]:
df_2['description']

0         Aliens have taken control of the minds and b...
1         A woman's happy marriage is shaken when she ...
2         A Massachusetts state investigator and his t...
3         An aging porn queens aims to cap her career ...
5         The Minneapolis detective Lucas Davenport in...
                              ...                        
3027      The New York lawyer Stone Barrington discove...
3028      Jake Fisher discovers that neither the woman...
3029      Six friends meet in the 1970s at a summer ar...
3030      Bernie Gunther, the Berlin cop, is sent to S...
3031      A New Hampshire baker finds herself in the m...
Name: description, Length: 2046, dtype: object

In [84]:
df_2.loc[3030,'description']

'  Bernie Gunther, the Berlin cop, is sent to Smolensk to try to pin a massacre on the Russians.\xa0     '

Interesante... Parece ser que hay espacios vacíos al principio y al final de la string. Obviamente no queremos eso. Afortunadamente, str también ofrece un método para remover espacios vacíos al principio y al final de una string:

In [97]:
df_2['description'] = df_2['description'].str.strip()

In [98]:
df_2.loc[3030,'description']

'Bernie Gunther, the Berlin cop, is sent to Smolensk to try to pin a massacre on the Russians.'

title, upper, lower

Los métodos title, upper y lower pueden ser utilizados para modificar el patrón de mayúsculas y minúsculas en una string. title convierte a mayúsculas la primera letra de cada palabra y a minúsculas el resto; upper convierte todo a mayúsculas; y lower todo a minúsculas.

Tenemos una columna llamada "title" que tiene los títulos de nuestros libros. Pero los títulos están todos en mayúsculas:

In [100]:
df_2['title']

0                       THE HOST
1       LOVE THE ONE YOU'RE WITH
2                      THE FRONT
3                          SNUFF
5                   PHANTOM PREY
                  ...           
3027     UNINTENDED CONSEQUENCES
3028                   SIX YEARS
3029            THE INTERESTINGS
3030        A MAN WITHOUT BREATH
3031             THE STORYTELLER
Name: title, Length: 2046, dtype: object

In [101]:
df_2['title'].str.title()

0                       The Host
1       Love The One You'Re With
2                      The Front
3                          Snuff
5                   Phantom Prey
                  ...           
3027     Unintended Consequences
3028                   Six Years
3029            The Interestings
3030        A Man Without Breath
3031             The Storyteller
Name: title, Length: 2046, dtype: object

In [102]:
df_2['title'] = df_2['title'].str.title()

In [103]:
df_2['title']

0                       The Host
1       Love The One You'Re With
2                      The Front
3                          Snuff
5                   Phantom Prey
                  ...           
3027     Unintended Consequences
3028                   Six Years
3029            The Interestings
3030        A Man Without Breath
3031             The Storyteller
Name: title, Length: 2046, dtype: object

In [105]:
df_2['description'].str.upper()

0       ALIENS HAVE TAKEN CONTROL OF THE MINDS AND BOD...
1       A WOMAN'S HAPPY MARRIAGE IS SHAKEN WHEN SHE EN...
2       A MASSACHUSETTS STATE INVESTIGATOR AND HIS TEA...
3       AN AGING PORN QUEENS AIMS TO CAP HER CAREER BY...
5       THE MINNEAPOLIS DETECTIVE LUCAS DAVENPORT INVE...
                              ...                        
3027    THE NEW YORK LAWYER STONE BARRINGTON DISCOVERS...
3028    JAKE FISHER DISCOVERS THAT NEITHER THE WOMAN H...
3029    SIX FRIENDS MEET IN THE 1970S AT A SUMMER ARTS...
3030    BERNIE GUNTHER, THE BERLIN COP, IS SENT TO SMO...
3031    A NEW HAMPSHIRE BAKER FINDS HERSELF IN THE MID...
Name: description, Length: 2046, dtype: object

In [106]:
df_2['description'].str.lower()

0       aliens have taken control of the minds and bod...
1       a woman's happy marriage is shaken when she en...
2       a massachusetts state investigator and his tea...
3       an aging porn queens aims to cap her career by...
5       the minneapolis detective lucas davenport inve...
                              ...                        
3027    the new york lawyer stone barrington discovers...
3028    jake fisher discovers that neither the woman h...
3029    six friends meet in the 1970s at a summer arts...
3030    bernie gunther, the berlin cop, is sent to smo...
3031    a new hampshire baker finds herself in the mid...
Name: description, Length: 2046, dtype: object

---

split

Hay veces que tienes una string y lo que quieres hacer es dividirla en varias partes. Para dividir una string tienes que saber cuál es el "separador" o "delimitador" que será usado para realizar la división. Cada vez que dicho "separador" es encontrado, la string se separa en ese punto específico y la parte anterior y posterior al "separador" se vuelven independientes. Esto puede suceder una vez o múltiples veces a través de la string. Una vez que todas las divisiones se realizan, se regresa una lista que contiene todas las partes segmentadas.

Digamos que queremos separar la columna author en dos columnas: autor_first_name y author_last_name. La columna author tiene todos los datos que queremos (el primer nombre y el apellido). El separador en este caso es un espacio vacío, ya que es lo que está dividiendo el primer nombre del apellido. Podríamos entonces separar estos nombres en dos usando el método split:

---

In [107]:
df_2['author']

0         Stephenie Meyer
1            Emily Giffin
2       Patricia Cornwell
3         Chuck Palahniuk
5           John Sandford
              ...        
3027         Stuart Woods
3028         Harlan Coben
3029         Meg Wolitzer
3030          Philip Kerr
3031         Jodi Picoult
Name: author, Length: 2046, dtype: object

In [109]:
df_2['author'].str.split('\\s')

0         [Stephenie, Meyer]
1            [Emily, Giffin]
2       [Patricia, Cornwell]
3         [Chuck, Palahniuk]
5           [John, Sandford]
                ...         
3027         [Stuart, Woods]
3028         [Harlan, Coben]
3029         [Meg, Wolitzer]
3030          [Philip, Kerr]
3031         [Jodi, Picoult]
Name: author, Length: 2046, dtype: object

Usamos el identificador regex \\s que significa "espacios vacíos" para encontrar todos los espacios vacíos y separar la string a partir de los hallazgos. Como puedes ver, obtenemos una Serie cuyos valores son strings con formato de listas que contienen los dos valores obtenidos a partir de la separación. Para obtener dos columnas que contengan esos valores, en vez de una sola, podemos usar la bandera expand=True:


In [110]:
df_2['author'].str.split('\\s', expand=True)

Unnamed: 0,0,1
0,Stephenie,Meyer
1,Emily,Giffin
2,Patricia,Cornwell
3,Chuck,Palahniuk
5,John,Sandford
...,...,...
3027,Stuart,Woods
3028,Harlan,Coben
3029,Meg,Wolitzer
3030,Philip,Kerr


In [113]:
df_2[['first_name', 'last_name']]= df_2['author'].str.split('\\s', expand=True)

In [114]:
df_2.head(2)

Unnamed: 0,amazon_product_url,author,description,publisher,title,oid,bestsellers_date,published_date,rank,rank_last_week,weeks_on_list,price.numberDouble,first_name,last_name
0,http://www.amazon.com/The-Host-Novel-Stephenie...,Stephenie Meyer,Aliens have taken control of the minds and bod...,"Little, Brown",The Host,5b4aa4ead3089013507db18c,2008-05-24,2008-06-08,2,1,3,25.99,Stephenie,Meyer
1,http://www.amazon.com/Love-Youre-With-Emily-Gi...,Emily Giffin,A woman's happy marriage is shaken when she en...,St. Martin's,Love The One You'Re With,5b4aa4ead3089013507db18d,2008-05-24,2008-06-08,3,2,2,24.95,Emily,Giffin


In [115]:
df_3 = df_2.copy()

In [118]:
df_3.drop(columns='author')

Unnamed: 0,amazon_product_url,description,publisher,title,oid,bestsellers_date,published_date,rank,rank_last_week,weeks_on_list,price.numberDouble,first_name,last_name
0,http://www.amazon.com/The-Host-Novel-Stephenie...,Aliens have taken control of the minds and bod...,"Little, Brown",The Host,5b4aa4ead3089013507db18c,2008-05-24,2008-06-08,2,1,3,25.99,Stephenie,Meyer
1,http://www.amazon.com/Love-Youre-With-Emily-Gi...,A woman's happy marriage is shaken when she en...,St. Martin's,Love The One You'Re With,5b4aa4ead3089013507db18d,2008-05-24,2008-06-08,3,2,2,24.95,Emily,Giffin
2,http://www.amazon.com/The-Front-Garano-Patrici...,A Massachusetts state investigator and his tea...,Putnam,The Front,5b4aa4ead3089013507db18e,2008-05-24,2008-06-08,4,0,1,22.95,Patricia,Cornwell
3,http://www.amazon.com/Snuff-Chuck-Palahniuk/dp...,An aging porn queens aims to cap her career by...,Doubleday,Snuff,5b4aa4ead3089013507db18f,2008-05-24,2008-06-08,5,0,1,24.95,Chuck,Palahniuk
5,http://www.amazon.com/Phantom-Prey-John-Sandfo...,The Minneapolis detective Lucas Davenport inve...,Putnam,Phantom Prey,5b4aa4ead3089013507db191,2008-05-24,2008-06-08,7,4,3,26.95,John,Sandford
...,...,...,...,...,...,...,...,...,...,...,...,...,...
3027,http://www.amazon.com/Unintended-Consequences-...,The New York lawyer Stone Barrington discovers...,Putnam,Unintended Consequences,5b4aa4ead3089013507dc592,2013-04-20,2013-05-05,8,4,2,26.95,Stuart,Woods
3028,http://www.amazon.com/Six-Years-Harlan-Coben/d...,Jake Fisher discovers that neither the woman h...,Dutton,Six Years,5b4aa4ead3089013507dc593,2013-04-20,2013-05-05,9,8,5,27.95,Harlan,Coben
3029,http://www.amazon.com/The-Interestings-Novel-M...,Six friends meet in the 1970s at a summer arts...,Riverhead,The Interestings,5b4aa4ead3089013507dc595,2013-04-20,2013-05-05,11,11,2,27.95,Meg,Wolitzer
3030,http://www.amazon.com/Man-Without-Breath-Berni...,"Bernie Gunther, the Berlin cop, is sent to Smo...",Marian Wood/Putnam,A Man Without Breath,5b4aa4ead3089013507dc597,2013-04-20,2013-05-05,13,0,1,26.95,Philip,Kerr


## Aplicando funciones y mappeos a nuestro DataFrame
Otra manera de transformar nuestros datos es usando funciones y mappeos. ¿Recuerdas la función map? ¿Y las funciones vectorizadas? Bueno, pues eso era tansformación de datos. Ahora vamos a ver un par de métodos que permiten transformar datos aplicando mapas o funciones custom.

map

map es un método de Series que sirve para sustituir un valor con otro valor. Hay dos maneras de especificar la sustitución: usando un "mapa" o usando una función. Un "mapa" es básicamente un diccionario que "mappea" de un valor a otro valor. Entra un valor (la "llave") y sale otro valor (el "valor" que corresponde a dicha "llave"). Por ejemplo, digamos que queremos mappear los valores de la columna 'rank' de ints a letras. En la vida real esto tal vez no sería la mejor idea, pero es un ejemplo de juguete.

Primero tenemos que ver qué valores tenemos en esa columna: