## Ejemplo 2: Manipulación de Strings

### 1. Objetivos:
    - Aprender a usar `replace`, `strip`, `title`, `upper`, `lower` y `split` para transformar datos tipo `string``
 
### 2. Desarrollo:

In [1]:
import pandas as pd

Iniciamos leyendo el conjunto de datos, ahora usaremos el archivo `new_york_times_bestsellers-dirty.csv` o el obtenido del ejemplo anterior:

In [2]:
df = pd.read_csv("../../Datasets/new_york_times_bestsellers-dirty.csv", index_col=0)
df.head(3)

Unnamed: 0,amazon_product_url,author,description,publisher,title,oid,bestsellers_date.numberLong,published_date.numberLong,rank.numberInt,rank_last_week.numberInt,weeks_on_list.numberInt,price.numberDouble
0,http://www.amazon.com/The-Host-Novel-Stephenie...,Stephenie Meyer,Descr: Aliens have taken control of the minds ...,"Little, Brown",THE HOST,5b4aa4ead3089013507db18c,2008-05-24 00:00:00,1212883200000,2,1,3,25.99
1,http://www.amazon.com/Love-Youre-With-Emily-Gi...,Emily Giffin,Descr: A woman's happy marriage is shaken when...,St. Martin's,LOVE THE ONE YOU'RE WITH,5b4aa4ead3089013507db18d,2008-05-24 00:00:00,1212883200000,3,2,2,24.95
2,http://www.amazon.com/The-Front-Garano-Patrici...,Patricia Cornwell,Descr: A Massachusetts state investigator and ...,Putnam,THE FRONT,5b4aa4ead3089013507db18e,2008-05-24 00:00:00,1212883200000,4,0,1,22.95


Empecemos con la columna `description` que tiene un 'Descr:' al inicio de cada texto. Si queremos remover ese texto podemos usar el método `replace` de la propiedad `str` de esa `Serie` en la forma:

`dataframe[-columna-].str.replace("origen", "destino")`

In [3]:
df["description"] = df["description"].str.replace("Descr:", "")

df.head(3)

Unnamed: 0,amazon_product_url,author,description,publisher,title,oid,bestsellers_date.numberLong,published_date.numberLong,rank.numberInt,rank_last_week.numberInt,weeks_on_list.numberInt,price.numberDouble
0,http://www.amazon.com/The-Host-Novel-Stephenie...,Stephenie Meyer,Aliens have taken control of the minds and bo...,"Little, Brown",THE HOST,5b4aa4ead3089013507db18c,2008-05-24 00:00:00,1212883200000,2,1,3,25.99
1,http://www.amazon.com/Love-Youre-With-Emily-Gi...,Emily Giffin,A woman's happy marriage is shaken when she e...,St. Martin's,LOVE THE ONE YOU'RE WITH,5b4aa4ead3089013507db18d,2008-05-24 00:00:00,1212883200000,3,2,2,24.95
2,http://www.amazon.com/The-Front-Garano-Patrici...,Patricia Cornwell,A Massachusetts state investigator and his te...,Putnam,THE FRONT,5b4aa4ead3089013507db18e,2008-05-24 00:00:00,1212883200000,4,0,1,22.95


Podemos consultar una fila de la columna `description` para comprobar el resultado con:

`dataframe.loc[-fila-, -columna-]`

In [5]:
df.loc[0, "description"]

' Aliens have taken control of the minds and bodies of most humans, but one woman won’t surrender.     '

Ahora se observa también espacios vacíos al principio y final de nuestras textos o cadenas, vamos a removerlos usando `strip` que elimina espacios en blanco al inicio y al final en la forma:

`dataframe[-columna-].str.strip()`

In [6]:
df['description'] = df['description'].str.strip()

df.loc[0, "description"]

'Aliens have taken control of the minds and bodies of most humans, but one woman won’t surrender.'

Perfecto, examinemos el DataFrame de nuevo:

In [7]:
df.head(3)

Unnamed: 0,amazon_product_url,author,description,publisher,title,oid,bestsellers_date.numberLong,published_date.numberLong,rank.numberInt,rank_last_week.numberInt,weeks_on_list.numberInt,price.numberDouble
0,http://www.amazon.com/The-Host-Novel-Stephenie...,Stephenie Meyer,Aliens have taken control of the minds and bod...,"Little, Brown",THE HOST,5b4aa4ead3089013507db18c,2008-05-24 00:00:00,1212883200000,2,1,3,25.99
1,http://www.amazon.com/Love-Youre-With-Emily-Gi...,Emily Giffin,A woman's happy marriage is shaken when she en...,St. Martin's,LOVE THE ONE YOU'RE WITH,5b4aa4ead3089013507db18d,2008-05-24 00:00:00,1212883200000,3,2,2,24.95
2,http://www.amazon.com/The-Front-Garano-Patrici...,Patricia Cornwell,A Massachusetts state investigator and his tea...,Putnam,THE FRONT,5b4aa4ead3089013507db18e,2008-05-24 00:00:00,1212883200000,4,0,1,22.95


Ahora veamos la columna 'title', cuyos textos están en mayúsculas. Esto no es muy agradable, así que podemos usar algunos métodos para modificar el patrón de mayúsculas y minúsculas con la función `df.str.title()`:

In [8]:
df["title"] = df["title"].str.title()

df.head(3)

Unnamed: 0,amazon_product_url,author,description,publisher,title,oid,bestsellers_date.numberLong,published_date.numberLong,rank.numberInt,rank_last_week.numberInt,weeks_on_list.numberInt,price.numberDouble
0,http://www.amazon.com/The-Host-Novel-Stephenie...,Stephenie Meyer,Aliens have taken control of the minds and bod...,"Little, Brown",The Host,5b4aa4ead3089013507db18c,2008-05-24 00:00:00,1212883200000,2,1,3,25.99
1,http://www.amazon.com/Love-Youre-With-Emily-Gi...,Emily Giffin,A woman's happy marriage is shaken when she en...,St. Martin's,Love The One You'Re With,5b4aa4ead3089013507db18d,2008-05-24 00:00:00,1212883200000,3,2,2,24.95
2,http://www.amazon.com/The-Front-Garano-Patrici...,Patricia Cornwell,A Massachusetts state investigator and his tea...,Putnam,The Front,5b4aa4ead3089013507db18e,2008-05-24 00:00:00,1212883200000,4,0,1,22.95


In [9]:
df.loc[0, "author"]

'Stephenie Meyer'

Ahora, digamos que queremos separar nuestra columna `author` en dos columnas `author_first_name` y `author_last_name`. Eso lo podemos hacer con el método `split` en la forma:

`dataframe[-columna-].str.split(-separador-)`

In [11]:
df["author"].str.split(" ", expand=True)

Unnamed: 0,0,1
0,Stephenie,Meyer
1,Emily,Giffin
2,Patricia,Cornwell
3,Chuck,Palahniuk
5,John,Sandford
...,...,...
3027,Stuart,Woods
3028,Harlan,Coben
3029,Meg,Wolitzer
3030,Philip,Kerr


Podemos convertirlo en dos columnas así:

`dataframe[-columna-].str.split(-separador-, expand=True)`

In [None]:
...

Y podemos asignar las nuevas columnas de forma compacta usando la forma:

`df[-lista de nuevas columnas-] = -dataframe con los valores de las nuevas columnas-`

In [12]:
df[ ["author_first_name", "author_last_name"] ] = df["author"].str.split(" ", expand=True)

df.head(3)

Unnamed: 0,amazon_product_url,author,description,publisher,title,oid,bestsellers_date.numberLong,published_date.numberLong,rank.numberInt,rank_last_week.numberInt,weeks_on_list.numberInt,price.numberDouble,author_first_name,author_last_name
0,http://www.amazon.com/The-Host-Novel-Stephenie...,Stephenie Meyer,Aliens have taken control of the minds and bod...,"Little, Brown",The Host,5b4aa4ead3089013507db18c,2008-05-24 00:00:00,1212883200000,2,1,3,25.99,Stephenie,Meyer
1,http://www.amazon.com/Love-Youre-With-Emily-Gi...,Emily Giffin,A woman's happy marriage is shaken when she en...,St. Martin's,Love The One You'Re With,5b4aa4ead3089013507db18d,2008-05-24 00:00:00,1212883200000,3,2,2,24.95,Emily,Giffin
2,http://www.amazon.com/The-Front-Garano-Patrici...,Patricia Cornwell,A Massachusetts state investigator and his tea...,Putnam,The Front,5b4aa4ead3089013507db18e,2008-05-24 00:00:00,1212883200000,4,0,1,22.95,Patricia,Cornwell


¡Éxito!

---
---

## Reto 2: Manipulación de Strings

### 1. Objetivos:
    - Practicar manipular `strings` usando métodos como `split`, `title`, `strip, etc.
 
---
    
### 2. Desarrollo:

#### a) Limpiando texto

Vamos a trabajar en la versión del dataset que guardaste en el reto pasado. Las acciones que tienes que tomar en este Reto son las siguientes:

1. Reemplaza los guiones en las `strings` de la columna `orbit_class_description` por espacios.
2. Elimina los espacios vacíos al principio y final de las `strings` de la misma columna.
3. Hay una columna llamada `id_name` que contiene el 'id' y el nombre de cada objeto separados por un guión. Separa estos datos en dos columnas llamadas `id` y `name`.
4. Haz que las `strings` de la columna `orbiting_body` empiecen con mayúscula.
5. Asigna el `DataFrame` resultante a la variable `df_reto_2`.
6. Guarda tu resultado en un archivo .csv.

In [None]:
# import
import pandas as pd

In [None]:
...

df_reto_2.head(3)

In [None]:
# examina

In [None]:
# remplaza

In [None]:
# reasigna
...

df_reto_2["orbit_class_description"].loc[0]

In [None]:
# elimina espacios en blanco
...

df_reto_2["orbit_class_description"].loc[0]

In [None]:
# separa por guiones
...

df_reto_2.head(3)

In [None]:
# cambia a títulos
...

df_reto_2["orbiting_body"]

In [None]:
# guarda en el archivo objetos_cercanos_2.csv
...

¡Compara con el Ingeniero de Datos de tu confianza y si coinciden entonces envíen su respuesta!