# Data Wrangling


# Formateo de datos


In [1]:
import pandas as pd
import numpy as np
from datetime import datetime

## Transformaciones de números

Vamos a aplicar una serie de formatos a una variable numérica


In [2]:
una_cifra = 123456.78910

In [3]:
format(una_cifra, "0.2f")

'123456.79'

In [4]:
format(una_cifra, "0,.1f")

'123,456.8'

In [5]:
format(una_cifra, "e")

'1.234568e+05'

In [6]:
format(una_cifra, '0.2E')

'1.23E+05'

## Transformaciones de strings

Podemos hacer modificaciones en el contenido de un string usando el operador %

In [7]:
"El precio del %s es %f" % ("crudo de petroleo", 103.15)

'El precio del crudo de petroleo es 103.150000'

In [8]:
"El precio del %(producto)s es %(precio)f" % {"producto": "oro", "precio": 88}

'El precio del oro es 88.000000'

En python están disponibles los siguientes códigos de formato

    %s string
    %r repr string
    %c character (integer or string)
    %d decimal
    %i integer
    %x hex integer
    %X same as X but with uppercase
    %e floating point lowercase
    %E floating point uppercase
    %f floating point decimal lowercase
    %F floating point decimal uppercase
    %g floating point e or f
    %G floating point E or F
    %% literal %
    
https://docs.python.org/3.5/library/string.html#formatstrings

Es posible realizar transformaciones adicionales sobre los string, usando los métodos de la función `str`. Se pueden consultar todos sus métodos mediante el comando dir(str)

Vemos algunos ejemplos de los más usados.

In [9]:
string = "HELLO world"

In [10]:
string.lower()

'hello world'

In [11]:
string.upper()

'HELLO WORLD'

In [12]:
string.title()

'Hello World'

In [13]:
"   Hello World   ".lstrip()

'Hello World   '

In [14]:
"   Hello World   ".rstrip()

'   Hello World'

In [15]:
"   Hello World   ".strip()

'Hello World'

In [16]:
string

'HELLO world'

In [17]:
string.split(" ")

['HELLO', 'world']

In [18]:
string

'HELLO world'

In [19]:
string.replace("ELLO", "ola")

'Hola world'

## Transformaciones de fechas


In [20]:
from datetime import datetime

In [21]:
fecha = "2019-01-01"

In [22]:
datetime.strptime(fecha, "%Y-%m-%d")

datetime.datetime(2019, 1, 1, 0, 0)

También es posible transformar un string a date usando `Pandas`

In [23]:
data = {'date': ['2014-05-01 18:47:05.069722', '2014-05-01 18:47:05.119994', '2014-05-02 18:47:05.178768', '2014-05-02 18:47:05.230071', '2014-05-02 18:47:05.230071', '2014-05-02 18:47:05.280592', '2014-05-03 18:47:05.332662', '2014-05-03 18:47:05.385109', '2014-05-04 18:47:05.436523', '2014-05-04 18:47:05.486877'], 
        'value': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}
df = pd.DataFrame(data, columns = ['date', 'value'])
df

Unnamed: 0,date,value
0,2014-05-01 18:47:05.069722,1
1,2014-05-01 18:47:05.119994,1
2,2014-05-02 18:47:05.178768,1
3,2014-05-02 18:47:05.230071,1
4,2014-05-02 18:47:05.230071,1
5,2014-05-02 18:47:05.280592,1
6,2014-05-03 18:47:05.332662,1
7,2014-05-03 18:47:05.385109,1
8,2014-05-04 18:47:05.436523,1
9,2014-05-04 18:47:05.486877,1


In [24]:
df.dtypes

date     object
value     int64
dtype: object

In [25]:
import pandas as pd

In [26]:
pd.to_datetime(df["date"])[0]

Timestamp('2014-05-01 18:47:05.069722')

## Transformaciones complejas: apply(), map(), applymap()

En ocasiones es necesario realizar transformaciones más complejas a una parte o al conjunto de todos los datos. Para ello `Pandas` implementa las funciones apply(), map() y mapapply().

- apply(): aplica una función a todos los elementos de una serie
- map(): usado principalmente para mapear información
- applymap(): aplica una función a todos los elementos de un Dataframe




In [33]:
path = "/home/bigdatafutura/notebooks/sesion 02/files/titanic3.csv"
titanic = pd.read_csv(path, sep = ",")
titanic.head(3)

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.3375,B5,S,2.0,,"St Louis, MO"
1,1,1,"Allison, Master. Hudson Trevor",male,0.9167,1,2,113781,151.55,C22 C26,S,11.0,,"Montreal, PQ / Chesterville, ON"
2,1,0,"Allison, Miss. Helen Loraine",female,2.0,1,2,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"


Vemos alguno ejemplos sobre Series

In [34]:
titanic["sex"][0:6]

0    female
1      male
2    female
3      male
4    female
5      male
Name: sex, dtype: object

In [35]:
titanic["sex"].map({"female":0, "male":1})[0:6]

0    0
1    1
2    0
3    1
4    0
5    1
Name: sex, dtype: int64

In [36]:
print(titanic["name"][0])
print(len(titanic["name"][0]))

Allen, Miss. Elisabeth Walton
29


In [37]:
titanic["name"].map(len)

0       29
1       30
2       28
3       36
4       47
        ..
1304    20
1305    21
1306    25
1307    19
1308    18
Name: name, Length: 1309, dtype: int64

Podemos aplicar igualmente estos métodos a un Dataframe

## Ejercicios

### Ejercicio 1 

Dado el dataset ../../data/student-mat.csv

- a. Cargue el fichero en un dataframe y estudie las estructura de los datos.
- b. Seleccione en un nuevo DF desde las columnas school a guardian.
- c. Cree una función que convierta en mayúsculas las cadenas de texto y pase en mayúsculas las columnas Mjob y Fjob.

Cargue el fichero en un dataframe y estudie las estructura de los datos.

In [44]:
path = "/home/bigdatafutura/notebooks/sesion 02/files/student-mat.csv"
path = pd.read_csv(path,sep=";")
path.head(3)

Unnamed: 0,school,sex,age,address,famsize,Pstatus,Medu,Fedu,Mjob,Fjob,...,famrel,freetime,goout,Dalc,Walc,health,absences,G1,G2,G3
0,GP,F,18,U,GT3,A,4,4,at_home,teacher,...,4,3,4,1,1,3,6,5,6,6
1,GP,F,17,U,GT3,T,1,1,at_home,other,...,5,3,3,1,1,3,4,5,5,6
2,GP,F,15,U,LE3,T,1,1,at_home,other,...,4,3,2,2,3,3,10,7,8,10


Seleccione en un nuevo DF desde las columnas school a guardian.

In [45]:
path.loc[:, 'school':'guardian']
path2 = path.loc[:, 'school':'guardian']
print(path2.head(3))

  school sex  age address famsize Pstatus  Medu  Fedu     Mjob     Fjob  \
0     GP   F   18       U     GT3       A     4     4  at_home  teacher   
1     GP   F   17       U     GT3       T     1     1  at_home    other   
2     GP   F   15       U     LE3       T     1     1  at_home    other   

   reason guardian  
0  course   mother  
1  course   father  
2   other   mother  


Cree una función que convierta en mayúsculas las cadenas de texto y pase en mayúsculas las columnas Mjob y Fjob.

In [46]:
function = lambda x: x.upper() 

In [47]:
function("x")

'X'

In [48]:
print(path2.loc[:, 'Mjob':'Fjob'])

         Mjob      Fjob
0     at_home   teacher
1     at_home     other
2     at_home     other
3      health  services
4       other     other
..        ...       ...
390  services  services
391  services  services
392     other     other
393  services     other
394     other   at_home

[395 rows x 2 columns]


In [49]:
path2.loc[:, 'Mjob':'Fjob'].applymap(function)

Unnamed: 0,Mjob,Fjob
0,AT_HOME,TEACHER
1,AT_HOME,OTHER
2,AT_HOME,OTHER
3,HEALTH,SERVICES
4,OTHER,OTHER
...,...,...
390,SERVICES,SERVICES
391,SERVICES,SERVICES
392,OTHER,OTHER
393,SERVICES,OTHER
