

# Formateo de datos




In [3]:
import pandas as pd
import numpy as np
from datetime import datetime

In [4]:
col = pd.Series(["1","1","1"])

col.astype("int")

0    1
1    1
2    1
dtype: int64

## Transformaciones de números

Vamos a aplicar una serie de formatos a una variable numérica


In [5]:
# Creamos un número de ejemplo

una_cifra = 123456.78910

In [6]:
# Formateamos a 2 cifras decimales
format(una_cifra, '0.2f')

'123456.79'

In [7]:
# Formateamos a 1 cifra decimal y comas
format(una_cifra, '0,.1f')

'123,456.8'

In [8]:
# Formateamos a notación científica
format(una_cifra, 'e')

'1.234568e+05'

In [9]:
# Formateamos a notación científica con 2 decimales
format(una_cifra, '0.2E')

'1.23E+05'

## Transformaciones de strings

Podemos hacer modificaciones en el contenido de un string usando el operador %

In [10]:
# Indicamos en una tupla los valores, string y float, a sustituir

'El precio del %s es %f' % ('crudo de petróleo', 103.15)

'El precio del crudo de petróleo es 103.150000'

In [11]:
# También podemos pasar la información en modo de diccionario

'El precio del %(producto)s es %(precio)f' % {'producto' : 'crudo de petróleo', 'precio' : 103.15}

'El precio del crudo de petróleo es 103.150000'

En python están disponibles los siguientes códigos de formato

    %s string
    %r repr string
    %c character (integer or string)
    %d decimal
    %i integer
    %x hex integer
    %X same as X but with uppercase
    %e floating point lowercase
    %E floating point uppercase
    %f floating point decimal lowercase
    %F floating point decimal uppercase
    %g floating point e or f
    %G floating point E or F
    %% literal %

El método `format` también sirve para imprimir por pantalla mensajes formados por los valores de varias variables. Por ejemplo, para una única variable se puede simplificar en la siguiente expresión:

In [12]:
string = 'mundo'
print("Hola {}".format(string))

Hola mundo


Si tenemos más de una variable, podemos hacer una especie de mapeo:

In [13]:
string = 'sentido'
numero = 42
print('El {x} de la vida... es el {y}'.format(x = string, y = numero))
print('El {} de la vida... es el {}'.format(string, numero))

El sentido de la vida... es el 42
El sentido de la vida... es el 42


Es posible realizar transformaciones adicionales sobre los string, usando los métodos de la función `str`. Se pueden consultar todos sus métodos mediante el comando dir(str)

Vemos algunos ejemplos de los más usados.

In [14]:
# Creamos un string ejemplo

string = 'HELLO world'

In [15]:
# Convierte a minúscula

string.lower()

'hello world'

In [16]:
# Convierte a mayúscula

string.upper()

'HELLO WORLD'

In [17]:
# Convierte a mayúsculas la primera letra de cada palabra, dejando el resto a minúscula.

string.title()

'Hello World'

In [18]:
# Devolver número de caractéres

len(string)

11

In [19]:
# Elimina espacios en blanco por izquierda

'   Hello World   '.lstrip()

'Hello World   '

In [20]:
# Elimina espacios en blanco por derecha

'   Hello World   '.rstrip()

'   Hello World'

In [21]:
# Elimina espacios en blanco por ambos lados

'   Hello World   '.strip()

'Hello World'

In [22]:
# Parte el string en una lista según el criterio de partición, un espacio en blanco en este caso 

string.split(" ")

['HELLO', 'world']

In [23]:
# Reemplaza el contenido de un string con el de otra cadena

string.replace('ELLO','ola')

'Hola world'

## Transformaciones de fechas


> Ya hay un notebook sobre fechas donde se profundiza más

In [24]:
# Creamos una fecha como string

fecha = '2018-01-01'


In [25]:
# Convertimos la fecha a datetime aplicando un formato conocido

datetime.strptime(fecha, '%Y-%m-%d')

datetime.datetime(2018, 1, 1, 0, 0)

También es posible transformar un string a date usando `Pandas`

In [26]:
# Creamos un dataframe con un campo fecha en formato string

data = {'date': ['2014-05-01 18:47:05.069722', '2014-05-01 18:47:05.119994', '2014-05-02 18:47:05.178768', '2014-05-02 18:47:05.230071', '2014-05-02 18:47:05.230071', '2014-05-02 18:47:05.280592', '2014-05-03 18:47:05.332662', '2014-05-03 18:47:05.385109', '2014-05-04 18:47:05.436523', '2014-05-04 18:47:05.486877'], 
        'value': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}
df = pd.DataFrame(data, columns = ['date', 'value'])
df

Unnamed: 0,date,value
0,2014-05-01 18:47:05.069722,1
1,2014-05-01 18:47:05.119994,1
2,2014-05-02 18:47:05.178768,1
3,2014-05-02 18:47:05.230071,1
4,2014-05-02 18:47:05.230071,1
5,2014-05-02 18:47:05.280592,1
6,2014-05-03 18:47:05.332662,1
7,2014-05-03 18:47:05.385109,1
8,2014-05-04 18:47:05.436523,1
9,2014-05-04 18:47:05.486877,1


In [27]:
# Transformamos el campo string 'date' a date.

pd.to_datetime(df['date'])

0   2014-05-01 18:47:05.069722
1   2014-05-01 18:47:05.119994
2   2014-05-02 18:47:05.178768
3   2014-05-02 18:47:05.230071
4   2014-05-02 18:47:05.230071
5   2014-05-02 18:47:05.280592
6   2014-05-03 18:47:05.332662
7   2014-05-03 18:47:05.385109
8   2014-05-04 18:47:05.436523
9   2014-05-04 18:47:05.486877
Name: date, dtype: datetime64[ns]

## Transformaciones complejas: apply(), map(), mapapply()

En ocasiones es necesario realizar transformaciones más complejas a una parte o al conjunto de todos los datos. Para ello `Pandas` implementa las funciones apply(), map() y mapapply().

- apply(): aplica una función a todos los elementos de una serie
- map(): usado principalmente para mapear información
- applymap(): aplica una función a todos los elementos de un Dataframe




In [28]:
#titanic = pd.read_csv('data/titanic_train.csv')
titanic = spark.read.csv('/data/sandboxes/fcol/data/data/titanic.csv',sep=";",inferSchema=True,header=True).toPandas()
titanic.head(3)

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1,1,"Allen, Miss. Elisabeth Walton",female,29,0,0,24160,2113375,B5,S,2.0,,"St Louis, MO"
1,1,1,"Allison, Master. Hudson Trevor",male,9167,1,2,113781,15155,C22 C26,S,11.0,,"Montreal, PQ / Chesterville, ON"
2,1,0,"Allison, Miss. Helen Loraine",female,2,1,2,113781,15155,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"


Vemos alguno ejemplos sobre Series

In [30]:
# Creamos una nueva columna con .map()

titanic['Sex_num'] = titanic.sex.map({'female':0, 'male':1})
titanic.head(3)

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest,Sex_num
0,1,1,"Allen, Miss. Elisabeth Walton",female,29,0,0,24160,2113375,B5,S,2.0,,"St Louis, MO",0
1,1,1,"Allison, Master. Hudson Trevor",male,9167,1,2,113781,15155,C22 C26,S,11.0,,"Montreal, PQ / Chesterville, ON",1
2,1,0,"Allison, Miss. Helen Loraine",female,2,1,2,113781,15155,C22 C26,S,,,"Montreal, PQ / Chesterville, ON",0


In [33]:
# Calculamos la longitud de cada uno de los nombres

titanic['name_length'] = titanic.name.apply(len)
titanic.loc[0:4, ['name', 'name_length']]

Unnamed: 0,name,name_length
0,"Allen, Miss. Elisabeth Walton",29
1,"Allison, Master. Hudson Trevor",30
2,"Allison, Miss. Helen Loraine",28
3,"Allison, Mr. Hudson Joshua Creighton",36
4,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",47


Podemos aplicar igualmente estos métodos a un Dataframe

In [34]:
#drinks = pd.read_csv('data/drinks.csv')
drinks = spark.read.csv('/data/sandboxes/fcol/data/data/drinks.csv',sep=",",inferSchema=True,header=True).toPandas()
drinks.head(3)

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,continent
0,Afghanistan,0,0,0,0.0,AS
1,Albania,89,132,54,4.9,EU
2,Algeria,25,0,14,0.7,AF


In [35]:
# Obtenemos el valor máximo de consumo por tipo de alcohol

drinks.loc[:, 'beer_servings':'wine_servings'].apply(max, axis=0)

beer_servings      376
spirit_servings    438
wine_servings      370
dtype: int64

In [36]:
max(drinks)

'wine_servings'

In [37]:
# En este ejemplo obtenemos el consumo máximo por registro (país) independientemente del tipo de alcohol

drinks.loc[:, 'beer_servings':'wine_servings'].apply(max, axis=1)

0        0
1      132
2       25
3      312
4      217
5      128
6      221
7      179
8      261
9      279
10      46
11     176
12      63
13       0
14     173
15     373
16     295
17     263
18      34
19      23
20     167
21     173
22     173
23     245
24      31
25     252
26      25
27      88
28      37
29     144
      ... 
163    178
164     90
165    186
166    280
167     35
168     15
169    258
170    106
171      4
172     36
173     36
174    197
175     51
176     51
177     71
178     41
179     45
180    237
181    135
182    219
183     36
184    249
185    220
186    101
187     21
188    333
189    111
190      6
191     32
192     64
Length: 193, dtype: int64

In [38]:
# Si quisieramos ver el tipo de bebida al que pertenece el máximo obtenido en la celda anterior
drinks.loc[:, 'beer_servings':'wine_servings'].apply(np.argmax, axis=1)

  return getattr(obj, method)(*args, **kwds)


0        beer_servings
1      spirit_servings
2        beer_servings
3        wine_servings
4        beer_servings
5      spirit_servings
6        wine_servings
7      spirit_servings
8        beer_servings
9        beer_servings
10     spirit_servings
11     spirit_servings
12     spirit_servings
13       beer_servings
14     spirit_servings
15     spirit_servings
16       beer_servings
17       beer_servings
18       beer_servings
19       beer_servings
20       beer_servings
21     spirit_servings
22       beer_servings
23       beer_servings
24       beer_servings
25     spirit_servings
26       beer_servings
27       beer_servings
28       beer_servings
29       beer_servings
            ...       
163    spirit_servings
164      beer_servings
165      wine_servings
166      wine_servings
167    spirit_servings
168    spirit_servings
169    spirit_servings
170      beer_servings
171      wine_servings
172      beer_servings
173      beer_servings
174      beer_servings
175      be

In [39]:
# Mediante applymap transformamos los consumos a float

drinks.loc[:, 'beer_servings': 'wine_servings'].applymap(float).head()

Unnamed: 0,beer_servings,spirit_servings,wine_servings
0,0.0,0.0,0.0
1,89.0,132.0,54.0
2,25.0,0.0,14.0
3,245.0,138.0,312.0
4,217.0,57.0,45.0


In [40]:
%timeit drinks.loc[:, 'beer_servings':'wine_servings'].apply(max, axis=1)

5.17 ms ± 246 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [41]:
%timeit drinks.loc[:, 'beer_servings':'wine_servings'].max( axis=1)

463 µs ± 3.74 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


# Ejercicios

## Ejercicio 1 

Dada los siguientes datos:

exam_data  = {'name': ['Anastasia', 'Dima', 'Katherine', 'James', 'Emily', 'Michael', 'Matthew', 'Laura', 'Kevin', 'Jonas'],
        'score': [12.5, 9, 16.5, np.nan, 9, 20, 14.5, np.nan, 8, 19],
        'attempts': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
        'qualify': ['yes', 'no', 'yes', 'no', 'no', 'yes', 'yes', 'no', 'no', 'yes']}
labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']

- a. Cargue el fichero en un dataframe y estudie las estructura de los datos.
- b. Modifique el nombre 'James' a 'Suresh'
- c. Modifique la columna score de modo que pase a tener 2 cifras decimales de precisión.


Cargue el fichero en un dataframe y estudie las estructura de los datos.

In [31]:
# Aqui su respuesta

In [32]:
# Aqui su respuesta

Modifique el nombre 'James' a 'Suresh'

In [33]:
# Aqui su respuesta

Modifique la columna score de modo que pase a tener 2 cifras decimales de precisión.

In [34]:
# Aqui su respuesta

## Ejercicio 2 

Dado el dataset ../../data/student-mat.csv

- a. Cargue el fichero en un dataframe y estudie las estructura de los datos.
- b. Seleccione en un nuevo DF desde las columnas school a guardian.
- c. Cree una función que convierta en mayúsculas las cadenas de texto y pase en mayúsculas las columnas Mjob y Fjob.
- d. Multiplique por 10 todos las variables numéricas del dataframe.

Cargue el fichero en un dataframe y estudie las estructura de los datos.

In [35]:
# Aqui su respuesta

Seleccione en un nuevo DF desde las columnas school a guardian.

In [36]:
# Aqui su respuesta

Cree una función que convierta en mayúsculas las cadenas de texto y pase en mayúsculas las columnas Mjob y Fjob.

In [37]:
# Aqui su respuesta

In [38]:
# Aqui su respuesta

Multiplique por 10 todos las variables numéricas del dataframe.

In [39]:
# Aqui su respuesta

In [40]:
# Aqui su respuesta