In [10]:
SANDBOX_NAME = 'fmex' # Sandbox Name
DATA_PATH = "/data/sandboxes/"+SANDBOX_NAME+"/data/all_data/"



Antes de utilizar este notebook, por favor, crea una carpeta `datasets` al mismo nivel que este notebook con los ficheros CSV `titanic.csv`, `drinks.csv` y `student-mat.csv`





# Formateo de datos




In [2]:
import pandas as pd
import numpy as np
from datetime import datetime



## Transformaciones de números

Vamos a aplicar una serie de formatos a una variable numérica




Creamos un número de ejemplo

In [None]:
one_digit = 123456.78910



Formateamos a 2 cifras decimales

In [None]:
format(one_digit, '0.2f')



Formateamos a 1 cifra decimal y comas

In [None]:
format(one_digit, '0,.1f')



Formateamos a notación científica

In [None]:
format(one_digit, 'e')



Formateamos a notación científica con 2 decimales

In [None]:
format(one_digit, '0.2E')



## Transformaciones de strings



Podemos hacer modificaciones en el contenido de un string usando el operador %



Indicamos en una tupla los valores, string y float, a sustituir

In [None]:
'The price of %s is %f' % ('oil barrels', 103.15)



También podemos pasar la información en modo de diccionario

In [None]:
'The price of %(product)s is %(price)f' % {'product' : 'oil barrels', 'price' : 103.15}



En python están disponibles los siguientes códigos de formato

    %s string
    %r repr string
    %c character (integer or string)
    %d decimal
    %i integer
    %x hex integer
    %X same as X but with uppercase
    %e floating point lowercase
    %E floating point uppercase
    %f floating point decimal lowercase
    %F floating point decimal uppercase
    %g floating point e or f
    %G floating point E or F
    %% literal %



Es posible realizar transformaciones adicionales sobre los string, usando los métodos de la función `str`. Se pueden consultar todos sus métodos mediante el comando dir(str)

Vemos algunos ejemplos de los más usados.



Creamos un string ejemplo

In [None]:
string = 'HELLO world'



Convierte a minúscula

In [None]:
string.lower()



Convierte a mayúscula

In [None]:
string.upper()



Convierte a mayúsculas la primera letra de cada palabra, dejando el resto a minúscula.

In [None]:
string.title()



Devolver número de caractéres

In [None]:
len(string)



Elimina espacios en blanco por izquierda

In [None]:
'   Hello World   '.lstrip()



Elimina espacios en blanco por derecha

In [None]:
'   Hello World   '.rstrip()



Elimina espacios en blanco por ambos lados

In [None]:
'   Hello World   '.strip()



Parte el string en una lista según el criterio de partición, un espacio en blanco en este caso

In [None]:
string.split(" ")



Reemplaza el contenido de un string con el de otra cadena

In [None]:
string.replace('HELLO','Bye')



## Transformaciones de fechas




Creamos una fecha como string

In [None]:
date = '2018-01-01'



Convertimos la fecha a datetime aplicando un formato conocido

In [None]:
datetime.strptime(date, '%Y-%m-%d')



También es posible transformar un string a date usando `Pandas`



Creamos un dataframe con un campo fecha en formato string

In [None]:
data = {'date': ['2014-05-01 18:47:05.069722', '2014-05-01 18:47:05.119994', '2014-05-02 18:47:05.178768', '2014-05-02 18:47:05.230071', '2014-05-02 18:47:05.230071', '2014-05-02 18:47:05.280592', '2014-05-03 18:47:05.332662', '2014-05-03 18:47:05.385109', '2014-05-04 18:47:05.436523', '2014-05-04 18:47:05.486877'], 
        'value': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}
df = pd.DataFrame(data, columns = ['date', 'value'])
df



Transformamos el campo string 'date' a date.

In [None]:
pd.to_datetime(df['date'])



## Transformaciones complejas: apply(), map(), mapapply()

En ocasiones es necesario realizar transformaciones más complejas a una parte o al conjunto de todos los datos. Para ello `Pandas` implementa las funciones apply(), map() y mapapply().

- apply(): aplica una función a todos los elementos de una serie
- map(): usado principalmente para mapear información
- applymap(): aplica una función a todos los elementos de un Dataframe




In [4]:
titanic = spark.read.csv(DATA_PATH + 'titanic.csv', sep=';', inferSchema=True, header=True).toPandas()
titanic.head(3)

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1,1,"Allen, Miss. Elisabeth Walton",female,29,0,0,24160,2113375,B5,S,2.0,,"St Louis, MO"
1,1,1,"Allison, Master. Hudson Trevor",male,9167,1,2,113781,15155,C22 C26,S,11.0,,"Montreal, PQ / Chesterville, ON"
2,1,0,"Allison, Miss. Helen Loraine",female,2,1,2,113781,15155,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"


In [34]:
titanic[titanic.survived == 1].boat.value_counts(normalize=True)

13         0.081761
15         0.077568
C          0.077568
14         0.067086
4          0.064990
10         0.060797
5          0.056604
3          0.054507
11         0.052411
9          0.052411
16         0.048218
8          0.048218
7          0.048218
6          0.041929
D          0.039832
12         0.037736
2          0.027254
B          0.016771
A          0.014675
1          0.010482
5 7        0.004193
C D        0.004193
13 15      0.004193
13 15 B    0.002096
5 9        0.002096
8 10       0.002096
15 16      0.002096
Name: boat, dtype: float64

In [7]:
titanic.pclass.value_counts(normalize=True)

3    0.541635
1    0.246753
2    0.211612
Name: pclass, dtype: float64

In [14]:
def parse_numeric(x):
    if x:
        return x.replace(',', '.')
    return x

In [45]:
titanic.assign(clean_name=titanic.name.str.extract(r'([A-Za-z]+),')).clean_name.map(len)

0       5
1       7
2       7
3       7
4       7
       ..
1304    6
1305    6
1306    8
1307    8
1308    9
Name: clean_name, Length: 1309, dtype: int64

In [27]:
test = 'Allen, Miss. Elisabeth Walton'
test.split(',')[0]

'Allen'

In [32]:
titanic.name.map(lambda x: x.split(',')[0] if x else x).value_counts()

Sage           10
Andersson      10
Goodwin         8
Asplund         8
Davies          7
               ..
Peduzzi         1
Abrahamsson     1
Rothes          1
"Ryerson        1
Carr            1
Name: name, Length: 909, dtype: int64

In [20]:
titanic.fare.map(lambda x: x.replace(',', '.') if x else x).astype(float)

0       211.3375
1       151.5500
2       151.5500
3       151.5500
4       151.5500
          ...   
1304     14.4542
1305     14.4542
1306      7.2250
1307      7.2250
1308      7.8750
Name: fare, Length: 1309, dtype: float64



Vemos alguno ejemplos sobre Series



Creamos una nueva columna con .map()

In [47]:
titanic['Sex_num'] = titanic.sex.map({'female':0, 'male':1})
titanic.head(3)

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest,Sex_num
0,1,1,"Allen, Miss. Elisabeth Walton",female,29,0,0,24160,2113375,B5,S,2.0,,"St Louis, MO",0
1,1,1,"Allison, Master. Hudson Trevor",male,9167,1,2,113781,15155,C22 C26,S,11.0,,"Montreal, PQ / Chesterville, ON",1
2,1,0,"Allison, Miss. Helen Loraine",female,2,1,2,113781,15155,C22 C26,S,,,"Montreal, PQ / Chesterville, ON",0




Calculamos la longitud de cada uno de los nombres

In [51]:
titanic['name_length'] = titanic.name.apply(len)
titanic.loc[0:4, ['name', 'name_length']]

Unnamed: 0,name,name_length
0,"Allen, Miss. Elisabeth Walton",29
1,"Allison, Master. Hudson Trevor",30
2,"Allison, Miss. Helen Loraine",28
3,"Allison, Mr. Hudson Joshua Creighton",36
4,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",47




Podemos aplicar igualmente estos métodos a un Dataframe

In [52]:
drinks = spark.read.csv(DATA_PATH + 'drinks.csv', header=True, sep=',', inferSchema=True).toPandas()
drinks.head(3)

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,continent
0,Afghanistan,0,0,0,0.0,AS
1,Albania,89,132,54,4.9,EU
2,Algeria,25,0,14,0.7,AF




Obtenemos el valor máximo de consumo por tipo de alcohol

In [57]:
import numpy as np

In [68]:
drinks.loc[:, 'beer_servings':'wine_servings'].apply(np.argmax, axis=0)

beer_servings      117
spirit_servings     68
wine_servings       61
dtype: int64

In [66]:
drinks.set_index('country').iloc[drinks.loc[:, 'beer_servings':'wine_servings'].apply(np.argmax, axis=0)]

Unnamed: 0_level_0,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,continent
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Namibia,376,3,1,6.8,AF
Grenada,199,438,28,11.9,
France,127,151,370,11.8,EU


In [79]:
drinks.assign(total_alcohol=(drinks
 .loc[:, 'beer_servings':'wine_servings']
 .apply(np.sum, axis=1))).set_index('country').head()

Unnamed: 0_level_0,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,continent,total_alcohol
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Afghanistan,0,0,0,0.0,AS,0
Albania,89,132,54,4.9,EU,275
Algeria,25,0,14,0.7,AF,39
Andorra,245,138,312,12.4,EU,695
Angola,217,57,45,5.9,AF,319




En este ejemplo obtenemos el consumo máximo por registro (país) independientemente del tipo de alcohol

In [80]:
drinks.loc[:, 'beer_servings':'wine_servings'].apply(max, axis=1)

0        0
1      132
2       25
3      312
4      217
      ... 
188    333
189    111
190      6
191     32
192     64
Length: 193, dtype: int64



Si quisieramos ver el tipo de bebida al que pertenece el máximo obtenido en la celda anterior

In [82]:
the_labels = ['beer_servings', 'spirit_servings', 'wine_servings']
(drinks
 .loc[:, 'beer_servings':'wine_servings']
 .apply(np.argmax, axis=1)
 .map(lambda x: the_labels[x])
)

0        beer_servings
1      spirit_servings
2        beer_servings
3        wine_servings
4        beer_servings
            ...       
188      beer_servings
189      beer_servings
190      beer_servings
191      beer_servings
192      beer_servings
Length: 193, dtype: object

In [83]:
(drinks
 .loc[:, 'beer_servings':'wine_servings']
 .apply(np.argmax, axis=1)
 .map({0:'beer_servings', 
       1:'spirit_servings', 
       2:'wine_servings'})
)

0        beer_servings
1      spirit_servings
2        beer_servings
3        wine_servings
4        beer_servings
            ...       
188      beer_servings
189      beer_servings
190      beer_servings
191      beer_servings
192      beer_servings
Length: 193, dtype: object



Mediante applymap transformamos los consumos a float

In [84]:
drinks.loc[:, 'beer_servings': 'wine_servings'].head()

Unnamed: 0,beer_servings,spirit_servings,wine_servings
0,0,0,0
1,89,132,54
2,25,0,14
3,245,138,312
4,217,57,45


In [86]:
drinks.loc[:, 'beer_servings': 'wine_servings'].applymap(lambda x: x+1).head()

Unnamed: 0,beer_servings,spirit_servings,wine_servings
0,1,1,1
1,90,133,55
2,26,1,15
3,246,139,313
4,218,58,46




# Ejercicios



## Ejercicio 1 

Dada los siguientes datos:

exam_data  = {'name': ['Anastasia', 'Dima', 'Katherine', 'James', 'Emily', 'Michael', 'Matthew', 'Laura', 'Kevin', 'Jonas'],
        'score': [12.5, 9, 16.5, np.nan, 9, 20, 14.5, np.nan, 8, 19],
        'attempts': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
        'qualify': ['yes', 'no', 'yes', 'no', 'no', 'yes', 'yes', 'no', 'no', 'yes']}
labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']



- a. Cargue el fichero en un dataframe y estudie las estructura de los datos.
- b. Modifique el nombre 'James' a 'Suresh'
- c. Modifique la columna score de modo que pase a tener 2 cifras decimales de precisión.




Cargue el fichero en un dataframe y estudie las estructura de los datos.

In [None]:
# Respuesta aqui

In [None]:
# Respuesta aqui



Modifique el nombre 'James' a 'Suresh'

In [None]:
# Respuesta aqui



Modifique la columna score de modo que pase a tener 2 cifras decimales de precisión.

In [None]:
# Respuesta aqui



## Ejercicio 2 

Dado el dataset /datasets/student-mat.csv



- a. Cargue el fichero en un dataframe y estudie las estructura de los datos.
- b. Seleccione en un nuevo DF desde las columnas school a guardian.
- c. Cree una función que convierta en mayúsculas las cadenas de texto y pase en mayúsculas las columnas Mjob y Fjob.
- d. Multiplique por 10 todos las variables numéricas del dataframe.



Cargue el fichero en un dataframe y estudie las estructura de los datos.

In [88]:
student = spark.read.csv(DATA_PATH + 'student-mat.csv', header=True, inferSchema=True, sep=';').toPandas()
student.head()

Unnamed: 0,school,sex,age,address,famsize,Pstatus,Medu,Fedu,Mjob,Fjob,...,famrel,freetime,goout,Dalc,Walc,health,absences,G1,G2,G3
0,GP,F,18,U,GT3,A,4,4,at_home,teacher,...,4,3,4,1,1,3,6,5,6,6
1,GP,F,17,U,GT3,T,1,1,at_home,other,...,5,3,3,1,1,3,4,5,5,6
2,GP,F,15,U,LE3,T,1,1,at_home,other,...,4,3,2,2,3,3,10,7,8,10
3,GP,F,15,U,GT3,T,4,2,health,services,...,3,2,2,1,1,5,2,15,14,15
4,GP,F,16,U,GT3,T,3,3,other,other,...,4,3,2,1,2,5,4,6,10,10


* Generar una columna nueva que se llame mean_score = mean(g1, g2, g3)
* Q1=.25, Q2=.5, Q3=.75 de mean_score para sex = {F, M} (HINT: filter)
* '''   para student.studytime.unique()

In [97]:
# np.percentile(student.G1, q=[.25, .5, .75])
student = (student.assign(mean_score=student.loc[:,'G1':].apply(np.mean, axis=1)))



Seleccione en un nuevo DF desde las columnas school a guardian.

In [101]:
student_f = student[student.sex == 'F']
np.percentile(student_f.mean_score.values, q=[.25, .5, .75])

array([1.67833333, 2.01166667, 2.18416667])

In [102]:
student_m = student[student.sex == 'M']
np.percentile(student_m.mean_score.values, q=[.25, .5, .75])

array([1.66666667, 1.66666667, 1.79833333])

In [111]:
(student
 .groupby('studytime')
 [['mean_score']]
 .apply(lambda df: df.quantile([.25, .5, .75]))
 .applymap(lambda x: round(x, 2))
 .groupby('studytime')
 .mean_score
 .transform(lambda df: (df-df.mean())/df.std()))

studytime      
1          0.25   -0.999374
           0.50   -0.001251
           0.75    1.000625
2          0.25   -0.972892
           0.50   -0.052174
           0.75    1.025066
3          0.25   -0.977999
           0.50   -0.042638
           0.75    1.020637
4          0.25   -1.053426
           0.50    0.117178
           0.75    0.936249
Name: mean_score, dtype: float64



Cree una función que convierta en mayúsculas las cadenas de texto y pase en mayúsculas las columnas Mjob y Fjob.

In [114]:
np.std([-0.999374, -0.001251, 1.000625])

0.8164966518612717

In [None]:
# Respuesta aqui



Multiplique por 10 todos las variables numéricas del dataframe.

In [None]:
# Respuesta aqui

In [None]:
# Respuesta aqui