## Data Wrangling: Clean, Transform, Merge, Reshape

In [1]:
import pandas as pd

## Combining and merging data sets

### Database-style DataFrame merges

In [None]:
#merge debe encontrar una columna en comun para funcionar

In [5]:
df1 = pd.DataFrame({'data1': range(5, 12), 'key': list('bbacaab')})
df2 = pd.DataFrame({'data2': range(56,59), 'key': list('abd')})

In [9]:
df1

Unnamed: 0,data1,key
0,5,b
1,6,b
2,7,a
3,8,c
4,9,a
5,10,a
6,11,b


In [7]:
df2

Unnamed: 0,data2,key
0,56,a
1,57,b
2,58,d


In [10]:
pd.merge(df1, df2)
#detecta la columna en comun ('key')
#detecta las 'keys' en comum ('a' y 'b')
#se queda con todo lo que hay en comun

Unnamed: 0,data1,key,data2
0,5,b,57
1,6,b,57
2,11,b,57
3,7,a,56
4,9,a,56
5,10,a,56


In [11]:
df1.merge(df2)
#nos da el mismo resultado que lo de arriba.
#ojo hace todas las compbinaciones posibles pero no salen muchas porque df2 no tienen keys repetidos

Unnamed: 0,data1,key,data2
0,5,b,57
1,6,b,57
2,11,b,57
3,7,a,56
4,9,a,56
5,10,a,56


By default, .merge() performs an [inner join](https://www.w3schools.com/sql/sql_join.asp) between the DataFrames, using the common columns as keys.

In [12]:
df1.merge(df2, how='outer') 
#esta manera de join no elimina datos no comunes, los rellena con nulos

Unnamed: 0,data1,key,data2
0,5.0,b,57.0
1,6.0,b,57.0
2,11.0,b,57.0
3,7.0,a,56.0
4,9.0,a,56.0
5,10.0,a,56.0
6,8.0,c,
7,,d,58.0


That means that it returns the cartesian product of the elements with common keys: if there are duplicates, it will return all the possible combinations:

In [15]:
df3 = pd.DataFrame({'data2': range(56,61), 'key':list('abdbd')})
print(df1)
print(df3)

   data1 key
0      5   b
1      6   b
2      7   a
3      8   c
4      9   a
5     10   a
6     11   b
   data2 key
0     56   a
1     57   b
2     58   d
3     59   b
4     60   d


In [16]:
df1.merge(df3)
#hace todas las combinaciones posibles
#ojo! como df3 tiene tambien keys repetidos en ella misma salen muchas combinaciones

Unnamed: 0,data1,key,data2
0,5,b,57
1,5,b,59
2,6,b,57
3,6,b,59
4,11,b,57
5,11,b,59
6,7,a,56
7,9,a,56
8,10,a,56


If the columns to join on don't have the same name, or we want to join on the index of the DataFrames, we'll need to specify that.

In [20]:
df4 = pd.DataFrame({'data2': range(56,61), 'rkey':list('abdbd')})

In [23]:
df1.merge(df4, left_on = 'key', right_on = 'rkey')
#no tienen columnas comunes pero yo le digo coge la columna 'key' de la izquierda y 'rkey' de la derecha

Unnamed: 0,data1,key,data2,rkey
0,5,b,57,b
1,5,b,59,b
2,6,b,57,b
3,6,b,59,b
4,11,b,57,b
5,11,b,59,b
6,7,a,56,a
7,9,a,56,a
8,10,a,56,a


 If there are two columns with the same name that we do not join on, both will get transferred to the resulting DataFrame with a suffix. We can customize these suffixes.

In [27]:
df1.merge(df2, left_on = 'data1', right_on = 'data2', how = 'outer')
#estoy haciendo el merge por las columnas data1 y data2
#como las columnas key se llaman igual, les ha añadido un sufijo _x e _y

Unnamed: 0,data1,key_x,data2,key_y
0,5.0,b,,
1,6.0,b,,
2,7.0,a,,
3,8.0,c,,
4,9.0,a,,
5,10.0,a,,
6,11.0,b,,
7,,,56.0,a
8,,,57.0,b
9,,,58.0,d


In [29]:
df1.merge(df2, left_on = 'data1', right_on = 'data2', how = 'outer', suffixes=('_customer','_order'))
#estos sufijos se pueden personalizar

Unnamed: 0,data1,key_customer,data2,key_order
0,5.0,b,,
1,6.0,b,,
2,7.0,a,,
3,8.0,c,,
4,9.0,a,,
5,10.0,a,,
6,11.0,b,,
7,,,56.0,a
8,,,57.0,b
9,,,58.0,d


### Merging on index

In [30]:
df4.index = range(5,10)
df4

Unnamed: 0,data2,rkey
5,56,a
6,57,b
7,58,d
8,59,b
9,60,d


In [31]:
df1

Unnamed: 0,data1,key
0,5,b
1,6,b
2,7,a
3,8,c
4,9,a
5,10,a
6,11,b


In [34]:
df1.merge(df4, left_on='data1', right_index = True)
#busca valores en la columna 'data1', va a las filas de df1 y coge esos index

Unnamed: 0,data1,key,data2,rkey
0,5,b,56,a
1,6,b,57,b
2,7,a,58,d
3,8,c,59,b
4,9,a,60,d


### Concatenating along an axis

In [36]:
df_concat = pd.concat([df1, df2])
df_concat
#pega df2 debajo de df1
#pero claro ahora tengo index repetidos

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  """Entry point for launching an IPython kernel.


Unnamed: 0,data1,data2,key
0,5.0,,b
1,6.0,,b
2,7.0,,a
3,8.0,,c
4,9.0,,a
5,10.0,,a
6,11.0,,b
0,,56.0,a
1,,57.0,b
2,,58.0,d


In [39]:
df_concat.reset_index(drop=True)
#reenumera los index, te crea una columna con ellos.
#el drop True elimina la couumna que te ha creado

Unnamed: 0,data1,data2,key
0,5.0,,b
1,6.0,,b
2,7.0,,a
3,8.0,,c
4,9.0,,a
5,10.0,,a
6,11.0,,b
7,,56.0,a
8,,57.0,b
9,,58.0,d


#### Digression

Attention! Be careful not to reassign to reserved words or functions- you will overwrite the variable.

In [None]:
#ver este punto en el notebook del profesor.
#va sobre cargarse sin querer un método de la propia librería de pandas.
#se solucionar recargando la librería de pandas con 
#from importlib import relopad
#reload(pd)

#también puedes reiniciar el kernel pero pierdes todo tu trabajo, que pueden ser horas

You can delete the overwritten variable, but you won't get back the original value. If it is an object or function from a module, you'll need to reload() the module, since Python doesn't load again an already imported module if you try to import it. reload() is useful also when you are actively developing your own module and want to load the latest definition of a function into memory.

## Data transformation

### Removing duplicates

In [40]:
df1['key']

0    b
1    b
2    a
3    c
4    a
5    a
6    b
Name: key, dtype: object

In [41]:
df1['key'].duplicated()
#muestra boleana con los duplicados. la primera instancia no lo marca como duplicado, el resto sí.

0    False
1     True
2    False
3    False
4     True
5     True
6     True
Name: key, dtype: bool

In [43]:
df1['key'].drop_duplicates()
#elimino los duplicados. Ojo, para que me modifique df1 tengo que poner 'inplace'

0    b
2    a
3    c
Name: key, dtype: object

In [44]:
df1.drop_duplicates(subset='key')

Unnamed: 0,data1,key
0,5,b
2,7,a
3,8,c


In [45]:
df1['key2'] = list('aaadccd')
df1

Unnamed: 0,data1,key,key2
0,5,b,a
1,6,b,a
2,7,a,a
3,8,c,d
4,9,a,c
5,10,a,c
6,11,b,d


In [46]:
df1[['key','key2']].drop_duplicates()
#busca duplicados teniendo en cuenta las dos columnas que le digo
#pero no elijo con cuál me quedo

Unnamed: 0,key,key2
0,b,a
2,a,a
3,c,d
4,a,c
6,b,d


In [49]:
df1

Unnamed: 0,data1,key,key2
0,5,b,a
1,6,b,a
2,7,a,a
3,8,c,d
4,9,a,c
5,10,a,c
6,11,b,d


In [50]:
df1.drop_duplicates(subset=['key','key2'], keep='last')
#elijo quedarme con la última instancia duplicada, no con la primera que se queda por defecto

Unnamed: 0,data1,key,key2
1,6,b,a
2,7,a,a
3,8,c,d
5,10,a,c
6,11,b,d


### Renaming axis indexes

In [53]:
df1.index = list('jklmnop')
df1

Unnamed: 0,data1,key,key2
j,5,b,a
k,6,b,a
l,7,a,a
m,8,c,d
n,9,a,c
o,10,a,c
p,11,b,d


### Discretization and binning

In [54]:
import numpy as np

In [59]:
np.random.seed(42)
#aplico una semilla a todos los metodos que salgan de np.random

ages = pd.Series(np.random.randint(9, 99, 50))
ages

0     60
1     23
2     80
3     69
4     29
5     91
6     95
7     83
8     83
9     96
10    32
11    11
12    30
13    61
14    10
15    96
16    38
17    46
18    10
19    72
20    68
21    29
22    41
23    84
24    66
25    30
26    97
27    57
28    67
29    50
30    68
31    88
32    23
33    70
34    70
35    55
36    70
37    59
38    63
39    72
40    11
41    59
42    15
43    29
44    81
45    47
46    26
47    12
48    97
49    68
dtype: int64

In [62]:
limits = [0, 18, 30, 45, 65, 85, 100]

pd.cut(ages, limits)
#agrupa los valores entre los limites que he creado.

0      (45, 65]
1      (18, 30]
2      (65, 85]
3      (65, 85]
4      (18, 30]
5     (85, 100]
6     (85, 100]
7      (65, 85]
8      (65, 85]
9     (85, 100]
10     (30, 45]
11      (0, 18]
12     (18, 30]
13     (45, 65]
14      (0, 18]
15    (85, 100]
16     (30, 45]
17     (45, 65]
18      (0, 18]
19     (65, 85]
20     (65, 85]
21     (18, 30]
22     (30, 45]
23     (65, 85]
24     (65, 85]
25     (18, 30]
26    (85, 100]
27     (45, 65]
28     (65, 85]
29     (45, 65]
30     (65, 85]
31    (85, 100]
32     (18, 30]
33     (65, 85]
34     (65, 85]
35     (45, 65]
36     (65, 85]
37     (45, 65]
38     (45, 65]
39     (65, 85]
40      (0, 18]
41     (45, 65]
42      (0, 18]
43     (18, 30]
44     (65, 85]
45     (45, 65]
46     (18, 30]
47      (0, 18]
48    (85, 100]
49     (65, 85]
dtype: category
Categories (6, interval[int64]): [(0, 18] < (18, 30] < (30, 45] < (45, 65] < (65, 85] < (85, 100]]

## String manipulation

### String object methods

In [69]:
cosmos_df = pd.Series(np.random.choice(['pluton', 'jupiter', 'earth the true planet', 'milky way', 'ISS'], 60))

In [70]:
cosmos_df.upper()
#da error porque tengo un data fram no string.

AttributeError: 'Series' object has no attribute 'upper'

In [72]:
cosmos_df.str.upper()
#para acceder a las strings uso esto

0                   JUPITER
1                    PLUTON
2                       ISS
3     EARTH THE TRUE PLANET
4                 MILKY WAY
5     EARTH THE TRUE PLANET
6     EARTH THE TRUE PLANET
7                    PLUTON
8     EARTH THE TRUE PLANET
9                       ISS
10    EARTH THE TRUE PLANET
11                   PLUTON
12                      ISS
13                  JUPITER
14    EARTH THE TRUE PLANET
15                   PLUTON
16                  JUPITER
17                  JUPITER
18                MILKY WAY
19                      ISS
20    EARTH THE TRUE PLANET
21                   PLUTON
22                MILKY WAY
23                      ISS
24                MILKY WAY
25                      ISS
26                      ISS
27    EARTH THE TRUE PLANET
28                      ISS
29                MILKY WAY
30                      ISS
31    EARTH THE TRUE PLANET
32    EARTH THE TRUE PLANET
33                MILKY WAY
34                  JUPITER
35                  

In [73]:
cosmos_df.str.lower()

0                   jupiter
1                    pluton
2                       iss
3     earth the true planet
4                 milky way
5     earth the true planet
6     earth the true planet
7                    pluton
8     earth the true planet
9                       iss
10    earth the true planet
11                   pluton
12                      iss
13                  jupiter
14    earth the true planet
15                   pluton
16                  jupiter
17                  jupiter
18                milky way
19                      iss
20    earth the true planet
21                   pluton
22                milky way
23                      iss
24                milky way
25                      iss
26                      iss
27    earth the true planet
28                      iss
29                milky way
30                      iss
31    earth the true planet
32    earth the true planet
33                milky way
34                  jupiter
35                  

In [74]:
cosmos_df.str.len()

0      7
1      6
2      3
3     21
4      9
5     21
6     21
7      6
8     21
9      3
10    21
11     6
12     3
13     7
14    21
15     6
16     7
17     7
18     9
19     3
20    21
21     6
22     9
23     3
24     9
25     3
26     3
27    21
28     3
29     9
30     3
31    21
32    21
33     9
34     7
35     7
36     3
37     6
38     3
39     9
40     9
41     9
42     9
43     9
44    21
45     7
46     9
47     6
48     6
49     6
50     6
51    21
52     6
53     9
54     3
55     6
56    21
57    21
58     6
59     3
dtype: int64

In [77]:
cosmos_df.str.split()
#devuelve listas con palabras por separado

0                      [jupiter]
1                       [pluton]
2                          [ISS]
3     [earth, the, true, planet]
4                   [milky, way]
5     [earth, the, true, planet]
6     [earth, the, true, planet]
7                       [pluton]
8     [earth, the, true, planet]
9                          [ISS]
10    [earth, the, true, planet]
11                      [pluton]
12                         [ISS]
13                     [jupiter]
14    [earth, the, true, planet]
15                      [pluton]
16                     [jupiter]
17                     [jupiter]
18                  [milky, way]
19                         [ISS]
20    [earth, the, true, planet]
21                      [pluton]
22                  [milky, way]
23                         [ISS]
24                  [milky, way]
25                         [ISS]
26                         [ISS]
27    [earth, the, true, planet]
28                         [ISS]
29                  [milky, way]
30        

In [76]:
cosmos_df.str[:3]

0     jup
1     plu
2     ISS
3     ear
4     mil
5     ear
6     ear
7     plu
8     ear
9     ISS
10    ear
11    plu
12    ISS
13    jup
14    ear
15    plu
16    jup
17    jup
18    mil
19    ISS
20    ear
21    plu
22    mil
23    ISS
24    mil
25    ISS
26    ISS
27    ear
28    ISS
29    mil
30    ISS
31    ear
32    ear
33    mil
34    jup
35    jup
36    ISS
37    plu
38    ISS
39    mil
40    mil
41    mil
42    mil
43    mil
44    ear
45    jup
46    mil
47    plu
48    plu
49    plu
50    plu
51    ear
52    plu
53    mil
54    ISS
55    plu
56    ear
57    ear
58    plu
59    ISS
dtype: object

### Vectorized string functions in pandas

[Vectorized string functions in pandas](https://pandas.pydata.org/pandas-docs/stable/text.html) are grouped within the .str attribute of Series and Indexes. They have the same names as the regular Python string functions, but work on Series of strings.

In [131]:
df_bike_crashes = pd.read_csv('./AccidentesBicicletas_2019.csv', sep=';')
df_bike_crashes.head()


Unnamed: 0,Nº EXPEDIENTE,FECHA,HORA,CALLE,NÚMERO,DISTRITO,TIPO ACCIDENTE,ESTADO METEREOLÓGICO,TIPO VEHÍCULO,TIPO PERSONA,RANGO DE EDAD,SEXO,LESIVIDAD*
0,2019S000659,01/01/2019,14:00,CALL. CASTELLO / CALL. DON RAMON DE LA CRUZ,-,SALAMANCA,Alcance,Despejado,Bicicleta,Conductor,DE 25 A 29 AÑOS,Hombre,1.0
1,2019S000036,02/01/2019,20:45,AVDA. GRAN VIA DE HORTALEZA / GTA. LUIS ROSALES,-,HORTALEZA,Colisión fronto-lateral,Despejado,Bicicleta,Conductor,DE 70 A 74 AÑOS,Hombre,3.0
2,2019S000133,03/01/2019,14:30,CALL. FELIPE ALVAREZ,10,VILLA DE VALLECAS,Alcance,Se desconoce,Bicicleta,Conductor,DE 15 A 17 AÑOS,Hombre,7.0
3,2019S000132,03/01/2019,12:45,AVDA. SANTA EUGENIA / CALL. REAL DE ARGANDA,-,VILLA DE VALLECAS,Alcance,Despejado,Bicicleta,Conductor,DE 18 A 20 AÑOS,Hombre,7.0
4,2019S000132,03/01/2019,12:45,AVDA. SANTA EUGENIA / CALL. REAL DE ARGANDA,-,VILLA DE VALLECAS,Alcance,Despejado,Bicicleta,Conductor,DE 21 A 24 AÑOS,Hombre,14.0


In [132]:
pd.Series(df_bike_craches.columns)

0           Nº  EXPEDIENTE
1                    FECHA
2                     HORA
3                    CALLE
4                   NÚMERO
5                 DISTRITO
6           TIPO ACCIDENTE
7     ESTADO METEREOLÓGICO
8            TIPO VEHÍCULO
9             TIPO PERSONA
10           RANGO DE EDAD
11                    SEXO
12              LESIVIDAD*
dtype: object

#### Exercise: change column names to something that a data scientist would like to work with (no spaces, no special characters, lower case)

In [133]:
mypd = pd.Series(df_bike_craches.columns).copy()
mypd

0           Nº  EXPEDIENTE
1                    FECHA
2                     HORA
3                    CALLE
4                   NÚMERO
5                 DISTRITO
6           TIPO ACCIDENTE
7     ESTADO METEREOLÓGICO
8            TIPO VEHÍCULO
9             TIPO PERSONA
10           RANGO DE EDAD
11                    SEXO
12              LESIVIDAD*
dtype: object

In [134]:
mypd = mypd.str.lower().str.replace(' ', '_')

In [135]:
mypd.str.replace('*', '0')

0           nº__expediente
1                    fecha
2                     hora
3                    calle
4                   número
5                 distrito
6           tipo_accidente
7     estado_metereológico
8            tipo_vehículo
9             tipo_persona
10           rango_de_edad
11                    sexo
12              lesividad0
dtype: object

In [136]:
#para eliminar caracteres especiales lo suyo es usar Regex, regular expresion
pat = "[^a-z]"
#pat1 = 
mypd.replace(pat, '', regex=True)

0            nexpediente
1                  fecha
2                   hora
3                  calle
4                  nmero
5               distrito
6          tipoaccidente
7     estadometereolgico
8            tipovehculo
9            tipopersona
10           rangodeedad
11                  sexo
12             lesividad
dtype: object

In [137]:
#solucion del profe
profepd = pd.Series(df_bike_craches.columns).copy()
profepd

0           Nº  EXPEDIENTE
1                    FECHA
2                     HORA
3                    CALLE
4                   NÚMERO
5                 DISTRITO
6           TIPO ACCIDENTE
7     ESTADO METEREOLÓGICO
8            TIPO VEHÍCULO
9             TIPO PERSONA
10           RANGO DE EDAD
11                    SEXO
12              LESIVIDAD*
dtype: object

In [138]:
profepd = profepd.str.split().apply(lambda x: x[-1]).str.replace('\W', '').str.lower()\
                .str.replace('ú', 'u').str.replace('ó', 'ó')
#el lambda elimina la primera palabra, que no considera necesaria

In [139]:
df_bike_crashes.columns = profepd
df_bike_crashes

Unnamed: 0,expediente,fecha,hora,calle,numero,distrito,accidente,metereológico,vehículo,persona,edad,sexo,lesividad
0,2019S000659,01/01/2019,14:00,CALL. CASTELLO / CALL. DON RAMON DE LA CRUZ,-,SALAMANCA,Alcance,Despejado,Bicicleta,Conductor,DE 25 A 29 AÑOS,Hombre,1.0
1,2019S000036,02/01/2019,20:45,AVDA. GRAN VIA DE HORTALEZA / GTA. LUIS ROSALES,-,HORTALEZA,Colisión fronto-lateral,Despejado,Bicicleta,Conductor,DE 70 A 74 AÑOS,Hombre,3.0
2,2019S000133,03/01/2019,14:30,CALL. FELIPE ALVAREZ,10,VILLA DE VALLECAS,Alcance,Se desconoce,Bicicleta,Conductor,DE 15 A 17 AÑOS,Hombre,7.0
3,2019S000132,03/01/2019,12:45,AVDA. SANTA EUGENIA / CALL. REAL DE ARGANDA,-,VILLA DE VALLECAS,Alcance,Despejado,Bicicleta,Conductor,DE 18 A 20 AÑOS,Hombre,7.0
4,2019S000132,03/01/2019,12:45,AVDA. SANTA EUGENIA / CALL. REAL DE ARGANDA,-,VILLA DE VALLECAS,Alcance,Despejado,Bicicleta,Conductor,DE 21 A 24 AÑOS,Hombre,14.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
774,2019S034457,29/10/2019,20:10,CALL. ARTURO SORIA,334A,CIUDAD LINEAL,Caída,Despejado,Bicicleta,Conductor,DE 40 A 44 AÑOS,Hombre,7.0
775,2019S034336,29/10/2019,11:00,CALL. SAN CONRADO / AVDA. MANZANARES,-,LATINA,Colisión fronto-lateral,Despejado,Bicicleta,Conductor,DE 25 A 29 AÑOS,Hombre,
776,2019S034331,30/10/2019,10:00,RONDA. SEGOVIA / CALL. SEGOVIA,-,CENTRO,Alcance,Despejado,Bicicleta,Conductor,DE 50 A 54 AÑOS,Mujer,7.0
777,2019S034555,31/10/2019,21:05,PASEO. PRADO,40,CENTRO,Alcance,Despejado,Bicicleta,Conductor,DE 21 A 24 AÑOS,Hombre,2.0
