# Operaciones utiles

Hay muchos metodos utiles para la exploracion de los datos, veamos algunos de ellos.


In [21]:
# vamos a crear un dataframe con valores numericos y strings, de manera aleatoria

import random
import numpy as np
import pandas as pd

random.seed(32)

lista_sexo = [random.choice(["F","M"]) for i in range(100)]
arreglo_edades = np.random.randint(10,100,100)
cant_hijos = np.random.randint(1,6,100)

In [22]:
df = pd.DataFrame({'edad':arreglo_edades,'sexo':lista_sexo,'cant_hijos':cant_hijos})
df

Unnamed: 0,edad,sexo,cant_hijos
0,48,F,2
1,76,F,2
2,68,F,5
3,20,M,2
4,17,F,4
...,...,...,...
95,36,M,1
96,24,F,4
97,36,M,4
98,63,M,4


## Valores unicos

In [23]:
# valores unicos en cierta columna
df['edad'].unique()

array([48, 76, 68, 20, 17, 28, 81, 44, 97, 72, 43, 10, 53, 84, 71, 26, 82,
       24, 94, 88, 75, 56, 93, 33, 31, 22, 79, 67, 54, 38, 30, 74, 87, 18,
       86, 34, 13, 57, 89, 49, 25, 96, 12, 77, 66, 64, 15, 36, 52, 59, 99,
       63, 73, 98, 85, 62, 92, 45, 47, 58, 95, 46, 60])

In [24]:
# cantidad de valores unicos en cierta columna
df['edad'].nunique()

63

In [19]:
# valores unicos y su cantidad de repeticiones en la columna
df['sexo'].value_counts()

F    56
M    44
Name: sexo, dtype: int64

In [20]:
df['cant_hijos'].value_counts()

4    26
5    22
3    22
1    22
2     8
Name: cant_hijos, dtype: int64

In [26]:
# supongamos el caso de las edades, me quiero quedar con las 5 edades mas comunes en nuestro dataframe

df['edad'].value_counts().nlargest(5)

75    4
59    3
94    3
33    3
36    3
Name: edad, dtype: int64

In [28]:
# caso  contrario
df['edad'].value_counts().nsmallest(5)

95    1
88    1
89    1
30    1
92    1
Name: edad, dtype: int64

## Valores duplicados

In [30]:
# vamos a hacer un dataframe mas grande para asegurarnos de que habra valores duplicados

lista_sexo = [random.choice(["F","M"]) for i in range(500)]
arreglo_edades = np.random.randint(10,100,500)
cant_hijos = np.random.randint(1,6,500)

df_grande = pd.DataFrame({'edad':arreglo_edades,'sexo':lista_sexo,'cant_hijos':cant_hijos})

In [33]:
# encontremos valores duplicados
df_grande.duplicated()

0      False
1      False
2      False
3      False
4      False
       ...  
495    False
496    False
497    False
498     True
499    False
Length: 500, dtype: bool

In [34]:
df_grande[df_grande.duplicated()]

Unnamed: 0,edad,sexo,cant_hijos
12,24,M,4
22,68,M,2
38,60,M,4
40,24,F,5
43,46,F,1
...,...,...,...
483,60,M,2
487,12,M,5
489,23,M,3
490,42,F,5


In [36]:
df_grande[df_grande.duplicated()]["edad"].value_counts()

86    6
25    4
29    4
65    4
61    4
     ..
47    1
49    1
62    1
97    1
10    1
Name: edad, Length: 62, dtype: int64

In [37]:
df_grande[df_grande["edad"]==10]

Unnamed: 0,edad,sexo,cant_hijos
96,10,M,5
208,10,M,3
235,10,M,5
479,10,F,3


In [38]:
# entonces como eliminamos los valores duplicados
df_grande.shape

(500, 3)

In [39]:
df_grande.drop_duplicates()

Unnamed: 0,edad,sexo,cant_hijos
0,20,F,1
1,47,F,1
2,68,M,2
3,61,F,2
4,99,M,3
...,...,...,...
494,77,M,4
495,86,M,3
496,31,M,1
497,59,F,4


In [40]:
df_grande.shape

(500, 3)

## all & any

Estos metodos se usan para determinar la cantidad de ocurrencias de Booleanos dentro de una Serie o DataFrame

**`any()`** devuelve True en el caso de que al menos un elemento sea True

**`all()`** devuelve True en el caso de que TODOS los elementos sean True

In [89]:
df

Unnamed: 0,edad,sexo,cant_hijos
0,48,F,2
1,76,F,2
2,68,F,5
3,20,M,2
4,17,F,4
...,...,...,...
95,36,M,1
96,24,F,4
97,36,M,4
98,63,M,4


In [90]:
df['sexo']=='F'

0      True
1      True
2      True
3     False
4      True
      ...  
95    False
96     True
97    False
98    False
99     True
Name: sexo, Length: 100, dtype: bool

In [91]:
(df['sexo']=='F').any()

True

In [92]:
(df['sexo']=='F').all()

False

## Ordenar los datos

In [41]:
df.sort_values(by='edad') #inplace=False por defecto

Unnamed: 0,edad,sexo,cant_hijos
79,10,M,3
11,10,F,5
57,12,F,2
49,13,M,1
61,15,M,4
...,...,...,...
35,97,F,3
8,97,F,3
77,98,F,4
73,98,M,3


In [42]:
df.sort_values(by='edad',ascending = False)

Unnamed: 0,edad,sexo,cant_hijos
69,99,M,5
77,98,F,4
73,98,M,3
35,97,F,3
8,97,F,3
...,...,...,...
61,15,M,4
49,13,M,1
57,12,F,2
11,10,F,5


In [46]:
df.sort_values(by=['edad',"cant_hijos"],ascending = False)

Unnamed: 0,edad,sexo,cant_hijos
69,99,M,5
77,98,F,4
73,98,M,3
8,97,F,3
35,97,F,3
...,...,...,...
61,15,M,4
49,13,M,1
57,12,F,2
11,10,F,5


In [47]:
df.sort_values(by=['edad',"cant_hijos"],ascending = [False,True])

Unnamed: 0,edad,sexo,cant_hijos
69,99,M,5
73,98,M,3
77,98,F,4
8,97,F,3
35,97,F,3
...,...,...,...
61,15,M,4
49,13,M,1
57,12,F,2
79,10,M,3


### Applicando funciones y transformaciones

Para ello podemos usar 3 metodos:

**`applymap()`** aplica solo sobre DataFrames

**`map()`** aplica solo sobre Series

**`apply()`** aplica sobre Series y DataFrames

**`applymap()`**

Aplica una funcion a cada uno de los elementos del dataframe y nos devuelve el dataframe transformado.

In [53]:
# supongamos que queremos multiplicar todos los elementos de nuestro dataframe por 4
df.applymap(lambda x: x*4)

Unnamed: 0,edad,sexo,cant_hijos
0,192,FFFF,8
1,304,FFFF,8
2,272,FFFF,20
3,80,MMMM,8
4,68,FFFF,16
...,...,...,...
95,144,MMMM,4
96,96,FFFF,16
97,144,MMMM,16
98,252,MMMM,16


In [54]:
df

Unnamed: 0,edad,sexo,cant_hijos
0,48,F,2
1,76,F,2
2,68,F,5
3,20,M,2
4,17,F,4
...,...,...,...
95,36,M,1
96,24,F,4
97,36,M,4
98,63,M,4


**`map()`**

Usada para sustituir cada valor de una Serie por otro valor, que puede ser resultado de una funcion, un diccionario o una Serie.

Devuelve una serie con los elementos transformados.

In [55]:
diccionario = {'M':'Masculino','F':'Femenino'}
df['sexo'].map(diccionario)

0      Femenino
1      Femenino
2      Femenino
3     Masculino
4      Femenino
        ...    
95    Masculino
96     Femenino
97    Masculino
98    Masculino
99     Femenino
Name: sexo, Length: 100, dtype: object

In [56]:
df['sexo'].map(lambda x: x.lower())

0     f
1     f
2     f
3     m
4     f
     ..
95    m
96    f
97    m
98    m
99    f
Name: sexo, Length: 100, dtype: object

In [62]:
df['sexo'].map("El sexo es: {}".format)

0     El sexo es: F
1     El sexo es: F
2     El sexo es: F
3     El sexo es: M
4     El sexo es: F
          ...      
95    El sexo es: M
96    El sexo es: F
97    El sexo es: M
98    El sexo es: M
99    El sexo es: F
Name: sexo, Length: 100, dtype: object

**`apply()`**

Se utiliza para aplicar funciones generalmente mas complejas sobre una Series como en Dataframe.

**Series**

La funcion puede ser una ufunc (funcion de Numpy que aplique a la serie entera) o una funcion de Python que trabaje sobre valores individuales.

Devuelve una Serie o DataFrame (dependiendo de la funcion que se aplique)

**Dataframe**

Aplica una funcion a traves de los ejes del DataFrame

Los objetos pasados a la funcion son Series cuyo indice es o bien el indice del DataFrame (si axis=0) o las columnas del DataFrame (si axis=1)

Devuelve una Serie o DataFrame (dependiendo de la funcion que se aplique)


--

*Series*

In [66]:
# supongamos que queremos detectar que edades son un numero primo dentro del dataframe

def isPrime(n) : 
  
    # Corner cases 
    if (n <= 1) : 
        return False
    if (n <= 3) : 
        return True
  
    # This is checked so that we can skip  
    # middle five numbers in below loop 
    if (n % 2 == 0 or n % 3 == 0) : 
        return False
  
    i = 5
    while(i * i <= n) : 
        if (n % i == 0 or n % (i + 2) == 0) : 
            return False
        i = i + 6
  
    return True

In [67]:
df["edad"].apply(isPrime)

0     False
1     False
2     False
3     False
4      True
      ...  
95    False
96    False
97    False
98    False
99    False
Name: edad, Length: 100, dtype: bool

In [71]:
df.loc[4,"edad"]

17

In [72]:
# entonces podemos filtrar el df para quedarnos con todas aquellas personas que tienen edad de numero primo

df[df["edad"].apply(isPrime)]

Unnamed: 0,edad,sexo,cant_hijos
4,17,F,4
8,97,F,3
10,43,M,4
12,53,M,1
14,71,F,1
22,53,F,1
26,31,F,5
29,17,F,3
30,79,M,3
31,67,F,4


--

*DataFrame*

In [88]:
# esta parte no darla en el curso, es avanzada y no se va a enteder mucho


In [85]:
df.apply(lambda x: print(x))

0     48
1     76
2     68
3     20
4     17
      ..
95    36
96    24
97    36
98    63
99    34
Name: edad, Length: 100, dtype: object
0     F
1     F
2     F
3     M
4     F
     ..
95    M
96    F
97    M
98    M
99    F
Name: sexo, Length: 100, dtype: object
0     2
1     2
2     5
3     2
4     4
     ..
95    1
96    4
97    4
98    4
99    2
Name: cant_hijos, Length: 100, dtype: object


edad          None
sexo          None
cant_hijos    None
dtype: object

In [76]:
df.apply(lambda x: x.sum())

edad                                                       5663
sexo          FFFMFMFFFMMFMMFFFMFMFMFMFFFFMFMFFMFFMMMFMFFMFM...
cant_hijos                                                  311
dtype: object

In [86]:
df[['edad','cant_hijos']].apply(lambda x: print(x),axis=1)

edad          48
cant_hijos     2
Name: 0, dtype: int32
edad          76
cant_hijos     2
Name: 1, dtype: int32
edad          68
cant_hijos     5
Name: 2, dtype: int32
edad          20
cant_hijos     2
Name: 3, dtype: int32
edad          17
cant_hijos     4
Name: 4, dtype: int32
edad          28
cant_hijos     5
Name: 5, dtype: int32
edad          81
cant_hijos     2
Name: 6, dtype: int32
edad          44
cant_hijos     1
Name: 7, dtype: int32
edad          97
cant_hijos     3
Name: 8, dtype: int32
edad          72
cant_hijos     4
Name: 9, dtype: int32
edad          43
cant_hijos     4
Name: 10, dtype: int32
edad          10
cant_hijos     5
Name: 11, dtype: int32
edad          53
cant_hijos     1
Name: 12, dtype: int32
edad          84
cant_hijos     2
Name: 13, dtype: int32
edad          71
cant_hijos     1
Name: 14, dtype: int32
edad          26
cant_hijos     5
Name: 15, dtype: int32
edad          82
cant_hijos     1
Name: 16, dtype: int32
edad          24
cant_hijos     5
Name: 1

0     None
1     None
2     None
3     None
4     None
      ... 
95    None
96    None
97    None
98    None
99    None
Length: 100, dtype: object

In [83]:
df[['edad','cant_hijos']].apply(lambda x: print(x['edad']),axis=1)

48
76
68
20
17
28
81
44
97
72
43
10
53
84
71
26
82
24
94
88
75
56
53
93
94
33
31
24
22
17
79
67
33
54
38
97
75
30
74
87
18
86
34
44
94
18
31
72
54
13
75
57
89
49
57
25
96
12
77
66
64
15
36
79
52
59
59
33
66
99
63
28
73
98
85
62
74
98
77
10
84
75
52
59
92
26
45
47
58
95
47
46
56
73
60
36
24
36
63
34


0     None
1     None
2     None
3     None
4     None
      ... 
95    None
96    None
97    None
98    None
99    None
Length: 100, dtype: object

In [78]:
df[['edad','cant_hijos']].apply(lambda x: np.log(x))

Unnamed: 0,edad,cant_hijos
0,3.871201,0.693147
1,4.330733,0.693147
2,4.219508,1.609438
3,2.995732,0.693147
4,2.833213,1.386294
...,...,...
95,3.583519,0.000000
96,3.178054,1.386294
97,3.583519,1.386294
98,4.143135,1.386294


In [84]:
df['edad'][0]

48

In [87]:
df.apply(lambda x: x*2)

Unnamed: 0,edad,sexo,cant_hijos
0,96,FF,4
1,152,FF,4
2,136,FF,10
3,40,MM,4
4,34,FF,8
...,...,...,...
95,72,MM,2
96,48,FF,8
97,72,MM,8
98,126,MM,8


In [None]:
df.apply(lambda x: x*2,axis=1)