# Operaciones utiles

Hay muchos metodos utiles para la exploracion de los datos, veamos algunos de ellos.


In [1]:
# vamos a crear un dataframe con valores numericos y strings, de manera aleatoria

import random
import numpy as np
import pandas as pd

random.seed(32)

lista_sexo = [random.choice(["F","M"]) for i in range(100)]
arreglo_edades = np.random.randint(10,100,100)
cant_hijos = np.random.randint(1,6,100)

In [3]:
df = pd.DataFrame({'edad':arreglo_edades, "sexo":lista_sexo, "cant_hijos":cant_hijos})
df

Unnamed: 0,edad,sexo,cant_hijos
0,19,F,5
1,11,F,4
2,83,F,1
3,57,M,2
4,57,F,2
...,...,...,...
95,89,M,5
96,45,F,2
97,93,M,5
98,75,M,5


## Valores unicos

In [4]:
# valores unicos en cierta columna
df["edad"].unique()

array([19, 11, 83, 57, 64, 49, 81, 84, 35, 17, 55, 80, 20, 63, 38, 77, 51,
       29, 94, 67, 13, 58, 93, 82, 86, 78, 92, 59, 30, 90, 65, 68, 27, 42,
       70, 60, 91, 48, 47, 66, 45, 24, 33, 75, 89, 43, 34, 36, 54, 37, 46,
       16, 88, 44, 10, 87, 61, 14, 18, 56, 25, 32])

In [5]:
# cantidad de valores unicos en cierta columna
df["edad"].nunique()

62

In [6]:
# valores unicos y su cantidad de repeticiones en la columna
df["sexo"].value_counts()

F    56
M    44
Name: sexo, dtype: int64

In [7]:
df["cant_hijos"].value_counts()

2    32
1    22
5    19
3    15
4    12
Name: cant_hijos, dtype: int64

In [9]:
# supongamos el caso de las edades, me quiero quedar con las 5 edades mas comunes en nuestro dataframe

df["edad"].value_counts().nlargest(5)

29    4
93    3
17    3
91    3
35    3
Name: edad, dtype: int64

In [10]:
# caso  contrario
df["edad"].value_counts().nsmallest(7)

19    1
14    1
37    1
36    1
33    1
16    1
42    1
Name: edad, dtype: int64

## Valores duplicados

In [11]:
# vamos a hacer un dataframe mas grande para asegurarnos de que habra valores duplicados

lista_sexo = [random.choice(["F","M"]) for i in range(500)]
arreglo_edades = np.random.randint(10,100,500)
cant_hijos = np.random.randint(1,6,500)

df_grande = pd.DataFrame({'edad':arreglo_edades, "sexo":lista_sexo, "cant_hijos":cant_hijos})
df_grande

Unnamed: 0,edad,sexo,cant_hijos
0,27,M,5
1,84,M,1
2,21,F,1
3,59,M,3
4,69,M,3
...,...,...,...
495,16,F,2
496,30,F,4
497,28,F,5
498,68,M,3


In [12]:
# encontremos valores duplicados
df_grande.duplicated()

0      False
1      False
2      False
3      False
4      False
       ...  
495    False
496    False
497     True
498     True
499     True
Length: 500, dtype: bool

In [13]:
df_grande[df_grande["edad"]==35]

Unnamed: 0,edad,sexo,cant_hijos
47,35,F,1
53,35,M,1
132,35,M,2
183,35,F,5
214,35,F,2
263,35,M,1
360,35,M,4
368,35,F,5
472,35,F,4
475,35,F,2


In [14]:
df_grande[df_grande.duplicated()]

Unnamed: 0,edad,sexo,cant_hijos
55,77,F,5
57,84,M,1
87,47,M,3
89,33,F,4
90,98,M,4
...,...,...,...
484,39,M,5
493,26,M,3
497,28,F,5
498,68,M,3


In [16]:
#df_grande[df_grande.duplicated()]["edad"].value_counts()

In [18]:
# entonces como eliminamos los valores duplicados

df_grande.drop_duplicates()

Unnamed: 0,edad,sexo,cant_hijos
0,27,M,5
1,84,M,1
2,21,F,1
3,59,M,3
4,69,M,3
...,...,...,...
491,71,M,1
492,86,M,1
494,70,F,4
495,16,F,2


## all & any

Estos metodos se usan para determinar una condicion de la cantidad de ocurrencias de Booleanos dentro de una Serie o DataFrame

**`any()`** devuelve True en el caso de que al menos un elemento sea True

**`all()`** devuelve True en el caso de que TODOS los elementos sean True

In [19]:
df

Unnamed: 0,edad,sexo,cant_hijos
0,19,F,5
1,11,F,4
2,83,F,1
3,57,M,2
4,57,F,2
...,...,...,...
95,89,M,5
96,45,F,2
97,93,M,5
98,75,M,5


In [22]:
(df["sexo"]=="F")

56

In [23]:
(df["sexo"]=="F").any()

True

In [24]:
(df["sexo"]=="F").all()

False

## Ordenar los datos

In [25]:
df.sort_values(by="edad")

Unnamed: 0,edad,sexo,cant_hijos
82,10,F,1
1,11,F,4
23,11,M,2
31,13,F,4
25,13,F,4
...,...,...,...
33,93,M,5
97,93,M,5
27,93,F,4
39,94,F,2


In [27]:
df.sort_values(by="edad",ascending=False)

Unnamed: 0,edad,sexo,cant_hijos
39,94,F,2
21,94,M,1
27,93,F,4
97,93,M,5
33,93,M,5
...,...,...,...
25,13,F,4
31,13,F,4
23,11,M,2
1,11,F,4


In [28]:
df.sort_values(by=["edad","cant_hijos"],ascending=False)

Unnamed: 0,edad,sexo,cant_hijos
39,94,F,2
21,94,M,1
33,93,M,5
97,93,M,5
27,93,F,4
...,...,...,...
25,13,F,4
31,13,F,4
1,11,F,4
23,11,M,2


In [29]:
df.sort_values(by=["edad","cant_hijos"],ascending=[False,True])

Unnamed: 0,edad,sexo,cant_hijos
21,94,M,1
39,94,F,2
27,93,F,4
33,93,M,5
97,93,M,5
...,...,...,...
25,13,F,4
31,13,F,4
23,11,M,2
1,11,F,4


### Applicando funciones y transformaciones

Para ello podemos usar 3 metodos:

**`applymap()`** aplica solo sobre DataFrames

**`map()`** aplica solo sobre Series

**`apply()`** aplica sobre Series y DataFrames

**`applymap()`**

Aplica una funcion a cada uno de los elementos del dataframe y nos devuelve el dataframe transformado.

In [30]:
# supongamos que queremos multiplicar todos los elementos de nuestro dataframe por 4
df.applymap(lambda x : x*4)

Unnamed: 0,edad,sexo,cant_hijos
0,76,FFFF,20
1,44,FFFF,16
2,332,FFFF,4
3,228,MMMM,8
4,228,FFFF,8
...,...,...,...
95,356,MMMM,20
96,180,FFFF,8
97,372,MMMM,20
98,300,MMMM,20


In [31]:
df

Unnamed: 0,edad,sexo,cant_hijos
0,19,F,5
1,11,F,4
2,83,F,1
3,57,M,2
4,57,F,2
...,...,...,...
95,89,M,5
96,45,F,2
97,93,M,5
98,75,M,5


**`map()`**

Usada para sustituir cada valor de una Serie por otro valor, que puede ser resultado de una funcion, un diccionario o una Serie.

Devuelve una serie con los elementos transformados.

In [32]:
diccionario = {'M':'Masculino','F':'Femenino'}

In [33]:
df['sexo'].map(diccionario)

0      Femenino
1      Femenino
2      Femenino
3     Masculino
4      Femenino
        ...    
95    Masculino
96     Femenino
97    Masculino
98    Masculino
99     Femenino
Name: sexo, Length: 100, dtype: object

In [34]:
df['sexo'].map(lambda x: x.lower())

0     f
1     f
2     f
3     m
4     f
     ..
95    m
96    f
97    m
98    m
99    f
Name: sexo, Length: 100, dtype: object

In [35]:
df['sexo'].map("El sexo es: {}".format)

0     El sexo es: F
1     El sexo es: F
2     El sexo es: F
3     El sexo es: M
4     El sexo es: F
          ...      
95    El sexo es: M
96    El sexo es: F
97    El sexo es: M
98    El sexo es: M
99    El sexo es: F
Name: sexo, Length: 100, dtype: object

**`apply()`**

Se utiliza para aplicar funciones generalmente mas complejas sobre una Series como en Dataframe.

**Series**

La funcion puede ser una ufunc (funcion de Numpy que aplique a la serie entera) o una funcion de Python que trabaje sobre valores individuales.

Devuelve una Serie o DataFrame (dependiendo de la funcion que se aplique)

**Dataframe**

Aplica una funcion a traves de los ejes del DataFrame

Los objetos pasados a la funcion son Series cuyo indice es o bien el indice del DataFrame (si axis=0) o las columnas del DataFrame (si axis=1)

Devuelve una Serie o DataFrame (dependiendo de la funcion que se aplique)


--

*Series*

In [38]:
# supongamos que queremos detectar que edades son un numero primo dentro del dataframe

def isPrime(n) : 
  
    # Corner cases 
    if (n <= 1) : 
        return False
    if (n <= 3) : 
        return True
  
    # This is checked so that we can skip  
    # middle five numbers in below loop 
    if (n % 2 == 0 or n % 3 == 0) : 
        return False
  
    i = 5
    while(i * i <= n) : 
        if (n % i == 0 or n % (i + 2) == 0) : 
            return False
        i = i + 6
  
    return True

In [39]:
# entonces podemos filtrar el df para quedarnos con todas aquellas personas que tienen edad de numero primo
df["edad"].apply(isPrime)

0      True
1      True
2      True
3     False
4     False
      ...  
95     True
96    False
97    False
98    False
99    False
Name: edad, Length: 100, dtype: bool

In [40]:
df[df["edad"].apply(isPrime)]

Unnamed: 0,edad,sexo,cant_hijos
0,19,F,5
1,11,F,4
2,83,F,1
11,17,F,5
17,17,M,4
20,29,F,1
23,11,M,2
24,67,F,3
25,13,F,4
28,17,M,2
