# Cálculos con Dataframes

## Objetivos

En esta sesión veremos cómo hacer cálculos con columnas que ya existen en un Data Frame y cómo guardar los resultados en una nueva columna.

## Trabajando con constantes

Podemos agregar nuevas columnas calculadas usando una columna existente y un valor constante.

Recordemos nuestro conjunto de datos de animales. Usaremos este conjunto de datos y crearemos una nueva columna que convierte el peso corporal en libras a kilogramos.

In [17]:
import numpy as np
import pandas as pd

animals = pd.read_csv('Data/animals.csv')

animals['bodywtkg'] = animals['bodywt'] * 0.45359237
animals.head()

Unnamed: 0,brainwt,bodywt,animal,bodywtkg
0,3.385,44.5,Arctic_fox,20.18486
1,0.48,15.499,Owl_monkey,7.030228
2,1.35,8.1,Beaver,3.674098
3,464.983,423.012,Cow,191.875016
4,36.328,119.498,Gray_wolf,54.203381


Ten en cuenta que usamos la función de .head() para ver las primeras 5 filas de cada columna. Hacemos esto para confirmar que los cambios que hicimos en el DataFrame funcionaron como se esperaba.


## Combinando dos (o más) columnas

Podemos realizar cálculos utilizando una combinación de dos o más columnas. Para elllo, escribimos una ecuación que se refiera correctamente a las columnas en el DataFrame y asignamos el cálculo a una nueva columna.

Por ejemplo, podemos calcular la relación entre el peso corporal y el peso del cerebro para todos los animales en nuestros datos y asignar este valor a una nueva columna.

Para crear una columna tenemos que utilizar el método de los corchetes. Si asignamos un valor a una columna que aún no existe tratándola como atributo, no va a funcionar porque este atributo del Data Frame (al no existir) es innacesible.

In [18]:
animals.wtratio = animals['bodywt'] / animals['brainwt']
animals.head(30)

  """Entry point for launching an IPython kernel.


Unnamed: 0,brainwt,bodywt,animal,bodywtkg
0,3.385,44.5,Arctic_fox,20.18486
1,0.48,15.499,Owl_monkey,7.030228
2,1.35,8.1,Beaver,3.674098
3,464.983,423.012,Cow,191.875016
4,36.328,119.498,Gray_wolf,54.203381
5,27.66,114.996,Goat,52.161308
6,14.831,98.199,Roe_deer,44.542317
7,1.04,5.5,Guinea_pig,2.494758
8,4.19,57.998,Vervet,26.30745
9,0.425,6.4,Chinchilla,2.902991


In [19]:
animals['wtratio'] = animals['bodywt'] / animals['brainwt']
animals.head(30)

Unnamed: 0,brainwt,bodywt,animal,bodywtkg,wtratio
0,3.385,44.5,Arctic_fox,20.18486,13.146233
1,0.48,15.499,Owl_monkey,7.030228,32.289583
2,1.35,8.1,Beaver,3.674098,6.0
3,464.983,423.012,Cow,191.875016,0.909736
4,36.328,119.498,Gray_wolf,54.203381,3.289419
5,27.66,114.996,Goat,52.161308,4.157484
6,14.831,98.199,Roe_deer,44.542317,6.621199
7,1.04,5.5,Guinea_pig,2.494758,5.288462
8,4.19,57.998,Vervet,26.30745,13.842005
9,0.425,6.4,Chinchilla,2.902991,15.058824


## Cálculos con condicionales

Es posible realizar cálculos más complejos. Por ejemplo, en el ejercicios anterior usamos la división sin verificar si el denominador es cero. Esto puede causar algunos problemas. Por lo tanto, podemos introducir una condición en nuestra tarea. Si el peso del cerebro es cero, entonces la relación será cero; de lo contrario, almacene la relación en la nueva columna. Podemos crear funciones condicionales usando la función where en numpy. Pasamos 3 argumentos a la función:
- El primer argumento es la condición
- El segundo es el valor en caso de que la condición sea verdadera 
- El tercero es el valor en caso de que la condición sea falsa.

In [4]:
animals['wtratiozerocheck'] = np.where(animals['brainwt'] != 0, animals['bodywt'] / animals['brainwt'], 0)
animals.head()

Unnamed: 0,brainwt,bodywt,animal,bodywtkg,wtratio,wtratiozerocheck
0,3.385,44.5,Arctic_fox,20.18486,13.146233,13.146233
1,0.48,15.499,Owl_monkey,7.030228,32.289583,32.289583
2,1.35,8.1,Beaver,3.674098,6.0,6.0
3,464.983,423.012,Cow,191.875016,0.909736,0.909736
4,36.328,119.498,Gray_wolf,54.203381,3.289419,3.289419


In [22]:
print(np.where(animals['bodywt'] == 8.100))

(array([2], dtype=int64),)


In [23]:
print(np.argwhere(animals['bodywt'] == 8.100))

[[2]]


  return getattr(obj, method)(*args, **kwds)


In [5]:
help(np.where)

Help on built-in function where in module numpy:

where(...)
    where(condition, [x, y])
    
    Return elements chosen from `x` or `y` depending on `condition`.
    
    .. note::
        When only `condition` is provided, this function is a shorthand for
        ``np.asarray(condition).nonzero()``. Using `nonzero` directly should be
        preferred, as it behaves correctly for subclasses. The rest of this
        documentation covers only the case where all three arguments are
        provided.
    
    Parameters
    ----------
    condition : array_like, bool
        Where True, yield `x`, otherwise yield `y`.
    x, y : array_like
        Values from which to choose. `x`, `y` and `condition` need to be
        broadcastable to some shape.
    
    Returns
    -------
    out : ndarray
        An array with elements from `x` where `condition` is True, and elements
        from `y` elsewhere.
    
    See Also
    --------
    choose
    nonzero : The function that is called whe

## Cálculos con funciones


Como hemos aprendido en una lección anterior, Pandas DataFrames tiene 3 componentes: filas, columnas y datos. Las filas y columnas también se llaman ejes (axes). El eje cero (axis 0) es el eje de la fila y el eje uno (axis 1) es el eje de la columna. Por lo tanto, podemos aplicar funciones al eje de columnas para resumir todas las columnas a la vez.

Digamos que queremos tomar una suma de todas las columnas numéricas en el DataFrame de los animales. Podemos hacer esto usando la función de suma y pasando axis = 1 como un argumento a la función.

In [6]:
animals['sum'] = animals.sum(axis=1)
animals['sum']

0        94.362327
1        87.588395
2        25.124098
3      1081.689489
4       216.608218
5       203.132276
6       170.814715
7        19.611681
8       116.179460
9        39.845638
10       85.123290
11       21.596781
12       23.793710
13       56.208503
14       34.846926
15       25.370226
16       32.179186
17       18.269397
18     9241.817272
19       26.546034
20      800.643854
21     1475.609751
22       14.789771
23      200.156508
24       56.027116
25       57.467962
26       51.670562
27     1520.026958
28      801.105085
29      565.056402
          ...     
32    14958.612888
33       11.397582
34      319.645336
35      119.603888
36       37.156132
37       18.240259
38       35.387046
39       50.373398
40       37.427047
41      966.185720
42       29.768468
43      316.188837
44      331.346593
45      708.627543
46      305.504839
47       12.765894
48      180.432169
49       45.792106
50       79.554323
51       16.613254
52       33.819311
53       53.

In [7]:
animals['mean'] = animals.mean(axis=1)
animals.head()

Unnamed: 0,brainwt,bodywt,animal,bodywtkg,wtratio,wtratiozerocheck,sum,mean
0,3.385,44.5,Arctic_fox,20.18486,13.146233,13.146233,94.362327,31.454109
1,0.48,15.499,Owl_monkey,7.030228,32.289583,32.289583,87.588395,29.196132
2,1.35,8.1,Beaver,3.674098,6.0,6.0,25.124098,8.374699
3,464.983,423.012,Cow,191.875016,0.909736,0.909736,1081.689489,360.563163
4,36.328,119.498,Gray_wolf,54.203381,3.289419,3.289419,216.608218,72.202739
