# Métodos del objeto <code>Series</code>

In [2]:
import pandas as pd

# El parámetro <code>squeeze</code> convierte un <code>DataFrame</code>de una columna en una serie
pokemon = pd.read_csv("../datos/pokemon.csv", index_col = "Pokemon", squeeze = True)
google = pd.read_csv("../datos/google_stocks.csv",parse_dates = ["Date"],index_col = "Date",squeeze = True)

In [3]:
pokemon

Pokemon
Bulbasaur      Grass / Poison
Ivysaur        Grass / Poison
Venusaur       Grass / Poison
Charmander               Fire
Charmeleon               Fire
                    ...      
Stakataka        Rock / Steel
Blacephalon      Fire / Ghost
Zeraora              Electric
Meltan                  Steel
Melmetal                Steel
Name: Type, Length: 809, dtype: object

In [8]:
google.sort_values()

Date
2004-09-03      49.82
2004-09-01      49.94
2004-08-19      49.98
2004-09-02      50.57
2004-09-07      50.60
               ...   
2019-04-23    1264.55
2019-10-25    1265.13
2018-07-26    1268.33
2019-04-26    1272.18
2019-04-29    1287.58
Name: Close, Length: 3824, dtype: float64

## Sobrescribir una <code>Series</code> con el parámetro <code>inplace</code>

In [9]:
pokemon.sort_index(ascending = True)

Pokemon
Abomasnow        Grass / Ice
Abra                 Psychic
Absol                   Dark
Accelgor                 Bug
Aegislash      Steel / Ghost
                  ...       
Zoroark                 Dark
Zorua                   Dark
Zubat        Poison / Flying
Zweilous       Dark / Dragon
Zygarde      Dragon / Ground
Name: Type, Length: 809, dtype: object

In [10]:
pokemon

Pokemon
Bulbasaur      Grass / Poison
Ivysaur        Grass / Poison
Venusaur       Grass / Poison
Charmander               Fire
Charmeleon               Fire
                    ...      
Stakataka        Rock / Steel
Blacephalon      Fire / Ghost
Zeraora              Electric
Meltan                  Steel
Melmetal                Steel
Name: Type, Length: 809, dtype: object

¿Y si quisiéramos modificar la <code>Series</code>? Muchos métodos en pandas incluyen un parámetro <code>inplace</code> que, cuando se pasa <code>True</code> como argumento, modifica el objeto en el que se invoca el método.

In [11]:
pokemon.sort_index(ascending = True, inplace = True)

In [12]:
pokemon

Pokemon
Abomasnow        Grass / Ice
Abra                 Psychic
Absol                   Dark
Accelgor                 Bug
Aegislash      Steel / Ghost
                  ...       
Zoroark                 Dark
Zorua                   Dark
Zubat        Poison / Flying
Zweilous       Dark / Dragon
Zygarde      Dragon / Ground
Name: Type, Length: 809, dtype: object

## Contar valores con el método <code>value_counts</code>

In [13]:
pokemon.value_counts()

Normal                65
Water                 61
Grass                 38
Psychic               35
Fire                  30
                      ..
Psychic / Grass        1
Psychic / Fighting     1
Rock / Poison          1
Bug / Ground           1
Dragon / Electric      1
Name: Type, Length: 159, dtype: int64

Puede que nos interese más la proporción de un tipo de Pokémon en relación con todos los tipos.

Al establecer el parámetro <code>normalize</code> del método <code>value_counts</code> en <code>True</code> podemos devolver las frecuencias de cada valor único:

In [4]:
pokemon.value_counts(normalize = True).head()

Normal     0.080346
Water      0.075402
Grass      0.046972
Psychic    0.043263
Fire       0.037083
Name: Type, dtype: float64


Podemos multiplicar los valores de la frecuencia <code>Series</code> por 100 para obtener el porcentaje que cada tipo de Pokémon contribuye al total

In [5]:
pokemon.value_counts(normalize = True).head() * 100

Normal     8.034611
Water      7.540173
Grass      4.697157
Psychic    4.326329
Fire       3.708282
Name: Type, dtype: float64

Podemos definir intervalos como valores en una lista y pasar la lista al parámetro <code>bins</code> del método <code>value_counts</code>. 

Pandas usará cada dos valores de lista subsiguientes como los extremos inferior y superior de un intervalo:

In [16]:
google.describe()

count    3824.000000
mean      479.945860
std       328.528592
min        49.820000
25%       235.860000
50%       314.680000
75%       708.205000
max      1287.580000
Name: Close, dtype: float64

In [20]:
buckets = [0, 200, 400, 600, 800, 1000, 1200, 1400]
google.value_counts(bins = buckets, sort = False)

(-0.001, 200.0]      595
(200.0, 400.0]      1568
(400.0, 600.0]       575
(600.0, 800.0]       380
(800.0, 1000.0]      207
(1000.0, 1200.0]     406
(1200.0, 1400.0]      93
Name: Close, dtype: int64

Tenga en cuenta que el primer intervalo incluye el valor -0.001 en lugar de 0. 

Cuando pandas organiza los valores de <code>Series</code> en rangos, puede extender el rango hasta en 0.1% en cualquier dirección. Los símbolos alrededor de los intervalos tienen significado:

* Un paréntesis marca un valor como *excluido* del intervalo.
* Un corchete marca un valor como *incluido* en el intervalo.

El parámetro bins del método <code>value_counts</code> también acepta como argumento un número entero.

Pandas calculará automáticamente la diferencia entre los valores máximo y mínimo en la <code>Serie</code> y dividirá el rango en el número especificado de bins.


El siguiente ejemplo divide los precios de las acciones en Google en seis bins.

In [21]:
google.value_counts(bins = 6, sort = False)

(48.581, 256.113]      1204
(256.113, 462.407]     1104
(462.407, 668.7]        507
(668.7, 874.993]        380
(874.993, 1081.287]     292
(1081.287, 1287.58]     337
Name: Close, dtype: int64

## Invocar una función en cada valor de <code>Series</code> con el método <code>apply</code>

En Python una función es un *objeto de primera clase* lo que significa que el lenguaje la trata como cualquier otro tipo de datos.

¿Esto qué significa? Qué cualquier cosa que puedas hacer con un número, puedes hacerlo con una función. Puede hacer todas las cosas siguientes, por ejemplo:

* Almacenar una función en una lista.
* Asignar una función como valor para una llave de un diccionario.
* Pasar una función como argumento de una función.

Es importante distinguir entre una función y una invocación de función.

Una *función* es una secuencia de instrucciones que produce una salida; es una “receta” que aún no ha sido cocinada. 

Por su parte, la invocación de una función es la ejecución real de las instrucciones; es la cocción de la receta.

El siguiente ejemplo declara una lista <code>funcs</code> que almacena tres funciones integradas de Python.

Las funciones <code>len</code> , <code>max</code> y <code>min</code> no se invocan dentro de la lista. 

La lista almacena referencias a esas funciones:


In [26]:
funcs = [len,max,min]

El siguiente ejemplo itera sobre la lista <code>funcs</code> con un <code>for</code> loop. En tres iteraciones, la variable de iterador <code>current_func</code> representa las funciones <code>len</code> , <code>max</code> y <code>min</code> no invocadas.


Durante cada iteración, el <code>loop</code> invoca la función  <code>current_func</code>, le pasa  <code>google Series</code> e imprime el valor de retorno:

In [27]:
func_names = ["len","max","min"]

for name_func,current_func in zip(func_names,funcs):
    print("{}--->{}".format(name_func,current_func(google)))

len--->3824
max--->1287.58
min--->49.82


**Conclusión : podemos tratar una función como cualquier otro objeto en Python**.

Entonces, ¿cómo se aplica este hecho a Pandas?

El objeto <code>Series</code> tiene un método llamado <code>apply</code> que invoca una función una vez para cada valor de <code>Series</code> y devuelve una nueva <code>Series</code> que consiste de los valores de retorno de las invocaciones de esa función.


In [28]:
google

Date
2004-08-19      49.98
2004-08-20      53.95
2004-08-23      54.50
2004-08-24      52.24
2004-08-25      52.80
               ...   
2019-10-21    1246.15
2019-10-22    1242.80
2019-10-23    1259.13
2019-10-24    1260.99
2019-10-25    1265.13
Name: Close, Length: 3824, dtype: float64

In [29]:
google.apply(round)

Date
2004-08-19      50
2004-08-20      54
2004-08-23      54
2004-08-24      52
2004-08-25      53
              ... 
2019-10-21    1246
2019-10-22    1243
2019-10-23    1259
2019-10-24    1261
2019-10-25    1265
Name: Close, Length: 3824, dtype: int64

El método <code>apply</code> también acepta funciones personalizadas. 


Digamos que queremos averiguar cuántos de nuestros Pokémon tienen un tipo (como Fuego) y cuántos tienen dos o más tipos.

In [30]:
def single_or_multi(pokemon_type):
    if "/" in pokemon_type:
        return "Multi"
    return "Single"


El siguiente ejemplo llama al método <code>apply</code> con la función <code>single_or_multi</code> como argumento. Pandas invoca la función <code>single_or_multi</code> para cada valor de <code>Series</code>:

In [31]:
pokemon

Pokemon
Abomasnow        Grass / Ice
Abra                 Psychic
Absol                   Dark
Accelgor                 Bug
Aegislash      Steel / Ghost
                  ...       
Zoroark                 Dark
Zorua                   Dark
Zubat        Poison / Flying
Zweilous       Dark / Dragon
Zygarde      Dragon / Ground
Name: Type, Length: 809, dtype: object

In [32]:
pokemon.apply(single_or_multi)

Pokemon
Abomasnow     Multi
Abra         Single
Absol        Single
Accelgor     Single
Aegislash     Multi
              ...  
Zoroark      Single
Zorua        Single
Zubat         Multi
Zweilous      Multi
Zygarde       Multi
Name: Type, Length: 809, dtype: object

Averigüemos cuántos Pokémon entran en cada clasificación invocando <code>value_counts</code>:

In [33]:
pokemon.apply(single_or_multi).value_counts()

Multi     405
Single    404
Name: Type, dtype: int64