# Introducción a Numpy y Pandas

Numpy es la librería de operaciones numéricas de Python, que extiende la funcionalidada de las listas del lenguaje y optimiza las operaciones numéricas. Internamente la libería está escrita en C y Fortran. Es la base para otras librerías más avanzadas como Pandas y ScikitLearn

## Conceptos escenciales de Numpy

Para utilizar una librería en Python primero es necesario "importarla", esto se hace con el comando `import` y el número de la librería. Después, para utilizar las funciones de la librería, tiene que nombrarse primero a esta, por ejemplo: `numpy.random.seed()`, para escribir un poco menos, se puede importar una librería con la opción `as nombre_corto`, en el caso de Numpy, tradicionalmente se utiliza la abreviatura `np`, como se muestra a continuación:

In [1]:
import numpy as np

Un arreglo de numpy (numpy array) es una forma mejorada de las listas de Python, que tienen mucha más funcionalidad, orientada a aplicaciones matemáticas

Podemos crear un arreglo de Numpy que se inicialice a ceros o a unos, con las funciones `np.zeros(n)` o `np.ones(n)` donde la `n` representa el número de elementos con el que queremos inicializar el arreglo:

In [2]:
ceros = np.zeros(10)
ceros

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [3]:
unos = np.ones(10)
unos

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

Podemos pensar en los arreglos anteriores como una vector horizontal (entiéndase renglón), de la siguiente forma:

    unos  = | 1 | 1 | 1 | 1 | 1 | 1 | 1 |...| 1 | (diez veces)
    ceros = | 0 | 0 | 0 | 0 | 0 | 0 | 0 |...| 0 | (diez veces)

### Operaciones básicas con los arreglos (vectores)

Numpy permite que se hagan operaciones entre arreglos del mismo tamaño, y las operaciones se hacen elemento por elemento, por ejemplo:

      | 1 | 1 | 1 | 1 | 1 | 1 |
    + | 1 | 1 | 1 | 1 | 1 | 1 |
      -------------------------
    = | 2 | 2 | 2 | 2 | 2 | 2 |

In [4]:
unos + unos

array([2., 2., 2., 2., 2., 2., 2., 2., 2., 2.])

También es posible hacer operaciones de arreglos con escalares, una multiplicación por ejemplo:

      | 1 | 1 | 1 | 1 | 1 | 1 |
    *                         5
      -------------------------
      | 5 | 5 | 5 | 5 | 5 | 5 |

In [5]:
unos * 5

array([5., 5., 5., 5., 5., 5., 5., 5., 5., 5.])

Podemos inicializar un arreglo de Numpy con números aleatorios. 

Para obtener los mismos resultados que aquí, es necesario inicializar la semilla del generador de números aleatorios:

In [6]:
np.random.seed(1234)

In [7]:
rands = np.random.rand(10)
rands

array([0.19151945, 0.62210877, 0.43772774, 0.78535858, 0.77997581,
       0.27259261, 0.27646426, 0.80187218, 0.95813935, 0.87593263])

Como decíamos, las operaciones que se hacen con arreglos de Numpy son elemento a elemento, por ejemplo, al sumar los unos con los números aleatorios:

      | 1          | 1          | 1          | 1          | 1          | ...
    + | 0.19151945 | 0.62210877 | 0.43772774 | 0.78535858 | 0.77997581 | ...
      ------------------------------------------------------------------
      | 1.19151945 | 1.62210877 | 1.43772774 | 1.78535858 | 1.77997581 | ...


In [8]:
unos + rands

array([1.19151945, 1.62210877, 1.43772774, 1.78535858, 1.77997581,
       1.27259261, 1.27646426, 1.80187218, 1.95813935, 1.87593263])

### Selección de elementos en un arreglo
Para acceder a un elemento del arreglo, se hace a través de su índice, que inicia en cero

    rands = | 0.19151945 | 0.62210877 | 0.43772774 | 0.78535858 | 0.77997581 | ...
    indice        0             1            2            3           4        ...

Por ejemplo, para acceder al primer (0) y después al tercer (2) elemento:

In [9]:
rands[0]

0.1915194503788923

In [10]:
rands[2]

0.4377277390071145

En Numpy podemos seleccionar múltiples elementos de un arreglo, produciendo un nuevo arreglo. Para seleccionar elementos contiguos, o "cortarlos", se utiliza la nomenclatura `[inicio:fin]` donde inicio es el índice inicial (inclusivo) y el fin es el índice final (exclusivo), que para ser claros significa el elemento anterior, por ejemplo, supongamos que queremos los tres elementos contiguos del arreglo anterior, iniciando con la posición del índice 1

    rands = | 0.19151945 | 0.62210877 | 0.43772774 | 0.78535858 | 0.77997581 | ...
    indice        0             1            2            3           4        ...

La nomenclatura que se iniciará será: `rands[1:4]`

In [10]:
rands[1:4]

array([0.62210877, 0.43772774, 0.78535858])

Para seleccionar los primeros elementos de un arreglo utilizamos la notación `[:n]` que significa, desde el inicio, hasta el elemento n-1, por ejemplo, los primeros tres elementos (índices 0, 1 y 2), se obtienen:

In [11]:
rands[:3]

array([0.19151945, 0.62210877, 0.43772774])

Para obtener todos los elementos que vienen después del elemento n-1 se usa la notación `[n:]`, por ejemplo, los nueve elementos posteriores al segundo elemento (indice 1), se obtienen:

In [12]:
rands[1:]

array([0.62210877, 0.43772774, 0.78535858, 0.77997581, 0.27259261,
       0.27646426, 0.80187218, 0.95813935, 0.87593263])

Para obtener los últimos elementos de un arreglo, se utiliza la notación `[-3:]`, que significa iniciar desde el último elemento, en sentido contrario y regresar los últimos tres elementos

In [13]:
rands[-3:]

array([0.80187218, 0.95813935, 0.87593263])

Se puede seleccionar también qué índices queremos ver, a través de una lista normal de Python, a continuación se despliegan el primero y el último elemento (indice 0 e indice 9):

In [14]:
rands[[0, 9]]

array([0.19151945, 0.87593263])

O el segundo (índice 1), el quinto (índice 4) y el noveno (índice 8):

In [15]:
rands[[1,4,8]]

array([0.62210877, 0.77997581, 0.95813935])

### El método `where()`

El método `where()` produce un arreglo de las posiciones (los índices) que cumplen con la condición que se está buscando, por ejemplo, qué elementos son mayores a 0.5:

    rands = | 0.19151945 | 0.62210877 | 0.43772774 | 0.78535858 | 0.77997581 | ...
    indice        0             1            2            3           4        ...
    cumple        N             S            N            N           S        ...

In [16]:
np.where(rands > 0.5)

(array([1, 3, 4, 7, 8, 9], dtype=int64),)

Si seleccionamos "manualmente" estos índices del vector rands, como se mostró con anterioridad, obtenemos los valores específicos, y podemos verificar como todos son mayores a 0.5

In [17]:
rands[[0,1,2,3,9]]

array([0.19151945, 0.62210877, 0.43772774, 0.78535858, 0.87593263])

Por lo que, si utilizamos el método `where()` directamente para seleccionar los índices con la condición, obtenemos el mismo resultado:

In [18]:
rands[np.where(rands > 0.5)]

array([0.62210877, 0.78535858, 0.77997581, 0.80187218, 0.95813935,
       0.87593263])

### concatenate()

Como mencionabamos arriba, a diferencia de los strings, el operador + no concatena (pega, junta) los arreglos, sino que hace operaciones a nivel de elemento.

Para unir dos arreglos, se usa `concatenate()`, el cuál pega un arreglo "detrás" del otro...

    unos  = | 1.         | 1.         | 1.         |
    rands = | 0.19151945 | 0.62210877 | 0.43772774 |
    
    np.concatenate((unos, rands)) = | 1.         | 1.         | 1.         | 0.19151945 | 0.62210877 | 0.43772774 |

In [19]:
np.concatenate((unos, rands))

array([1.        , 1.        , 1.        , 1.        , 1.        ,
       1.        , 1.        , 1.        , 1.        , 1.        ,
       0.19151945, 0.62210877, 0.43772774, 0.78535858, 0.77997581,
       0.27259261, 0.27646426, 0.80187218, 0.95813935, 0.87593263])

### Creando matrices a partir de arreglos con `array()`

Si en vez de usar la concatenación, usamos `array()` para crear un nuevo arreglo, podemos crear arreglos multidimensionales (también conocidos como matrices).

Se pueden crear arreglos de muchas dimensiones, pero en el análisis de información, los más comunes son las matrices de dos dimensiones, que tienen renglones y columnas.

    unos  = | 1.         | 1.         | 1.         |
    rands = | 0.19151945 | 0.62210877 | 0.43772774 |
    
    np.array([unos, rands]) = | 1.         | 1.         | 1.         | 
                              | 0.19151945 | 0.62210877 | 0.43772774 |
                              
Este ejemplo crea un arreglo de dos renglones y tres columnas

In [20]:
arr = np.array([unos, rands])
arr

array([[1.        , 1.        , 1.        , 1.        , 1.        ,
        1.        , 1.        , 1.        , 1.        , 1.        ],
       [0.19151945, 0.62210877, 0.43772774, 0.78535858, 0.77997581,
        0.27259261, 0.27646426, 0.80187218, 0.95813935, 0.87593263]])

Para obtener un elemento de la matriz, hay que indicar el renglón y la columna donde se encuentra, por ejemplo, para obtener el elemento con valor 0.4377... que se ubica en el segundo renglón (indice 1) y en la tercera columna (indice 2):

In [21]:
arr[1, 2]

0.4377277390071145

También es posible tomar un renglón entero, por ejemplo, para tomar el renglón de los números aleatorios (indice 1), se hace de la siguiente forma:

In [22]:
arr[1]

array([0.19151945, 0.62210877, 0.43772774, 0.78535858, 0.77997581,
       0.27259261, 0.27646426, 0.80187218, 0.95813935, 0.87593263])

Para seleccionar una columna, digamos la segunda, que contiene en el primer renglón 1, y en el segundo 0.622... se usa la nomenclatura [:,1], los dos puntos significa "todos los renglones"

In [23]:
arr[:,1]

array([1.        , 0.62210877])

Vamos a crear una matriz de 4 x 4, utilizando los arreglos que tenemos, el primer renglón tendrá ceros, el segundo, los primeros cuatro elementos de los números aleatorios, el tercero los últimos cuatro de los números aleatorios y el cuarto, unos

    arr2 = np.array([unos[:4], rands[:4], rands[-4:], unos[:4]])
    
    | 1.         | 1.         | 1.         | 1.         |
    | 0.19151945 | 0.62210877 | 0.43772774 | 0.78535858 |
    | 0.27646426 | 0.80187218 | 0.95813935 | 0.87593263 |
    | 0.         | 0.         | 0.         | 0.         |



In [24]:
arr2 = np.array([unos[:4], rands[:4], rands[-4:], unos[:4]])
arr2

array([[1.        , 1.        , 1.        , 1.        ],
       [0.19151945, 0.62210877, 0.43772774, 0.78535858],
       [0.27646426, 0.80187218, 0.95813935, 0.87593263],
       [1.        , 1.        , 1.        , 1.        ]])

Podemos seleccionar un elemento específico

In [25]:
arr2[1,2]

0.4377277390071145

...o un renglón (el tercer renglón)

In [26]:
arr2[2]

array([0.27646426, 0.80187218, 0.95813935, 0.87593263])

...o una columna (la cuarta columna)

In [27]:
arr2[:,3]

array([1.        , 0.78535858, 0.87593263, 1.        ])

...También podemos seleccionar una matriz, por ejemplo, la matriz "noreste" de 2x2:

In [28]:
arr2[:2,2:]

array([[1.        , 1.        ],
       [0.43772774, 0.78535858]])

# Pandas

Pandas se basa en Numpy, pero es una librería diferente que nos permite analizar información de una forma mucho más sencilla

Para aprender el manejo de Pandas, utilizaremos un dataset (conjunto de datos) que contiene la información de las bebidas que se toman en todo el mundo en 2010

* Artículo en **FiveThirtyEight**: [Dear Mona Followup: Where Do People Drink The Most Beer, Wine And Spirits?](https://fivethirtyeight.com/features/dear-mona-followup-where-do-people-drink-the-most-beer-wine-and-spirits/)
* Dataset: [DataWorld](https://data.world/fivethirtyeight/alcohol-consumption#) (Es necesario registrarse, se puede con una cuenta de Google)

Así como Numpy suele llamársele np, a Pandas suele llamársele pd

In [30]:
import pandas as pd

## Carga de archivos .csv

La base de Pandas es un objeto llamado "DataFrame", que es fundamentalmente una matriz bidimensional, pero con muchas más características.

In [31]:
df = pd.read_csv('drinks.csv')

In [32]:
df

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol
0,Afghanistan,0,0,0,0.0
1,Albania,89,132,54,4.9
2,Algeria,25,0,14,0.7
3,Andorra,245,138,312,12.4
4,Angola,217,57,45,5.9
...,...,...,...,...,...
188,Venezuela,333,100,3,7.7
189,Vietnam,111,2,1,2.0
190,Yemen,6,0,0,0.1
191,Zambia,32,19,4,2.5


Pandas también puede leer archivos de Excel:

In [39]:
# pip install xlrd
# pip install openpyxl
excel = pd.read_excel('drinks.xlsx', index_col=0)

In [40]:
excel

Unnamed: 0_level_0,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Afghanistan,0,0,0,0.0
Albania,89,132,54,4.9
Algeria,25,0,14,0.7
Andorra,245,138,312,12.4
Angola,217,57,45,5.9
...,...,...,...,...
Venezuela,333,100,3,7.7
Vietnam,111,2,1,2.0
Yemen,6,0,0,0.1
Zambia,32,19,4,2.5


### .head() y .tail()

Podemos explorar el inicio (los primeros registros o renglones) y fin del DataFrame (los últimos registros)

In [41]:
df.head()

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol
0,Afghanistan,0,0,0,0.0
1,Albania,89,132,54,4.9
2,Algeria,25,0,14,0.7
3,Andorra,245,138,312,12.4
4,Angola,217,57,45,5.9


In [42]:
df.tail(3)

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol
190,Yemen,6,0,0,0.1
191,Zambia,32,19,4,2.5
192,Zimbabwe,64,18,4,4.7


Despliegue de la tabla de forma traspuesta. Es útil cuando tenemos muchos campos

In [43]:
df.head().T

Unnamed: 0,0,1,2,3,4
country,Afghanistan,Albania,Algeria,Andorra,Angola
beer_servings,0,89,25,245,217
spirit_servings,0,132,0,138,57
wine_servings,0,54,14,312,45
total_litres_of_pure_alcohol,0.0,4.9,0.7,12.4,5.9


### El objeto DataFrame

El dataframe es un objeto bidimensional (una matriz) que se compone de "series" (las columnas):

In [44]:
print(type(df))

<class 'pandas.core.frame.DataFrame'>


In [45]:
print(type(df['country']))

<class 'pandas.core.series.Series'>


In [46]:
print(type(df.country))

<class 'pandas.core.series.Series'>


In [47]:
df.country[:5]

0    Afghanistan
1        Albania
2        Algeria
3        Andorra
4         Angola
Name: country, dtype: object

### Tamaño (forma) del objeto

Podemos saber cuántos renglones y cuántas columnas forman al objeto con el atributo `shape`:

In [48]:
df.shape

(193, 5)

### Selección básica de renglones

Se puede seleccionar datos de una forma que es más sencilla que en Numpy, donde se usaba la función `where()`

In [49]:
df[df.country == 'USA']

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol
184,USA,249,158,84,8.7


In [50]:
df.country == 'USA'

0      False
1      False
2      False
3      False
4      False
       ...  
188    False
189    False
190    False
191    False
192    False
Name: country, Length: 193, dtype: bool

Para seleccionar un registro a través de su llave (número de renglón) se utiliza `iloc`

In [51]:
df.iloc[184]

country                         USA
beer_servings                   249
spirit_servings                 158
wine_servings                    84
total_litres_of_pure_alcohol    8.7
Name: 184, dtype: object

In [52]:
df[df.country == 'Mexico']

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol
109,Mexico,238,68,5,5.5


### Ordenamiento

Podemos ordenar el DataFrame de acuerdo a los valores que hay en sus columnas, para poder contestar preguntas como ¿Quiénes son los primeros cinco países en el consumo de cerveza?

In [53]:
df.sort_values(by='beer_servings')

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol
0,Afghanistan,0,0,0,0.0
40,Cook Islands,0,254,74,5.9
79,Iran,0,0,0,0.0
90,Kuwait,0,0,0,0.0
97,Libya,0,0,0,0.0
...,...,...,...,...,...
135,Poland,343,215,56,10.9
65,Germany,346,117,175,11.3
62,Gabon,347,98,59,8.9
45,Czech Republic,361,170,134,11.8


In [54]:
df.sort_values(by='beer_servings', ascending=False)

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol
117,Namibia,376,3,1,6.8
45,Czech Republic,361,170,134,11.8
62,Gabon,347,98,59,8.9
65,Germany,346,117,175,11.3
98,Lithuania,343,244,56,12.9
...,...,...,...,...,...
107,Mauritania,0,0,0,0.0
158,Somalia,0,0,0,0.0
111,Monaco,0,0,0,0.0
128,Pakistan,0,0,0,0.0


In [55]:
df.sort_values(by='beer_servings', ascending=False).head()

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol
117,Namibia,376,3,1,6.8
45,Czech Republic,361,170,134,11.8
62,Gabon,347,98,59,8.9
65,Germany,346,117,175,11.3
98,Lithuania,343,244,56,12.9


In [56]:
df.sort_values(by='beer_servings', ascending=False).head()[['country', 'beer_servings']]

Unnamed: 0,country,beer_servings
117,Namibia,376
45,Czech Republic,361
62,Gabon,347
65,Germany,346
98,Lithuania,343


### Algunos estadísticos básicos

In [57]:
df.describe()

Unnamed: 0,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol
count,193.0,193.0,193.0,193.0
mean,106.160622,80.994819,49.450777,4.717098
std,101.143103,88.284312,79.697598,3.773298
min,0.0,0.0,0.0,0.0
25%,20.0,4.0,1.0,1.3
50%,76.0,56.0,8.0,4.2
75%,188.0,128.0,59.0,7.2
max,376.0,438.0,370.0,14.4


### Manipulación del DataFrame

Para añadir una columna a un DataFrame, simplemente hay que referenciarla, por ejemplo, si queremos añadir una columna que se llame `continente` que guarde el continente al que pertenece un país:

In [58]:
df[:5]

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol
0,Afghanistan,0,0,0,0.0
1,Albania,89,132,54,4.9
2,Algeria,25,0,14,0.7
3,Andorra,245,138,312,12.4
4,Angola,217,57,45,5.9


In [59]:
# La columna continente se va a llenar con el valor "otro", para todos los casos
df['continente'] = 'Otro'

In [60]:
df[:5]

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,continente
0,Afghanistan,0,0,0,0.0,Otro
1,Albania,89,132,54,4.9,Otro
2,Algeria,25,0,14,0.7,Otro
3,Andorra,245,138,312,12.4,Otro
4,Angola,217,57,45,5.9,Otro


Supongamos que existe el continente **Norteamérica** y que está conformado por Canada, Estados Unidos y Mexico, si queremos desplegar los renglones para los tres países, usamos la función `isin()` y le pasamos una lista de países como parámetro

In [55]:
df[df.country.isin(['USA', 'Canada', 'Mexico'])]

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,continente
32,Canada,240,122,100,8.2,Otro
109,Mexico,238,68,5,5.5,Otro
184,USA,249,158,84,8.7,Otro


Para poder modificar los valores de una selección como la anterior, requerimos usar el atributo `loc[]` al cual se le pasa una condición para seleccionar los diferentes registros, el segundo parámetro de `loc[]` es la columna sobre la que vamos a operar, en este caso `continente`

In [56]:
df.loc[df.country.isin(['USA', 'Canada', 'Mexico']), 'continente'] = 'Norteamérica'

In [57]:
df[df.country.isin(['USA', 'Canada', 'Mexico'])]

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,continente
32,Canada,240,122,100,8.2,Norteamérica
109,Mexico,238,68,5,5.5,Norteamérica
184,USA,249,158,84,8.7,Norteamérica


Hacemos lo mismo para los países de Europa

In [58]:
df.loc[df.country.isin(['Portugal', 'Spain', 'France', 'Germnay', 'Poland',
                        'United Kingdom', 'Italy', 'Netherlands', 'Belgium', 
                        'Czech Republic', 'Greece', 'Sweden', 'Hungary',
                        'Switzerland', 'Austria', 'Serbia', 'Bulgaria', 'Denmark',
                        'Finland', 'Norway', 'Ireland', 'Croatia', 'Moldova',
                        'Bosnia-Herzegovina', 'Montenegro', 'Luxemburg', 
                        'Malta', 'Andorra', 'Monaco', 'Liechenstein', 
                        'Macedonia', 'San Marino']), 
        'continente'] = "Europa"

In [59]:
df.head()

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,continente
0,Afghanistan,0,0,0,0.0,Otro
1,Albania,89,132,54,4.9,Otro
2,Algeria,25,0,14,0.7,Otro
3,Andorra,245,138,312,12.4,Europa
4,Angola,217,57,45,5.9,Otro


...y continuamos así con los demás países del mundo

### Modificación con funciones

Utilizamos la función `apply` para aplicar una fórmula sobre las columnas, o los renglones del DataFrame. 

En el siguiente caso, vamos a aplicar la formula `max()` sobre cada columna, para que nos diga cuál es el valor máximo de esa columna

In [60]:
df.apply(lambda x: x.max())

country                         Zimbabwe
beer_servings                        376
spirit_servings                      438
wine_servings                        370
total_litres_of_pure_alcohol        14.4
continente                          Otro
dtype: object

Los datos obtenidos deben ser iguales a los datos que reporta `.describe()` excepto para el caso de los datos no numéricos, que la función lambda también reporta

In [61]:
df.describe()

Unnamed: 0,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol
count,193.0,193.0,193.0,193.0
mean,106.160622,80.994819,49.450777,4.717098
std,101.143103,88.284312,79.697598,3.773298
min,0.0,0.0,0.0,0.0
25%,20.0,4.0,1.0,1.3
50%,76.0,56.0,8.0,4.2
75%,188.0,128.0,59.0,7.2
max,376.0,438.0,370.0,14.4


#### ¿Cuál es la bebida alcoholica de cada país?

Para contestar esta pregunta, vamos a crear una función que compare los números de cada renglón (registro), y nos diga cuál elemento es el más grande, por tanto el favorito

In [62]:
def favorita(x):
    if (x[4] == 0):
        return "abstemio"
    return df.columns[np.where(x == x[1:4].max())][0].replace('_servings', '')

##### ¿Cómo funciona?

Veámoslo por pasos. Revisemos el nombre de las columnas en el dataframe

In [63]:
df.columns

Index(['country', 'beer_servings', 'spirit_servings', 'wine_servings',
       'total_litres_of_pure_alcohol', 'continente'],
      dtype='object')

Los siguientes son los índices de cada columna:

    country | beer_servings | spirit_servings | wine_servings | total_litres_of_pure_alcohol | continente
       0           1                2               3                         4                     5
       
La columna con el índice 4 contiene la cantidad total de litros de alcohol que consume un adulto en un año

El primer registro corresponde a Afghanistan, que es un estado donde la bebida está prohibida, por tanto el total debe ser cero.

In [64]:
df.iloc[0]

country                         Afghanistan
beer_servings                             0
spirit_servings                           0
wine_servings                             0
total_litres_of_pure_alcohol              0
continente                             Otro
Name: 0, dtype: object

In [65]:
print("En {} se toma un total de {} litros de "
      "alcohol por persona de forma anual".format(df.iloc[0][0], 
                                                  df.iloc[0][4]))

En Afghanistan se toma un total de 0.0 litros de alcohol por persona de forma anual


In [66]:
print(favorita(df.iloc[0]))

abstemio


Como ya vimos, el país 184 corresponde a USA, donde se toman varias bebidas alcoholicas

In [67]:
df.iloc[184]

country                                  USA
beer_servings                            249
spirit_servings                          158
wine_servings                             84
total_litres_of_pure_alcohol             8.7
continente                      Norteamérica
Name: 184, dtype: object

In [68]:
print("En {} se toma un total de {} litros de "
      "alcohol por persona de forma anual".format(df.iloc[184][0], 
                                                  df.iloc[184][4]))

En USA se toma un total de 8.7 litros de alcohol por persona de forma anual


...Por lo que podemos decir, que si el valor en el índice en la posición 4 (total_litros_of_pure_alcohol) es cero, el país es abstemio

In [69]:
bebida = df.iloc[184]
bebida

country                                  USA
beer_servings                            249
spirit_servings                          158
wine_servings                             84
total_litres_of_pure_alcohol             8.7
continente                      Norteamérica
Name: 184, dtype: object

In [70]:
bebida[1:5].max()

249

In [71]:
np.where(bebida == 249)

(array([1], dtype=int64),)

In [72]:
np.where(bebida == bebida[1:4].max())[0]

array([1], dtype=int64)

La propiedad `columns` nos dice el nombre de las columnas en el DataFrame, queremos obtener el nombre de la columna que coincide con el arreglo anterior, que contiene la columna favorita (la que tiene el número mayor)

In [73]:
df.head(3)

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,continente
0,Afghanistan,0,0,0,0.0,Otro
1,Albania,89,132,54,4.9,Otro
2,Algeria,25,0,14,0.7,Otro


In [74]:
df.columns

Index(['country', 'beer_servings', 'spirit_servings', 'wine_servings',
       'total_litres_of_pure_alcohol', 'continente'],
      dtype='object')

In [75]:
df.columns[bebida == bebida[1:4].max()]

Index(['beer_servings'], dtype='object')

Ahora queremos obtener el primer elemento del índice, pero en forma de cadena de caracteres:

In [76]:
df.columns[bebida == bebida[1:4].max()][0]

'beer_servings'

In [77]:
'beer_servings'.replace('_servings', '')

'beer'

Finalmente, eliminamos el `\_servings` que aparece en los tres tipos de bebida, para quedarnos con el nombre del alcohol que nos interesa

In [78]:
df.columns[bebida == bebida[1:4].max()][0].replace('_servings', '')

'beer'

Ahora, ejecutamos la función para todos los renglones, utilizando la función `apply()`

Pero como la función `apply()` por defecto opera sobre columnas, necesitamos decirle que opere en los renglones, para esto existe el parámetro `axis=n` donde n, si es 0 o está ausente, significa sobre las columnas, y si es 1, sobre los renglones

In [79]:
df.head(10)

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,continente
0,Afghanistan,0,0,0,0.0,Otro
1,Albania,89,132,54,4.9,Otro
2,Algeria,25,0,14,0.7,Otro
3,Andorra,245,138,312,12.4,Europa
4,Angola,217,57,45,5.9,Otro
5,Antigua & Barbuda,102,128,45,4.9,Otro
6,Argentina,193,25,221,8.3,Otro
7,Armenia,21,179,11,3.8,Otro
8,Australia,261,72,212,10.4,Otro
9,Austria,279,75,191,9.7,Europa


In [80]:
df.apply(favorita, axis=1)

0      abstemio
1        spirit
2          beer
3          wine
4          beer
         ...   
188        beer
189        beer
190        beer
191        beer
192        beer
Length: 193, dtype: object

In [81]:
favs = df.apply(favorita, axis=1)

In [82]:
favs

0      abstemio
1        spirit
2          beer
3          wine
4          beer
         ...   
188        beer
189        beer
190        beer
191        beer
192        beer
Length: 193, dtype: object

Creamos un nuevo DataFrame a partir de concatenar el DataFrame original con el nuevo que indica cuál es el favorito:

In [83]:
pd.concat((df, favs), axis=1).head()

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,continente,0
0,Afghanistan,0,0,0,0.0,Otro,abstemio
1,Albania,89,132,54,4.9,Otro,spirit
2,Algeria,25,0,14,0.7,Otro,beer
3,Andorra,245,138,312,12.4,Europa,wine
4,Angola,217,57,45,5.9,Otro,beer


Para que tengamos un nombre en la columna del favorito, necesitaríamos haber concatenado con un DataFrame inicializado con un diccionario:

In [84]:
pd.concat((df, pd.DataFrame({'favorito' : favs})), axis=1).head()

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,continente,favorito
0,Afghanistan,0,0,0,0.0,Otro,abstemio
1,Albania,89,132,54,4.9,Otro,spirit
2,Algeria,25,0,14,0.7,Otro,beer
3,Andorra,245,138,312,12.4,Europa,wine
4,Angola,217,57,45,5.9,Otro,beer


Si creamos un nuevo dataframe, podemos utilizarlo para hacer consultas basadas en la columna que acabamos de crear. Para hacer esto, creamos una nueva variable:

In [85]:
bebidas = pd.concat((df, pd.DataFrame({'favorito' : favs})), axis=1)

In [86]:
bebidas

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,continente,favorito
0,Afghanistan,0,0,0,0.0,Otro,abstemio
1,Albania,89,132,54,4.9,Otro,spirit
2,Algeria,25,0,14,0.7,Otro,beer
3,Andorra,245,138,312,12.4,Europa,wine
4,Angola,217,57,45,5.9,Otro,beer
...,...,...,...,...,...,...,...
188,Venezuela,333,100,3,7.7,Otro,beer
189,Vietnam,111,2,1,2.0,Otro,beer
190,Yemen,6,0,0,0.1,Otro,beer
191,Zambia,32,19,4,2.5,Otro,beer


In [87]:
# Preguntamos sobre los países a los que les gusta más la cerveza:
bebidas[bebidas.favorito == 'beer'].head().sort_values(by='beer_servings', ascending=False)

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,continente,favorito
16,Belgium,295,84,212,10.5,Europa,beer
9,Austria,279,75,191,9.7,Europa,beer
8,Australia,261,72,212,10.4,Otro,beer
4,Angola,217,57,45,5.9,Otro,beer
2,Algeria,25,0,14,0.7,Otro,beer


¿Cuáles son los países donde la bebida favorita es el vino (wine) donde se consume más cerveza?

In [88]:
bebidas[bebidas.favorito == 'wine'].sort_values(by="beer_servings", ascending=False)[:5]

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,continente,favorito
156,Slovenia,270,51,276,10.6,Otro,wine
3,Andorra,245,138,312,12.4,Europa,wine
99,Luxembourg,236,133,271,11.4,Otro,wine
42,Croatia,230,87,254,10.2,Europa,wine
48,Denmark,224,81,278,10.4,Europa,wine


### Conocer los valores únicos de una columna

¿Cuáles son las bebidas favoritas en todos los países?

In [62]:
bebidas.favorito.value_counts()

NameError: name 'bebidas' is not defined