### Elementos básicos de Python

- Lenguaje de alto nivel: 
    en concreto significa que está optimizado para ser leído por personas, más que por máquinas.
    
- Lenguaje interpretado: 
    el código Python no es compilado directamente para ser ejecutado por una máquina (lenguaje de máquina). El interpretador de python permite por ejemplo ejecutar código Python dinámicamente (a medida vayamos agregándolo), línea por línea, al contrario de lenguajes como Java o C++, dónde debemos compilar el programa para revisar el resultado. Esto permite una mayor flexibilidad en la construcción del código, apoyando la labor investigativa y su objeto, que en nuestro caso son los datos. (Es posible utilizar Python como lenguaje de scripting, sin embargo, nuestra misión-contexto-objetivo es el análisis y su uso interactivo).
    
- Lenguaje de tipos dinámicos: 
    similar a lenguajes como Javascript, no es necesario/requisito que especifiquemos de antemano el tipo de dato que debe tener una variable,  o que por ejemplo una variable de tipo numérica pase luego a ser de tipo string. Debido a que no hay una etapa/paso de compilación, no existe un compilador que nos ayude a manejar los tipo de datos, debido a ello generalmente debemos verificar el correcto funcionamiento del código una vez ejecutado.
    

#### Ejemplos

* Tener presente que el código python en este y otros notebooks es ejecutado en modo interactivo, lo que significa que  el código es enviado desde el navegador a una máquina en la nube, la que ejecuta el código y envía de vuelta el/los resultado/s

In [4]:
# Para ejecutar el código en el notebook utiliza ctrl ò shift + enter o haz click en Run (botón play)

# Asigna valores sin necesidad de especificar su tipo y realiza operaciones con ellos
# No es necesario el uso de palabras reservadas como var, let, entre otras.
# No es requisito el uso de punto y coma (;) para el final de línea. Python trabaja con espacios e indentación 
# para "entender" el código. (considerando el uso de "end") 
x = 2 
y = 1 

# realiza operaciones con variables anteriormente creadas y asignadas, generando un output (salida/resultado) 
x + y

3

El interpretador de python es stateful (puede recordar estados pasados), lo que permite utilizar variables entre diferentes celdas del notebook. Recordar que si modificamos parte del código, debemos volver a ejecutarlo para que esos cambios sean reflejados. También es posible ejecutar todas las celdas en una sola acción, lo que nos ahorra tiempo si queremos realizar varias modificaciones.

#### Funciones

Consideraciones:
* Con las funciones de Python no es necesario especificar el tipo de dato que retornamos e incluso no se requiere el uso de la palabra reservada "return". En tal caso, si no hay valores que retornar, python por defecto nos enviará "None", lo que en palabras sencillas representa la ausencia de valor (similar a null en Java).  
* Python permite que los parámetros de una función posean valores por defecto. Tener presente que para utilizar esta característica, tales parámetros deben ser declarados al final del conjunto de parámetros de la función.
* Con Python es posible asignar funciones a una variable (programación funcional básica)
* print() intentará convertir sus argumentos a string e imprimirlos en pantalla. Si bien su uso no es frecuente en el modo interactivo , es útil cuando queremos imprimir múltiples líneas desde una sola celda. 

In [5]:
def sumar_numeros(x,y):
    return x + y

In [6]:
sumar_numeros(1,3)

4

In [7]:
a = sumar_numeros

In [8]:
a(3,2)

5

#### Tipos y Secuencias

* Python posee una función llamada type(), la que permite saber el tipo de dato al cual hace referencia el argumento que le pasamos.
* Los tipos poseen propiedades asociadas, las cuales pueden ser datos o funciones  

In [9]:
type('Este es un string')

str

In [10]:
type(None)

NoneType

In [11]:
type(1234)

int

In [12]:
type(3.14)

float

In [13]:
type(sumar_numeros)

function

#### Colecciones

* Tuplas: es una secuencia inmutable  de variables. Esto significa que una tupla almacena items en orden, los cuales no pueden modificarse una vez creada.

* Listas: similar a las tuplas una lista almacena items, pero pudiendo modificar su tamaño, número de items y valores de los items.
 
* Diccionarios: tal como las tuplas y listas, los diccionarios almacenan una colección de items/elementos. Sin embargo, la diferencia radica en que a cada item es posible asignarle un nombre/tag y éstos no poseen un orden específico. Esto significa, que si queremos insertar un nuevo elemento al diccionario, debemos especificar su "nombre" o más comúnmente llamada "llave". Así, cada elemento del diccionario se compone de una llave y un valor (esta estructura es equivalente a lo que en otros lenguajes llaman map).  

In [14]:
ejemplo_tupla = ('Pedro', 19345987, 'Angélica', 20987345, 'Mónica', 14098456)
type(ejemplo_tupla)

tuple

In [15]:
ejemplo_lista = ['Pedro','Angélica']
type(ejemplo_lista)

list

In [16]:
ejemplo_diccionario = { 'Pedro': 19345987, 'Angélica': 20987345, 'Mónica': 14098456}
print(ejemplo_diccionario['Pedro'])

# también es posible realizar operaciones en diccionarios
ejemplo_diccionario['Angélica'] = None
print(ejemplo_diccionario['Angélica'])

# recorre un diccionario
for item in ejemplo_diccionario:
    print(ejemplo_diccionario[item])

# obtiene sólo los valores del diccionario
for item in ejemplo_diccionario.values():
    print(item)
    
# obtiene "llave/nombre" y valores
for nombre, rut in ejemplo_diccionario.items():
    print(nombre)
    print(rut)

19345987
None
19345987
None
14098456
19345987
None
14098456
Pedro
19345987
Angélica
None
Mónica
14098456


In [17]:
# Con los diccionarios de Python es posible utilizar una técnica llamada "unpacking" (desempacar).
# ésta, permite desempacar un diccionario en distintas variables
diccionario = {'Mónica', 14098456, 'monik@gmail.com'} 
nombre, rut, email = diccionario

print(nombre)
print(rut)
print(email)

14098456
monik@gmail.com
Mónica


Es posible realizar distintas operaciones en una lista

In [18]:
# agrega un nuevo item a la lista
ejemplo_lista.append('Mónica')
print(ejemplo_lista)

['Pedro', 'Angélica', 'Mónica']


In [19]:
# concatena 2 listas
[1,2] + [3,4]

[1, 2, 3, 4]

In [20]:
# repite valores de lista la cantidad de veces especificada
[1,2] * 4

[1, 2, 1, 2, 1, 2, 1, 2]

In [21]:
# Permite saber si un item se encuentra dentro de una lista
2 in [1,2,3,4]

True

In [22]:
# Para Python un string es una cadena de caracteres, lo que permite que las operaciones que hacemos regularmente 
# en una lista, también podamos utilizarlas para strings.

texto = 'Este es un texto de ejemplo'

# Cuando queremos obtener una "tajada" de un string o lista, especificamos la posición inicial, seguido 
# de dos puntos y finalmente la posición final. Tener presente que la posición final es excluyente y 
# los espacios en blanco son contabilizados.

print(texto[0])
print(texto[0:4])
print(texto[3:10])

# El index también puede ser negativo, lo que significa que el recorrido se invierte de atrás hacia delante
print(texto[-1])
print(texto[-7: -2])

# Podemos omitir argumentos, los cuales tendrán su valor por defecto (0)
print(texto[:4])
print(texto[4:])

# Operaciones en strings
nuevo_texto = texto + '. Segunda parte del texto de ejemplo'
print(nuevo_texto)

print(nuevo_texto*2)
print('ejemplo' in nuevo_texto)

# función split(): "rompe" el string en subtrings basado en un patrón específico
# obtiene los caracteres desde la posición 0, hasta que encuentre el patrón especificado
# que en este caso es un espacio en blanco (lo que equivale a obtener la primera palabra del texto)
print(nuevo_texto.split(' ')[0]) 

# lo mismo para obtener la última palabra
print(nuevo_texto.split(' ')[-1]) 


 

E
Este
e es un
o
ejemp
Este
 es un texto de ejemplo
Este es un texto de ejemplo. Segunda parte del texto de ejemplo
Este es un texto de ejemplo. Segunda parte del texto de ejemploEste es un texto de ejemplo. Segunda parte del texto de ejemplo
True
Este
ejemplo


Ambas colecciones (tuplas, listas) son iterables, lo que permite recorrer los elementos/items de cada una.

In [23]:
for item in ejemplo_lista:
    print(item)

Pedro
Angélica
Mónica


También es posible acceder a items específicos a través del index de cada item, el cual comienza en la posición 0. La función de Python len() permite obtener el tamaño de una lista.

In [24]:
posicion = 0

while posicion != len(ejemplo_lista):
    print(ejemplo_lista[posicion])
    posicion += 1 # equivale a posicion = posicion +1
    
print('Segundo item de lista: ', ejemplo_lista[1])

Pedro
Angélica
Mónica
Segundo item de lista:  Angélica


Más sobre strings en Python:

* En Python 3 los strings se basan en Unicode. A principios de la computación los caracteres de un string estaban limitados a uno de 256 valores. Esto era suficiente para representar caracteres Mayúsculas y minúsculas del latín, así como también dígitos individuales (0-9). Este lenguaje que reprensenta estos símbolos es llamado ASCII y como puedes ver, era bien compacto. Sin embargo, los símbolos latinos no bastan para representar muchos otros que existen de otras lenguas, o incluso símbolos de otras áreas del saber, como operadores matemáticos.

    A raíz de esta necesidad es que se crea UTF  (Unicode Transformation Format), el cual es capaz de representar más de un millón de distintos caracteres. Este no sólo incluye lenguajes humanos, sino que también símbolos como emojis 😎. Python 3 utiliza UTF por defecto, así no tendremos problema al representar grupos de símbolos multinacionales.
    
    Junto a unicode, python utiliza un lenguaje especial para dar formato a la salida de strings. Como vimos anteriormente, con python no necesitamos explicitar el tipo de dato de una variable, sin embargo, esta ventaja tiene costos. Uno de esos costos es que si el interpretador de Python no es capaz de dar formato automáticamente a una variable, debemos hacer esta conversión manualmente.


In [25]:
# el interpretador no es capaz de dar formato a la concatenacón de un número (int) 
print('Mi edad es : ' + 27)

TypeError: can only concatenate str (not "int") to str

In [26]:
# realizamos la conversión manualmente con la función str()
print('Mi edad es : ' + str(27))

Mi edad es : 27


In [27]:
# considerando que tendríamos que repetir esta función códigos fuente de gran envergadura 
# una mejor forma de manejar estos casos sería con el mini lenguaje de formateo de strings de Python:
producto = {'nombre': 'Notebook Levono r78', 'precio': 450000, 'ubicacion': 'pasillo B'}

descripcion_producto = '{} tiene un precio de {} y está ubicado en {}'

# da formato con función format(). Como puedes ver, el orden de los elementos influirá en 
# el string resultante
print(descripcion_producto.format(producto['nombre'], producto['precio'], producto['ubicacion']))

# versión compacta con f'strings
print(f"{producto['nombre']} tiene un precio de {producto['precio']} y está ubicado en {producto['ubicacion']}")


Notebook Levono r78 tiene un precio de 450000 y está ubicado en pasillo B
Notebook Levono r78 tiene un precio de 450000 y está ubicado en pasillo B



Manipulación de strings

Python nos brinda distintas herramientas para la manipulación de strings, como:

* slice() : recorre un string en busca de patrones, segmentando/extrayendo según la especificación. Esta operación es muy común, por eso recibe el nombre de: regular expression evaluation (evaluación de expresiones regulares), muy útil para tareas de minado de texto por ejemplo. 

#### More Python and List Comprehensions

* Lambdas: es la forma que ofrece Python de crear funciones anónimas. Estas funciones son como cualquier otra, pero su diferencia radica en que no llevan/poseen nombre. Esta característica permite crear funciones simples de una sola línea sin la necesidad de declarar una función completa en la forma convencional. En las funciones lambda sólo se evalúa una sola expresión y su valor es retornado una vez es ejecutada. Nótese también que este tipo de funciones no acepta valores por defecto como parámetros y tampoco podemos agregar lógica compleja/numerosa dentro de ellas, ya que está limitada a sólo una expresión.

    ¿Por qué utilizar lambdas si su funcionalidad es limitada en comparación a las funciones estándar?
    En nuestro caso, estas funciones resultan muy útiles para tareas de limpieza de datos

In [28]:
mi_lambda = lambda a, b, c : a + b

In [29]:
mi_lambda(1,2,3)

3

Secuencias: estructuras comunes que generalmente creamos con loops o leyendo un archivo, las cuales permiten iterar sobre sus elementos. Python ofrece una sintaxis abreviada para su creación, llamada Listas por comprensión (List Comprehension). 

In [30]:
numeros_pares = []
for numero in range(0, 100):
    if numero % 2 == 0:
        numeros_pares.append(numero)

numeros_pares

[0,
 2,
 4,
 6,
 8,
 10,
 12,
 14,
 16,
 18,
 20,
 22,
 24,
 26,
 28,
 30,
 32,
 34,
 36,
 38,
 40,
 42,
 44,
 46,
 48,
 50,
 52,
 54,
 56,
 58,
 60,
 62,
 64,
 66,
 68,
 70,
 72,
 74,
 76,
 78,
 80,
 82,
 84,
 86,
 88,
 90,
 92,
 94,
 96,
 98]

* Ahora con lista por comprensión, lo que resulta en un código más compacto y generalmente más rápido. No es obligación que utilices este formato, pero sí debes ser capaz de reconocerlo, ya que su uso en ciencia de datos es común.

In [31]:
numeros_pares = [numero for numero in range(0,100) if numero % 2 == 0]
numeros_pares

[0,
 2,
 4,
 6,
 8,
 10,
 12,
 14,
 16,
 18,
 20,
 22,
 24,
 26,
 28,
 30,
 32,
 34,
 36,
 38,
 40,
 42,
 44,
 46,
 48,
 50,
 52,
 54,
 56,
 58,
 60,
 62,
 64,
 66,
 68,
 70,
 72,
 74,
 76,
 78,
 80,
 82,
 84,
 86,
 88,
 90,
 92,
 94,
 96,
 98]

#### Numpy

Numpy es un paquete/extensión/librería para Python que es extensamente utilizado por la comunidad de ciencia de datos, la cual nos ayuda a trabajar de forma eficiente con arrays, matrices y vectores.   

In [32]:
# 1ero debemos importar la librería (el uso de alias "np" facilita su uso)
import numpy as np

# crea un array a partir de una lista
mi_lista = [1,2,3]
mi_array = np.array(mi_lista)
mi_array


array([1, 2, 3])

In [33]:
# array multidimensional
multi_array = np.array([[7, 8 , 9], [10, 11, 12]])
multi_array

array([[ 7,  8,  9],
       [10, 11, 12]])

In [34]:
# podemos verificar las dimensiones de un array con "shape"
multi_array.shape

(2, 3)

In [35]:
# con la función arange() podemos crear un array de elementos 
# con un intervalo: arange(inicio, final, intervalo)
array_intervalo = np.arange(0, 20, 2)
array_intervalo

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [36]:
# si queremos realizar transformaciones en un array, podemos utilizar
# la función reshape() --> reshape(nro_arrays, nro_items)
reshaped_array = array_intervalo.reshape(2, 5)
reshaped_array

array([[ 0,  2,  4,  6,  8],
       [10, 12, 14, 16, 18]])

In [37]:
# la función linspace() es similar a arange(), pero se diferencia 
# en que no especificamos el intervalo, sino la cantidad máxima.
# linspace se encarga de generar los intervalos de forma pareja
# linspace(inicio, cantidad_maxima , final)
lin_array = np.linspace(0, 4, 9)
lin_array

array([0. , 0.5, 1. , 1.5, 2. , 2.5, 3. , 3.5, 4. ])

In [38]:
# resize() --> retorna un nuevo array con la(s) forma/dimension(es) especificada(s)
lin_array.resize(3,3)
lin_array

array([[0. , 0.5, 1. ],
       [1.5, 2. , 2.5],
       [3. , 3.5, 4. ]])

Otros ejemplos del uso de Numpy

In [39]:
np.array([1, 2, 3] * 3)

array([1, 2, 3, 1, 2, 3, 1, 2, 3])

In [40]:
np.repeat([1, 2, 3], 3)

array([1, 1, 1, 2, 2, 2, 3, 3, 3])

In [41]:
# crea un array de 1's  de dimensiones 2x3
array_unos = np.ones([2, 3], int)
array_unos

array([[1, 1, 1],
       [1, 1, 1]])

In [42]:
# agrega (en cola) nros 2 verticalmente al array de nros 1
np.vstack([array_unos, array_unos *2])

array([[1, 1, 1],
       [1, 1, 1],
       [2, 2, 2],
       [2, 2, 2]])

In [43]:
# agrega (en cola) nros 2 horizontalmente al array de nros 1
np.hstack([array_unos, array_unos *2])

array([[1, 1, 1, 2, 2, 2],
       [1, 1, 1, 2, 2, 2]])

#### Operaciones con arrays de Numpy

* Operaciones básicas con arrays: adición, sustracción, división, multiplicación, potencias

In [44]:
x = np.array([1, 2, 3])
y = np.array([4, 5 ,6])

x + y

array([5, 7, 9])

In [45]:
x**2

array([1, 4, 9])

In [46]:
x.dot(y)

32

In [47]:
z = np.array([y, y**2])
z

array([[ 4,  5,  6],
       [16, 25, 36]])

In [48]:
z.shape

(2, 3)

T -> Transpose: cambia la forma/estructura (shape) del array, intercambiando las columnas por las filas

In [49]:
z.T

array([[ 4, 16],
       [ 5, 25],
       [ 6, 36]])

In [50]:
z.shape

(2, 3)

dtype: permite saber qué tipo de dato almacena el array

In [51]:
z.dtype

dtype('int64')

astype: castea/transforma el tipo de de dato que almacena el array al especificado por parámetro

In [52]:
# transforma array de int64 a float y asigna el valor a cast_z
cast_z = z.astype('f')
cast_z.dtype

dtype('float32')

Funciones matemáticas comunes utilizadas en Numpy

In [53]:
a = np.array([-4, -2, 1 , 3, 5])

In [54]:
a.sum()

3

In [55]:
a.max()

5

In [56]:
a.min()

-4

In [57]:
a.mean()

0.6

In [58]:
a.std()

3.2619012860600183

Para encontrar el index del valor mínimo o máximo utilizamos argmin y argmax respetivamente

In [59]:
a.argmin()

0

In [60]:
a.argmax()

4

#### Index y Slice 

In [61]:
s = np.arange(13)**2
s

array([  0,   1,   4,   9,  16,  25,  36,  49,  64,  81, 100, 121, 144])

* Similar a las listas podemos acceder al valor de un elemento con su index. Además, utilizando ":" podemos obtener el rango especificado

In [62]:
s[3], s[5], s[:4], s[2:5], s[-4:], s[-5::-2]

(9,
 25,
 array([0, 1, 4, 9]),
 array([ 4,  9, 16]),
 array([ 81, 100, 121, 144]),
 array([64, 36, 16,  4,  0]))

* Ejemplos con arrays bidimensionales

In [63]:
mi_ab = np.arange(36)
mi_ab.resize((6,6))
mi_ab

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29],
       [30, 31, 32, 33, 34, 35]])

In [64]:
mi_ab[2, 2]

14

In [65]:
mi_ab[3, 3:6]

array([21, 22, 23])

In [66]:
mi_ab[:2, :-1]

array([[ 0,  1,  2,  3,  4],
       [ 6,  7,  8,  9, 10]])

* También podemos utilizar el operador "[ ]" para aplicar condiciones y asignar nuevos valores

In [67]:
mi_ab[mi_ab > 30]

array([31, 32, 33, 34, 35])

In [68]:
mi_ab[mi_ab > 30] = 30
mi_ab

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29],
       [30, 30, 30, 30, 30, 30]])

#### Copiando datos con Numpy

In [69]:
# copia_array será un slice del array mi_ab
nuevo_array = mi_ab[:3, :3]
nuevo_array

array([[ 0,  1,  2],
       [ 6,  7,  8],
       [12, 13, 14]])

In [70]:
# asignamos el valor 0 a todos los elementos del array
nuevo_array[:] = 0
nuevo_array

array([[0, 0, 0],
       [0, 0, 0],
       [0, 0, 0]])

In [71]:
# tener presente que la anterior asignación también cambia los valores del array original
mi_ab

array([[ 0,  0,  0,  3,  4,  5],
       [ 0,  0,  0,  9, 10, 11],
       [ 0,  0,  0, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29],
       [30, 30, 30, 30, 30, 30]])

* Para evitar errores de este tipo, una solución es utilizar copias del array original y así no cambiar sus valores originales

In [72]:
copia_array = mi_ab.copy()
copia_array

array([[ 0,  0,  0,  3,  4,  5],
       [ 0,  0,  0,  9, 10, 11],
       [ 0,  0,  0, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29],
       [30, 30, 30, 30, 30, 30]])

* Así, si cambiamos alguno de los valores de cualquier elemento del array, éste sólo afectará a la copia

In [73]:
copia_array[:] = 10
print(copia_array)
print('-'*20)
print(mi_ab)

[[10 10 10 10 10 10]
 [10 10 10 10 10 10]
 [10 10 10 10 10 10]
 [10 10 10 10 10 10]
 [10 10 10 10 10 10]
 [10 10 10 10 10 10]]
--------------------
[[ 0  0  0  3  4  5]
 [ 0  0  0  9 10 11]
 [ 0  0  0 15 16 17]
 [18 19 20 21 22 23]
 [24 25 26 27 28 29]
 [30 30 30 30 30 30]]


#### Iterando arrays

In [74]:
# crea array de dimensiones 4x3, cuyos elementos serán nros aleatorios desde 0 a 9
array_ej = np.random.randint(0, 10, (3,3))
array_ej

array([[9, 3, 3],
       [9, 3, 0],
       [1, 8, 3]])

In [75]:
# ejemplo con for
for fila in array_ej: 
    print(fila)

[9 3 3]
[9 3 0]
[1 8 3]


In [76]:
# utilizando index
for i in range(len(array_ej)):
    print(array_ej[i])

[9 3 3]
[9 3 0]
[1 8 3]


In [77]:
# Combinando ambos
for i, fila in enumerate(array_ej):
    print('fila', i, '-->', fila)

fila 0 --> [9 3 3]
fila 1 --> [9 3 0]
fila 2 --> [1 8 3]


In [78]:
array_ej2 = array_ej**2
array_ej2

array([[81,  9,  9],
       [81,  9,  0],
       [ 1, 64,  9]])

* Iterando sobre dos arrays con zip()

In [79]:
for i, j in zip(array_ej, array_ej2):
    print(i, '+', j, '=', i + j)

[9 3 3] + [81  9  9] = [90 12 12]
[9 3 0] + [81  9  0] = [90 12  0]
[1 8 3] + [ 1 64  9] = [ 2 72 12]


### Conjunto de Herramientas de Pandas

#### Manipulación, limpieza y queries de datos con Pandas

* Creada en 2008 por Wes McKinney
* Licencia de Código abierto
* Comunidad de más de 100 contribuidores

Recursos:
- dudas generales: stackoverflow
- libros:
    Python for Data Analysis (Wes McKinney)
    Learning the Pandas library (Mat Harrison)
    Planet Python: http://planetpython.org
    Data skeptic podcast
    

### Estructuras de datos de Pandas

#### Series

* Series es una de las estructuras fundamentales en pandas. Una manera simple de entenderlas es definiéndola como un entrecruzamiento entre una lista y un diccionario. Sus elementos son almacenados en orden y cada uno posee una etiqueta, con la cual podemos acceder a su valor. Tener presente que la columna de valores posee una etiqueta propia y puede ser obtenida a través del atributo "name".

In [80]:
import pandas as pd
#pd.Series??

* Una forma de visualizar las series es imaginándola como dos columas de datos: una corresponde al index y la otra a sus valores. 

* Podemos crear series pasando una lista de valores. Cuando creamos series de esta forma, pandas automáticamente asigna un index (columna 1), y setea el nombre/etiqueta (columna 2) con el valor None

In [81]:

animales = ['Tigre', 'Oso', 'Alce']
pd.Series(animales)

0    Tigre
1      Oso
2     Alce
dtype: object

In [82]:
numeros = [1, 2, 3]
pd.Series(numeros)

0    1
1    2
2    3
dtype: int64

Al crear series, lo que hace pandas por debajo es almacenar los valores de la serie en un array con un tipo de dato específico con la ayuda de la librería NumPy. Esto, con el motivo de ganar rendimiento.

#### Manejo de ausencia de datos

En Python, representamos la ausencia de datos con None. Si creamos una serie a partir de una lista de números que contenga el tipo de dato None, pandas automáticamente la representará como un NaN (not a number). NaN es el tipo de dato utilizado para representar la ausencia de datos.

In [83]:
numeros = [1, 2, None]
pd.Series(numeros)

0    1.0
1    2.0
2    NaN
dtype: float64

¿Cuál es la diferencia con None entonces?

A pesar de su similitud, como se señaló, None es la forma interna/propia de Python de representar la ausencia de valor, representado con un tipo de dato Object (equivalente a null de otros lenguajes). NaN, por su parte, es un estándar que representa la ausencia de un número como tipo de dato float.

In [84]:
import numpy as np

In [85]:
type(np.nan)

float

In [86]:
type(None)

NoneType

Se desprende entonces que nan no es None

In [87]:
np.nan == None

False

nan ni siquiera es igual a nan. Esto, debido a que nan, al ser un estándar, genera cada vez un nuevo "error" diciendo que carece de valor. 

Imaginemos por ejemplo que quisieramos representar a todas las personas que no conocemos etiquetándolas de "No la conozco" (NoC). Así, cada vez que nos topemos con alguien que no conocemos, diríamos "No la conozco" (NoC), sin embargo, a pesar de intentar generalizar a todas las personas que no conocemos, cada una de ellas es distinta a la otra, con características propias (rut, nombre, estatura, etc). En definitiva, para solucionar el problema anterior, debemos generar un nuevo tipo de error cada vez que nos topemos con alguien que no conocemos, y pese a que decimos "No la conozco" (NoC) o nan (en el caso de numpy), el error que genera es único.

In [88]:
np.nan == np.nan

False

Para chequear tipos de datos nan, podemos utilizar por ejemplo la función isnan() de numpy

In [89]:
np.isnan(np.nan)

True

Es posible generar series a partir de diccionarios. En este caso, el index es automáticamente asignado a las claves/etiquetas del diccionario, permitiendo así acceder a ellas con el atributo index.

In [90]:
comidas_tipicas = {'Chile': 'Cazuela',
          'Perú': 'Cebiche',
          'Haití': 'Ponche bucanero',
          'Costa Rica': 'Casado'}
ct = pd.Series(comidas_tipicas)
ct

Chile                 Cazuela
Perú                  Cebiche
Haití         Ponche bucanero
Costa Rica             Casado
dtype: object

In [91]:
ct.index

Index(['Chile', 'Perú', 'Haití', 'Costa Rica'], dtype='object')

También es posible separar la creación del index y sus valores, pasando explícitamente los valores del index como una lista.

In [92]:
ct = pd.Series(['Cazuela', 'Cebiche', 'Ponche bucanero', 'Casado'], index=['Chile', 'Perú', 'Haití', 'Costa Rica'])
ct

Chile                 Cazuela
Perú                  Cebiche
Haití         Ponche bucanero
Costa Rica             Casado
dtype: object

¿Qué sucede si los valores del index no coinciden con las claves/etiquetas del diccionario al crear una serie?

Pandas automáticamente favorecerá la creación de los valores del index que pasamos como parámetro. Esto quiere decir que ignorará las claves/etiquetas del diccionario que no se encuentren en la lista de índices/index y agregará valores de tipo None o Nan, para los valores de los índices que damos.

In [93]:
comidas_tipicas = {'Chile': 'Cazuela',
          'Perú': 'Cebiche',
          'Haití': 'Ponche bucanero',
          'Costa Rica': 'Casado'}
ct = pd.Series(comidas_tipicas, index=['Perú', 'Haití', 'Argentina'])
ct


Perú                 Cebiche
Haití        Ponche bucanero
Argentina                NaN
dtype: object

#### Queries en series de Panda

Es posible realizar queries en las series de Pandas, ya sea mediante la **posición de su índice**, o la **etiqueta del índice**. Recuerda que si no especificamos un índice a la serie, la posición y la etiqueta tendrán el mismo valor.
    
Para realizar queries mediante su localización numérica (que comienza en 0), utilizamos el **atributo** "_iloc_". Cuando deseamos que la query sea mediante la etiqueta del índice, lo haremos con el atributo "_loc_"

In [94]:
comidas_tipicas = {'Chile': 'Cazuela',
          'Perú': 'Cebiche',
          'Haití': 'Ponche bucanero',
          'Costa Rica': 'Casado'}
ct = pd.Series(comidas_tipicas)
ct

Chile                 Cazuela
Perú                  Cebiche
Haití         Ponche bucanero
Costa Rica             Casado
dtype: object

En este caso, si queremos Obtener la 3era comida típica de la serie utilizamos "_iloc_"

In [95]:
ct.iloc[2]

'Ponche bucanero'

En cambio, si queremos saber la comida típica pasando el index/índice como etiqueta, usamos "_loc_"

In [96]:
ct.loc['Haití']

'Ponche bucanero'

Uno de los propósitos de Pandas es hacer el código más legible, para esto provee de una _sintaxis inteligente_, lo que hace posible utilizar el índice como operador directamente en una serie.

In [97]:
# si pasamos un entero como índice, interpretará que realizamos la query medieante "iloc"
ct[3]

'Casado'

In [98]:
# cuando el índice es una etiqueta, interpretará la query como si fuera "loc"
ct['Chile']

'Cazuela'

¿Qué pasa si el index es una lista de enteros?

En este caso Pandas no puede determinar automáticamente si la intención es realizar la query mediante la posición del índice o la etiqueta del índice. Por esto, se debe tener cuidado en el uso de los índices directamente en una serie, y probablemente sea más seguro utilizar explícitamente los atributos _iloc_ y _loc_.

In [99]:
# imaginemos una serie de estaturas (metros)
estaturas = {1.78: 'Carlos',
          1.65: 'Juanita',
          1.80: 'Pedro',
          1.73: 'Laura'}

serie_estaturas = pd.Series(estaturas)
serie_estaturas

1.78     Carlos
1.65    Juanita
1.80      Pedro
1.73      Laura
dtype: object

In [100]:
# produce un error debido a que no existe el índice 0
serie_estaturas[0]

KeyError: 0.0

In [None]:
# por ello, la recomendación es la utilización de iloc o loc

In [None]:
serie_estaturas.iloc[0]

#### Trabajando con series de Pandas

Una de las tareas comunes que se realizan en las series de pandas es considerar todos los valores dentro de una serie y realizar operaciones en ellos, como: encontrar un valor específico, resumir datos, transformar datos, entre otros. Para ello, una operación típica sería iterar sobre los elementos de la serie  y aplicar la operación necesaria.

In [None]:
# Ejemplo: sumar todas las estaturas de una serie
serie_estaturas = pd.Series([1.78, 1.65, 1.80, 1.73])

total_estaturas = 0
for e in serie_estaturas:
    total_estaturas += e
print(total_estaturas)

El anterior ejemplo funciona, pero es lento, sobretodo si los datos poseen un tamaño considerable. Hoy en día, los computadores son capaces de realizar numerosas tareas al mismo tiempo (en paralelo). Pandas y NumPy ofrecen un método eficiente para lidiar con estos casos: _vectorización_ (vectorization).

La _vectorización_ es utilizada en muchas funciones de NumPy, como por ejemplo en la función _sum_.

In [None]:
# Ejemplo utilizando función de NumPy sum
total_estaturas = np.sum(serie_estaturas)
total_estaturas

Como puedes ver, ambos ejemplos retornan el mismo valor, pero ¿cómo sabemos realmente si uno es más eficiente que otro?

#### Funciones mágicas

Jupyter notebooks ofrece distintas funcionalidades _mágicas_, las cuales pueden ayudarnos en muchas de las tareas diarias e incluso puedes crear las tuyas propias.

In [None]:
# crea una serie de 10000 números aleatorios
serie_nros = pd.Series(np.random.randint(0, 1000, 10000))
print(serie_nros.head()) #obtiene los primeros 5 elementos de la serie
len(serie_nros)

* Ejemplo de función mágica para medir el tiempo promedio de ejecución. Nótese que esta función mágica posee una sintaxis propia "%%" para su utilización. También es posible parametrizar la cantidad de iteraciones, en este caso 100 (por defecto son 1000)

1er método (sin vectorización)

In [None]:
%%timeit -n 100 
total_nros = 0
for e in serie_nros:
    total_nros += e

2do método (con vectorización)

In [None]:
%%timeit -n 100
total_nros = np.sum(serie_nros)

Como puedes verificar, la vectorización supera notoriamente a la forma clásica de iterar, siendo una herramienta esencial en distintas operaciones con grandes cantidades de datos.

#### Broadcasting

Pandas y NumPy poseen otra característica similar llamada _Broadcasting_, donde también podemos realizar operaciones a cada valor de la serie.

In [None]:
serie_nros.head()

Si quisiéramos sumar 2 de la forma tradicional (procedural) a cada valor/número de la serie:

In [142]:
for etiqueta, valor in serie_nros.iteritems():
    serie_nros.at[etiqueta] = valor +2 
serie_nros.head()

NameError: name 'serie_nros' is not defined

Ahora utilizando las características de pandas. Como puedes observar, pandas utiliza formas concisas para iterar y desempaquetar datos de series, ya sean diccionarios u listas.

In [None]:
serie_nros += 2
serie_nros.head()

Pandas es capaz también de trabajar con distintos tipos de datos en una serie.

In [102]:
serie_mixta = pd.Series([1,2,3])
serie_mixta.loc['Animal'] = 'Oso Polar'
serie_mixta

0                 1
1                 2
2                 3
Animal    Oso Polar
dtype: object

Ejemplo en el cual los valores del índice no son únicos, esto provoca que los [data frames](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html) sean diferentes, distintos quizá a los datos alojados en una base de datos relacional.

In [109]:
serie_original = {'Cazuela': 'Chile',
          'Cebiche': 'Perú',
          'Ponche bucanero': 'Haití',
          'Casado': 'Costa Rica'}
ct = pd.Series(serie_original)
ct

Cazuela                 Chile
Cebiche                  Perú
Ponche bucanero         Haití
Casado             Costa Rica
dtype: object

Con _append_ es posible combinar series, ten presente que pandas hará lo posible para inferir los tipos de datos idóneos y que no reemplazará los valores de la serie original, sino que creará y retornará una nueva. Otras funciones similares poseen el mismo comportamiento, por ello debes tenerlo presente al utilizarlas.

In [111]:
empanadas = pd.Series(['México', 'Chile', 'Argentina'], index =['Empanada', 'Empanada', 'Empanada'])
nueva_serie = ct.append(empanadas)
nueva_serie

Cazuela                 Chile
Cebiche                  Perú
Ponche bucanero         Haití
Casado             Costa Rica
Empanada               México
Empanada                Chile
Empanada            Argentina
dtype: object

In [119]:
# las series originales no cambian
print(ct)
print('-'*10)
print(empanadas)

Cazuela                 Chile
Cebiche                  Perú
Ponche bucanero         Haití
Casado             Costa Rica
dtype: object
----------
Empanada       México
Empanada        Chile
Empanada    Argentina
dtype: object


#### Pandas Data Frames

Podría decirse que los data frames es una de las estructuras de datos principales de Pandas. Conceptualmente es una estructura bidimensional de datos que puede incluir múltiples columnas, lo que hace la hace idónea para casos de limpieza y agregación de datos. Cada fila de las posibles columnas posee un index (similar a las series), y cada columna se identifica por su etiqueta, pudiendo definir un data frame como un array de dos ejes con etiquetas. En definitiva, por definifición se asemeja mucho a una tabla, lo que permite una mayor interacción con bases de datos relacionales.

Tenemos numerosas opciones para crear data frames, por ejemplo: podríamos crear un data frame a partir de múltiples series, donde cada una representa una fila. O podríamos crearlo a partir de un grupo de diccionarios, donde cada diccionario también sea una fila de datos. 

In [2]:
import pandas as pd

In [61]:
compra_1 = pd.Series({'Nombre cliente': 'Maria Martina', 'Producto': 'Nintendo DS', 'Valor': 158900})
compra_2 = pd.Series({'Nombre cliente': 'Pedro Pablo', 'Producto': 'Secador de pelo', 'Valor': 26800})
compra_3 = pd.Series({'Nombre cliente': 'Luis Leonardo', 'Producto':'Pendrive usb', 'Valor': 20000})

data_frame = pd.DataFrame([compra_1, compra_2, compra_3], index = ['Tienda 1', 'Tienda 2', 'Tienda 1'])
data_frame.head()

Unnamed: 0,Nombre cliente,Producto,Valor
Tienda 1,Maria Martina,Nintendo DS,158900
Tienda 2,Pedro Pablo,Secador de pelo,26800
Tienda 1,Luis Leonardo,Pendrive usb,20000


Tal como en las series, podemos extraer datos con los atributos _loc_ y _iloc_. Como los data frames son bidimensionales, al pasar sólo un valor a _loc_, el operador del índice retornará una serie si sólo hay una fila en el data frame.

In [132]:
data_frame.loc['Tienda 2']

Nombre cliente        Pedro Pablo
Producto          Secador de pelo
Valor                       26800
Name: Tienda 2, dtype: object

Nótese que en el ejemplo anterior el nombre de la serie es retornado como el valor del índice y los nombres de las columnas son incluidos en el retorno/salida.

Podemos chequear el tipo de dato del retorno que hace pandas con _type()_

In [134]:
type(data_frame.loc['Tienda 2'])

pandas.core.series.Series

Es importante recordar que los índices y nombres de columnas (en conjunto a sus ejes: horizontal/x, vertical/y), pueden no ser únicos. En estos casos, pandas retornará un data frame y no una serie como en el caso anterior, el cual sólo retorna una fila/serie.

In [139]:
data_frame.loc['Tienda 1']

Unnamed: 0,Nombre cliente,Producto,Valor
Tienda 1,Maria Martina,Nintendo DS,158900
Tienda 1,Luis Leonardo,Pendrive usb,20000


In [141]:
type(data_frame.loc['Tienda 1'])

pandas.core.frame.DataFrame

Una de las grandiosas características de los data frames de pandas es que puedes seleccionar/consultar datos rápida y eficientemente en múltiples ejes.

Por ejemplo, si quisiéramos sólo seleccionar el valor de los productos de la Tienda 1:

In [144]:
data_frame.loc['Tienda 1', 'Valor']

Tienda 1    158900
Tienda 1     20000
Name: Valor, dtype: int64

¿Y si quisiéramos toda la columna de valores del data frame? Aquí se requiere un poco más de trabajo, pero nada que pandas no pueda manejar.

Pasos:
1) Transpose (T): intercambia posición de  columnas y filas, transformando las columnas en índices. 
2) Utilizamos _loc_ para la extracción de datos. 

In [146]:
data_frame.T.loc['Valor']

Tienda 1    158900
Tienda 2     26800
Tienda 1     20000
Name: Valor, dtype: object

La anterior solución funciona, pero los desarrolladores de pandas ofrecen una mejor alternativa para este tipo de casos accediendo directamente al index de un data frame y seleccionar una columna. En pandas las columnas siempre tienen un nombre/etiqueta, por la cual podemos acceder a sus valores.

In [5]:
data_frame.loc['Tienda 1']['Valor']

Tienda 1    158900
Tienda 1     20000
Name: Valor, dtype: int64

La anterior aproximación se denomina generalmente "chaining", acción por la cual agregamos operadores para interactuar con los datos. Si bien resulta útil, ten presente que pandas retorna una copia del data frame y no una vista, lo que podría generar errores. La recomendación es evitar el encadenamiento de operadores ya que puede derivar en comportamientos y datos impredecibles.

Otro método para acceder a los datos del data frame es _slice_. Tal como vimos, el atributo loc nos permite seleccionar filas y puede recibir 2 parámetros: el index de la fila y una lista con los nombres/etiquetas de las columnas. Si quisiéramos por ejemplo seleccionar todas las filas de las columnas _Producto_ y _Valor_ haríamos un slicing/tajada al data frame:

In [13]:
data_frame.loc[:, ['Producto', 'Valor']]

Unnamed: 0,Producto,Valor
Tienda 1,Nintendo DS,158900
Tienda 2,Secador de pelo,26800
Tienda 1,Pendrive usb,20000


Resumen pandas data frames

Detrás de todo lo visto acerca de data frames existe un concepto básico: dos ejes (filas, columnas) que contienen arrays etiquetados de datos. Pandas nos ofrece distintas herramientas para la manipulación de esta estructura y los datos que almacena. 

El objetivo es entonces, no sólo saber utilizar estas herramientas, sino también entender cuándo y por qué hacen sentido dependiendo del problema que queremos resolver.

#### Eliminación de datos en un Data Frame

Con la función drop() es posible eliminar datos pasando como único parámetro el index su etiqueta. Tener presente que esta función tampoco modifica el data frame, sino que retorna una copia del mismo aplicando la acción correspondiente. 

In [15]:
data_frame.drop('Tienda 2')

Unnamed: 0,Nombre cliente,Producto,Valor
Tienda 1,Maria Martina,Nintendo DS,158900
Tienda 1,Luis Leonardo,Pendrive usb,20000


In [18]:
# data frame permanece intacto
data_frame 

Unnamed: 0,Nombre cliente,Producto,Valor
Tienda 1,Maria Martina,Nintendo DS,158900
Tienda 2,Pedro Pablo,Secador de pelo,26800
Tienda 1,Luis Leonardo,Pendrive usb,20000


Un patrón de uso típico y recomendado en pandas es la manipulación de datos mediante copias. Así, los datos originales no son afectados, reduciendo posibles inconsistencias y errores.

In [20]:
df_copia = data_frame.copy()
df_copia = df_copia.drop('Tienda 2')
df_copia

Unnamed: 0,Nombre cliente,Producto,Valor
Tienda 1,Maria Martina,Nintendo DS,158900
Tienda 1,Luis Leonardo,Pendrive usb,20000


La función drop() posee dos parámetros opcionales. El primero se llama inplace, el cual es un boolean que sirve para indicar si queremos que pandas retorne una copia del data frame o directamente lo afecte/modifique. En otras palabras, si el parámetro inplace posee valor _true_, entonces pandas modificará directamente el data frame sin retornar una copia. El segundo parámetro corresponde al eje/axis a eliminar, por defecto éste posee valor 0, indicando el eje de las filas. Si lo cambiamos a 1, el eje corresponderá al de las columnas y podremos eliminarlas a voluntad.

Otra forma de eliminar columnas es utilizando el operador del índice y la palabra reservada _del_. Esta forma de eliminación es directa en el data frame y no retorna una copia.

In [29]:
del df_copia['Producto']
df_copia

KeyError: 'Producto'

#### Agregando datos a un data frame

Añadir columnas a un data frame es tan fácil como asignarle nuevos valores 

In [31]:
data_frame['Ubicación'] = None
data_frame

Unnamed: 0,Nombre cliente,Producto,Valor,Ubicación
Tienda 1,Maria Martina,Nintendo DS,158900,
Tienda 2,Pedro Pablo,Secador de pelo,26800,
Tienda 1,Luis Leonardo,Pendrive usb,20000,


### Indexando y cargando Data Frames

Un flujo de trabajo común en pandas es:
1) leer datos de entrada 
2) cargarlos en un data frame
3) Reducir el data frame a las columnas y filas necesarias 

Pandas permite visualizar los data frames lo que resulta mucho más conveniente que copiar los datos. Es necesario volver a reiterar que trabajar de esta forma requiere de un especial cuidado, ya que como se dijo, cualquier modificación al data frame puede causar inconsistencias y/o errores.

In [62]:
# crea Serie a partir de data frame
valores = data_frame['Valor']
valores

Tienda 1    158900
Tienda 2     26800
Tienda 1     20000
Name: Valor, dtype: int64

In [63]:
# Ahora podemos interactuar con la serie mediante la técnica de broadcasting
# Calculamos por ejemplo el valor sin IVA de los productos
valores *= .81
valores

Tienda 1    128709.0
Tienda 2     21708.0
Tienda 1     16200.0
Name: Valor, dtype: float64

In [65]:
# Modificando la serie del data frame, provoca un cambio en el mismo 
data_frame

Unnamed: 0,Nombre cliente,Producto,Valor
Tienda 1,Maria Martina,Nintendo DS,128709.0
Tienda 2,Pedro Pablo,Secador de pelo,21708.0
Tienda 1,Luis Leonardo,Pendrive usb,16200.0


La recomendación es entonces a manipular los datos utilizando copias mediante la función copy() de pandas.

#### Carga de datos

Pandas ofrece diversas herramientas para la importación de datos y soporta distintos formatos como: base de datos relacionales, Excel, tablas html, entre otros.

Otra característica de jupyter notebooks es la capacidad de interactuar con el sistema operativo que lo aloja. Esto permite por ejemplo, leer archivos locales, ejecutar comandos de sistema, entre otros.

In [6]:
# datos extraidos de wikipedia: tabla de olimpiadas de todos los tiempos 
# nótese que la reprensentación de medallas se realiza con un string: número seguido de signo de exclamación (01 !)
import pandas as pd
!cat olympics.csv

0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15
,№ Summer,01 !,02 !,03 !,Total,№ Winter,01 !,02 !,03 !,Total,№ Games,01 !,02 !,03 !,Combined total
Afghanistan (AFG),13,0,0,2,2,0,0,0,0,0,13,0,0,2,2
Algeria (ALG),12,5,2,8,15,3,0,0,0,0,15,5,2,8,15
Argentina (ARG),23,18,24,28,70,18,0,0,0,0,41,18,24,28,70
Armenia (ARM),5,1,2,9,12,6,0,0,0,0,11,1,2,9,12
Australasia (ANZ) [ANZ],2,3,4,5,12,0,0,0,0,0,2,3,4,5,12
Australia (AUS) [AUS] [Z],25,139,152,177,468,18,5,3,4,12,43,144,155,181,480
Austria (AUT),26,18,33,35,86,22,59,78,81,218,48,77,111,116,304
Azerbaijan (AZE),5,6,5,15,26,5,0,0,0,0,10,6,5,15,26
Bahamas (BAH),15,5,2,5,12,0,0,0,0,0,15,5,2,5,12
Bahrain (BRN),8,0,0,1,1,0,0,0,0,0,8,0,0,1,1
Barbados (BAR) [BAR],11,0,0,1,1,0,0,0,0,0,11,0,0,1,1
Belarus (BLR),5,12,24,39,75,6,6,4,5,15,11,18,28,44,90
Belgium (BEL),25,37,52,53,142,20,1,1,3,5,45,38,53,56,147
Bermuda (BER),17,0,0,1,1,7,0,0,0,0,24,0,0,1,1
Bohemia (BOH) [BOH] [Z],3,0,1,3,4,0,0,0,0,0,3,0,1,3,4
Botswana (BOT),9,0,1,0,1,0,0,0,0,0,9,0,1,0,1
Brazil (BRA),

Como se puede observar, el output del comando cat nos muestra una serie de datos acerca de resultados en las olimpiadas con las columnas separadas por comas (csv: comma separated values). (Los símbolos extraños de algunas columnas equivale a Nº)

In [7]:
df = pd.read_csv('olympics.csv')
df.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15
0,,№ Summer,01 !,02 !,03 !,Total,№ Winter,01 !,02 !,03 !,Total,№ Games,01 !,02 !,03 !,Combined total
1,Afghanistan (AFG),13,0,0,2,2,0,0,0,0,0,13,0,0,2,2
2,Algeria (ALG),12,5,2,8,15,3,0,0,0,0,15,5,2,8,15
3,Argentina (ARG),23,18,24,28,70,18,0,0,0,0,41,18,24,28,70
4,Armenia (ARM),5,1,2,9,12,6,0,0,0,0,11,1,2,9,12


El método read_csv() posee distintos parámetros que sirven para indicar a pandas cómo deben ser etiquetadas las columnas y filas. 

In [8]:
#  importamos nuevamente el archivo, pero ahora indicando un index y saltando la primera
# fila ya que no es relevante
df = pd.read_csv('olympics.csv', index_col = 0, skiprows=1)
df.head()

Unnamed: 0,№ Summer,01 !,02 !,03 !,Total,№ Winter,01 !.1,02 !.1,03 !.1,Total.1,№ Games,01 !.2,02 !.2,03 !.2,Combined total
Afghanistan (AFG),13,0,0,2,2,0,0,0,0,0,13,0,0,2,2
Algeria (ALG),12,5,2,8,15,3,0,0,0,0,15,5,2,8,15
Argentina (ARG),23,18,24,28,70,18,0,0,0,0,41,18,24,28,70
Armenia (ARM),5,1,2,9,12,6,0,0,0,0,11,1,2,9,12
Australasia (ANZ) [ANZ],2,3,4,5,12,0,0,0,0,0,2,3,4,5,12


Nótese que existe duplicación de columnas y valores, además de que algunas etiquetas/nombres de columnas son ambiguas. Adheriendonos a las buenas prácticas realizaremos una tarea común en la ciencia de datos que es la limpieza de datos.  

In [10]:
# lista columnas del data frame
df.columns

Index(['№ Summer', '01 !', '02 !', '03 !', 'Total', '№ Winter', '01 !.1',
       '02 !.1', '03 !.1', 'Total.1', '№ Games', '01 !.2', '02 !.2', '03 !.2',
       'Combined total'],
      dtype='object')

Para reemplazar por ejemplo las columnas que representan las medallas, una alternativa es recorrer las columnas del data frame y reenombrarlas con el atributo _rename_

In [16]:
for col in df.columns:
    if col[:2] == '01':
        df.rename(columns={col: 'Gold' + col[4:]}, inplace=True)
    if col[:2] == '02':
        df.rename(columns={col: 'Silver' + col[4:]}, inplace=True)
    if col[:2] == '03':
        df.rename(columns={col: 'Bronze' + col[4:]}, inplace=True)
    if col[:1] == '№':
        df.rename(columns={col:'#' + col[1:]}, inplace=True) 
        
df.head()

Unnamed: 0,# Summer,Gold,Silver,Bronze,Total,# Winter,Gold.1,Silver.1,Bronze.1,Total.1,# Games,Gold.2,Silver.2,Bronze.2,Combined total
Afghanistan (AFG),13,0,0,2,2,0,0,0,0,0,13,0,0,2,2
Algeria (ALG),12,5,2,8,15,3,0,0,0,0,15,5,2,8,15
Argentina (ARG),23,18,24,28,70,18,0,0,0,0,41,18,24,28,70
Armenia (ARM),5,1,2,9,12,6,0,0,0,0,11,1,2,9,12
Australasia (ANZ) [ANZ],2,3,4,5,12,0,0,0,0,0,2,3,4,5,12


### Realizando consultas a un data frame

#### Boolean masking

Boolean masking es el motor que da la velocidad y eficiencia a las consultas realizadas por _NumPy_ y _Pandas_. Boolean masking o "enmascaramiento de booleans" es la acción de manipular datos agrupados en colecciones/arrays basándonos en algún criterio. Este criterio es generalmente verdadero o falso (de ahí su naturaleza booleana). En la práctica, se recorrerá entonces una estructura de tipo array, donde cada uno de sus valores booleanos será comparado con el criterio deseado, generando un resultado.

Si queremos por ejemplo saber los países que consiguieron medalla de oro en las olimpiadas de verano, haríamos:

In [25]:
# realiza boolean masking de las filas cuyo valor de la columna 'Gold' sea mayor a 0. 
# retorna True si el resultado es mayor (consiguió al menos 1 medalla de oro), False si no (no consiguió medalla)
df['Gold'] > 0

Afghanistan (AFG)                               False
Algeria (ALG)                                    True
Argentina (ARG)                                  True
Armenia (ARM)                                    True
Australasia (ANZ) [ANZ]                          True
                                                ...  
Independent Olympic Participants (IOP) [IOP]    False
Zambia (ZAM) [ZAM]                              False
Zimbabwe (ZIM) [ZIM]                             True
Mixed team (ZZX) [ZZX]                           True
Totals                                           True
Name: Gold, Length: 147, dtype: bool

 Ahora, si sólo queremos que el resultado contega los países que consiguieron al menos 1 medalla de oro, podemos crear un nuevo data frame con la ayuda de _where_, éste filtrará los resultados basándose en el criterio especificado. 

In [28]:
paises_oro = df.where(df['Gold'] > 0)
paises_oro.head()

Unnamed: 0,# Summer,Gold,Silver,Bronze,Total,# Winter,Gold.1,Silver.1,Bronze.1,Total.1,# Games,Gold.2,Silver.2,Bronze.2,Combined total
Afghanistan (AFG),,,,,,,,,,,,,,,
Algeria (ALG),12.0,5.0,2.0,8.0,15.0,3.0,0.0,0.0,0.0,0.0,15.0,5.0,2.0,8.0,15.0
Argentina (ARG),23.0,18.0,24.0,28.0,70.0,18.0,0.0,0.0,0.0,0.0,41.0,18.0,24.0,28.0,70.0
Armenia (ARM),5.0,1.0,2.0,9.0,12.0,6.0,0.0,0.0,0.0,0.0,11.0,1.0,2.0,9.0,12.0
Australasia (ANZ) [ANZ],2.0,3.0,4.0,5.0,12.0,0.0,0.0,0.0,0.0,0.0,2.0,3.0,4.0,5.0,12.0


Los países/filas que no cumplen con el criterio poseen valores NaN (generalmente las herramientas estadísticas ignorarán estos valores).

In [31]:
# data frame original
df['Gold'].count()

147

In [36]:
# data frame de paises con oro (ignora valores NaN)
paises_oro['Gold'].count()

100

Aún así, para mayor claridad es posible eliminar estos valores con la función _dropna()_.

In [38]:
paises_oro = paises_oro.dropna()
paises_oro.head()

Unnamed: 0,# Summer,Gold,Silver,Bronze,Total,# Winter,Gold.1,Silver.1,Bronze.1,Total.1,# Games,Gold.2,Silver.2,Bronze.2,Combined total
Algeria (ALG),12.0,5.0,2.0,8.0,15.0,3.0,0.0,0.0,0.0,0.0,15.0,5.0,2.0,8.0,15.0
Argentina (ARG),23.0,18.0,24.0,28.0,70.0,18.0,0.0,0.0,0.0,0.0,41.0,18.0,24.0,28.0,70.0
Armenia (ARM),5.0,1.0,2.0,9.0,12.0,6.0,0.0,0.0,0.0,0.0,11.0,1.0,2.0,9.0,12.0
Australasia (ANZ) [ANZ],2.0,3.0,4.0,5.0,12.0,0.0,0.0,0.0,0.0,0.0,2.0,3.0,4.0,5.0,12.0
Australia (AUS) [AUS] [Z],25.0,139.0,152.0,177.0,468.0,18.0,5.0,3.0,4.0,12.0,43.0,144.0,155.0,181.0,480.0


Los colaboradores de librerías como _pandas_ y _numpy_ son muy proactivos, lo que se traduce en que generalemente cuando deseas realizar una acción, ésta posiblemente esté incluida en las librerías y sea más fácil de implementar (y generalmente más eficiente) que tener que realizarla desde 0.

En el caso de where, por ejemplo es posible hacer una forma más concisa aún. En este caso, el índice recibe un enmascaramiento booleano como parámetro, en vez de sólo una lista de nombres de columnas. Nótese que los valores NaN son automáticamente ignorados.

In [41]:
paises_oro = df[df['Gold'] > 0]
paises_oro.head()

Unnamed: 0,# Summer,Gold,Silver,Bronze,Total,# Winter,Gold.1,Silver.1,Bronze.1,Total.1,# Games,Gold.2,Silver.2,Bronze.2,Combined total
Algeria (ALG),12,5,2,8,15,3,0,0,0,0,15,5,2,8,15
Argentina (ARG),23,18,24,28,70,18,0,0,0,0,41,18,24,28,70
Armenia (ARM),5,1,2,9,12,6,0,0,0,0,11,1,2,9,12
Australasia (ANZ) [ANZ],2,3,4,5,12,0,0,0,0,0,2,3,4,5,12
Australia (AUS) [AUS] [Z],25,139,152,177,468,18,5,3,4,12,43,144,155,181,480


Pero este es sólo el comienzo. Como el resultado de una evaluación de enmascaramiento booleano es otro enmascaramiento booleano, es posible agregar/encadenar distintos criterios como _and_ o _or_ lo que ayuda crear consultas complejas con un lenguaje conciso y simple.

Si queremos por ejemplo saber la cantidad de países que ganaron alguna medalla de oro en los juegos de verano o los de invierno.

In [45]:
len(df[(df['Gold'] > 0) | (df['Gold.1'] > 0)])

101

In [None]:
O los países que ganaron una medalla en los juegos de verano, pero no en los de invierno.

In [44]:
df[(df['Gold.1'] > 0) & (df['Gold'] == 0)]

Unnamed: 0,# Summer,Gold,Silver,Bronze,Total,# Winter,Gold.1,Silver.1,Bronze.1,Total.1,# Games,Gold.2,Silver.2,Bronze.2,Combined total
Liechtenstein (LIE),16,0,0,0,0,18,2,2,5,9,34,2,2,5,9
