## Basic Data Processing with Pandas


- Introduction to Pandas
- The Series Data Structure
- Querying a Series
- DataFrame Data Structure
- DataFrame Indexing and Loading
- Querying a DataFrame
- Indexing a Data Frame
- Missing Values
- Example: Manipulating Data Frame



### Introduccion a Pandas


- **Pandas** fue creado en 2008 por Wes Mckinney con mas de 100 desarrolladores de software comprometidos a ayudar a mejorarlo.Ahora se usaran herramientas dentro del curso.

- **StackOverflow** es un foro masivo de conocimiento de Python y contenido relacionado a Pandas. Es fuertemente utilizado por desarrolladores de Pandas. Contiene preguntas sobre programación, lenguajes de programación, kits de herramientas. Es muy probable que si etiqueta una pregunta como Pandas un deasrrollador de Pandas la responda.

- Otro recurso a considerar son los **libros**. 
    - Python for Data Analysis - Wes Mckinney
    - Learning the Pandas Library - Matt Harrison

- [**Planet Python**](http://planetpython.org/) Excelente blog para noticias de Python. Numero significativo de tutoriales sobre Data Science y Python. 

- [**Data Skeptic Podcast**](http://dataskeptic.com). Podcast por Kyle Polich creado en 2014. Cubre la DataScience de manera general. Incluye:
    - Mini educational lessons
    - Entrevistas
    - Trends
    - Share Community Project (OpenHouse)
    

### The Series Data Structure


En esta lectura vamos a explorar la estructura de Series de Pandas. La Serie es una de las principales estructuras de datos de Pandas. Puedes pensar en ella como un cruce entre una lista o un diccionario. Los items estan almacenados en un orden y hay labels (etiquetas) con la que podemos manipularlos. Una forma facil de visualizar esto es a partir de dos columnas de datos, el primero es el indice especial (Index), muy parecido a las claves de un diccionario, mientras que el segundo son sus datos reales. Es importante tener en cuenta que la columna de datos tiene la etiqueta propia y se puede recuperar usando el atributo " .name ". Esto es diferente a los diccionarios y es util cuando se trata de fusionar multiples columnas de datos.

In [1]:
# Importamos pandas
import pandas as pd

In [3]:
# Se pueden crear Series al pasar una lista de valores 
# Cuando se hace esto, Pandas automaticamente asigna un indice que comienza en 0
# y el nombre de la serie en None (Tambien se pueden especificar nombres e indices)

# Una de las maneras mas sencillas de crear una Serie es usar un array-like-object. Una lista es un buen 
# candidato

# Haremos una lista de tres etudiantes: Alice, Jack y Molly. Todos strings
students = ['Alice', 'Jack', 'Molly']

# Ahora llamaremos la funcion Series de pandas y le pasaremos a los estudiantes
pd.Series(students)

0    Alice
1     Jack
2    Molly
dtype: object

In [4]:
# El resultado es una Serie (Visualmente agradable) que se observa en la pantalla. Podemos ver que Pandas
# automaticamente identifica el tipo de data de la serie como "object" y ha establecido el parámetro dtype
# según corresponda (podría ser float64). Vemos que los valores estan indexados con enteros y comienza en 0

In [5]:
# No tenemos que usar strings. Si pasamos numeros podemos ver que pandas le asigna el tipo int64 o float64. 
# Debajo, los valores de la serie de almacenamiento de Pandas usan la librería de Numpy. Esto ofrece mucha 
# velocidad y eficiencia cuando se procesa Data frente a las listas tradicionales de Python

# Vamos a crear una pequeña lista de numeros:
numbers = [1,2,3]
# La pasamos a una serie
pd.Series(numbers)

0    1
1    2
2    3
dtype: int64

In [6]:
# Hay otros importantes detalles de typing que existen para el rendimiento que son importantes conocer.
# Lo mas importante es como Numpy y, por lo tanto, Pandas, manejan los valores que faltan (Missing values). 
# En Python tenemos el tipo None para identificar que faltan datos. Debajo, Pandas hace algun tipo de conversion
# para nosotros. Si creamos una lista de cadenas y tenemos un elemento, un tipo None, pandas inserta eso com None
# y utiliza el objeto de tipo para la matriz subyacente


students = ['Alice', 'Jack', None]

pd.Series(students)

0    Alice
1     Jack
2     None
dtype: object

In [7]:
# Por otro lado, si creamos una lista de numeros, enteros o flotantes, y ponemos el tipo None, 
# Pandas automaticamente convierte esto en un valor punto flotante especial designado como NaN (not a number)

numbers = [1,2,None]
pd.Series(numbers)

0    1.0
1    2.0
2    NaN
dtype: float64

In [8]:
# Podemos notar varias cosas: 
# Primero, NaN es un valor diferente a None. Segundo, Pandas asigno el dtype de su serie como float64 (puntos
# flotantes). Debajo, Pandas representa NaN como un numero de punto flotante y por tanto convirtio los valores
# enteros a flotantes automaticamente

In [9]:
# Para la ciencia de datos podemos tratar los None y los NaN de la misma forma: Para representar que no hay datos.
# Sin embargo, Pandas no los trata de la misma manera

# NaN is *NOT* equivalent to None. Cuando intentamos probarlo el resultado es False

import numpy as np

np.nan == None

False

In [10]:
# Resulta que en realidad ni siquiera se puede hacer una prueba de igualdad de NaN a sí mismo. Cuando intentas
# esto, el resultado siempre es falso

np.nan == np.nan

False

In [11]:
# En su lugar, debemos utilizar funciones especiales para probar la presenta de un NaN

np.isnan(np.nan)

True

In [12]:
# Por lo tanto hay que tener en mente que cuando vemos un valor NaN, su significado es similar a None
# pero es un valor numerico y se trata diferente por razones de eficiencia

In [14]:
# Aunque una lista puede ser una forma comun de crear una serie, a menudo uno quiere etiquetar los datos que 
# desea manipular. Una serie puede ser creada con un diccionario donde las Keys se asignan como Index
# y no solo como enteros con incremento


students_scores = { 'Alice': 'Physics',
                    'Jack': 'Chemistry',
                    'Molly': 'English'}
s = pd.Series(students_scores)
s

Alice      Physics
Jack     Chemistry
Molly      English
dtype: object

In [15]:
# Vemos que el index es una lista de strings. Ademas vemos que a pesar de ser strigns Pands asigna el dtype como
# object. 

s.index

Index(['Alice', 'Jack', 'Molly'], dtype='object')

In [16]:
# Creemos un tipo de data mas complejo, como una lista de tuplas

students = [('Alice','Brown'),('Jack','White'),('Molly','Green')]
pd.Series(students)

0    (Alice, Brown)
1     (Jack, White)
2    (Molly, Green)
dtype: object

In [18]:
# Podemos separar la creacion del indice de la data al pasar el indice como una lista explicitamente

s = pd.Series(['Physics','Chemistry','English'], index = ['Alice','Jack','Molly'])
s

Alice      Physics
Jack     Chemistry
Molly      English
dtype: object

In [20]:
# Que pasa si pasamos un diccionario y una lista con los index pero hay un valor que no coincide? o no estan 
# alineados?. Pandas omite la creacion automatica para favorecer solo todos los indices values que se proveen.
# Con esto, se ignora del diccionario todas las llaves que no esten en index y Pandas añade None o NaN 
# para cualquier index value que se de que no se encuentre en el diccionario

students_scores = {'Alice':'Physics',
            'Jack': 'Chemistry',
            'Molly': 'English'}
# Vamos a crear una serie pero excluyendo a Jack
s = pd.Series(students_scores, index = ['Alice','Molly','Sam'])
s

Alice    Physics
Molly    English
Sam          NaN
dtype: object

In [1]:
# Vemos que en el resultado no esta Jack. Y hay un valor NaN para Sam porque no estaba en nuestro dataset original


### Querying a Series

Hablaremos de como hacer consultas y unir Series objects y la importancia de pensar en la paralelización cuando participe en la ciencia de datos.

Una serie de pandas se puede consultar por la **posicion** del indice o por la **etiqueta** del indice. Si no se proporicona un indice para la serie cuando se conulta, la posicion y la etiqueta son efectivamente le mismo valor

In [2]:
# Para consultar por la posicion numerica podemos usar el atributo iloc. Para consultar por la index label 
# podemos usar el atributo loc

import pandas as pd
students_classes= {'Alice':'Physics',
                   'Jack': 'Chemistry',
                   'Molly': 'English',
                   'Sam': 'History'}

s = pd.Series(students_classes)
s

Alice      Physics
Jack     Chemistry
Molly      English
Sam        History
dtype: object

In [3]:
# Si queremos ver la cuarta entrada podemos usar iloc attribute con el parametro 3

s.iloc[3]

'History'

In [4]:
# Si queremos ver la clase que tiene Molly podemos usar el loc attribute con el parametro de Molly

s.loc['Molly']

'English'

In [6]:
# Tengamos en mente que loc y iloc no son metodos, son atributos, no metodos. Por eso no tienen parentesis
# sino corchetes, lo que se denomina indexing operator

In [7]:
# Pandas intenta hacer nuestro codigo mas legible a partir de una sintaxis inteligente usando el 
# indexing operator directamente en la serie misma. Por ejemplo, si pasamos un parametro entero como indexing 
# operator, se comportara como si queremos consultar a traves del iloc attribute

s[3]

'History'

In [8]:
# Si pasamos un un objeto consultara como si quisieramos usar la etiqueta basda en el atributo loc

s['Molly']

'English'

In [9]:
# Que pasa si nuestro indice es una lista de enteros? Será dificil para pandas saber si lo que deseas es 
# hacer una consulta por loc y iloc por lo que debemos ser cuidadosos al usar el indexing operator directamente
# en la serie. La opcion mas segura es ser explicito y utilizar directamente los atributos iloc y loc

# Aqui hay un ejemplo de clases y codigos de clases

class_code = {99: 'Physics',
              100: 'Chemistry',
              101: 'English',
              102: 'History'}
s = pd.Series(class_code)


In [10]:
# Si queremos llamar s[0] habra un error porque no hay un item en la lista de clases con ese indice cero
# por lo que para querer tomar ese elemento debemos hacerlo a partir del iloc attribute

s[0]

KeyError: 0

In [11]:
s.iloc[0]

'Physics'

In [12]:
# Ahora trabajemos con la data. Una tarea comun es considerar los valores dentro de una serie y hacer algun tipo
# de operacion. Esto podria ser encontrar cierto numero, resumir o transformar los datos de alguna manera.

# Por ejemplo podriamos crear una lista con las notas de los estudiantes y obtener la media de las notas


grades= pd.Series([90,80,70,60])

total= 0

for grade in grades:
    total += grade
print(total/len(grades))

75.0


In [14]:
# Hicimos una funcion de promedio simple Funciona pero es lento. Las computadoras modernas pueden hacer muchas
# tareas simultaneamente, especialmente, pero no solo las tareas que involucran matematicas.
# Pandas y su suporte subyacente de Numpy tienen una serie de metodos para el computo llamado
# vectorizacion. Esto trabaja con muchas de las funciones incluidas en Numpy

import numpy as np

# llamemos np.sum y le pasamos un item iterable, en este caso, nuestra serie de pandas

total = np.sum(grades)
print(total/len(grades))

75.0


In [15]:
# Ambos metodos crean el mismo valor. Veamos quien realmente es mas rapido a partir de la magic function de Jupyter


# Crearemos una serie grande de numeros aletorios. Estoes usando para demostrar muchas tecnicas en pandas

numbers=pd.Series(np.random.randint(0,1000,10000))


# Ahora veramos el top de esta serie para ver si realmente se ve random. Esto lo hacemos con la funcion head()

numbers.head()

0     92
1    909
2    864
3    750
4    515
dtype: int32

In [16]:
len(numbers)

10000

In [17]:
# Ahora que tenemos una gran serie, usemos la magic function con el simbolo de porcentaje.

# En particular usaremos la funcin timeit. Esta funcion correra el codigo algunas veces para determinar, en promedio
# cuanto se demora.

# Si useamos timeit con nuestro loop original y nuestra solucion con numpy podemos comparar. Se puede especificar
# el numero de loops que uno desea, por defecto son 1000 loops

In [20]:
%%timeit -n 100

total= 0

for number in numbers:
    total += number
    
total/len(numbers)

2.06 ms ± 91.2 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [22]:
# No esta nada mal. Fue muy rapido. Ahora intentemos con la vectorizacion


In [23]:
%%timeit -n 100

total= np.sum(numbers)
total/len(numbers)

363 µs ± 22.9 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [24]:
# Esto es una diferencia impresionante en la velocidad y demuestra por que uno deberia ser consciente
# de las caracteristicas de la computacion paralela y comenzar a pensar en terminos de programacion funcional

In [29]:
%%timeit -n 100
mean = np.mean(numbers)

124 µs ± 9.28 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [30]:
# Poniendolo mas simple, la vectorizacion es la habilidad de una computadora para ejecutar multiples instrucciones
# a la vez, y con los chips de alto rendimiento, especialmente las tarjetas graficas, puedes tener dramaticos
# speedups. Las tarjetas graficas modernas pueden correr miles de instrucciones en paralelo.

# Una caracteristica relacionada en pandas y numpy es el broadcasting. Con broadcasting podemos aplicar operaciones
# a cada valor de la serie, cambiando la serie. Por ejemplo incrementar cada numero random en 2


numbers.head()

0     92
1    909
2    864
3    750
4    515
dtype: int32

In [31]:
numbers += 2
# Aqui estamos aplicando el operador += directamente en el objeto Serie, no en un valor simple
numbers.head()

0     94
1    911
2    866
3    752
4    517
dtype: int32

In [32]:
# Otra forma de hacer esto es iterando a traves de todos los items en la serie e incrementando el valor directamente
# Pandas tambien soporta la iteracion a traves de la serie, permitiendo hacer unpack facilmente


#Podemos usar iteritems() que retorna una etiqueta y un valor
for label,value in numbers.iteritems():
    # Ahora para el elemento que se retorna, llamamos set_value()
    numbers.set_value(label,value+2)
# Y ahora podemos chequear el resultado
numbers.head()

  


0     96
1    913
2    868
3    754
4    519
dtype: int32

In [33]:
# Aqui vemos una advertencia dependiendo de la version de pandas que usemos. 
# Si te encuentras iterando mucho *en todo momento* en pandas, hay que preguntarse si estas haciendo las cosas
# de la mejor manera.

# Comparemos velocidades con unos cuantos loops

In [35]:
%%timeit -n 10

s = pd.Series(np.random.randint(0,1000,1000))
# Escribamos de nuevo nuestro loop

for label, value in s.iteritems():
    s.loc[label]= value+2
    


336 ms ± 6.95 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [None]:
# Ahora usemos metodo broadcasting

In [36]:
%%timeit -n 10

s = pd.Series(np.random.randint(0,1000,1000))
# usemos broadcasting con solo poner +=

s+=2

681 µs ± 299 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [37]:
# Esto es significativamente rapido y mas consico, facil de leer. Las tipicas operaciones matematicas que podemos
# esperar estan ya vectorizadas y en la documentacion de numpy se explica como crear funciones vectorizadas 

In [38]:
# Aunque es importante ser consciente de lo que pasa debaj, pandas automaticamente cambiara los tipos subyacentes
# de Numpy de forma apropiada.

# Por ejemplo, veamos una serie de unos pocos numeros y añadamos un valor nuevo

s = pd.Series([1,2,3])

s.loc['History'] = 102

s

0            1
1            2
2            3
History    102
dtype: int64

In [40]:
# Vemos que los tipos mixtos con index label no son un problema para pandas. Y, al contrario de set, podemos
# tener index labels repetidos

# Hasta ahora hemos usado series donde el index values es unico. Esto hace las series de pandas un poco diferente
# a, por ejemplo, las bases de datos relacionales


# Crearemos una serie con estudiantes y el curso que han tomado


students_classes = pd.Series({'Alice': 'Physics',
                              'Jack': 'Chemistry',
                              'Molly': 'English',
                              'Sam': 'History'})
students_classes

Alice      Physics
Jack     Chemistry
Molly      English
Sam        History
dtype: object

In [41]:
kelly_classes = pd.Series(['Philosophy', 'Arts', 'Math'], index= ['Kelly','Kelly','Kelly'])
kelly_classes

Kelly    Philosophy
Kelly          Arts
Kelly          Math
dtype: object

In [43]:
# Finalmente vamos a unir toda la data en una nueva series usando la funcion append()

all_students_classes = students_classes.append(kelly_classes)

# Esto crea una serie que tiene nuestras personas originales y tambien los cursos de Kelly

all_students_classes

Alice       Physics
Jack      Chemistry
Molly       English
Sam         History
Kelly    Philosophy
Kelly          Arts
Kelly          Math
dtype: object

In [44]:
all_students_classes.loc['Kelly']

Kelly    Philosophy
Kelly          Arts
Kelly          Math
dtype: object

In [45]:
# Hay unas consideraciones para tomar en cuanta al usar append. Primero, pandas toma la serie e intenta
# inferir el mejor tipo de data para usar. En este ejemplo, todo es un string asi que no hay problema aqui
# Segundo, el metodo append relametne no cambia los objetos por debajo, esto es en realidad una nueva serie
# hecho por las dos anexadas juntas. Este es en realidad un patron comun en pandas.

# De forma predeterminada, devolver un nuevo objeto en lugar de modificar uno in situ. Podemos imprimir las series
# originales y ver que no hubo cambio

students_classes

Alice      Physics
Jack     Chemistry
Molly      English
Sam        History
dtype: object

En esta clase nos centramos en los tipos primarios de data de la libreria de pandas: Las series. aprendimos como consultar series con .loc y .iloc attributes de una serie que es una estructura de datos indexada, como unir dos series objects con append y la importancia de la vectorizacion

### DataFrame Data Structure

El DataFrame es el corazon de la liberia de Pandas. Es un objeto primario con el que se trabaja en el analisis 
y limpieza de datos.

El DataFrame es conceptualmente un objeto de Series de dos dimensiones donde hay un indice y multiples columnas con cada columna teniendo una etiqueta (label)