## Basic Data Processing with Pandas


- Introduction to Pandas
- The Series Data Structure
- Querying a Series
- DataFrame Data Structure
- DataFrame Indexing and Loading
- Querying a DataFrame
- Indexing a Data Frame
- Missing Values
- Example: Manipulating Data Frame



### Introduccion a Pandas


- **Pandas** fue creado en 2008 por Wes Mckinney con mas de 100 desarrolladores de software comprometidos a ayudar a mejorarlo.Ahora se usaran herramientas dentro del curso.

- **StackOverflow** es un foro masivo de conocimiento de Python y contenido relacionado a Pandas. Es fuertemente utilizado por desarrolladores de Pandas. Contiene preguntas sobre programación, lenguajes de programación, kits de herramientas. Es muy probable que si etiqueta una pregunta como Pandas un deasrrollador de Pandas la responda.

- Otro recurso a considerar son los **libros**. 
    - Python for Data Analysis - Wes Mckinney
    - Learning the Pandas Library - Matt Harrison

- [**Planet Python**](http://planetpython.org/) Excelente blog para noticias de Python. Numero significativo de tutoriales sobre Data Science y Python. 

- [**Data Skeptic Podcast**](http://dataskeptic.com). Podcast por Kyle Polich creado en 2014. Cubre la DataScience de manera general. Incluye:
    - Mini educational lessons
    - Entrevistas
    - Trends
    - Share Community Project (OpenHouse)
    

### The Series Data Structure


En esta lectura vamos a explorar la estructura de Series de Pandas. La Serie es una de las principales estructuras de datos de Pandas. Puedes pensar en ella como un cruce entre una lista o un diccionario. Los items estan almacenados en un orden y hay labels (etiquetas) con la que podemos manipularlos. Una forma facil de visualizar esto es a partir de dos columnas de datos, el primero es el indice especial (Index), muy parecido a las claves de un diccionario, mientras que el segundo son sus datos reales. Es importante tener en cuenta que la columna de datos tiene la etiqueta propia y se puede recuperar usando el atributo " .name ". Esto es diferente a los diccionarios y es util cuando se trata de fusionar multiples columnas de datos.

In [1]:
# Importamos pandas
import pandas as pd

In [3]:
# Se pueden crear Series al pasar una lista de valores 
# Cuando se hace esto, Pandas automaticamente asigna un indice que comienza en 0
# y el nombre de la serie en None (Tambien se pueden especificar nombres e indices)

# Una de las maneras mas sencillas de crear una Serie es usar un array-like-object. Una lista es un buen 
# candidato

# Haremos una lista de tres etudiantes: Alice, Jack y Molly. Todos strings
students = ['Alice', 'Jack', 'Molly']

# Ahora llamaremos la funcion Series de pandas y le pasaremos a los estudiantes
pd.Series(students)

0    Alice
1     Jack
2    Molly
dtype: object

In [4]:
# El resultado es una Serie (Visualmente agradable) que se observa en la pantalla. Podemos ver que Pandas
# automaticamente identifica el tipo de data de la serie como "object" y ha establecido el parámetro dtype
# según corresponda (podría ser float64). Vemos que los valores estan indexados con enteros y comienza en 0

In [5]:
# No tenemos que usar strings. Si pasamos numeros podemos ver que pandas le asigna el tipo int64 o float64. 
# Debajo, los valores de la serie de almacenamiento de Pandas usan la librería de Numpy. Esto ofrece mucha 
# velocidad y eficiencia cuando se procesa Data frente a las listas tradicionales de Python

# Vamos a crear una pequeña lista de numeros:
numbers = [1,2,3]
# La pasamos a una serie
pd.Series(numbers)

0    1
1    2
2    3
dtype: int64

In [6]:
# Hay otros importantes detalles de typing que existen para el rendimiento que son importantes conocer.
# Lo mas importante es como Numpy y, por lo tanto, Pandas, manejan los valores que faltan (Missing values). 
# En Python tenemos el tipo None para identificar que faltan datos. Debajo, Pandas hace algun tipo de conversion
# para nosotros. Si creamos una lista de cadenas y tenemos un elemento, un tipo None, pandas inserta eso com None
# y utiliza el objeto de tipo para la matriz subyacente


students = ['Alice', 'Jack', None]

pd.Series(students)

0    Alice
1     Jack
2     None
dtype: object

In [7]:
# Por otro lado, si creamos una lista de numeros, enteros o flotantes, y ponemos el tipo None, 
# Pandas automaticamente convierte esto en un valor punto flotante especial designado como NaN (not a number)

numbers = [1,2,None]
pd.Series(numbers)

0    1.0
1    2.0
2    NaN
dtype: float64

In [8]:
# Podemos notar varias cosas: 
# Primero, NaN es un valor diferente a None. Segundo, Pandas asigno el dtype de su serie como float64 (puntos
# flotantes). Debajo, Pandas representa NaN como un numero de punto flotante y por tanto convirtio los valores
# enteros a flotantes automaticamente

In [9]:
# Para la ciencia de datos podemos tratar los None y los NaN de la misma forma: Para representar que no hay datos.
# Sin embargo, Pandas no los trata de la misma manera

# NaN is *NOT* equivalent to None. Cuando intentamos probarlo el resultado es False

import numpy as np

np.nan == None

False

In [10]:
# Resulta que en realidad ni siquiera se puede hacer una prueba de igualdad de NaN a sí mismo. Cuando intentas
# esto, el resultado siempre es falso

np.nan == np.nan

False

In [11]:
# En su lugar, debemos utilizar funciones especiales para probar la presenta de un NaN

np.isnan(np.nan)

True

In [12]:
# Por lo tanto hay que tener en mente que cuando vemos un valor NaN, su significado es similar a None
# pero es un valor numerico y se trata diferente por razones de eficiencia

In [14]:
# Aunque una lista puede ser una forma comun de crear una serie, a menudo uno quiere etiquetar los datos que 
# desea manipular. Una serie puede ser creada con un diccionario donde las Keys se asignan como Index
# y no solo como enteros con incremento


students_scores = { 'Alice': 'Physics',
                    'Jack': 'Chemistry',
                    'Molly': 'English'}
s = pd.Series(students_scores)
s

Alice      Physics
Jack     Chemistry
Molly      English
dtype: object

In [15]:
# Vemos que el index es una lista de strings. Ademas vemos que a pesar de ser strigns Pands asigna el dtype como
# object. 

s.index

Index(['Alice', 'Jack', 'Molly'], dtype='object')

In [16]:
# Creemos un tipo de data mas complejo, como una lista de tuplas

students = [('Alice','Brown'),('Jack','White'),('Molly','Green')]
pd.Series(students)

0    (Alice, Brown)
1     (Jack, White)
2    (Molly, Green)
dtype: object

In [18]:
# Podemos separar la creacion del indice de la data al pasar el indice como una lista explicitamente

s = pd.Series(['Physics','Chemistry','English'], index = ['Alice','Jack','Molly'])
s

Alice      Physics
Jack     Chemistry
Molly      English
dtype: object

In [20]:
# Que pasa si pasamos un diccionario y una lista con los index pero hay un valor que no coincide? o no estan 
# alineados?. Pandas omite la creacion automatica para favorecer solo todos los indices values que se proveen.
# Con esto, se ignora del diccionario todas las llaves que no esten en index y Pandas añade None o NaN 
# para cualquier index value que se de que no se encuentre en el diccionario

students_scores = {'Alice':'Physics',
            'Jack': 'Chemistry',
            'Molly': 'English'}
# Vamos a crear una serie pero excluyendo a Jack
s = pd.Series(students_scores, index = ['Alice','Molly','Sam'])
s

Alice    Physics
Molly    English
Sam          NaN
dtype: object

In [1]:
# Vemos que en el resultado no esta Jack. Y hay un valor NaN para Sam porque no estaba en nuestro dataset original


### Querying a Series

Hablaremos de como hacer consultas y unir Series objects y la importancia de pensar en la paralelización cuando participe en la ciencia de datos.

Una serie de pandas se puede consultar por la **posicion** del indice o por la **etiqueta** del indice. Si no se proporicona un indice para la serie cuando se conulta, la posicion y la etiqueta son efectivamente le mismo valor

In [2]:
# Para consultar por la posicion numerica podemos usar el atributo iloc. Para consultar por la index label 
# podemos usar el atributo loc

import pandas as pd
students_classes= {'Alice':'Physics',
                   'Jack': 'Chemistry',
                   'Molly': 'English',
                   'Sam': 'History'}

s = pd.Series(students_classes)
s

Alice      Physics
Jack     Chemistry
Molly      English
Sam        History
dtype: object

In [3]:
# Si queremos ver la cuarta entrada podemos usar iloc attribute con el parametro 3

s.iloc[3]

'History'

In [4]:
# Si queremos ver la clase que tiene Molly podemos usar el loc attribute con el parametro de Molly

s.loc['Molly']

'English'

In [6]:
# Tengamos en mente que loc y iloc no son metodos, son atributos, no metodos. Por eso no tienen parentesis
# sino corchetes, lo que se denomina indexing operator

In [7]:
# Pandas intenta hacer nuestro codigo mas legible a partir de una sintaxis inteligente usando el 
# indexing operator directamente en la serie misma. Por ejemplo, si pasamos un parametro entero como indexing 
# operator, se comportara como si queremos consultar a traves del iloc attribute

s[3]

'History'

In [8]:
# Si pasamos un un objeto consultara como si quisieramos usar la etiqueta basda en el atributo loc

s['Molly']

'English'

In [9]:
# Que pasa si nuestro indice es una lista de enteros? Será dificil para pandas saber si lo que deseas es 
# hacer una consulta por loc y iloc por lo que debemos ser cuidadosos al usar el indexing operator directamente
# en la serie. La opcion mas segura es ser explicito y utilizar directamente los atributos iloc y loc

# Aqui hay un ejemplo de clases y codigos de clases

class_code = {99: 'Physics',
              100: 'Chemistry',
              101: 'English',
              102: 'History'}
s = pd.Series(class_code)


In [10]:
# Si queremos llamar s[0] habra un error porque no hay un item en la lista de clases con ese indice cero
# por lo que para querer tomar ese elemento debemos hacerlo a partir del iloc attribute

s[0]

KeyError: 0

In [11]:
s.iloc[0]

'Physics'

In [12]:
# Ahora trabajemos con la data. Una tarea comun es considerar los valores dentro de una serie y hacer algun tipo
# de operacion. Esto podria ser encontrar cierto numero, resumir o transformar los datos de alguna manera.

# Por ejemplo podriamos crear una lista con las notas de los estudiantes y obtener la media de las notas


grades= pd.Series([90,80,70,60])

total= 0

for grade in grades:
    total += grade
print(total/len(grades))

75.0


In [14]:
# Hicimos una funcion de promedio simple Funciona pero es lento. Las computadoras modernas pueden hacer muchas
# tareas simultaneamente, especialmente, pero no solo las tareas que involucran matematicas.
# Pandas y su suporte subyacente de Numpy tienen una serie de metodos para el computo llamado
# vectorizacion. Esto trabaja con muchas de las funciones incluidas en Numpy

import numpy as np

# llamemos np.sum y le pasamos un item iterable, en este caso, nuestra serie de pandas

total = np.sum(grades)
print(total/len(grades))

75.0


In [15]:
# Ambos metodos crean el mismo valor. Veamos quien realmente es mas rapido a partir de la magic function de Jupyter


# Crearemos una serie grande de numeros aletorios. Estoes usando para demostrar muchas tecnicas en pandas

numbers=pd.Series(np.random.randint(0,1000,10000))


# Ahora veramos el top de esta serie para ver si realmente se ve random. Esto lo hacemos con la funcion head()

numbers.head()

0     92
1    909
2    864
3    750
4    515
dtype: int32

In [16]:
len(numbers)

10000

In [17]:
# Ahora que tenemos una gran serie, usemos la magic function con el simbolo de porcentaje.

# En particular usaremos la funcin timeit. Esta funcion correra el codigo algunas veces para determinar, en promedio
# cuanto se demora.

# Si useamos timeit con nuestro loop original y nuestra solucion con numpy podemos comparar. Se puede especificar
# el numero de loops que uno desea, por defecto son 1000 loops

In [20]:
%%timeit -n 100

total= 0

for number in numbers:
    total += number
    
total/len(numbers)

2.06 ms ± 91.2 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [22]:
# No esta nada mal. Fue muy rapido. Ahora intentemos con la vectorizacion


In [23]:
%%timeit -n 100

total= np.sum(numbers)
total/len(numbers)

363 µs ± 22.9 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [24]:
# Esto es una diferencia impresionante en la velocidad y demuestra por que uno deberia ser consciente
# de las caracteristicas de la computacion paralela y comenzar a pensar en terminos de programacion funcional

In [29]:
%%timeit -n 100
mean = np.mean(numbers)

124 µs ± 9.28 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [30]:
# Poniendolo mas simple, la vectorizacion es la habilidad de una computadora para ejecutar multiples instrucciones
# a la vez, y con los chips de alto rendimiento, especialmente las tarjetas graficas, puedes tener dramaticos
# speedups. Las tarjetas graficas modernas pueden correr miles de instrucciones en paralelo.

# Una caracteristica relacionada en pandas y numpy es el broadcasting. Con broadcasting podemos aplicar operaciones
# a cada valor de la serie, cambiando la serie. Por ejemplo incrementar cada numero random en 2


numbers.head()

0     92
1    909
2    864
3    750
4    515
dtype: int32

In [31]:
numbers += 2
# Aqui estamos aplicando el operador += directamente en el objeto Serie, no en un valor simple
numbers.head()

0     94
1    911
2    866
3    752
4    517
dtype: int32

In [32]:
# Otra forma de hacer esto es iterando a traves de todos los items en la serie e incrementando el valor directamente
# Pandas tambien soporta la iteracion a traves de la serie, permitiendo hacer unpack facilmente


#Podemos usar iteritems() que retorna una etiqueta y un valor
for label,value in numbers.iteritems():
    # Ahora para el elemento que se retorna, llamamos set_value()
    numbers.set_value(label,value+2)
# Y ahora podemos chequear el resultado
numbers.head()

  


0     96
1    913
2    868
3    754
4    519
dtype: int32

In [33]:
# Aqui vemos una advertencia dependiendo de la version de pandas que usemos. 
# Si te encuentras iterando mucho *en todo momento* en pandas, hay que preguntarse si estas haciendo las cosas
# de la mejor manera.

# Comparemos velocidades con unos cuantos loops

In [35]:
%%timeit -n 10

s = pd.Series(np.random.randint(0,1000,1000))
# Escribamos de nuevo nuestro loop

for label, value in s.iteritems():
    s.loc[label]= value+2
    


336 ms ± 6.95 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [None]:
# Ahora usemos metodo broadcasting

In [36]:
%%timeit -n 10

s = pd.Series(np.random.randint(0,1000,1000))
# usemos broadcasting con solo poner +=

s+=2

681 µs ± 299 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [37]:
# Esto es significativamente rapido y mas consico, facil de leer. Las tipicas operaciones matematicas que podemos
# esperar estan ya vectorizadas y en la documentacion de numpy se explica como crear funciones vectorizadas 

In [38]:
# Aunque es importante ser consciente de lo que pasa debaj, pandas automaticamente cambiara los tipos subyacentes
# de Numpy de forma apropiada.

# Por ejemplo, veamos una serie de unos pocos numeros y añadamos un valor nuevo

s = pd.Series([1,2,3])

s.loc['History'] = 102

s

0            1
1            2
2            3
History    102
dtype: int64

In [40]:
# Vemos que los tipos mixtos con index label no son un problema para pandas. Y, al contrario de set, podemos
# tener index labels repetidos

# Hasta ahora hemos usado series donde el index values es unico. Esto hace las series de pandas un poco diferente
# a, por ejemplo, las bases de datos relacionales


# Crearemos una serie con estudiantes y el curso que han tomado


students_classes = pd.Series({'Alice': 'Physics',
                              'Jack': 'Chemistry',
                              'Molly': 'English',
                              'Sam': 'History'})
students_classes

Alice      Physics
Jack     Chemistry
Molly      English
Sam        History
dtype: object

In [41]:
kelly_classes = pd.Series(['Philosophy', 'Arts', 'Math'], index= ['Kelly','Kelly','Kelly'])
kelly_classes

Kelly    Philosophy
Kelly          Arts
Kelly          Math
dtype: object

In [43]:
# Finalmente vamos a unir toda la data en una nueva series usando la funcion append()

all_students_classes = students_classes.append(kelly_classes)

# Esto crea una serie que tiene nuestras personas originales y tambien los cursos de Kelly

all_students_classes

Alice       Physics
Jack      Chemistry
Molly       English
Sam         History
Kelly    Philosophy
Kelly          Arts
Kelly          Math
dtype: object

In [44]:
all_students_classes.loc['Kelly']

Kelly    Philosophy
Kelly          Arts
Kelly          Math
dtype: object

In [45]:
# Hay unas consideraciones para tomar en cuanta al usar append. Primero, pandas toma la serie e intenta
# inferir el mejor tipo de data para usar. En este ejemplo, todo es un string asi que no hay problema aqui
# Segundo, el metodo append relametne no cambia los objetos por debajo, esto es en realidad una nueva serie
# hecho por las dos anexadas juntas. Este es en realidad un patron comun en pandas.

# De forma predeterminada, devolver un nuevo objeto en lugar de modificar uno in situ. Podemos imprimir las series
# originales y ver que no hubo cambio

students_classes

Alice      Physics
Jack     Chemistry
Molly      English
Sam        History
dtype: object

En esta clase nos centramos en los tipos primarios de data de la libreria de pandas: Las series. aprendimos como consultar series con .loc y .iloc attributes de una serie que es una estructura de datos indexada, como unir dos series objects con append y la importancia de la vectorizacion

### DataFrame Data Structure

El DataFrame es el corazon de la liberia de Pandas. Es un objeto primario con el que se trabaja en el analisis 
y limpieza de datos.

El DataFrame es conceptualmente un objeto de Series de dos dimensiones donde hay un indice y multiples columnas con cada columna teniendo una etiqueta (label). De hecho, la distincion entre una columna y una fila es simplemente un arreglo two-axes etiquetado (filas = 0 , columnas = 1)

In [1]:
# Comencemos por importas la libreria de pandas
import pandas as pd

In [2]:
# Creemos un registreo de estudiantes y sus notas. En cada uno crearemos series con el nombre del estudiante, la
# clase y la nota

record1 = pd.Series( {'Name': 'Alice',
                      'Class': 'Physics',
                      'Score': 85})
record2 = pd.Series( {'Name': 'Jack',
                      'Class': 'Chemistry',
                      'Score': 82})
record3 = pd.Series( {'Name': 'Helen',
                      'Class': 'Biology',
                      'Score': 90})

In [4]:
# Como las Series, el DataFrame tiene un indice. Aqui usaremos un grupo de series, donde cada serie representa
# una fila de los datos. Justo como las funciones de series, podemos pasar nuestros items individuales
# en un arreglo y podemos pasar nuestros valores de indices como segundos argumentos


df= pd.DataFrame([record1, record2, record3], index= ['school1','school2','school3'])

# Y como en las Series, podemos usar Head() para ver las primeras filas de nuestro DataFrame, incluyendi indices 
# para ambos axes. Podemos usar esto para verificar las columnas y las filas

df.head()

Unnamed: 0,Name,Class,Score
school1,Alice,Physics,85
school2,Jack,Chemistry,82
school3,Helen,Biology,90


In [5]:
# Un metodo alternativo es utilizar diccionarios donde cada diccionario representa una fila de datos

students = [{ 'Name': 'Alice',
              'Class': 'Physics',
              'Score': 85},
           
           {'Name': 'Jack',
            'Class': 'Chemistry',
            'Score': 82},
           {'Name': 'Helen',
            'Class': 'Biology',
            'Score': 90}]

# Ahora pasamos esta lista de diccionarios a un DataFrame e imprimimos el head
df = pd.DataFrame(students, index = ['school1','school2','school1'])
df.head()

Unnamed: 0,Class,Name,Score
school1,Physics,Alice,85
school2,Chemistry,Jack,82
school1,Biology,Helen,90


In [6]:
# Similar a las series, podemos extraer data usandi el .iloc y el .loc attribute. Ya que el DataFrame es 
# de dos dimensiones, podemos pasar un solo valor al loc indexing operator y nos retornara una serie
# si solo hay un valor para retornar

# Si queremos seleccionar la data asociada a school2, podemos consultar con .loc attribute

df.loc['school2']

Class    Chemistry
Name          Jack
Score           82
Name: school2, dtype: object

In [7]:
# Notamos que el nombre de la serie se retorna como el index value, mientras que las columnas
# se incluyen en el output. Podemos tambien ver que tipo dato es

type(df.loc['school2'])

pandas.core.series.Series

In [8]:
# Es importante recordar que los indices y nombres de columnas, en cualquier eje (horizontal o vertical)
# son non-unique. En este ejemplo podemos ver que estamos trabajando con dos records de school1 en diferentes filas

#Si consultamos por school1 no tendremos una serie, porque no es un valor unico a retornar, sino un DataFrame
df.loc['school1']

Unnamed: 0,Class,Name,Score
school1,Physics,Alice,85
school1,Biology,Helen,90


In [9]:
type(df.loc['school1'])

pandas.core.frame.DataFrame

In [10]:
# Uno de los poderes de los Pandas Dataframes es poder rapidamente seleccionar data basada en multiples axes
# Si queremos solo la lista de nombres de estudiantes para school1, podemos proporcionar dos parametros a .loc
# Uno siendo el row index y el otro siendo el column name

df.loc['school1','Name']

school1    Alice
school1    Helen
Name: Name, dtype: object

In [11]:
# Recordamos que como en las series, los desarrolladores de pandas implementaron esto usando indexing operator
# y no solo como parametros a una funcion

# Y que pasa si deseamos seleccionar una sola columna?.Hay varios mecanismos, Primero, podemos hacer una 
# transpuesta de la matriz. Este pivotea todas las filas en columas y todas las columnas en filas y se hace
# con el T attribute

df.T

Unnamed: 0,school1,school2,school1.1
Class,Physics,Chemistry,Biology
Name,Alice,Jack,Helen
Score,85,82,90


In [12]:
# Luego podemos pedir el .loc de Name. Entonces:

df.T.loc['Name']

school1    Alice
school2     Jack
school1    Helen
Name: Name, dtype: object

In [13]:
# Sin embargo, asi como iloc y loc se usan para la seleccion de filas, PAndas reserva el indexing operator 
# directamente en el DataFrame para la seleccion de columnas. En un DataFrame de pandas, las columnas siempre
# tienen un label; No esta la confusion de cuando usabamos solamente corchetes en objetos Series. 
# Los que esten familiarizados con bases de datos relacionales, este operator es analogo a la column projection

df['Name']

school1    Alice
school2     Jack
school1    Helen
Name: Name, dtype: object

In [14]:
# En la practica, esto es muy comun si se intenta añadir o quitar una columna (add or drop), Sin embargo,
# esto tambien quiere decir que tendremos una key error si intentamos usar .loc con un nombre de columna

df.loc['Name']

KeyError: 'the label [Name] is not in the [index]'

In [15]:
# Notemos que si el resultado es una proyeccion de una sola columna (single column projection) la
# es un objeto serie

type(df['Name'])

pandas.core.series.Series

In [16]:
# Dependiendo de si el resultado es una Serie o un DataFrame podemos concatenar operaciones
# Por ejemplo, podemos seleccionar todas las filas relacionadas con school1 usando .loc 
# y entonces, hacer una proyeccion con el nombre de la columna para estas filas

df.loc['school1']['Name']

school1    Alice
school1    Helen
Name: Name, dtype: object

In [17]:
# Chaining (encadenar) por indexing operatador en el return type de otro index, puede venir con cierto
# costo y sería mejor si encuentras otra aproximacion. En particular, chaining tiende a causar que
# Pandas retorne una copia del DataFrame en lugar de una visualizacion del DataFrame
# Para seleccioanr data, no es un buen trato; esto puede ser mas lento que lo necesario
# Si se esta cambiando la data haciendo esto es importante hacer esta distincion pues puede ser fuente de errores

# Aqui hay otra aproximacion, como vimos, .loc hace una seleccion de filas (row selection) y puede tomar dos
# parametros: El row index y la list de nombres de columnas. The .loc attribute tambien soporta el slicing

# Si queremos seleccionar todas las filas, podemos unsar un : que indica un full slice del inicio al final
# Esto es igual al slicing characters en una lista de python. Entonces, podemos hacer esto en una lista y Pandas
# nos retornara y Pandas nos traera solamente la columna que pedimos


# Aqui hay un ejemplo, vamos a preguntar por todos los nombres y notas para las escuelas usando el .loc operator.

df.loc[:,['Name','Score']]

Unnamed: 0,Name,Score
school1,Alice,85
school2,Jack,82
school1,Helen,90


In [18]:
# Los dos puntos : indica que seleccione todas las filas mientras que la lista, en la segunda posicion de los 
# argumentos, son las columnas que queremos.

# Esto es seleciconar y projectar data de un DataFrame basado en filas y column labels. El concepto
# principal para recordar es que las filas y columnas se deben usar en nuestro beneficio. Tambien debemos
# considerar el chaining con cuidado y evitarse si es posible porque puede causar resultados impredecibles 
# donde por ejemplo intentemos obtener una vista de la data y Pandas nos retorne una copia

In [19]:
# Ahora probemos el dropping data. Es muy sencillo eliminar data de una Serie o de un DataFrame; podemos usar
# la funcion drop(). Esta funcion toma un parametro, que puede ser el index or row label, para hacer drop. 
# Esto confunde nuevos usuarios porque drop no cabia el Dataframe por defecto, En lugar de eso, la funcion
# drop retorna una copia del DataFrame pero con la fila especificada removida

df.drop('school1')

Unnamed: 0,Class,Name,Score
school2,Chemistry,Jack,82


In [20]:
# Sin embargo, podemos ver la data original y ver que school1 continua ahi
df.head()

Unnamed: 0,Class,Name,Score
school1,Physics,Alice,85
school2,Chemistry,Jack,82
school1,Biology,Helen,90


In [22]:
# Drop tiene dos intersantes parametros. El primero se llana inplace, si se pone como true, el DataFrame
# se actualiza en el lugar en lugar de en una copia que te retorna
# El segundo parametro es el axes que sera dropped. Por defecto, su valor es 0 (eje de filas), sin embargo
# puede cambiarse a 1 por si se quiere hacer drop a alguna columna

# Por ejemplo, hagamos una copia de nuestro df


copy_df = df.copy()

copy_df.drop('Name',inplace=True,axis=1)
copy_df

Unnamed: 0,Class,Score
school1,Physics,85
school2,Chemistry,82
school1,Biology,90


In [23]:
# Hay otro camino para eliminar una columa y esto es directamente usando el indexing operator con el del keyword
# Este camino de hacer dropping, sin embargo, toma efectos inmediatos en el DataFrame y no retorna una vista


del copy_df['Class']
copy_df

Unnamed: 0,Score
school1,85
school2,82
school1,90


In [24]:
# Finalmente, añadir una nueva columna al DataFrame es sencillo al asignar algun valor usando el indexing operator
# Por ejemplo, si queremos añadir una class ranking column cn valor por defecto de None podemos haceo
# usando el asssignment operator luego de los corchetes. Esto hace broadcast del valor por defecto en la nueva
# columna inmediatamente

df['ClassRanking'] = None
df

Unnamed: 0,Class,Name,Score,ClassRanking
school1,Physics,Alice,85,
school2,Chemistry,Jack,82,
school1,Biology,Helen,90,


En esta lectura aprendimos la estructura de datos usada en pandas: El DataFrame. Este es indexado por una filas y columnas y se puede seleccionar facilmente filas individuales y proyectar columnas de interes usando los metodos familiares de indexing

### DataFrame Indexing and Loading


Un flujo de trabajo comun es leer un dataset, usualmente de un archivo externo, y luego comenzar a limpiar y manipular el dataset para el analisis. En esta lectura te voy a demostrar como tu puedes cargar data de un archivo separado por coma en un DataFrame

In [25]:
# Las libretas de jupyter utilizan ipython como el kernel underneath, este provee caminos convenientes para integrar
# con comandos del shell. Si utilizamos un signo de exclamacion se ejecutara la linea como un comando de shell
# Usaremos cat, de "concatenate", que hace un output del contenido de un archivo. Veamos el contenido de un archivo
# csv

!cat resources/week-2/datasets/Admission_Predict.csv

Serial No.,GRE Score,TOEFL Score,University Rating,SOP,LOR ,CGPA,Research,Chance of Admit 
1,337,118,4,4.5,4.5,9.65,1,0.92
2,324,107,4,4,4.5,8.87,1,0.76
3,316,104,3,3,3.5,8,1,0.72
4,322,110,3,3.5,2.5,8.67,1,0.8
5,314,103,2,2,3,8.21,0,0.65
6,330,115,5,4.5,3,9.34,1,0.9
7,321,109,3,3,4,8.2,1,0.75
8,308,101,2,3,4,7.9,0,0.68
9,302,102,1,2,1.5,8,0,0.5
10,323,108,3,3.5,3,8.6,0,0.45
11,325,106,3,3.5,4,8.4,1,0.52
12,327,111,4,4,4.5,9,1,0.84
13,328,112,4,4,4.5,9.1,1,0.78
14,307,109,3,4,3,8,1,0.62
15,311,104,3,3.5,2,8.2,1,0.61
16,314,105,3,3.5,2.5,8.3,0,0.54
17,317,107,3,4,3,8.7,0,0.66
18,319,106,3,4,3,8,1,0.65
19,318,110,3,4,3,8.8,0,0.63
20,303,102,3,3.5,3,8.5,0,0.62
21,312,107,3,3,2,7.9,1,0.64
22,325,114,4,3,2,8.4,0,0.7
23,328,116,5,5,5,9.5,1,0.94
24,334,119,5,5,4.5,9.7,1,0.95
25,336,119,5,4,3.5,9.8,1,0.97
26,340,120,5,4.5,4.5,9.6,1,0.94
27,322,109,5,4.5,3.5,8.8,0,0.76
28,298,98,2,1.5,2.5,7.5,1,0.44
29,295,93,1,2,2,7.2,0,0.46
30,310,99

In [3]:
# Vemos que el output es una lista de columnas y los identificadores de la columnas estan lsitados
# como strings en la primera linea del archivo. Luego tenemos filas de datos, todas las columnas separadas por comas
# Algunos archivos csv van a requerir que trabajes un poco en ellos antes de usarlos como DataFrame. Este no es el 
# caso

import pandas as pd

#Pandas te deja importar esto de una manera sencilla
df = pd.read_csv('resources/week-2/datasets/Admission_Predict.csv')
#Ahora veamos las primeras filas

df.head()


Unnamed: 0,Serial No.,GRE Score,TOEFL Score,University Rating,SOP,LOR,CGPA,Research,Chance of Admit
0,1,337,118,4,4.5,4.5,9.65,1,0.92
1,2,324,107,4,4.0,4.5,8.87,1,0.76
2,3,316,104,3,3.0,3.5,8.0,1,0.72
3,4,322,110,3,3.5,2.5,8.67,1,0.8
4,5,314,103,2,2.0,3.0,8.21,0,0.65


In [4]:
# Notamos que el default index inicia en 0 mientras que los seriales de los estudiantes inician en 1
# Si queremos volver al CSV output podemos deducir que pandas ha creado un nuevo index. Sin embargo
# podemos poner el numero de serial (serial no) como el index si queremos usarlo con index_col

df = pd.read_csv('resources/week-2/datasets/Admission_Predict.csv', index_col=0) 
df.head()

Unnamed: 0_level_0,GRE Score,TOEFL Score,University Rating,SOP,LOR,CGPA,Research,Chance of Admit
Serial No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,337,118,4,4.5,4.5,9.65,1,0.92
2,324,107,4,4.0,4.5,8.87,1,0.76
3,316,104,3,3.0,3.5,8.0,1,0.72
4,322,110,3,3.5,2.5,8.67,1,0.8
5,314,103,2,2.0,3.0,8.21,0,0.65


In [5]:
# Notamos que hay dos columnas SOP y LOR que probablemente no todos sepan que significa. 
# Vamos a cambiar nuestros nombres de columnas para hacer esto mas claro. En Pandas, podemos usar rename()
# Esto toma un parametro llamado columns, en el que necesitamos pasar en un diccionario donde las keys son 
# los antiguos nombres y los values es el nuevo nombre de la columna correspondiente

new_df = df.rename(columns= { 'GRE Score': 'GRE Score', 'TOEFL Score': 'TOEFL Score',
                            'University Rating': 'University Rating', 'SOP': 'Statement of Purpose',
                            'LOR': 'Letter of Recommendation', 'CGPA':'CGPA', 'Research':'Research',
                            'Chance of Admit':'Chance of Admit'})

new_df.head()

Unnamed: 0_level_0,GRE Score,TOEFL Score,University Rating,Statement of Purpose,LOR,CGPA,Research,Chance of Admit
Serial No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,337,118,4,4.5,4.5,9.65,1,0.92
2,324,107,4,4.0,4.5,8.87,1,0.76
3,316,104,3,3.0,3.5,8.0,1,0.72
4,322,110,3,3.5,2.5,8.67,1,0.8
5,314,103,2,2.0,3.0,8.21,0,0.65


In [6]:
# Vemos que se cambio SOP pero no se cambio LOR. Por que pasa esto?? 

# Primero, debemos asegurarnos que nuestros colun names estan escritos correctamente. Para eso usamos el atributo
# de columns

new_df.columns

Index(['GRE Score', 'TOEFL Score', 'University Rating', 'Statement of Purpose',
       'LOR ', 'CGPA', 'Research', 'Chance of Admit '],
      dtype='object')

In [8]:
# Aqui vemos que LOR tiene un espacio. Esto debe ser escrito exactamente. Chance of admit tambien tiene un espacio
# Por eso es que nuestro rename no funciono.

# Lo que podriamos hacer es cambiar "LOR " incluyendo el espacio. Hay varias formas de cambiar esto

new_df = new_df.rename(columns={'LOR ': 'Letter of Recomendation'})
new_df.head()

Unnamed: 0_level_0,GRE Score,TOEFL Score,University Rating,Statement of Purpose,Letter of Recomendation,CGPA,Research,Chance of Admit
Serial No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,337,118,4,4.5,4.5,9.65,1,0.92
2,324,107,4,4.0,4.5,8.87,1,0.76
3,316,104,3,3.0,3.5,8.0,1,0.72
4,322,110,3,3.5,2.5,8.67,1,0.8
5,314,103,2,2.0,3.0,8.21,0,0.65


In [9]:
# Esto esta bien. Pero es fragil. Porque si hay mas elementos? o si no es un espacio sino un tab? o dos espacios?

# Otra manera es creaar una funcion que limpie y renombre para aplicar esa funcion
# a traves de toda la data. Python viene con amigables funciones para dividir en spacios en blanco
# esta es strip(). Cuando pasamos esto a rename, pasamos como el parametro de mapper y luego indicamos si el eje
# deben ser las colums or index (row labels)
new_df = new_df.rename(mapper = str.strip, axis='columns')
new_df.head()

Unnamed: 0_level_0,GRE Score,TOEFL Score,University Rating,Statement of Purpose,Letter of Recomendation,CGPA,Research,Chance of Admit
Serial No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,337,118,4,4.5,4.5,9.65,1,0.92
2,324,107,4,4.0,4.5,8.87,1,0.76
3,316,104,3,3.0,3.5,8.0,1,0.72
4,322,110,3,3.5,2.5,8.67,1,0.8
5,314,103,2,2.0,3.0,8.21,0,0.65


In [10]:
# Todo bien. Recordemos que con este rename estamos viendo una copia de new_df con los nombres cambiados
df.columns

Index(['GRE Score', 'TOEFL Score', 'University Rating', 'SOP', 'LOR ', 'CGPA',
       'Research', 'Chance of Admit '],
      dtype='object')

In [11]:
# Tambien podemos utilizar el atributo df.column para asignar los nombres de las columnas y esto directamente
# renombrara las columnas. Esto modificara la informacion original del DataFrame y es muy eficiente especialmente
# cuando se tienen muchas columnas y solo quieres cambiar unas pocas. Esta tecnica no es afectada por errores
# en los nombres de las columnas, un problema que encontramos. Con una lista, puedes usar el list index
# para cambiar ciertos valores o usar el list comprehension para cambiar todos los valores

# veamos un ejemplo cambiando los nombres de las columnas a minusculas. Primero debemos tener las listas

cols = list(df.columns)
# Un poco de list comprehension
cols = [x.lower().strip() for x in cols]
# sobreescribimos con el .columns attribute
df.colums=cols
df.head()

  del sys.path[0]


Unnamed: 0_level_0,GRE Score,TOEFL Score,University Rating,SOP,LOR,CGPA,Research,Chance of Admit
Serial No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,337,118,4,4.5,4.5,9.65,1,0.92
2,324,107,4,4.0,4.5,8.87,1,0.76
3,316,104,3,3.0,3.5,8.0,1,0.72
4,322,110,3,3.5,2.5,8.67,1,0.8
5,314,103,2,2.0,3.0,8.21,0,0.65


En esta lectura aprendimos a importar archivos csv en un Pandas DataFrame. Tambien aprendimos como hacer un basic data cleaning a los nombres de las columnas. Los mecanismos para importar csv tienen un monton de diferentes opciones y realmente debemos aprenderlas para ser proeficiente en la data manipulation. Una vez que establecemos
el format y el shape del dataframe, tendremos un solido comienzo para iniciar las acciones de un data analysis y 
modelado

Hay otros tipos de datos que podemos cargar directamente como DataFrames, incluyendo HTML web pages, databases y otros formatos de archivos. Sin embargo, los archivos CSV es el formato mas comun para la data con la que trabajaremos y es importante saber como manipularla.

### Querying a DataFrame

En esta lectura vamos a hablar sobre consultas a DataFrames. El primer paso en el proceso es entender el Boolean masking. El Boolean masking es el corazon de una rapida y eficiente consulta en numpy y pandas; es analogo a el masking usado en otras areas de las ciencias de la computacion. 

Una boolean mask es un arreglo que puede ser de una dimension (como una serie) o de dos dimensiones (como un DataFrame), donde cada valor del arreglo son True o False. Este arreglo queda superpuesto a la data structure que estamos consultando. En cualquier celda alineada con un True el valor va a ser adminito en nuestro resultado final mientras que cualquier celda alineada con un false no lo será.


In [14]:
import pandas as pd 

# Carguemos nuestro archivo csv
df = pd.read_csv('resources/week-2/datasets/Admission_Predict.csv', index_col=0)

# Vamos a limpiar los nombres de las columnas como hicimos en la lectura pasada
df.columns = [x.lower().strip() for x in df.columns]

#veamos los resultados
df.head()

Unnamed: 0_level_0,gre score,toefl score,university rating,sop,lor,cgpa,research,chance of admit
Serial No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,337,118,4,4.5,4.5,9.65,1,0.92
2,324,107,4,4.0,4.5,8.87,1,0.76
3,316,104,3,3.0,3.5,8.0,1,0.72
4,322,110,3,3.5,2.5,8.67,1,0.8
5,314,103,2,2.0,3.0,8.21,0,0.65


In [16]:
# Una boolean mask es creada por el applying operator directamente en la Serie o el DataFrame.
# Supongamos que nos interesan nuestros etudiantes con un chance of admit superior al 0.7
# Usaremos un operador > y se nos retornada una Boolean Serie. Esta serie resultante esta indexada de modo que
# donde el valor de cada celda, sea True or False, dependera de si el estudiante tiene un chance of admit > 0.7

admit_mask = df['chance of admit'] > 0.7
admit_mask

Serial No.
1       True
2       True
3       True
4       True
5      False
6       True
7       True
8      False
9      False
10     False
11     False
12      True
13      True
14     False
15     False
16     False
17     False
18     False
19     False
20     False
21     False
22     False
23      True
24      True
25      True
26      True
27      True
28     False
29     False
30     False
       ...  
371     True
372     True
373     True
374     True
375    False
376    False
377    False
378    False
379    False
380     True
381     True
382     True
383     True
384    False
385     True
386     True
387    False
388    False
389    False
390     True
391    False
392     True
393     True
394     True
395     True
396     True
397     True
398     True
399    False
400     True
Name: chance of admit, Length: 400, dtype: bool

In [17]:
# El resultado de hacer un broadcasting con la comperacion es una Boolean mask. True or False depende de 
# la comparacion. Por debajo, Pandas esta aplicando el operador de comparacion a traves de la vectorizacion
# (De modo eficiente y paralelo). El resultado es una serie de una columna llena con valores de True or False
# resultante de la comparacion

# Que hacemos con esta boolean mask? Bueno, la utilizamos en nuestra data para esconder los valores que no 
# queremos que se muestren (Falses). Hacemos esto a traves de .where() en el DataFrame original

df.where(admit_mask).head()

Unnamed: 0_level_0,gre score,toefl score,university rating,sop,lor,cgpa,research,chance of admit
Serial No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,337.0,118.0,4.0,4.5,4.5,9.65,1.0,0.92
2,324.0,107.0,4.0,4.0,4.5,8.87,1.0,0.76
3,316.0,104.0,3.0,3.0,3.5,8.0,1.0,0.72
4,322.0,110.0,3.0,3.5,2.5,8.67,1.0,0.8
5,,,,,,,,


In [18]:
# Vemos que la data resultante mantiene los valores del indexed original pero solo se muestra la data que
# permanecio con la condicion. Todas las filas que no respondieron la condicion vemos que tienen 
# un NaN value. Estas filas permanecieron. Por lo tanto, el siguiente paso sera removerlas. Podemos usar el 
# dropna()

df.where(admit_mask).dropna().head()

Unnamed: 0_level_0,gre score,toefl score,university rating,sop,lor,cgpa,research,chance of admit
Serial No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,337.0,118.0,4.0,4.5,4.5,9.65,1.0,0.92
2,324.0,107.0,4.0,4.0,4.5,8.87,1.0,0.76
3,316.0,104.0,3.0,3.0,3.5,8.0,1.0,0.72
4,322.0,110.0,3.0,3.5,2.5,8.67,1.0,0.8
6,330.0,115.0,5.0,4.5,3.0,9.34,1.0,0.9


In [19]:
# a pesar de ser muy útil, where no se usa con tanta frecuencia. Los pandas devs crearon una manera corta
# para hacer esta sintaxis que combina where() y dropna(), haciendo ambos de una vez.

# Solamente tenemos que utilizar el indexing operator


df[df['chance of admit'] > 0.7].head()

Unnamed: 0_level_0,gre score,toefl score,university rating,sop,lor,cgpa,research,chance of admit
Serial No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,337,118,4,4.5,4.5,9.65,1,0.92
2,324,107,4,4.0,4.5,8.87,1,0.76
3,316,104,3,3.0,3.5,8.0,1,0.72
4,322,110,3,3.5,2.5,8.67,1,0.8
6,330,115,5,4.5,3.0,9.34,1,0.9


In [20]:
# Esto puede parecer mas dificil de leer pero es muy comun cuando estas leyendo codigo de otras personas. Por lo 
# tanto es importante ser capaz de entenderlo. Haciendo un reviewing del indexing operator en un DataFrame
# vemos que ahora hace dos cosas:

# Puede ser llamado con un string parameter para proyectar una columa simple o una lista

df['gre score'].head()

Serial No.
1    337
2    324
3    316
4    322
5    314
Name: gre score, dtype: int64

In [22]:
df[['gre score', 'toefl score']].head()

Unnamed: 0_level_0,gre score,toefl score
Serial No.,Unnamed: 1_level_1,Unnamed: 2_level_1
1,337,118
2,324,107
3,316,104
4,322,110
5,314,103


In [23]:
# O podemos enviarle una boolean mask

df[df['gre score']>320].head()

Unnamed: 0_level_0,gre score,toefl score,university rating,sop,lor,cgpa,research,chance of admit
Serial No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,337,118,4,4.5,4.5,9.65,1,0.92
2,324,107,4,4.0,4.5,8.87,1,0.76
4,322,110,3,3.5,2.5,8.67,1,0.8
6,330,115,5,4.5,3.0,9.34,1,0.9
7,321,109,3,3.0,4.0,8.2,1,0.75


In [24]:
# Y cada uno de estos esta imitando la funcionalidad del .loc(), .where() y .dropna()

In [25]:
# Cuando queremos aplicar multiples boolean mask, como multiples criterios para incluir, podemos vernos tentados
# a utilizar and o or de una manera que es posiblemente mas natural. Si
# usamos and, Aqui se deben mostrar un True en la mascara final o usamos un or so solo necesitamos que una 
# sea True

# Desafortunadamente, esto no se siente tan natural en pandas. Si queremos tomar dos boolean series y unirlas
# nos dara un error

(df['chance of admit'] > 0.7) and (df['chance of admit'] < 0.9)

ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().

In [26]:
# Esto no funciona. Y el problema aqui es que pandas no sabe como comparar dos obetos series usando and o or
# Sin embargo, los autores de pandas sobreescribrieron el pie | y el ampersand & para manejar esto por nosotros

(df['chance of admit'] > 0.7) & (df['chance of admit'] < 0.9)

Serial No.
1      False
2       True
3       True
4       True
5      False
6      False
7       True
8      False
9      False
10     False
11     False
12      True
13      True
14     False
15     False
16     False
17     False
18     False
19     False
20     False
21     False
22     False
23     False
24     False
25     False
26     False
27      True
28     False
29     False
30     False
       ...  
371     True
372     True
373    False
374     True
375    False
376    False
377    False
378    False
379    False
380     True
381     True
382     True
383     True
384    False
385    False
386    False
387    False
388    False
389    False
390     True
391    False
392     True
393     True
394     True
395     True
396     True
397     True
398    False
399    False
400    False
Name: chance of admit, Length: 400, dtype: bool

In [28]:
# Cuidado con los parentesis. Si no los usas apropiedamente no funcionara. Pandas entendera que 
# quieres hacer un bitwise con 0.7 y un pandas dataframe cuando realmente queremos un bitwise y un
# broadcasted dataframe.

df['chance of admit'] > 0.7 & df['chance of admit'] < 0.9

TypeError: cannot compare a dtyped [float64] array with a scalar of type [bool]

In [30]:
# Otra forma de hacer esto es deshacerse del comparison operator completamente y, en su lugar, utilizar
# una built in function

df['chance of admit'].gt(0.7) & df['chance of admit'].lt(0.9)

Serial No.
1      False
2       True
3       True
4       True
5      False
6      False
7       True
8      False
9      False
10     False
11     False
12      True
13      True
14     False
15     False
16     False
17     False
18     False
19     False
20     False
21     False
22     False
23     False
24     False
25     False
26     False
27      True
28     False
29     False
30     False
       ...  
371     True
372     True
373    False
374     True
375    False
376    False
377    False
378    False
379    False
380     True
381     True
382     True
383     True
384    False
385    False
386    False
387    False
388    False
389    False
390     True
391    False
392     True
393     True
394     True
395     True
396     True
397     True
398    False
399    False
400    False
Name: chance of admit, Length: 400, dtype: bool

In [31]:
# Ambas funcionan. Se puede decidir entre usar una forma u otra. Incluso esta manera de usar las built in function
# permite concatenar y el resultado sera igual solamente que no tendra operadores visuales

df['chance of admit'].gt(0.7).lt(0.9)

Serial No.
1      False
2      False
3      False
4      False
5       True
6      False
7      False
8       True
9       True
10      True
11      True
12     False
13     False
14      True
15      True
16      True
17      True
18      True
19      True
20      True
21      True
22      True
23     False
24     False
25     False
26     False
27     False
28      True
29      True
30      True
       ...  
371    False
372    False
373    False
374    False
375     True
376     True
377     True
378     True
379     True
380    False
381    False
382    False
383    False
384     True
385    False
386    False
387     True
388     True
389     True
390    False
391     True
392    False
393    False
394    False
395    False
396    False
397    False
398    False
399     True
400    False
Name: chance of admit, Length: 400, dtype: bool

En esta lectura aprendimos como hacer consultas a DataFrames usando boolean masking, lo cual es extremadamente importante en el mundo del Data Science (50% del trabajo en data cleaning es haciendo consultas). Con una boolean masking podeos seleccionar data basada en difentes criterios.

### Indexing DataFrames

Como hemos visto, tanto las Series como los DataFrames tienen indices. El Index es esencialmente una etiqueta de las filas (a row level label) y en pandas las filas corresponden al eje 0 (axis zero). Los indices pueden ser autogenerados cuando se crea una serie sin indice, en este caso se obtienen valores numericos, o pueden ser explicitos, cuando se usa un diccionario, o cuando cargamos data de un archivo csv y hacemos set con los parametros apropiados

In [13]:
# Usaremos la funcion set_index(). Esta funcion es un proceso destructivo. No mantiene el indice actual
# Si queremos mantener el indice actual, necesitamos manualmente crear una nueva columna y copiar su valor
# con el index attribute


import pandas as pd 
df = pd.read_csv('resources/week-2/datasets/Admission_Predict.csv', index_col = 0)
df.head()

Unnamed: 0_level_0,GRE Score,TOEFL Score,University Rating,SOP,LOR,CGPA,Research,Chance of Admit
Serial No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,337,118,4,4.5,4.5,9.65,1,0.92
2,324,107,4,4.0,4.5,8.87,1,0.76
3,316,104,3,3.0,3.5,8.0,1,0.72
4,322,110,3,3.5,2.5,8.67,1,0.8
5,314,103,2,2.0,3.0,8.21,0,0.65


In [14]:
# Ahora supongamos que no queremos que nuestro df sea etiquetado por el Serial Number, en su lugar, queremos
# que sea etiquetado con el chance of admit. Pero asumamos que queremos tener el Serial Number para luego. 
# entonces, debemos preservar el serial number como una nueva columna. Podeos hacer esto con el indexing operator
# en el string que tiene el nombre de la columna. Luego, podemos usar set_index con chance of admit

# copiemos la ada en su proia columna

df['Serial Number']=df.index
#Pongamos como index la otra columna
df.columns = [x.lower().strip() for x in df.columns]
df = df.set_index('chance of admit')
df.head()

Unnamed: 0_level_0,gre score,toefl score,university rating,sop,lor,cgpa,research,serial number
chance of admit,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
0.92,337,118,4,4.5,4.5,9.65,1,1
0.76,324,107,4,4.0,4.5,8.87,1,2
0.72,316,104,3,3.0,3.5,8.0,1,3
0.8,322,110,3,3.5,2.5,8.67,1,4
0.65,314,103,2,2.0,3.0,8.21,0,5


In [15]:
# Cuando creamos un nuevo index a partir de una columna existente, el index tiene un nombre. El cual es el nombre
# de la columna original


# Tambien podemos eliminar el index completamente llamando la funcion reset_index(). Esto convierte el index
# en una columna y crea un indice enumerado por defecto
df = df.reset_index()
df.head()

Unnamed: 0,chance of admit,gre score,toefl score,university rating,sop,lor,cgpa,research,serial number
0,0.92,337,118,4,4.5,4.5,9.65,1,1
1,0.76,324,107,4,4.0,4.5,8.87,1,2
2,0.72,316,104,3,3.0,3.5,8.0,1,3
3,0.8,322,110,3,3.5,2.5,8.67,1,4
4,0.65,314,103,2,2.0,3.0,8.21,0,5


In [16]:
# Una buena caracteristica de Pandas es un multi-level index. Cuando tenemos un indice de multiniveles, es simmilar
# a tener llaves compuestas en un sistema de bases de datos relacional. Para crear esto, aplicamos set index
# a una lista de columnas.

# Pandas va a  buscar con este orden, encontrando la data distintiva y formando indices compuestos
# Un buen ejemplo de esto es cuando tenemos data geografica que es ordenada por regiones o demografia
# Cambiemos los datasets y busquemos algunos censos para un mejor ejemplo. Esta data se almacena en el
# census.csv y viene del United States Census Bureau. En particular, este es un breakdown en el nivel de la poblacion
# en el US county level. Es un gran ejemplo de como se pueden formar datasets cuando se intenta limpiar data

df = pd.read_csv('resources/week-2/datasets/census.csv')
df.head()

Unnamed: 0,SUMLEV,REGION,DIVISION,STATE,COUNTY,STNAME,CTYNAME,CENSUS2010POP,ESTIMATESBASE2010,POPESTIMATE2010,...,RDOMESTICMIG2011,RDOMESTICMIG2012,RDOMESTICMIG2013,RDOMESTICMIG2014,RDOMESTICMIG2015,RNETMIG2011,RNETMIG2012,RNETMIG2013,RNETMIG2014,RNETMIG2015
0,40,3,6,1,0,Alabama,Alabama,4779736,4780127,4785161,...,0.002295,-0.193196,0.381066,0.582002,-0.467369,1.030015,0.826644,1.383282,1.724718,0.712594
1,50,3,6,1,1,Alabama,Autauga County,54571,54571,54660,...,7.242091,-2.915927,-3.012349,2.265971,-2.530799,7.606016,-2.626146,-2.722002,2.59227,-2.187333
2,50,3,6,1,3,Alabama,Baldwin County,182265,182265,183193,...,14.83296,17.647293,21.845705,19.243287,17.197872,15.844176,18.559627,22.727626,20.317142,18.293499
3,50,3,6,1,5,Alabama,Barbour County,27457,27457,27341,...,-4.728132,-2.50069,-7.056824,-3.904217,-10.543299,-4.874741,-2.758113,-7.167664,-3.978583,-10.543299
4,50,3,6,1,7,Alabama,Bibb County,22915,22919,22861,...,-5.527043,-5.068871,-6.201001,-0.177537,0.177258,-5.088389,-4.363636,-5.403729,0.754533,1.107861


In [17]:
# En este dataset tenemos dos columnas resumidas (summarized levels), uno contiene informacion resumida para el
# whole country, y otra contiene informacion resumida de cada estado. Queremos ver una lista de todos los valores
# unicos en una columna dada. Veremos los posibles valores para Sum Level usando la funcion unique en el DataFrame
# Esto es similar al SQL distinct operator

df['SUMLEV'].unique()

array([40, 50], dtype=int64)

In [18]:
# Vemos que solo hay 2 valores diferentes: 40 y 50

In [19]:
# Vamos a excluir las filas que son resumenes del state level y solo nos quedaremos con el county data

df = df[df['SUMLEV']==50]
df.head()

Unnamed: 0,SUMLEV,REGION,DIVISION,STATE,COUNTY,STNAME,CTYNAME,CENSUS2010POP,ESTIMATESBASE2010,POPESTIMATE2010,...,RDOMESTICMIG2011,RDOMESTICMIG2012,RDOMESTICMIG2013,RDOMESTICMIG2014,RDOMESTICMIG2015,RNETMIG2011,RNETMIG2012,RNETMIG2013,RNETMIG2014,RNETMIG2015
1,50,3,6,1,1,Alabama,Autauga County,54571,54571,54660,...,7.242091,-2.915927,-3.012349,2.265971,-2.530799,7.606016,-2.626146,-2.722002,2.59227,-2.187333
2,50,3,6,1,3,Alabama,Baldwin County,182265,182265,183193,...,14.83296,17.647293,21.845705,19.243287,17.197872,15.844176,18.559627,22.727626,20.317142,18.293499
3,50,3,6,1,5,Alabama,Barbour County,27457,27457,27341,...,-4.728132,-2.50069,-7.056824,-3.904217,-10.543299,-4.874741,-2.758113,-7.167664,-3.978583,-10.543299
4,50,3,6,1,7,Alabama,Bibb County,22915,22919,22861,...,-5.527043,-5.068871,-6.201001,-0.177537,0.177258,-5.088389,-4.363636,-5.403729,0.754533,1.107861
5,50,3,6,1,9,Alabama,Blount County,57322,57322,57373,...,1.807375,-1.177622,-1.748766,-2.062535,-1.36997,1.859511,-0.84858,-1.402476,-1.577232,-0.884411


In [21]:
# Mientras que esta data es interesante por diferentes razones, vamos a reducirla para solamente mirar la 
# poblacion total estimada y el numero total de nacimientos. Podemos hacer esto creando una lista de columnas
# que queremos mantener, luego proyectar esto y asignar el resultado en nuestra variable

columns_to_keep = ['STNAME','CTYNAME','BIRTHS2010','BIRTHS2011','BIRTHS2012','BIRTHS2013',
                   'BIRTHS2014','BIRTHS2015','POPESTIMATE2010','POPESTIMATE2011','POPESTIMATE2012', 
                   'POPESTIMATE2013','POPESTIMATE2014','POPESTIMATE2015']

df = df[columns_to_keep]
df.head()

Unnamed: 0,STNAME,CTYNAME,BIRTHS2010,BIRTHS2011,BIRTHS2012,BIRTHS2013,BIRTHS2014,BIRTHS2015,POPESTIMATE2010,POPESTIMATE2011,POPESTIMATE2012,POPESTIMATE2013,POPESTIMATE2014,POPESTIMATE2015
1,Alabama,Autauga County,151,636,615,574,623,600,54660,55253,55175,55038,55290,55347
2,Alabama,Baldwin County,517,2187,2092,2160,2186,2240,183193,186659,190396,195126,199713,203709
3,Alabama,Barbour County,70,335,300,283,260,269,27341,27226,27159,26973,26815,26489
4,Alabama,Bibb County,44,266,245,259,247,253,22861,22733,22642,22512,22549,22583
5,Alabama,Blount County,183,744,710,646,618,603,57373,57711,57776,57734,57658,57673


In [22]:
# Este censo desglosa la poblacion estimada por estado y county. Podemos cargar la data y aplicar set_index
# para hacer una combinacion de los valores de county y state y ver como pandas maneja esto.
# Lo haremos creando una lista con los indentificadores que queremos tener indexados y luego llamar set_index
# con esta lista. Veremos que tenemos indice dual (dual index), primero, el estado y luego el county

df = df.set_index(['STNAME','CTYNAME'])
df.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,BIRTHS2010,BIRTHS2011,BIRTHS2012,BIRTHS2013,BIRTHS2014,BIRTHS2015,POPESTIMATE2010,POPESTIMATE2011,POPESTIMATE2012,POPESTIMATE2013,POPESTIMATE2014,POPESTIMATE2015
STNAME,CTYNAME,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
Alabama,Autauga County,151,636,615,574,623,600,54660,55253,55175,55038,55290,55347
Alabama,Baldwin County,517,2187,2092,2160,2186,2240,183193,186659,190396,195126,199713,203709
Alabama,Barbour County,70,335,300,283,260,269,27341,27226,27159,26973,26815,26489
Alabama,Bibb County,44,266,245,259,247,253,22861,22733,22642,22512,22549,22583
Alabama,Blount County,183,744,710,646,618,603,57373,57711,57776,57734,57658,57673


In [23]:
# Esta es una buena representacion de la data y de como los estados mantienen dentro el county.

# Una pregunta inmediata que podemos consultar a este DataFrame. Como vimos previamente, el loc attribute puede
# tener multiples argumentos, y esto puede ser manejado aun si quisieramos consultar las filas o por las columnas
# Cuando usamos MultiIndex, podemos proveer argumentos en order por el level que queramos consultar
# Dentro del idnex, cada columna es llamada "level" y la columna mas afuera es el level zero

# Si queremos los resultados de la poblacion para Washtenaw County en el estado de Michigan
# el primer argumento deberia ser Michigan y el segundo Washtenaw County

df.loc['Michigan','Washtenaw County']

BIRTHS2010            977
BIRTHS2011           3826
BIRTHS2012           3780
BIRTHS2013           3662
BIRTHS2014           3683
BIRTHS2015           3709
POPESTIMATE2010    345563
POPESTIMATE2011    349048
POPESTIMATE2012    351213
POPESTIMATE2013    354289
POPESTIMATE2014    357029
POPESTIMATE2015    358880
Name: (Michigan, Washtenaw County), dtype: int64

In [24]:
# Si nos interesa comparar dos counties, por ejemplo, Washtenaw y Wayne County, podemos pasar una lista de tuplas
# describiendo el indice como queremos consultar en un loc. Como tenemos MultiIndex, el estado y el county,
# necesitamos dar dos valores de cada elemento en nuestra filtering list. Cada tupla tiene dos elementos, siendo
# el primer elemento el primer index y el segundo elemento el segundo index

# En este caso, tenemos una lista de dos tuplas. En cada tupla el primer elemento es Michigan y el segundo elemento
# es un county

df.loc[ [('Michigan','Washtenaw County'),
         ('Michigan','Wayne County')]]

Unnamed: 0_level_0,Unnamed: 1_level_0,BIRTHS2010,BIRTHS2011,BIRTHS2012,BIRTHS2013,BIRTHS2014,BIRTHS2015,POPESTIMATE2010,POPESTIMATE2011,POPESTIMATE2012,POPESTIMATE2013,POPESTIMATE2014,POPESTIMATE2015
STNAME,CTYNAME,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
Michigan,Washtenaw County,977,3826,3780,3662,3683,3709,345563,349048,351213,354289,357029,358880
Michigan,Wayne County,5918,23819,23270,23377,23607,23586,1815199,1801273,1792514,1775713,1766008,1759335


La gerarquia de indices es una parte especial de la libreria de Pandas con la que se puede hacer sencilla un manejo y razonamiento de la data. Por ejemplo, podemos hacer una transpuesta de esta matriz y luego tener gerarquia en las column labels. Proyectar una columa tiene el mismo comportamietno de labels que esperariams. Ahora, en realidad esto no es muy utilizado, es mas comun manipular todo en columnas pero aun asi es un aspecto unico y sofisticado de pandas que es util saber, especialmente si se visualiza data en forma tabular

### Missing Values

Hemos visto previamente como Pandas maneja los missing values, usando el None type o el NaN de numpy. Missing values son muy comunes en actividades de limpiar data y pueden ocurrir por muchos motivos.

- Missing at Random: Cuando el missing value es realmente una omisión. Se denomina asi cuando hay otras variables que pueden ser usada para predecir la variable missing; por ejemplo dicen que el interés en participar en un estudio de seguimiento, a menudo tiene alguna relación con otro campo de datos, como género o etnia
- Missing Completely at Random: Cuando no hay relacion con otras variables


Veamos como tratar esta data

In [25]:
import pandas as pd

In [28]:
# Pandas es muy bueno para detectar los missing values directamente de los formatos, como los archivos CSV.
# Aunque a veces los valores estan fomrmateados como NaN, NULL, None, N/A, algunas veces missing values estan 
# etiquetados claramente. Por ejemplo, cientificos sociales a veces usan el valor 99 en categorias binarias para
# indicar un missing value. Esto permite poder usar scalar, string, listo or diccionarios

df = pd.read_csv('resources/week-2/datasets/class_grades.csv')
df.head(10)

Unnamed: 0,Prefix,Assignment,Tutorial,Midterm,TakeHome,Final
0,5,57.14,34.09,64.38,51.48,52.5
1,8,95.05,105.49,67.5,99.07,68.33
2,8,83.7,83.17,,63.15,48.89
3,7,,,49.38,105.93,80.56
4,8,91.32,93.64,95.0,107.41,73.89
5,7,95.0,92.58,93.12,97.78,68.06
6,8,95.05,102.99,56.25,99.07,50.0
7,7,72.85,86.85,60.0,,56.11
8,8,84.26,93.1,47.5,18.52,50.83
9,7,90.1,97.55,51.25,88.89,63.61


In [29]:
# Podms usar la funcion .isnull para crear una boolean mask por todo el dataframe. Esto efectivamente hace
# broadcast de isnull() a cada celda de la data
mask = df.isnull()

# Aqui obtenemos algo de la misma forma y tamañao que nuestro DataFrame pero es una Boolean Mask

mask.head(10)

Unnamed: 0,Prefix,Assignment,Tutorial,Midterm,TakeHome,Final
0,False,False,False,False,False,False
1,False,False,False,False,False,False
2,False,False,False,True,False,False
3,False,True,True,False,False,False
4,False,False,False,False,False,False
5,False,False,False,False,False,False
6,False,False,False,False,False,False
7,False,False,False,False,True,False
8,False,False,False,False,False,False
9,False,False,False,False,False,False


In [30]:
# Esto puede ser util para procesar filas basada en ciertas columnas de data. Otra operacion util es 
# ser capaz de hacer un drop all de estas filas que tienen missing data, lo cual puede hacerse con .dropna()

df.dropna().head(10)

Unnamed: 0,Prefix,Assignment,Tutorial,Midterm,TakeHome,Final
0,5,57.14,34.09,64.38,51.48,52.5
1,8,95.05,105.49,67.5,99.07,68.33
4,8,91.32,93.64,95.0,107.41,73.89
5,7,95.0,92.58,93.12,97.78,68.06
6,8,95.05,102.99,56.25,99.07,50.0
8,8,84.26,93.1,47.5,18.52,50.83
9,7,90.1,97.55,51.25,88.89,63.61
10,7,80.44,90.2,75.0,91.48,39.72
12,8,97.16,103.71,72.5,93.52,63.33
13,7,91.28,83.53,81.25,99.81,92.22


In [32]:
# Notamos que los indices 2,3,7 y 11 ahora no estan. Otra funcion es para rellenar los valores donde no haya datos
# con la funcion .fillna(). Esta funcion toma un numero de parametros donde podemos pasar un valor, llamado 
# scalar value, para cambiar toda la rata faltante a un valor. Esto no es realmente aplicable en este caso pero
# es muy comun


# Si queremos llenar los valores faltantes con 0, usamos fillna
df.fillna(0,inplace=True)
# Usamos inplace True para aplicar este cambio a nuestro df
df.head(10)

Unnamed: 0,Prefix,Assignment,Tutorial,Midterm,TakeHome,Final
0,5,57.14,34.09,64.38,51.48,52.5
1,8,95.05,105.49,67.5,99.07,68.33
2,8,83.7,83.17,0.0,63.15,48.89
3,7,0.0,0.0,49.38,105.93,80.56
4,8,91.32,93.64,95.0,107.41,73.89
5,7,95.0,92.58,93.12,97.78,68.06
6,8,95.05,102.99,56.25,99.07,50.0
7,7,72.85,86.85,60.0,0.0,56.11
8,8,84.26,93.1,47.5,18.52,50.83
9,7,90.1,97.55,51.25,88.89,63.61


In [33]:
# Tambien podemos usar el na_filter option para apagar las opciones de filtrado con espacios en blanco. Esto se usa
# Si un espacio en blanco en realidad es un valor de interes. En practica, esto es raro, pero podemos pasar el
# na_filter = false para mejorar el desempeño leyendo un archivo grande

# Algunas veces es necesario utilziar los missing values como informacion. Por ejemplo, en un registro
# de los cursos online, con estadisticas del playback. Por ejemplo, el estado completo del playback
# donde se escucha el video, en que tamaño, cual video esta siendo renderizado a la pantalla, como es el volumen, etc

# Veamos un archivo log para ver como se veria esto

df=pd.read_csv('resources/week-2/datasets/log.csv')
df.head(20)

Unnamed: 0,time,user,video,playback position,paused,volume
0,1469974424,cheryl,intro.html,5,False,10.0
1,1469974454,cheryl,intro.html,6,,
2,1469974544,cheryl,intro.html,9,,
3,1469974574,cheryl,intro.html,10,,
4,1469977514,bob,intro.html,1,,
5,1469977544,bob,intro.html,1,,
6,1469977574,bob,intro.html,1,,
7,1469977604,bob,intro.html,1,,
8,1469974604,cheryl,intro.html,11,,
9,1469974694,cheryl,intro.html,14,,


In [34]:
# La primera columna es un timestamp, el segundo es un user name y un web page qu estan visitando y el video que 
# reproducen. Cada fila del DataFrame indica un playback position. el timestamp esta alrededor de 30 segundos
# Resulta que Bob ha pausado su reproducción, por lo que a medida que aumenta el tiempo, la posición de reproducción no cambia.
# Tenga en cuenta también lo difícil que es para nosotros tratar de derivar este conocimiento de los datos,
# porque no está ordenado por marca de tiempo como se podría esperar. En realidad, esto no es raro en
# sistemas que tienen un alto grado de paralelismo. Hay muchos valores faltantes en las columnas en pausa y volumen.
# No es eficiente enviar esta información a través de la red si no ha cambiado, por lo que las implementaciones rara vez lo hacen.
# Entonces, este sistema en particular simplemente inserta valores nulos en la base de datos si no hay cambios



In [35]:
# Dos valores comunes para relnar son ffill y bfill. ffill for forward filling, este actualiza un na value
# de una celda particular con el valor de la fila anterior, bfill para backward filling, el opuesto a ffill.
# Este llena el valor con el siguiente. Notamos que para hacer esto nuestra data debe estar ordenada
# Usualmente la data que viene de un tradicionar database management system no tiene la garantia de estar ordenada
# Hay que ser cuidadosos

# En pandas podemos ordenar por indice o por valor. Vamos a poner el timestamp como indice y luego ordenamos

df = df.set_index('time')
df = df.sort_index()
df.head(20)

Unnamed: 0_level_0,user,video,playback position,paused,volume
time,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1469974424,cheryl,intro.html,5,False,10.0
1469974424,sue,advanced.html,23,False,10.0
1469974454,cheryl,intro.html,6,,
1469974454,sue,advanced.html,24,,
1469974484,cheryl,intro.html,7,,
1469974514,cheryl,intro.html,8,,
1469974524,sue,advanced.html,25,,
1469974544,cheryl,intro.html,9,,
1469974554,sue,advanced.html,26,,
1469974574,cheryl,intro.html,10,,


In [37]:
# Vemos que esto no nos garantiza mucho. Hay usuarios que estan usando el sistema al mismo tiempo. Esto es muy comun
# Mejor hagamos un segundo nivel que tenga el nombre para manejar esto

df = df.reset_index()
df = df.set_index(['time','user'])
df.head(20)

Unnamed: 0_level_0,Unnamed: 1_level_0,video,playback position,paused,volume
time,user,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1469974424,cheryl,intro.html,5,False,10.0
1469974424,sue,advanced.html,23,False,10.0
1469974454,cheryl,intro.html,6,,
1469974454,sue,advanced.html,24,,
1469974484,cheryl,intro.html,7,,
1469974514,cheryl,intro.html,8,,
1469974524,sue,advanced.html,25,,
1469974544,cheryl,intro.html,9,,
1469974554,sue,advanced.html,26,,
1469974574,cheryl,intro.html,10,,


In [41]:
df = df.fillna(method='ffill')
df.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,video,playback position,paused,volume
time,user,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1469974424,cheryl,intro.html,5,False,10.0
1469974424,sue,advanced.html,23,False,10.0
1469974454,cheryl,intro.html,6,False,10.0
1469974454,sue,advanced.html,24,False,10.0
1469974484,cheryl,intro.html,7,False,10.0


In [43]:
# Tambien podemos customizar fill-in para reemplazar valores con replace() function. Esto permite 
# reemplazar desde muchas aproximaciones: value-to-value, list, dictionary, regex. Hagamos un ejemplo sencillo

df = pd.DataFrame( {'A': [1,1,2,3,4],
                    'B': [3,6,3,8,9],
                    'C': ['a','b','c','d','e']})
df

Unnamed: 0,A,B,C
0,1,3,a
1,1,6,b
2,2,3,c
3,3,8,d
4,4,9,e


In [44]:
# Vamos a remplazar los 1's por 100 con value-to-value

df.replace(1,100)

Unnamed: 0,A,B,C
0,100,3,a
1,100,6,b
2,2,3,c
3,3,8,d
4,4,9,e


In [45]:
# Y sobre cambiar dos valores? intentamos cambiar los 1's a 100 y los 3's a 300

df.replace([1,3],[100,300])

Unnamed: 0,A,B,C
0,100,300,a
1,100,6,b
2,2,300,c
3,300,8,d
4,4,9,e


In [46]:
# Pandas soporta regex tambien! Veamos como usar esto en nuestro dataset logs

df=pd.read_csv('resources/week-2/datasets/log.csv')
df.head(20)

Unnamed: 0,time,user,video,playback position,paused,volume
0,1469974424,cheryl,intro.html,5,False,10.0
1,1469974454,cheryl,intro.html,6,,
2,1469974544,cheryl,intro.html,9,,
3,1469974574,cheryl,intro.html,10,,
4,1469977514,bob,intro.html,1,,
5,1469977544,bob,intro.html,1,,
6,1469977574,bob,intro.html,1,,
7,1469977604,bob,intro.html,1,,
8,1469974604,cheryl,intro.html,11,,
9,1469974694,cheryl,intro.html,14,,


In [47]:
# Para reemplazar usando regex hacemos que el primer parametro de replace sea el pattern que queremos buscar 
# y el segundo parametro el valor que queremos emitir al coincidir, luego pasamos un tercer parametro "regex = True"

# Queremos detectar todas las paginas html en la columa video. Eso implica que termina en "html" y queremos
# sobreescribir con el keyword "webpage"
# Nuestra solucion sera hacer matching a cualqueir numero o caracter y luego que termine en .html

In [48]:
df.replace(to_replace= '.*.html$', value="webpage",regex=True)

Unnamed: 0,time,user,video,playback position,paused,volume
0,1469974424,cheryl,webpage,5,False,10.0
1,1469974454,cheryl,webpage,6,,
2,1469974544,cheryl,webpage,9,,
3,1469974574,cheryl,webpage,10,,
4,1469977514,bob,webpage,1,,
5,1469977544,bob,webpage,1,,
6,1469977574,bob,webpage,1,,
7,1469977604,bob,webpage,1,,
8,1469974604,cheryl,webpage,11,,
9,1469974694,cheryl,webpage,14,,


Como comentario final, usualmente cuando se hace estadistica en pandas y hay missing values, estas funciones tipicamente los ignoran. Por ejemplo, si quisieramos calcular el promedio, la funcion de numpy que está por debajo va a ignorar los missing values. Esto es usualmente lo que uno quiere pero hay que ser cuidadosos con que el valor realmente este siendo excluido.

El por qué tu tienes missing values tambien es importante, dependiendo del problema que estes tratando de resolver. Podría ser irrazonable inferir valores faltantes, por ejemplo, si los Datos no deberían existir en  primer lugar. 

### Example: Manipulating DataFrame


In [50]:
# Usaremos un dataset de wikipedia con los presidentes de US

import pandas as pd

df = pd.read_csv('resources/week-2/datasets/presidents.csv')
df.head()

Unnamed: 0,#,President,Born,Age atstart of presidency,Age atend of presidency,Post-presidencytimespan,Died,Age
0,1,George Washington,"Feb 22, 1732[a]","57 years, 67 daysApr 30, 1789","65 years, 10 daysMar 4, 1797","2 years, 285 days","Dec 14, 1799","67 years, 295 days"
1,2,John Adams,"Oct 30, 1735[a]","61 years, 125 daysMar 4, 1797","65 years, 125 daysMar 4, 1801","25 years, 122 days","Jul 4, 1826","90 years, 247 days"
2,3,Thomas Jefferson,"Apr 13, 1743[a]","57 years, 325 daysMar 4, 1801","65 years, 325 daysMar 4, 1809","17 years, 122 days","Jul 4, 1826","83 years, 82 days"
3,4,James Madison,"Mar 16, 1751[a]","57 years, 353 daysMar 4, 1809","65 years, 353 daysMar 4, 1817","19 years, 116 days","Jun 28, 1836","85 years, 104 days"
4,5,James Monroe,"Apr 28, 1758","58 years, 310 daysMar 4, 1817","66 years, 310 daysMar 4, 1825","6 years, 122 days","Jul 4, 1831","73 years, 67 days"


In [51]:
## Nos quedamos en 1:11 