## Basic Data Processing with Pandas


- Introduction to Pandas
- The Series Data Structure
- Querying a Series
- DataFrame Data Structure
- DataFrame Indexing and Loading
- Querying a DataFrame
- Indexing a Data Frame
- Missing Values
- Example: Manipulating Data Frame



### Introduccion a Pandas


- **Pandas** fue creado en 2008 por Wes Mckinney con mas de 100 desarrolladores de software comprometidos a ayudar a mejorarlo.Ahora se usaran herramientas dentro del curso.

- **StackOverflow** es un foro masivo de conocimiento de Python y contenido relacionado a Pandas. Es fuertemente utilizado por desarrolladores de Pandas. Contiene preguntas sobre programación, lenguajes de programación, kits de herramientas. Es muy probable que si etiqueta una pregunta como Pandas un deasrrollador de Pandas la responda.

- Otro recurso a considerar son los **libros**. 
    - Python for Data Analysis - Wes Mckinney
    - Learning the Pandas Library - Matt Harrison

- [**Planet Python**](http://planetpython.org/) Excelente blog para noticias de Python. Numero significativo de tutoriales sobre Data Science y Python. 

- [**Data Skeptic Podcast**](http://dataskeptic.com). Podcast por Kyle Polich creado en 2014. Cubre la DataScience de manera general. Incluye:
    - Mini educational lessons
    - Entrevistas
    - Trends
    - Share Community Project (OpenHouse)
    

### The Series Data Structure


En esta lectura vamos a explorar la estructura de Series de Pandas. La Serie es una de las principales estructuras de datos de Pandas. Puedes pensar en ella como un cruce entre una lista o un diccionario. Los items estan almacenados en un orden y hay labels (etiquetas) con la que podemos manipularlos. Una forma facil de visualizar esto es a partir de dos columnas de datos, el primero es el indice especial (Index), muy parecido a las claves de un diccionario, mientras que el segundo son sus datos reales. Es importante tener en cuenta que la columna de datos tiene la etiqueta propia y se puede recuperar usando el atributo " .name ". Esto es diferente a los diccionarios y es util cuando se trata de fusionar multiples columnas de datos.

In [1]:
# Importamos pandas
import pandas as pd

In [3]:
# Se pueden crear Series al pasar una lista de valores 
# Cuando se hace esto, Pandas automaticamente asigna un indice que comienza en 0
# y el nombre de la serie en None (Tambien se pueden especificar nombres e indices)

# Una de las maneras mas sencillas de crear una Serie es usar un array-like-object. Una lista es un buen 
# candidato

# Haremos una lista de tres etudiantes: Alice, Jack y Molly. Todos strings
students = ['Alice', 'Jack', 'Molly']

# Ahora llamaremos la funcion Series de pandas y le pasaremos a los estudiantes
pd.Series(students)

0    Alice
1     Jack
2    Molly
dtype: object

In [4]:
# El resultado es una Serie (Visualmente agradable) que se observa en la pantalla. Podemos ver que Pandas
# automaticamente identifica el tipo de data de la serie como "object" y ha establecido el parámetro dtype
# según corresponda (podría ser float64). Vemos que los valores estan indexados con enteros y comienza en 0

In [5]:
# No tenemos que usar strings. Si pasamos numeros podemos ver que pandas le asigna el tipo int64 o float64. 
# Debajo, los valores de la serie de almacenamiento de Pandas usan la librería de Numpy. Esto ofrece mucha 
# velocidad y eficiencia cuando se procesa Data frente a las listas tradicionales de Python

# Vamos a crear una pequeña lista de numeros:
numbers = [1,2,3]
# La pasamos a una serie
pd.Series(numbers)

0    1
1    2
2    3
dtype: int64

In [6]:
# Hay otros importantes detalles de typing que existen para el rendimiento que son importantes conocer.
# Lo mas importante es como Numpy y, por lo tanto, Pandas, manejan los valores que faltan (Missing values). 
# En Python tenemos el tipo None para identificar que faltan datos. Debajo, Pandas hace algun tipo de conversion
# para nosotros. Si creamos una lista de cadenas y tenemos un elemento, un tipo None, pandas inserta eso com None
# y utiliza el objeto de tipo para la matriz subyacente


students = ['Alice', 'Jack', None]

pd.Series(students)

0    Alice
1     Jack
2     None
dtype: object

In [7]:
# Por otro lado, si creamos una lista de numeros, enteros o flotantes, y ponemos el tipo None, 
# Pandas automaticamente convierte esto en un valor punto flotante especial designado como NaN (not a number)

numbers = [1,2,None]
pd.Series(numbers)

0    1.0
1    2.0
2    NaN
dtype: float64

In [8]:
# Podemos notar varias cosas: 
# Primero, NaN es un valor diferente a None. Segundo, Pandas asigno el dtype de su serie como float64 (puntos
# flotantes). Debajo, Pandas representa NaN como un numero de punto flotante y por tanto convirtio los valores
# enteros a flotantes automaticamente

In [9]:
# Para la ciencia de datos podemos tratar los None y los NaN de la misma forma: Para representar que no hay datos.
# Sin embargo, Pandas no los trata de la misma manera

# NaN is *NOT* equivalent to None. Cuando intentamos probarlo el resultado es False

import numpy as np

np.nan == None

False

In [10]:
# Resulta que en realidad ni siquiera se puede hacer una prueba de igualdad de NaN a sí mismo. Cuando intentas
# esto, el resultado siempre es falso

np.nan == np.nan

False

In [11]:
# En su lugar, debemos utilizar funciones especiales para probar la presenta de un NaN

np.isnan(np.nan)

True

In [12]:
# Por lo tanto hay que tener en mente que cuando vemos un valor NaN, su significado es similar a None
# pero es un valor numerico y se trata diferente por razones de eficiencia

In [14]:
# Aunque una lista puede ser una forma comun de crear una serie, a menudo uno quiere etiquetar los datos que 
# desea manipular. Una serie puede ser creada con un diccionario donde las Keys se asignan como Index
# y no solo como enteros con incremento


students_scores = { 'Alice': 'Physics',
                    'Jack': 'Chemistry',
                    'Molly': 'English'}
s = pd.Series(students_scores)
s

Alice      Physics
Jack     Chemistry
Molly      English
dtype: object

In [15]:
# Vemos que el index es una lista de strings. Ademas vemos que a pesar de ser strigns Pands asigna el dtype como
# object. 

s.index

Index(['Alice', 'Jack', 'Molly'], dtype='object')

In [16]:
# Creemos un tipo de data mas complejo, como una lista de tuplas

students = [('Alice','Brown'),('Jack','White'),('Molly','Green')]
pd.Series(students)

0    (Alice, Brown)
1     (Jack, White)
2    (Molly, Green)
dtype: object

In [18]:
# Podemos separar la creacion del indice de la data al pasar el indice como una lista explicitamente

s = pd.Series(['Physics','Chemistry','English'], index = ['Alice','Jack','Molly'])
s

Alice      Physics
Jack     Chemistry
Molly      English
dtype: object

In [20]:
# Que pasa si pasamos un diccionario y una lista con los index pero hay un valor que no coincide? o no estan 
# alineados?. Pandas omite la creacion automatica para favorecer solo todos los indices values que se proveen.
# Con esto, se ignora del diccionario todas las llaves que no esten en index y Pandas añade None o NaN 
# para cualquier index value que se de que no se encuentre en el diccionario

students_scores = {'Alice':'Physics',
            'Jack': 'Chemistry',
            'Molly': 'English'}
# Vamos a crear una serie pero excluyendo a Jack
s = pd.Series(students_scores, index = ['Alice','Molly','Sam'])
s

Alice    Physics
Molly    English
Sam          NaN
dtype: object

In [None]:
# Vemos que en el resultado no esta Jack. Y hay un valor NaN para Sam porque no estaba en nuestro dataset original
