# Pandas
Pandas es una librería de alto rendimiento para estructuras y para análisis de datos en Python. Entre sus características principales están:

* Una clase DataFrame eficiente para manipulacion de datos con indexado integrado
* Herramientas para leer y escribir entre estructuras almacenadas en memoria y diferentes formatos como CSV, archivos de texto plano, Excel, Bases de datos SQL y HDF5;
* Alienación de data 
* Alineacion inteligente de datos y manejo integrado de data faltante.
* Soporte para redimensionamiento y tablas de pivote.
* Soporte Slicing, y slicing basado en etiquetas.
* Las columnas pueden ser insertadas o borradas de las estructuras de datos.
* Agregacion o transformación de datos con un poderoso motor de agrupacion (group by) permitiendo dividir-aplicar-combinar en los data sets.
* Merge y Join de alto rendimiento.
* Índices Jerárjicos por ejes que proveen una forma intuitiva de trabajar con datos multidimensionales en una estructura de menos dimensiones.
* Funcionalidad para manejo de series de tiempo.
* Python con pandas es usado en variedad de dominios comerciales y académicos, incluido Finanza, Nerociencia, Economía, Estadística, Marketing y mas

In [None]:
# Importar modulo pandas
import pandas as pd
import numpy as np

## Series
Un objeto Series en pandas es un array unidimensional de datos indexados. Es análogo a un array numpy de una dimensión

In [None]:
serie1 = pd.Series([10, 20, 30, 40, 50, 60, 70, 80, 90])
serie1

In [None]:
serie1.values

In [None]:
serie1.index

In [None]:
serie1[1]

In [None]:
serie1[3:5]

In [None]:
serie1 = pd.Series([10, 20, 30, 40, 50, 60, 70, 80, 90], index = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i'])
serie1

In [None]:
serie1['d']

In [None]:
dic_poblacion = { "Bogotá": 8181047,
             "Medellín": 2529403,
             "Cali": 2445281,
             "Barranquilla": 1232766 }

poblacion = pd.Series(dic_poblacion)
poblacion

In [None]:
poblacion["Cali"]

In [None]:
poblacion["Bogotá":"Medellín"]

## DataFrame
Un Dataframe en pandas es un array bidimensional de datos indexados. Es análogo a un array numpy de dos dimensión. Se puede decir que un DataFrame es una secuencia de objetos Series alienados que comparten el mismo índice.

In [None]:
dic_poblacion = { "Bogotá": 8181047,
             "Medellín": 2529403,
             "Cali": 2445281,
             "Barranquilla": 1232766 }

poblacion = pd.Series(dic_poblacion)
poblacion

In [None]:
dic_area = { "Bogotá": 1587,
            "Medellín": 380,
            "Cali": 562,
            "Barranquilla":166 }

area = pd.Series(dic_area)
area

In [None]:
ciudades = pd.DataFrame({"Población": poblacion, "Área": area})
ciudades

In [None]:
ciudades.index

In [None]:
ciudades.columns

In [None]:
ciudades["Población"]

In [None]:
type(ciudades["Población"])

### Creación de DataFrames
Los DataFrames se pueden crear de varias formas

In [None]:
# Crear DataFrame desde un objeto Serie
pd.DataFrame(poblacion, columns=['Población'])

In [None]:
# Crear DataFrame desde diccionarios
pd.DataFrame([{'a': 1, 'b': 2, 'c': 3}, {'a': 2, 'b': 3, 'c': 4}])

In [None]:
# Inclusive si hay algunos datos faltantes, Pandas creará del DataFrame con Nan (Not a Number) en los datos faltantes
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

In [None]:
# Desde un diccionario de objetos Series
ciudades = pd.DataFrame({"Población": poblacion, "Área (km2)": area})
ciudades

In [None]:
# Desde un array Numpy bidimensional

pd.DataFrame(np.random.rand(3, 2),
             columns=['x', 'y'],
             index=['a', 'b', 'c'])

#### Crear DataFrame desde un archivo
Pandas ofrece funciones para importar archivos de texto plano, csv, excel

In [10]:
import pandas as pd
# precios_vivienda = pd.read_csv("data/Caracterizaci_n_precios_vivienda_nueva.csv") # Datos locales
precios_vivienda = pd.read_csv("https://raw.githubusercontent.com/javiercocu/intro-datascience/master/data/Caracterizaci_n_precios_vivienda_nueva.csv")

precios_vivienda

Unnamed: 0,Subzona,precios,estrato,area,alcobas,baños,parqueadero,Long_com_corr,parques,vias,remocion_masa,grandes_superficies,colegios,hospitales
0,Rosales,16.364833,5.921512,177.315698,2.672965,3.776163,2.981105,15.762355,530.287053,114.399907,210.171244,0,0,0
1,Chico,13.939057,5.905213,128.043839,2.225118,3.10466,2.152449,123.324578,524.939948,234.495011,540.272909,17,0,0
2,Bosque Medina,10.751194,4.69914,151.226361,2.532951,3.037249,2.467049,25.523559,688.125569,132.718385,411.765562,1,0,0
3,Multicentro,10.365171,5.647235,94.070728,2.086315,2.625469,1.785589,98.456376,554.446874,234.884578,610.978627,10,0,0
4,La Carolina,10.050658,5.390084,114.054818,2.179607,2.956034,1.985033,27.904729,630.037093,130.954436,335.558966,0,1,0
5,Pablo VI,9.588879,4.630769,94.822308,2.476923,2.607692,1.446154,35.842463,1617.64839,179.138057,1599.640396,7,3,1
6,Centro,9.504144,3.195473,63.382613,1.743827,1.799383,0.987654,141.05592,485.081173,252.861646,1570.788568,128,24,9
7,Colinas de Suba,9.342163,5.639469,212.210436,3.049336,3.848197,3.13852,5.71124,1424.357194,88.110061,362.545973,1,0,0
8,Chapinero,8.681093,3.738265,74.125747,1.773826,1.960171,1.251778,88.471722,968.019424,192.624319,541.919511,15,7,2
9,Córdoba,8.602316,4.909672,84.037135,2.155109,2.30292,1.65511,56.866181,926.342471,205.840416,724.23467,9,2,0


In [None]:
precios_vivienda = pd.read_csv("data/Caracterizaci_n_precios_vivienda_nueva.csv", index_col = "Subzona")
precios_vivienda

## Selección e indexado

### Selección de datos en Series

In [None]:
import pandas as pd
datos = pd.Series([0.1, 0.2, 0.7, 1.0],
                 index=['a', 'b', 'c', 'd'])
datos

In [None]:
datos['b']

In [None]:
# Los datos en un objeto Series puede ser modificado accediendo a través del índice

datos['d'] = 40

datos

In [None]:
# Selección por Slicing

datos[0:2]

In [None]:
datos['b':'c']

In [None]:
# Máscaras

datos < 0.5

In [None]:
# Las máscaras se pueden usar para seleccionar datos

datos[datos < 0.5]

### Selección de datos en DataFrame

In [None]:
dic_poblacion = { "Bogotá": 8181047,
             "Medellín": 2529403,
             "Cali": 2445281,
             "Barranquilla": 1232766 }

dic_area = { "Bogotá": 1587,
            "Medellín": 380,
            "Cali": 562,
            "Barranquilla":166 }
ciudades = pd.DataFrame({"Población": poblacion, "Área": area})
ciudades

In [None]:
# Seleccion de columna
ciudades["Área"]   # Una columna de un DataFrame es un objeto Series

In [None]:
ciudades.Área # Una columna de un DataFrame también es una propiedad del DataFrame

In [None]:
ciudades['densidad'] = ciudades['Población'] / ciudades['Área']
ciudades

In [None]:
ciudades.values

In [None]:
ciudades.T

In [None]:
ciudades.values[0]

In [None]:
ciudades

In [None]:
ciudades.loc["Cali"]   # loc se usa para seleccionar por valor del índice

In [None]:
ciudades.loc["Bogotá":"Medellín"]

In [None]:
ciudades.loc[["Cali","Barranquilla"]]

In [None]:
ciudades.iloc[0:2]   #iloc se usa para seleccionar por número de índice

In [None]:
ciudades["Población"] > 2500000   # Creación de máscaras

In [None]:
ciudades[ ciudades["Población"] > 2500000 ]  #Uso de máscara para selección

In [None]:
ciudades[ ciudades.Área < 500 ]

## Manejando data faltante

La data obtenida en los datasets reales suele tener datos faltantes o corruptos. Pandas nos puede ayudar con el manejo de estos datos faltantes

In [None]:
falt1 = np.array([1, None, 3, 4])    #None es un tipo de objeto especial en Python que se usa para datos faltantes
falt1 # En este caso el typo de variable del arreglo es object

In [None]:
falt1.sum()

In [None]:
falt2 = np.array([1, np.nan, 3, 4]) #NaN (Not a number) es un valor especial de tipo flotante 
falt2.dtype  # El tipo de variable en este arreglo es float

Aunque no genera un error en ejecución, las operaciones estándar de mnumpy con datos nan retornan nan

In [None]:
falt2.sum()  

Numpy provee funciones especiales de agregación que no se afectan por datos nan

In [None]:
np.nansum(falt2), np.nanmin(falt2), np.nanmax(falt2), np.nanmean(falt2), np.nanstd(falt2)

### NaN y None en Pandas
Pandas maneja NaN y None en Pandas de manera conveniente

In [None]:
a = pd.Series([1, 2, None, 4, np.nan])
a

In [None]:
b = pd.Series([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0])
b

In [None]:
b[5] = None
b

### Detectando valores faltantes en Pandas
Pandas provee las funciones `isnull()` y `notnull()` para detección de datos faltantes

In [None]:
c = pd.Series(["hola", 15, np.nan, "mundo", None])
c

In [None]:
c.isnull()

In [None]:
c[c.notnull()]

#### Eliminar datos faltantes

In [None]:
c = c.dropna()
c

En el caso de DataFrames, existen más opciones para eleminar datos faltantes, se pueden eliminar filas o columnas complentas que contengan datos faltantes

In [None]:
df = pd.DataFrame([[1,      2, np.nan],
                   [4,      5,      6],
                   [np.nan, 8,      9]])
df

Eliminar filas que contengan uno o más datos faltantes

In [None]:
df.dropna()    # Eliminar filas que contengan datos faltantes

Eliminar columnas que contengan uno o mas datos faltantes

In [None]:
df.dropna(axis='columns')    # Eliminar columnas que contengan uno o mas datos faltantes

Eliminar filas que contengan todos los datos faltantes

In [None]:
df = pd.DataFrame([[np.nan, np.nan, np.nan],
                   [4,         5,        6],
                   [np.nan,    8,        9]])
df

In [None]:
df.dropna(how='all')

También se puede especificar una cantidad máxima de datos faltantes para que no se elimine la fila o columna

In [None]:
df = pd.DataFrame([[np.nan, np.nan, np.nan],
                   [4,      np.nan,      6],
                   [np.nan,    8,   np.nan],
                   [np.nan,   10,   np.nan],
                   [np.nan,    8,        9]])
df

In [None]:
df.dropna(axis = 'columns', thresh = 2)

In [None]:
df.dropna(axis = 'rows', thresh = 2)

#### Llenar datos faltantes

In [None]:
df = pd.DataFrame([[np.nan, np.nan, np.nan],
                   [4,      np.nan,      6],
                   [np.nan,    8,   np.nan],
                   [np.nan,   10,   np.nan],
                   [np.nan,    8,        9]])
df

In [None]:
df.fillna(10)

In [None]:
df.fillna(method='ffill', axis=1)  # ffill o Forwardfill Hace un llenado del dato faltante hacia adelante

In [None]:
df = pd.DataFrame([[np.nan, np.nan, np.nan],
                   [4,      np.nan,      6],
                   [np.nan,    8,   np.nan],
                   [np.nan,   10,   np.nan],
                   [np.nan,    8,        9]])
df

In [None]:
df.fillna(method='bfill', axis=0) # bfill o BackFill Hace un llenado del dato faltante hacia atrás

# Ejercicio
* Cargar el Dataset "https://raw.githubusercontent.com/javiercocu/intro-datascience/master/data/titanic.csv en un DataFrame con la funcion pd.read_csv()
* Detectar datos faltantes en las diferentes columnas por medio de la función isnull()
* Calcular el valor medio de las edades con la funcin nanmean()
* Llenar los datos faltantes de edad con el resultado de la media

In [8]:
### Celda para Completar Ejercicio