# **Pandas**

pandas es una biblioteca de Python de código abierto para análisis de datos altamente especializados. Actualmente es el punto de referencia que todos los profesionales que utilizan el lenguaje Python deben estudiar con fines estadísticos de análisis y toma de decisiones.

In [None]:
import numpy as np 
import pandas as pd 

In [None]:
s = pd.Series([12, -4, 7,9])
s

In [None]:
s = pd.Series([12, -4, 7,9], index= ['a', 'b', 'c', 'd'])
s

In [None]:
s.values, s.index

## **Seleccionando elementos internos**

In [None]:
s[2]

In [None]:
s['b']

In [None]:
s[0:2]

In [None]:
s[[0,2]], s[['a', 'c']]

## **Asignando valores a los elementos**

In [None]:
s[1]= 0
s

In [None]:
s['b'] = 1
s

## **Definiendo una serie a partir de una array y otras series**

In [None]:
arr = np.arange(1,10,2)
s3 = pd.Series(arr)
s3

In [None]:
s4 = pd.Series(s)
s4

## **Operaciones y funciones matemáticas**

De forma similar que las filtraciones las operciones matemáticas (+,-,*,/) y las funciones matemáticas de NumPy se pueden aplicar a las series.

In [None]:
s/2

In [None]:
np.log(s)

## **Filtrando valores**

Gracias a la elección de la libreria NumPy como la base para libreria pandas, como resultado para su estructura de datos, muchas operaciones que son aplicables a los arrays de NumPy, se pueden extender a las series. 

In [None]:
s[s>8]

In [None]:
colors = pd.Series([1,0,2,1,2,3], index=['white','white','blue','green','green','yellow'])
colors

In [None]:
colors.unique()

In [None]:
colors.value_counts()

In [None]:
colors.isin([0,3])

In [None]:
colors[colors.isin([0,3])]

## **Valores NaN**

In [None]:
s2 = pd.Series([5,-3,np.NaN,14])
s2

In [None]:
s2[s2.isnull()]

In [None]:
s2[s2.notnull()]

## **Series y diccionarios**

In [None]:
mydict = {'red': 2000, 'blue': 1000, 'yellow': 500,
'orange': 1000}

In [None]:
s5 = pd.Series(mydict)
s5

In [None]:
colors = ['red','yellow','orange','blue','green']
myseries = pd.Series(mydict, index=colors)
myseries

## **Dataframe**

El dataframe es una estructura de datos tabular muy similar a una hoja de cálculo. Esta estructura de datos esta diseñada para extender las series a multiples dimensiones.

In [None]:
data = {'color' : ['blue','green','yellow','red','white'],       
        'object' : ['ball','pen','pencil','paper','mug'],
        'price' : [1.2,1.0,0.6,0.9,1.7]}

In [None]:
frame = pd.DataFrame(data)
frame

In [None]:
frame2 = pd.DataFrame(data, columns= ['object', 'price'])
frame2

In [None]:
frame2 = pd.DataFrame(data, index=['one','two','three','four','five'])
frame2

In [None]:
frame3 = pd.DataFrame(np.arange(16).reshape((4,4)),
                   index=['red','blue','yellow','white'],                   columns=['ball','pen','pencil','paper'])
frame3

## **Seleccionar elementos**

In [None]:
frame.columns

In [None]:
frame.index

In [None]:
frame.values

In [None]:
frame['price']

In [None]:
frame.loc[2]

In [None]:
frame.loc[[2,4]]

In [None]:
frame[0:1]

In [None]:
frame[1:3]

In [None]:
frame['object'][3]

In [None]:
frame.index.name = 'id'
frame.columns.name = 'item'
frame

In [None]:
frame['new'] = 12
frame

In [None]:
frame['new'] = [3.0,1.3,2.2,0.8,1.1]
frame

In [None]:
ser = pd.Series(np.arange(5))
ser

In [None]:
frame['new'] = ser
frame

In [None]:
frame['price'][2] = 3.3
frame

In [None]:
frame.isin([1.0,'pen'])

In [None]:
frame[frame.isin([1.0,'pen'])]

### **Borrando una columna**

In [None]:
del frame['new']
frame

### **Filtrando**

In [None]:
frame[frame['price'] < 1.2]

### **DataFrame de un dict anidado**

In [None]:
nestdict = { 'red': {2012: 22, 2013: 33},
             'white': {2011: 13, 2012: 22, 2013: 16},
             'blue': {2011: 17, 2012: 27, 2013: 18} }
nestdict

In [None]:
frame2 = pd.DataFrame(nestdict)
frame2

### **Transposición de un DateFrame**

In [None]:
frame2.T

### **El objeto Index**

In [None]:
ser = pd.Series([5,0,3,8,4], index = ['red', 'blue', 'yellow', 'white', 'green'])
ser.index

### **Métodos sobre Index**

In [None]:
ser.idxmin()

In [None]:
ser.idxmax()

### **Index con etiquetas duplicadas**

In [None]:
serd = pd.Series(range(6), index=['white', 'white', 'blue', 'green', 'green', 'yellow'])
serd

In [None]:
serd['white']

Con estructuras de datos pequeñas, es fácil identificar cualquier indice duplicado, pero si la estructura se vuelve gradualmente grande, el proceso se vuelve más difícil. En este caso, pandas posee una función llamada is_unique el cual indica con un valor booleana si hay o no índices repetidos.

In [None]:
serd.index.is_unique

In [None]:
frame.index.is_unique

## **Otras funcionalidades sobre índices**

En esta sección analizaremos en detalle un número de características básicas para manipular Dataframes que generan una gran ventaja por su facilidad.

* Reindexando
* Eliminando
* Alineando

### **Reindexando**

In [None]:
ser = pd.Series([2,5,7,4], index = ['one', 'two', 'three', 'four'])

In [None]:
ser.reindex(['three', 'four', 'five', 'one'])

# **Referencias**

[1]. https://es.wikipedia.org/wiki/NumPy 

[2]. Unpingo J. Python for Probability, Statistics and Machine Learning. Second Edition. Ed. 
Springer.

[3]. Nelli F. Python Data Analytics. With Pandas, NumPy and Matplotlib. Second Edition. Ed. Apress