# Pandas


[Pandas](http://pandas.pydata.org) es una biblioteca para manipulación y análisis de datos basada en Numpy. Aporta nuevas estructuras de datos de alto nivel que extienden datos almacenados en arrays, aportando más semántica y nuevas operaciones. 



Puede pensarse a Pandas como un **reemplazo pythonico a excel**


Pandas introduce dos estructuras de datos principales: `Series` y `DataFrame`. 

In [None]:
import pandas as pd
%matplotlib inline

### Series

Un Series es un objeto **unidemensional**, similar a un array, una lista o una columna en una tabla, que tiene **asociado una etiqueta** para cada elemento. Por defecto, esta etiqueta es un número de 0 a N

In [None]:
s = pd.Series([1,3,5,float('nan'),6,8]) # creamos una serie, analogo a un array de 1D
s

In [None]:
pd.Series?

Como vemos, es simplemente un envoltorio más lindo: el verdadero contenedor es un array de numpy

In [None]:
s.values

In [None]:
s.ndim, s.shape

In [None]:
s.index

En este caso ocurre que el índice y las claves son lo mismo, pero esto puede no ocurrir para objetos más completos

In [None]:
s.loc[1], s.iloc[1]

Hay muchas operaciones que podemos hacer sobre una serie.

In [None]:
s.mean(), s.sum(), s.std()

E incluso ver un resumen general de los datos

In [None]:
s.describe()

Pandas es una herramienta nacida en la industria de las finanzas, y por ello intenta hacer fácil las cosas tipicas. Una de ellas es **graficar datos**. Utiliza **matplotlib** por default

In [None]:
s.plot()

La series se utilizan mucho para representar datos en **función del tiempo**. Hay una función especial análoga a `range()` que permite generar índices temporales

In [None]:
pd.date_range('1/1/2010', periods=1000)

In [None]:
import random

ts = pd.Series([random.gauss(0, 1) for _ in range(1000)], index=pd.date_range('1/1/2010', periods=1000))
ts = ts.cumsum()
ts.plot()

### Dataframe

Un DataFrame es una estructura tabular de **filas y columnas** (¡como una hoja de cálculo!). También se puede pensar un DataFrame como un conjunto de Series que comparten el índice (es decir, la primera columna)

In [None]:
df = pd.DataFrame([[random.gauss(0, 1) for _ in range(4)] for _ in range(1000)],
                  index=ts.index, columns=list('ABCD'))
df.head()

In [None]:
df.tail()

Las columnas son Series!

In [None]:
type(df.A)

In [None]:
df['A'].cumsum().plot()

Pandas tambien puede importar archivos CSV o Excel, locales o remotos. Por ejemplo este [dataset](https://git.io/fjncX) de pasajeros del titanic

In [None]:
url = 'https://git.io/fjncX'
titanic = pd.read_csv(url, index_col=0, na_values='N/A')

In [None]:
titanic.columns

In [None]:
titanic.head()

| Variable | Definicion                                 | Notacion                                       |
|----------|--------------------------------------------|------------------------------------------------|
| survival | ¿Sobrevivio?                               | 0 = No, 1 = Si                                 |
| pclass   | Clase del tiquete                          | 1 = Alta, 2 = Media, 3 = Baja                  |
| sex      | Sexo                                       |                                                |
| Age      | Edad (en años)                             |                                                |
| sibsp    | # Hermanos / cónyuges abordo               |                                                |
| parch    | # Hijos / Padres abordo                    |                                                |
| ticket   | Numero de tiquete                          |                                                |
| fare     | Tarifa                                     |                                                |
| cabin    | Numero de cabina                           |                                                |
| embarked | Puerto de embarque                         | C = Cherbourg, Q = Queenstown, S = Southampton |

In [None]:
titanic.info()

In [None]:
titanic.Age.hist(bins=70)

In [None]:
titanic['Family'] = (titanic.SibSp + titanic.Parch) > 0
titanic.Family.value_counts().plot(kind='pie', figsize=(8,8))

Podemos filtrar el dataset por múltiples criterios. Por ejemplo, para calcular la proporcion de mujeres menores que murieron 

In [None]:
titanic[(titanic.Sex == 'female') & (titanic.Age < 18)].Survived.mean()

Podemos separar subconjuntos basado en uno o más criterios

In [None]:
titanic.groupby('Pclass').describe()

In [None]:
titanic.groupby(['Pclass', 'Family']).Survived.mean()

In [None]:
pt1 = pd.pivot_table(titanic, index=['Pclass'], columns=['Family'], values=['Survived'])
pt1

In [None]:
pt1.plot(kind='bar', figsize=(13,6))

In [None]:
titanic.Name.head(10)

In [None]:
x = titanic.loc[1].Name
x 

In [None]:
x.split('.')[0]

In [None]:
x.split('.')[0].split(', ')[1]

In [None]:
title = lambda x: x.split('.')[0].split(', ')[1]
title(titanic.iloc[0].Name), title(titanic.iloc[1].Name)

In [None]:
title(titanic.Name)

In [None]:
titanic['title'] = titanic.Name.apply(title)
titanic.title.value_counts()

# Esto es todo?

<div class="row">
  <div class="col-md-8" markdown="1">
    <ul>
      <li>Astropy</li>
      <li>Biopython</li>
      <li>Scipy</li>
      <li>Numpy</li>
      <li>PuLP</li>
      <li>Networkx</li>
      <li>Django</li>
      <li>OpenCV</li>
      <li>GeoPandas</li>
      <li>Beautiful Soup</li>
    </ul>
  </div>
  <div class="col-md-4" markdown="1">
    <ul>
      <li>Matplotlib</li>
      <li>Plotly</li>
      <li>Sympy</li>
      <li>Scikit-learn</li>
      <li>Scikit-image</li>
      <li>TensorFlow</li>
      <li>Pytorch</li>
      <li>MxNet</li>
      <li>statsmodels</li>
      <li>QuantEcon</li>
     </ul>
  </div>
</div>