# Introducción a Pandas

Pandas es una de las módulo de python que nos permitirá la manipulación de datos para análisis a través de una estructura flexible y la implementación de funciones estadisticas.

## Instalación

Al igual que cualquier módulo de python podemos instalarlo a través del _anaconda navigator_ o por consola usando:

```bash
conda install pandas
```
o
```bash
pip install pandas
```

Luego bastaria con importarlo en nuestro notebook


In [2]:
import pandas as pd

## Pandas

Utilizar pandas es similitar a trabajar con tablas de datos, donde las columnas serán atributos y las filas son instancias, cada una identificada por un o más índices. Las dos estructuras clave de pandas son las __Series__ y los __DataFrame__. 

### Series

Son arrays unidimensionales con indexación (arrays con índice o etiquetados), similar a los diccionarios. Pueden generarse a partir de diccionarios o de listas.

Para crear una serie

In [11]:
s1 = pd.Series([1,3,5,6,8])
s1

0    1
1    3
2    5
3    6
4    8
dtype: int64

In [14]:
s2 = pd.Series({"a":1,"b":3,"c":5,"d":6,"e":8})
s2

a    1
b    3
c    5
d    6
e    8
dtype: int64

In [9]:
print(s.index)
print("Tamaño",s.size)
print("Tamaño de items",s.itemsize)
print("Tipo de items",s.dtype)

RangeIndex(start=0, stop=5, step=1)
Tamaño 5
Tamaño de items 8
Tipo de items int64


### DataFrame

Son estructuras de datos similares a las tablas de bases de datos relacionales, está conformado por Indices y Series.


Podemos crear DataFrames usando listas o NumPy arrays, indexando con un datetime index y usando columnas con nombre:

In [15]:
dates = pd.date_range('20130101', periods=6)
dates

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

In [18]:
from random import random

datos = []
for i in range(6):
    l = []
    for i in range(4):
        l.append(random())
    datos.append(list(l))
df = pd.DataFrame(datos, index=dates, columns=['A','B','C','D'])
df

Unnamed: 0,A,B,C,D
2013-01-01,0.662911,0.985043,0.54349,0.177695
2013-01-02,0.468931,0.686373,0.949581,0.67913
2013-01-03,0.345177,0.832014,0.533394,0.4346
2013-01-04,0.984411,0.202543,0.174618,0.550931
2013-01-05,0.328239,0.065804,0.172259,0.474877
2013-01-06,0.34768,0.414488,0.145131,0.275529


O podemos crearlo usando un diccionario de objetos con los que se puedan construir Series

In [20]:
df2 = pd.DataFrame({ 'A' : 1.,
                     'B' : pd.Timestamp('20130102'),
                     'C' : pd.Series(1,index=list(range(4)),dtype='float32'),
                     'D' : [random() for i in range(4)],
                     'E' : pd.Categorical(["test","train","test","train"]),
                     'F' : 'foo' 
                   })
df2

Unnamed: 0,A,B,C,D,E,F
0,1.0,2013-01-02,1.0,0.323022,test,foo
1,1.0,2013-01-02,1.0,0.200092,train,foo
2,1.0,2013-01-02,1.0,0.150631,test,foo
3,1.0,2013-01-02,1.0,0.723615,train,foo


In [21]:
df2.dtypes

A           float64
B    datetime64[ns]
C           float32
D           float64
E          category
F            object
dtype: object

In [22]:
df2.columns

Index(['A', 'B', 'C', 'D', 'E', 'F'], dtype='object')

In [23]:
df2.index

Int64Index([0, 1, 2, 3], dtype='int64')

Podemos cambiar el índice

In [25]:
df2 = df2.set_index("B")
df2

Unnamed: 0_level_0,A,C,D,E,F
B,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2013-01-02,1.0,1.0,0.323022,test,foo
2013-01-02,1.0,1.0,0.200092,train,foo
2013-01-02,1.0,1.0,0.150631,test,foo
2013-01-02,1.0,1.0,0.723615,train,foo


O bien podemos cargar un _DataFrame_ desde un archivo _csv_ o _excel_.


### Mostrar contenido

Podemos mostrar los primeros y últimos elementos del DataFrame con

In [27]:
df.head(2)

Unnamed: 0,A,B,C,D
2013-01-01,0.662911,0.985043,0.54349,0.177695
2013-01-02,0.468931,0.686373,0.949581,0.67913


In [29]:
df.tail(2)

Unnamed: 0,A,B,C,D
2013-01-05,0.328239,0.065804,0.172259,0.474877
2013-01-06,0.34768,0.414488,0.145131,0.275529
