## Pandas (Series, DataFrame, Index Objects)

Pandas es un paquete construido a partir Numpy, y proporciona una eficiente implementación de un DataFrame

Los DataFrames , esencialmente, son arrays multidimensionales con unas etiquetas adjuntas de fila y columna, y a menudo con información de tipo heterogénea y/o valores no informados (missing data).

Pandas además de ofrecer un contenedor apropiado para datos etiquetados, implementa un gran número de operaciones sobre los datos, que son familiares a usuarios de bases de datos y hojas de cálculo.

-----

**pandas** is a Python package providing fast, flexible, and expressive data
structures designed to make working with "relational" or "labeled" data both
easy and intuitive. It aims to be the fundamental high-level building block for
doing practical, **real world** data analysis in Python. Additionally, it has
the broader goal of becoming **the most powerful and flexible open source data
analysis / manipulation tool available in any language**. It is already well on
its way toward this goal.

Main Features
-------------
Here are just a few of the things that pandas does well:

  - Easy handling of missing data in floating point as well as non-floating
    point data.
  - Size mutability: columns can be inserted and deleted from DataFrame and
    higher dimensional objects
  - Automatic and explicit data alignment: objects can be explicitly aligned
    to a set of labels, or the user can simply ignore the labels and let
    `Series`, `DataFrame`, etc. automatically align the data for you in
    computations.
  - Powerful, flexible group by functionality to perform split-apply-combine
    operations on data sets, for both aggregating and transforming data.
  - Make it easy to convert ragged, differently-indexed data in other Python
    and NumPy data structures into DataFrame objects.
  - Intelligent label-based slicing, fancy indexing, and subsetting of large
    data sets.
  - Intuitive merging and joining data sets.
  - Flexible reshaping and pivoting of data sets.
  - Hierarchical labeling of axes (possible to have multiple labels per tick).
  - Robust IO tools for loading data from flat files (CSV and delimited),
    Excel files, databases, and saving/loading data from the ultrafast HDF5
    format.
  - Time series-specific functionality: date range generation and frequency
    conversion, moving window statistics, moving window linear regressions,
    date shifting and lagging, etc.


In [1]:
import numpy as np
import pandas as pd # librería de pandas

In [2]:
pd.__version__ #versión de pandas

'0.23.0'

### Introducing Pandas Objects


Los objetos de pandas pueden ser considerados como una versión mejorada de las estructuras de arrays de Numpy, en el cuál las filas y columnas son identificadas mediante etiquetas más que con simpre indices de números enteros.

* Series
* DataFrame
* Index


### Panda Series Object

Consiste en un array unidimensional de datos indexados.
Se puede crear a partir de una lista, diccionario, array, etc

> pd.Series(data, index=index)

* data puede ser una lista, numpy array, diccionario,...
* index es un argumento opcional



In [3]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])

In [4]:
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

In [5]:
type(data)

pandas.core.series.Series

Las Series están compuestas de:
* Una secuencia de valores ->  Numpy Array
* Una secuencia de índices ->  pd.Index

Se accede a cada una de las secuencias a través de los atributos
*values* e *index*

In [6]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

In [7]:
data.index

RangeIndex(start=0, stop=4, step=1)

Se accede a los valores a través del indice, como pasa en 
los arrays de Numpy, listas y otros objetos de Python

In [8]:
data[0]

0.25

In [9]:
data[1:3]

1    0.50
2    0.75
dtype: float64

#### Series as generalized Numpy Array

El objeto Serie puede parecer un array unidimensional de Numpy, donde básicamente, la diferencia consiste en la presencia de un índice. Mientras que en Numpy el índice para acceder a los valores es implícito, en las Series este tiene un índice explícito asociado a los valores

Este índice da al objeto Serie capacidades adicionales al array de Numpy.

In [10]:
# el índice no tiene por qué ser un número entero
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a','b','c','d'])

In [11]:
data['a']

0.25

In [12]:
# el índice no tiene por qué ser contiguo y sencuencial
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=[2,3,5,7])

In [13]:
data[5]

0.75

#### Series as specialized dictionary

Se puede pensar en el objeto Serie como una especialización de un
diccionario. Un Diccionario es una estructura que mapea arbitrariamente
una serie de valores arbitrarios a unas claves arbitrarias, y una Serie
es una estructura que mapea una serie de valores tipados arbitrarios a
unas claves tipadas arbitrarias.


Al igual que Numpy es más eficiente que las listas para una serie de 
operaciones, lo mismo ocurre con el objeto Serie y los diccionarios.

Esta analogía va más alla, ya que se puede crear directamente una serie
a partir de un diccionario

In [14]:
population_dict = {'California':383,
                  'Texas':264,
                  'Florida':196,
                  'New York':195}

In [15]:
population = pd.Series(population_dict)

In [16]:
population

California    383
Texas         264
Florida       196
New York      195
dtype: int64

In [17]:
population['New York']

195

In [18]:
population_dict2 = {'California':[383,121],
                  'Texas':[264,122],
                  'Florida':[196,123],
                  'New York':[195,124]}

In [19]:
population2 = pd.Series(population_dict2)

In [20]:
population2

California    [383, 121]
Texas         [264, 122]
Florida       [196, 123]
New York      [195, 124]
dtype: object

In [21]:
population2['Florida']

[196, 123]

In [22]:
# Slicing
population['California':'Florida']

California    383
Texas         264
Florida       196
dtype: int64

### Panda DataFrame Object

Consiste en un array bidimensional de datos indexados,con flexibles índices a nivel de filas y columnas. Puede crearse a partir de:

* Un simple objeto Serie
* Una lista de diccionarios
* Un diccionario de Series
* Un bidimensional array de Numpy
* Un array estructurado de Numpy

#### DataFrame as generalized Numpy Array

Se podría pensar una secuencia de columnas alineadas o una secuencia de alineadas Series.  Aquí por alineado se entiende que comparten el mismo índice.


In [23]:
# creamos un diccionario con las áreas de los estados anteriores
area_dict = {'California':213213,
                  'Texas':43434,
                  'Florida':165656,
                  'New York':1943425}

In [24]:
# creamos una serie a partir del diccionario
area = pd.Series(area_dict)

In [25]:
area

California     213213
Texas           43434
Florida        165656
New York      1943425
dtype: int64

In [26]:
# creamos un dataframe a partir de las dos series anteriores
# población y área ( un diccionario de series)
states = pd.DataFrame({'population':population, 'area':area})

In [27]:
states

Unnamed: 0,population,area
California,383,213213
Texas,264,43434
Florida,196,165656
New York,195,1943425


In [28]:
type(states)

pandas.core.frame.DataFrame

In [29]:
states.index #índice de las filas

Index(['California', 'Texas', 'Florida', 'New York'], dtype='object')

In [30]:
states.columns #índice de las columnas

Index(['population', 'area'], dtype='object')

#### DataFrame as specialized dictionary

Podemos asimilar eun DataFrame a un diccionario. Al igual que un diccionario mapea una clave a un valor, un DataFrame mapea un nombre de  columna a una Serie.

In [31]:
states['area'] # sería la serie del área

California     213213
Texas           43434
Florida        165656
New York      1943425
Name: area, dtype: int64

In [32]:
states['area'][0] # [Serie][Indice]

213213

In [33]:
states['area']['California'] # [Serie][Indice]

213213

In [34]:
states['California']

KeyError: 'California'

### Panda Index Object

Las Series y DataFrames de pandas, contienen unos indices explicitos que te permite referenciar y modificar los datos. Este índice es un objeto en si mismo.

Un objeto de tipo Index puede pensarse como un array inmutable o como un set de datos ordenados (técnicamente un multiset, ya que un objeto Indice puede contener valores repetidos).


In [41]:
i = pd.Index([1,2,3,4,5,6])


#### Index as immutable array

Un índice funciona en cierto modo como un array, y tiene atributos familiares con un array de Numpy.

La principal diferencia es que es un array inmutable y no se puede modificar su valor por la vía normal. Esto lo hace más seguro cuando se comparten indices entre varios DataFrames, ya que la modificación de los índices podría traer efectos inadvertidos sobre ellos.


In [46]:
i[2] # accedemos a su valor

3

In [47]:
i[:2]

Int64Index([1, 2], dtype='int64')

In [48]:
i[0] = 1 #no podemos modificar su valor por la vía normal

TypeError: Index does not support mutable operations

#### Index as ordered set

Los objetos de pandas son diseñados para permitir joins entre distintos datasets. El objeto Index sigue algunas de las convenciones de Python para las estructuras de datos, de forma que uniones, intersecciones y diferencias pueden ser ejecutadas sobre los índices de una forma normal


In [50]:
indA = pd.Index([1,3,5,7,9]) 
indB = pd.Index([2,3,5,7,11])

In [53]:
indA & indB # interseccion

Int64Index([3, 5, 7], dtype='int64')

In [55]:
indA | indB # union

Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')

In [56]:
indA ^ indB # diferencia

Int64Index([1, 2, 9, 11], dtype='int64')