# Objetos en Pandas. Fundamentos

## 1. Justificacion de Pandas

La biblioteca pandas trata de tomar lo mejor de los tres sistemas que se utilizan en ciencia de datos:
1. **Python:** Que tiene como ventajas la flexibilidad pero sin embargo tiene el inconveniente de la lentitud (que es precisamente el precio que se paga por la flexibilidad). Por ejemplo los objetos de tipo *list* en python son muy versatiles porque a diferencia de los arrays de Java son extensibles, ademas pueden albergan cualquier tipo de objeto (string, integerer, otras listas, un diccionario) pero a cambio son costosas computacionalmente ya que lo que alojan son referencias (punteros) a los datos reales (no los propios datos) con lo cual es acceso lleva dos pasos: primero acceder a la direccion y despues acceder desde aqui al dato propiamente dicho
2. **Numpy**: Tiene como ventaja la eficiencia a la hora de tratar con valores numericos, ya que los datos se almacenan directamente y de forma contigua. Otra ventaja es que tiene una serie de funciones (ufunc) que realizan estas operaciones de forma vectorizada que es mucho mas eficiente que recorrer el narray con un bucle. Ademas esta operaciones se realizan en C. Sin embargo tiene el inconveniente de que no se pueden utilizar etiquetas de texto en los indices de filas y columnas, lo cual dificulta el trabajo con determinados tipos de tablas
3. **R**: Tiene la ventaja precisamente de poder utilizar etiquetas de texto como indice de las filas y las columnas.

## 2. Principales objetos en Pandas

Existen diferentes tipos de objetos en Pandas. Los principales son:
1. **Series**
2. **DataFrame**

### 2.1. Series

El objeto de tipo *Series*, es en el fondo una columna de la tabla a la que se le ha añadido una cierta funcionalidad. El objeto de tipo *Series* se construye llamando al constructor que recibe como argumento una secuencia tipo lista o array

In [1]:
import pandas as pd
import numpy as np

In [10]:
lista =  ['manzanas','naranjas', 'peras', 'cerezas']
s = pd.Series(lista, name='Frutas')

In [11]:
s

0    manzanas
1    naranjas
2       peras
3     cerezas
Name: Frutas, dtype: object

Como vemos a la columna se le asocia un indice

### 2.2. DataFrame

Un objeto de tipo dataframe es como una tabla de excel. Tambien puede entenderse como un conjunto de objetos de tipo *Series* que comparten el mismo indice.
En el fondo se trata de un ndarray bidimensional de numpy al que se le hace un wrapper (se le añade un decorador). Este decorador consiste en añadirle un indice que es un objeto del tipo **RangeIndex** y una fila de columnas (que es un objeto del tipo **Index**, de un tipo cuyos elementos son de tipo 'string' (a semejanza del objeto data frame de R o de excel). 
En realidad no se trata de un solo narray de numpy si no de varios narrays separados, que se denominan **blocks** y que son controlados por un objeto llamado **BlockManager** uno por cada tipo de datos de los que se encuentran en el dataframe. 

In [17]:
df = pd.DataFrame({'nombre':['Jose','Pedro','Maria'],'edad':[12,23,45],'profesion':['panadero','maestro','medico']})

In [18]:
df.head()

Unnamed: 0,nombre,edad,profesion
0,Jose,12,panadero
1,Pedro,23,maestro
2,Maria,45,medico


In [19]:
df._data

BlockManager
Items: Index(['nombre', 'edad', 'profesion'], dtype='object')
Axis 1: RangeIndex(start=0, stop=3, step=1)
IntBlock: slice(1, 2, 1), 1 x 3, dtype: int64
ObjectBlock: slice(0, 4, 2), 2 x 3, dtype: object

Vemos que las cabeceras de las columnas son objetos del tipo **Index** que contienen elementos de tipo *string*, que son los nombres de las cabeceras de las columnas
El indice (Axis 1), es un objeto del tipo **RangeIndex** que es un objeto similar al objeto *range*, con la estructura (start,stop,step). De esta manera este objeto (que es similar a un generador) solo se desarrolla cuando se necesita ahorrando espacio en memoria. 
Por ultimo se muestran los narrays de numpy, uno por cada tipo de dato (en este caso uno para el atributo 'edad' consistente en un entero de 64 bits (IntBlock) y el otro de tipo object (string)(ObjectBlock)). Estos bloques son controlados por el **BlockManager**