## The Pandas Series


**¿Qué son las series en pandas?**

Las series son estructuras unidimensionales conteniendo un array de datos (de cualquier tipo soportado por NumPy) y un array de etiquetas que van asociadas a los datos, llamado índice (index en la literatura en inglés):



In [42]:
#Antes de empezar importamos pandas 
import numpy as np
import pandas as pd

In [2]:
#Un ejemplo de una serie

ventas = pd.Series([15,12,21], index = ["Ene","Feb","Mar"]) #Estamos declarando una lista con un índice explicito
ventas

Ene    15
Feb    12
Mar    21
dtype: int64

**Las series se construyen mediante el siguiente método**

>>> pd.Series(data, index=index)
```
Donde  ``index`` es un argumento opcional y ``data`` puede tener diferentes entidades.

Por ejemplo, ``data`` podría ser una lista o un array de NumPy, in cada caso "index" por defecto seria una secuencia de elementos de tipo integer.

Los elementos de la serie **pueden extraerse** con el nombre de la serie, y entre corchetes, el índice (posición) del elemento:

In [4]:
#Extraemos las primera y última posición de la serie

#Estraemos la primera posicion

ventas[0]

#Extraemos la última posición

ventas[-1]

15

También podemos extraerlo mediante su etiqueta o clave, lo que nos será muy útil en el caso de estar usando diccionarios

In [5]:
#Buscamos el valor para "Ene"

ventas["Ene"]

15

Las etiquetas que forman el índice no necesitan ser diferentes. 
Pueden ser de cualquier tipo (numérico, textos, tuplas...) siempre que sea posible aplicar una funcion hash sobre ellas 

**Una función hash**

Se trata de una función de tipo built-in, que devuelve el valor hash del objeto cedido como parámetro - si lo tiene-. Los valores hash son enteros. Los valores numéricos, al ser comparados, devuelven el valor True tienen el mismo valor hash ascociado, incluso si son de distinto tipo.

**El lazo entre una etiqueta y un valor se mantendrá**, siempre y cuando **no lo modifiquemos explicitamente**. Esto quiere decir que filtrar una serie o eliminar un elemento de la serie, por ejemplo, no va a modificar las etiquetas asignadas a cada valor. 

Si intentaramos reasignar un nuevo conjunto de etiquetas a través del atributo ~index~, intentar modificar un únic valor va a devolver un error.

Al igual que con elarray NumPy, una serie de pandas solo puede contener datos de un mismo tipo. 
En la serie anterior, puede apreciarse el indice a la izquierda (meses) y los datos a la derecha.
El tipo de serie, accesible a través del atributo dtype coincide con el tipo de datos que contiene.

In [6]:
#Comprobamos el tipo de objeto que contiene la serie ventas

ventas.dtype

dtype('int64')

**Podemos acceder a los objetos que contienen los índices y los valores, a través de los atributos **index** y **values** de la serie, respectivamente.**

In [7]:
#Accedemos a el index de ventas

ventas.index

Index(['Ene', 'Feb', 'Mar'], dtype='object')

In [8]:
#Accedemos a los valores de la lista ventas

ventas.values

array([15, 12, 21], dtype=int64)

**Las series cuentan con un atributo name, que encontramos en el índice.Una vez los hemos fijado, se muestran junto con la estructura al imprimir la serie:**

In [9]:
#Declaramos el atributo name

ventas.name = "Ventas 2018"

#Podemos invocarlo igual que el resto

ventas.name

'Ventas 2018'

In [10]:
#Si imprimimos la serie otra vez

ventas

Ene    15
Feb    12
Mar    21
Name: Ventas 2018, dtype: int64

**Podemos darle un nombre al index**

In [11]:
ventas.index.name = "Meses"
ventas

Meses
Ene    15
Feb    12
Mar    21
Name: Ventas 2018, dtype: int64

**El atributo axes** nos da acceso a una lista con los ejes de la serie(solo contiene un elemtno al tratarse de una estructura unidimensional)

In [12]:
ventas.axes

[Index(['Ene', 'Feb', 'Mar'], dtype='object', name='Meses')]

**El atributo shape** nos devuelve el tamaño de la serie:

In [13]:
ventas.shape

(3,)

**En cuanto a índices, podemos hacer que sean no contiguos ni secuenciales**

In [14]:
data = pd.Series([1.5, 1.6, 1.75, 1.80],
                 index=[2, 5, 3, 7])
data

2    1.50
5    1.60
3    1.75
7    1.80
dtype: float64

**Series como un diccionario específico**

Podemos pensar en  **Pandas Series** como un diccionario, una estructura que mapea claves (Keys) ascoaiadas a un conjunto de valores dados.
Este tipeado es importante: al igual que las listas de NumPy de tipo array son más eficientes que una lista al uso de Python, para ciertas operaciones, el tipo de información de una serie de Pandas puede ser mucho más eficiente para ciertas operaciones. 


In [15]:
#Un ejemplo más de una serie
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}
population = pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

Como comentabamos al igual que un diccionario podremos buscar los elementos, bien mediante la posicion o bien mediante el método de buscar el valor de la key.

In [21]:
#Si buscamos la posición de california nos dara el valor correspondiente. 

population['California']



38332521

## The Pandas DataFrame Object


Los dataframes son estructuras tabulares de datos orientadas a columnas, con etiquetas tanto en filas como en columnas:

In [23]:
#Construimos un data frame con los siguientes valores, incluyendo un diccionario:

ventas = pd.DataFrame({
    "Entradas": [41,32,56,18],
    "Salidas": [17,54,6,78],
    "Valoración": [66,54,49,66],
    "Límite": ["No", "Sí", "No", "No"],
    "Cambio": [1.43,1.16,-0.67, 0.77]
},
    index = ["Ene","Feb","Mar","Abr"])

ventas

Unnamed: 0,Entradas,Salidas,Valoración,Límite,Cambio
Ene,41,17,66,No,1.43
Feb,32,54,54,Sí,1.16
Mar,56,6,49,No,-0.67
Abr,18,78,66,No,0.77


A la estructura anterior, para crearla hemos hecho lo siguiente:
- Pasarle el contructor de Pandas pd.DataFrame
- Incluimos un diccionario y una lista donde:
    - Las claves del diccionario seran los nombres de las columnas
    - Los valores del dicionario los valores de las columnas 
    - Los valores de la lista se convertiran en las etiquetas de las filas 

Cada columna puede contener un tipo de datos, pero cada columna del datafram puede contener tipo de datos diferentes. 

Podemos acceder a los tipos de las columnas con el atributo dtypes

In [24]:
ventas.dtypes

Entradas        int64
Salidas         int64
Valoración      int64
Límite         object
Cambio        float64
dtype: object

**Búsqueda de valores dentro de un data frame**

Los índices, son accesibles a través de los atributos **index** y **columns**

In [25]:
#Buscamos en ventas los valores para las filas

ventas.index

Index(['Ene', 'Feb', 'Mar', 'Abr'], dtype='object')

In [26]:
#Buscamos los valores para las columnas
ventas.columns

Index(['Entradas', 'Salidas', 'Valoración', 'Límite', 'Cambio'], dtype='object')

**El atributo axes**, devuelve devuelve una lista con los ejes de la estructura (en este caso dos, al tratarse de una estructura bidimensional):

In [27]:
#Ejemplo, aplicamos el atributo axes

ventas.axes

[Index(['Ene', 'Feb', 'Mar', 'Abr'], dtype='object'),
 Index(['Entradas', 'Salidas', 'Valoración', 'Límite', 'Cambio'], dtype='object')]

**Name**: es un atributo para filas como para columnas y podemos aplicarlo para entender mejor la estructura:

In [28]:
ventas.index.name = "Meses"
ventas.columns.name = "Métricas"
ventas

Métricas,Entradas,Salidas,Valoración,Límite,Cambio
Meses,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Ene,41,17,66,No,1.43
Feb,32,54,54,Sí,1.16
Mar,56,6,49,No,-0.67
Abr,18,78,66,No,0.77


De forma a como ocurria con las series, **el atributo values** de un dataframe, nos permite acceder a los valores del dataframe, con formato array NumPy de 2D:

In [29]:
#Aplicamos el método values al DataFrame
ventas.values

array([[41, 17, 66, 'No', 1.43],
       [32, 54, 54, 'Sí', 1.16],
       [56, 6, 49, 'No', -0.67],
       [18, 78, 66, 'No', 0.77]], dtype=object)

**Atributo shape**
Nos informa de la dimensionalidad y del número de elementos en cada dimensión. Podemos ver, a continuación, que el dataframe ventas tiene 4 filas y 5 columnas.



In [30]:
#Aplicamos el atributo shape

ventas.shape

(4, 5)

### Construyendo DataFrames

A Pandas ``DataFrame`` puede construirse de muchas maneras.Vamos con algunos ejemplos:

#### Desde un objeto de tipo Series, simple

A ``DataFrame`` es una colección de objetos de tipo ``Series`` , y una columna única de``DataFrame`` puede ser construida desde un ``Series``:

In [32]:
#Utilziamos la serie creada anteriormente con la población de distintas ciudades, como vemos, adquiere perfil de tabla
pd.DataFrame(population, columns=['population'])

Unnamed: 0,population
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


#### Desde una lista de diccionarios

Cualquier lista de diccionarios puede ser utilizada para crear un ``DataFrame``
Usando una list comprehension:

In [33]:
data = [{'a': i, 'b': 2 * i}
        for i in range(3)]
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


Inclusive, si algunas keys del diccionario no estan, Pandas puede rellenarlas con un valor ``NaN`` (i.e., "not a number") :


In [34]:
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


#### Desde un diccionario de objetos tipo series
Como vimos anteriormente un ``DataFrame`` puede ser construido desde un diccionario de objetos tipo ``Series`` como:

In [37]:
#Definimos un diccionario con las ciudades y su población y lo asignamos a una variable llamada area que utilizaremos posteriormente, creando una series

area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297,
             'Florida': 170312, 'Illinois': 149995}
area = pd.Series(area_dict)
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

In [39]:
#Creamos un dataframe

states = pd.DataFrame({'population': population,
                       'area': area})
states

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


In [40]:
pd.DataFrame({'population': population,
              'area': area})

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


#### De un array bidimensional Numpy


Dado un array bidimensional de datos, podemos crear un ``DataFrame`` con una columna e índices específicos. 


In [43]:
pd.DataFrame(np.random.rand(3, 2),
             columns=['foo', 'bar'],
             index=['a', 'b', 'c'])

Unnamed: 0,foo,bar
a,0.031552,0.266016
b,0.379136,0.92548
c,0.395111,0.964318


#### Desde un array de NumPy structurado

A pandas ``DataFrame``  opera mucho más allá que un array estructurado y puede ser creado directamente desde uno. 


In [44]:
import numpy as np
A = np.zeros(3, dtype=[('A', 'i8'), ('B', 'f8'), ('C', 'f8')])
A

array([(0, 0., 0.), (0, 0., 0.), (0, 0., 0.)],
      dtype=[('A', '<i8'), ('B', '<f8'), ('C', '<f8')])