In [0]:
SANDBOX_NAME = # Sandbox Name
DATA_PATH = "/data/sandboxes/"+SANDBOX_NAME+"/data/"



# Pandas

1. `DataFrames` y  `Series`
2. Operaciones básicas

`pandas` es una librería que proporciona herramientas analíticas y estructuras de datos con alto rendimiento y facilidad de uso. En particular, la clase `DataFrame` es útil para representación y manipulación de datos heterogéneos tabulados (hojas de cálculo, tabla SQL, etc.)   

## Características
- Ofrece estructuras de datos flexibles y expresivas diseñadas para trabajar con datos tabulados y etiquetados, esta son: `Series` y  `DataFrame`.
- Posee herramientas robustas de lectura/escritura de datos desde ficheros con formatos conocidos como: CSV, XLS. SQL, HDF5, entre otros.
- Permite filtrar, agregar, o eliminar datos.
- Combina las características de las matrices de alto rendimiento de `numpy` con capacidades de manipulación de datos tabulados.

Para importar los módulos de la librería `pandas`, por convención se utiliza:

In [0]:
import pandas as pd
import numpy as np



## DataFrames y Series

Las funcionalidades de `pandas` se basan en dos estructuras de datos fundamentales: *Series* y *DataFrames*.

Una `Series` es un objeto que contiene un `array` unidimensional de datos y un `array` de etiquetas, conocido como *índice*. Si no se especifica un índice o etiqueta, este se genera internamente como una secuencia ordenada de números enteros.

```python
s = pd.Series(data, index=index)
```

Un `DataFrame` es una estructura de datos que almacena datos de forma tabular, es decir, ordenada en filas y columnas etiquetadas. Cada fila (`row`) contiene una observación y cada columna (`column`) una variable. Un `DataFrame` acepta datos heterogéneos, es decir, variables pueden ser de distinto tipo (numérico, string, boolean, etc.). Además de contener datos, un `DataFrame` contiene el nombre de las variables y sus tipos, y métodos que permiten acceder y modificar los datos.

```python
s = pd.DataFrame(data, ...)
```

Las `Series` y `DataFrame` permiten representar datos 1D y 2D. Para representar datos con más dimensiones `pandas` posee otras estructuras de datos más complejas (en fase experimental), llamadas `Panel`, `Panel4D`, `PanelND`. Estas estructuras están fuera del alcance de este curso.



---
# Series en Pandas

## Creación de Series




Crear una Series con índices automáticos a partir de una lista

In [0]:
serie = pd.Series([1979, 1980, 1981, 1982])
serie



Las `Series` poseen dos atributos: `values`  e `index`. El primero es un `numpy array` que almacena los datos, y el segundo es un objeto que contiene los índices.

In [0]:
serie.values

In [0]:
serie.index



Al crear una `Series` se puede definir explícitamente un `array` índice y pasarlo como argumento.



Crear Series con índices definidos

In [0]:
serie = pd.Series(data=[1979, 1980, 1981, 1982, 1983],
                  index=['carolina', 'martha', 'nicky', 'theresa', 'nicky'])
serie



También se pueden crear `Series` a partir de diccionarios, `numpy arrays`, desde ficheros, etc.



Serie a partir de un numpy array

In [0]:
serie = pd.Series(np.random.randn(10))
serie



Serie a partir de un diccionario

In [0]:
dicc = {'cuadrado de {}'.format(i): i * i for i in range(11)}
print(dicc)

In [0]:
serie_dicc = pd.Series(dicc)
serie_dicc



Serie a partir de fichero
Al asignar una columna y el squeeze a True convierte el resultado en Series en lugar de Dataframe

In [0]:
serie_pokemon = pd.read_csv('datasets/pokemon.csv',squeeze=True, usecols=['Name'])
serie_pokemon



---
## Acceso a datos en Series




El acceso a los datos se puede realizar mediante el índice categórico o el numérico que genera internamente Pandas



Creamos de nuevo la serie inicial

In [1]:
serie = pd.Series(data=[1979, 1980, 1981, 1982, 1983],
                  index=['carolina', 'martha', 'nicky', 'theresa', 'nicky'])
serie

NameError: ignored



Indexación mediante etiqueta

In [0]:
print(serie['martha'])



Indexación mediante índice numérico interno

In [0]:
print(serie[1])



El índice puede contener valores duplicados

In [0]:
print(serie['nicky'])



Podemos seleccionar varios valores indicando un intervalo de índices



Recuperamos desde el valor de la posición 1 (el primer elemento tiene un index = 0) hasta el final del índice.

In [2]:
serie[1:]

NameError: ignored



Recuperamos los elementos desde la posición 1 a la 2

In [0]:
serie[1:3]



Podemos usar también índices negativos

In [0]:
serie[-4:-2]



---
## Métodos en Series



Para **añadir** nuevos elementos a una Series usamos el método `append`:

In [0]:
s1 = pd.Series(np.arange(10))
s2 = pd.Series(np.arange(10, 21))

s3 = s1.append(s2)
s3



Se mantienen los índices de cada serie

In [0]:
s3[1]



También podemos concatenar series generando un índice nuevo:

In [0]:
s3 = s1.append(s2, ignore_index=True)
s3

In [0]:
s3[1]



set_value edita el contenido del índice indicado o añade un nuevo item si no existe el índice

In [0]:
s4 = s1.set_value(5, max(s1.index) + 2)
s4



El méotdo pop devuelve y elimina de la serie original el valor del índice pasado

In [0]:
s4 = s1.pop(3)
print(s4)
print(s1)



Ordena los valores, por defecto de menos a más.

In [0]:
serie_pokemon.sort_values()



Ordenamos de forma descendente

In [0]:
serie_pokemon.sort_values(ascending=False)



Para que los cambios modifique realmente la serie hay que indicarlo mediante el parámetro inplace

In [0]:
serie_pokemon.sort_values(inplace=True)
serie_pokemon



Si queremos ordernar mediante el índice recurrimos a sort_index()

In [0]:
serie_pokemon.sort_index()



Nos devuelve el número de items de cada elemento

In [0]:
serie_pokemon.value_counts()



El método apply permite aplicar una función a todos los elementos de la serie.

In [0]:
serie_pokemon.apply(lambda name: str(name)+'_blue')



Para ver información adicional de un método

In [0]:
help(s1.set_value)



Muestra una lista de funciones del objeto Series

In [0]:
dir(serie_dicc)



---
# Dataframes en Pandas

## Creación de Dataframes

A diferencia de `Series`, los `DataFrame` están diseñados para almacenar datos heterogéneos multivariables. Por ejemplo:



Índice de filas automático

In [0]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}
df = pd.DataFrame(data)
df

In [0]:
import numpy as np
import pandas as pd



DataFrame a partir de un diccionario de listas e índice

In [3]:
df = pd.DataFrame({'nombre': ['Pablo', 'Teresa'],
                   'score': [22.2, 33.3]},
                  index=['pacunar', 'tono'])
df

NameError: ignored



Dataframe a partir fichero

In [0]:
nba = pd.read_csv('datasets/nba.csv')
nba

In [0]:
nba.index



Se pueden consultar el nombre de las variables usando el atributo `columns`

In [0]:
nba.columns



Adicionalemnte `Pandas` permite crear Dataframes a partir de otras fuentes, como son jsons, urls...



---
## Acceso a datos en Dataframes




Se pueden extraer columnas de un `DataFrame` con la etiqueta de la columna (sólo si es un identificador Python válido)  usando notación tipo diccionario o como atributo del objeto. En ambos casos se obtiene un objeto tipo `Series`.

In [0]:
nba['Player']  # dict type

In [0]:
nba.Player  # attribute type



Mediante la notación de dobles [] obtenemos un Dataframe en lugar de una Serie

In [0]:
nba[['Player']]

In [0]:
type(nba.Player), type(nba['Player']), type(nba[['Player']])



Podemos recuperar varias columnas a la vez

In [0]:
nba[['Player','height']]



Para acceder a las filas, se puede usar el atributo `ix` o la función `iloc`.



<div class="alert alert-info">**Nota**: Consultad http://pandas.pydata.org/pandas-docs/version/0.18.1/indexing.html#different-choices-for-indexing para entender diferencias entre los métodos.</div>



Permite acceder al contenido de un registro mediante la etiqueta del índice

In [0]:
df.loc['tono']



Permite acceder al contenido de un registro mediante la posición del índice

In [0]:
df.iloc[1]



Podemos acceder a un valor concreto usando el acceso a datos visto anteriormente en Series

In [0]:
df.iloc[1]['score']



---
## Métodos en Dataframes


Vemos algunos métodos útiles de la clase Dataframe

In [0]:
import pandas as pd
data = pd.read_csv('datasets/baseball.csv', sep=',')
type(data)



Nos indica el número de columnas y filas del dataframe

In [0]:
data.shape

In [0]:

data.values



Devuelve los n primeros registros (5 por defecto)

In [0]:
data.head()



Devuelve los n primeros registros (5 por defecto)

In [0]:
data.tail(3)



Devuelve un resumen estadístico de las variables

In [0]:
data.describe(include='all')



Devuelve un resumen de la estructura

In [0]:
data.info()



Devuelve una lista con las etiquetas de las columnas y de las filas

In [0]:
data.axes



Devuelve el número de elementos únicos por campo

In [0]:
data.nunique()



# Ejercicios

Considere el siguiente diccionario `data` y lista de `index`

In [0]:
data = {'animal': ['cat', 'cat', 'snake', 'dog', 'dog', 'cat', 'snake', 'cat', 'dog', 'dog'],
        'age': [2.5, 3, 0.5, np.nan, 5, 2, 4.5, np.nan, 7, 3],
        'visits': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
        'priority': ['yes', 'yes', 'no', 'yes', 'no', 'no', 'no', 'yes', 'no', 'no']}

labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']



- a. Crea un DataFrame a partir del diccionario y los índices.
- b. Selecciona las columnas `animal`y `age`.
- c. Indique cuantos tipos distintos de animales hay.
- d. Indique cuantos animales hay de cada tipo.
- e. Muestre un resumen estadístico de todas las variables.



##### Solución Ejercicio 1



Crea un DataFrame a partir del diccionario y los índices.

In [0]:
# Respuesta aqui



Selecciona las columnas `animal`y `age`.


In [0]:
# Respuesta aqui



Indique el número de animales distintos.


In [0]:
# Respuesta aqui



Indique cuantos animales hay de cada tipo.


In [0]:
# Respuesta aqui



Muestre un resumen estadístico de todas las variables.


In [0]:
# Respuesta aqui