# 3.1. Introducción a Pandas I.

- Al igual que numpy puede que tengamos que instalarla con: *pip install pandas*

In [None]:
import pandas as pd

In [None]:
import numpy as np
import matplotlib.pyplot as plt

## Pandas Data Structures

Dispondremos de dos estructuras de datos relacionadas, pero con su funcionamiento específico:<br/>
<ul>
<li><b>Series:</b> Para información unidimensional.</li>
<li><b>DataFrame:</b> Para información tabular.</li>
</ul>

Son estructuras muy similares a las ofrecidas por R: vectores (con nombre) y data.frame.

### Series

Una serie es una estructura de datos unidimensional que contiene:<br/>
<ul>
<li>Un array de datos: que pueden tener cualquier tipo de dato de los ofrecidos por NumPy.</li>
<li>Un array de etiquetas/<i>labels</i>: asociando una etiqueta a cada dato del array anterior y que se denomina <b>índice</b>, aunque no es obligatorio la especificación del mismo.</li>
</ul>

In [None]:
obj = pd.Series([4, 7, -5, 3])
obj

In [None]:
obj.values

In [None]:
obj.index 

Para la creación de Series contamos con una función "constructor" (Series) que puede recibir, principalmente, los siguientes parámetros:<br/>
<ul>
<li><b>data:</b> Es obligatorio, contiene los datos que queremos cargar en la Serie y podrá ser un valor escalar, una secuencia de Python o un ndarray unidimensional de NumPy.</li>
<li><b>index:</b> Es opcional, contiene las etiquetas que queremos asignar a los valores de la Serie y podrá ser una secuencia de Python o un ndarray unidimensional de NumPy. En caso de no suministrarse el valor por defecto es np.arange(0, tam_datos).</li>
<li><b>dtype:</b> Que podrá ser cualquier tipo de dato de NumPy.</li>
</ul>

In [None]:
obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])

In [None]:
obj2

- Disponemos de dos atributos para recuperar los datos y el índice de una serie de forma independiente.

In [None]:
obj2.index

In [None]:
obj2.values

- Se puede estraer los elementos de la serie utilizando el índice.

In [None]:
obj2['a']

In [None]:
obj2['d'] = 6

In [None]:
obj2[['c', 'a', 'd']]

In [None]:
obj2[obj2 > 0]

- Podemos realizar operaciones sobre la Serie.

In [None]:
obj2 * 2

In [None]:
np.exp(obj2)

In [None]:
obj2.mean()

In [None]:
np.mean(obj2)

- Podemos comprobar si un elemento está presente en la Serie (está en el index).

In [None]:
obj2

In [None]:
'b' in obj2

In [None]:
'e' in obj2

- Podemos crearlos a partir de un dict

In [None]:
sdata = {
    'Ohio': 35000, 
    'Texas': 71000, 
    'Oregon': 16000, 
    'Utah': 5000
}
obj3 = pd.Series(sdata)
obj3

In [None]:
obj3.name = 'population'

In [None]:
obj3

- Los índices son inmutables, lo que impide que cambiemos un valor de índice de forma independiente. Sin embargo, podemos modificar un índice completo por otro.

In [None]:
obj3

In [None]:
# podemos cambiar el indice
obj3.index = ['Bob', 'Steve', 'Jeff', 'Ryan']
obj3

### DataFrame
Un DataFrame es una estructura tabular (bidimensional) de información con las siguientes propiedades:<br/>
<ul>
<li>Está compuesta por una serie ordenada de filas y una serie ordenada de columnas.</li>
<li>Tiene, por tanto, un índice para las filas y otro para las columnas.</li>
<li>Cada columna puede tener un tipo de NumPy diferente.</li>
<li>Puede ser visto, por tanto, como un diccionario de Series, todas ellas compartiendo el mismo índice.</li>
</ul>

### Creación de Dataframes
Para la creación de DataFrames contamos con una función "constructor" (DataFrame) que puede recibir, principalmente, los siguientes parámetros:<br/>
<ul>
<li><b>data:</b> Es obligatorio, contiene los datos que queremos cargar en el DataFrmae y podrá ser un diccionario de Series, un diccionario de secuencias, un ndarray bidimensional, una Serie y otro DataFrame.</li>
<li><b>index:</b> Es opcional, contiene las etiquetas que queremos asignar a las filas del DataFrame y podrá ser una secuencia de Python o un ndarray unidimensional de NumPy. En caso de no suministrarse el valor por defecto es np.arange(0, num_filas).</li>
<li><b>columns:</b> Es opcional, contiene las etiquetas que queremos asignar a las columnas del DataFrame y podrá ser una secuencia de Python o un ndarray unidimensional de NumPy. En caso de no suministrarse el valor por defecto es np.arange(0, num_columnas).</li>
<li><b>dtype:</b> Es opcional, fijará el tipo de todas las columnas y podrá ser cualquier tipo de dato de NumPy.</li>
</ul>

<b>IMPORTANTE:</b> Si el número de columnas no coincide, se creara un DataFrame lo suficientemente grande como para contener al mayor y se asignará NaN en los huecos.

In [None]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)

In [None]:
frame

In [None]:
frame.head(2)

In [None]:
frame.tail(2)

- Podemos incluir los nombres que queramos a las columnas

In [None]:
data

In [None]:
pd.DataFrame(data, columns=['year', 'state', 'pop'])

- Podemos definir el índice que queramos.

In [None]:
frame2 = pd.DataFrame(data, 
                      columns=['year', 'state', 'pop', 'debt'],
                      index=['one', 'two', 'three', 'four',
                             'five', 'six'])

In [None]:
frame2

In [None]:
frame2.index

In [None]:
frame2.columns

In [None]:
frame2.values

### Indexación y slicing en pandas

<center>
<img src="imgs/pd4.png"  alt="drawing" width="700"/>
<img src="imgs/pd5.png"  alt="drawing" width="700"/>
</center>

In [None]:
serie = pd.Series([1, 2, 3, 4], index = ['a', 'b', 'c', 'd'])
serie

In [None]:
dataframe = pd.DataFrame(np.arange(16).reshape(4, 4),
                         index=['f1', 'f2', 'f3', 'f4'],
                         columns=['c1','c2','c3','c4'])
dataframe

#### Indexación por atributo de clave

- Podemos indexar un elemento concreto de una Serie o una columna concreta de un DataFrame, mediante el uso de su etiqueta/clave como atributo, con sintaxis obj.etiqueta.

In [None]:
serie.a

In [None]:
dataframe.c1

#### Indexación con sintáxis [ ] directa

In [None]:
serie['a']

In [None]:
dataframe['c1']

#### Indexación con método .loc - Por claves

In [None]:
dataframe.loc['f1']

In [None]:
dataframe.loc['f1', 'c1']

In [None]:
dataframe.loc['f1', 'c1':]

#### Indexación con método .iloc - Por índices

- Al igual que en el core de Python y NumPy, un slice o selección se puede utilizar en el lado izquierdo de una asignación para modificar el contenido de los elementos dentro de la selección.

In [None]:
dataframe.iloc[1:, 2:]

- Otro Ejemplo con series:

In [None]:
obj = pd.Series(np.arange(4.), index=['a', 'b', 'c', 'd'])
obj

In [None]:
obj['b']

In [None]:
obj[1]

In [None]:
obj[2:4]

In [None]:
obj[['b', 'a', 'd']]

In [None]:
obj[[1, 3]]

In [None]:
obj

In [None]:
obj < 2

In [None]:
obj[obj < 2]

In [None]:
obj['b':'c']

In [None]:
obj['b':'c'] = 5
obj

- Otro ejemplo con DataFrame

In [None]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns=['one', 'two', 'three', 'four'])
data

In [None]:
data['two']

In [None]:
data[['three', 'one']]

In [None]:
data[:2]

In [None]:
data[data['three'] > 5]

In [None]:
data < 5

In [None]:
data[data < 5] = 0
data

In [None]:
# Selection with loc and iloc
data.loc['Colorado', ['two', 'three']]

In [None]:
data.iloc[2, [3, 0, 1]]

In [None]:
data.iloc[2]

In [None]:
data.iloc[[1, 2], [3, 0, 1]]

In [None]:
data.loc[:'Utah', 'two']

In [None]:
data.iloc[:, :3][data.three > 5]

### Asignación en pandas
- Podemos asignar valores a las columnas o filas

In [None]:
frame2 = pd.DataFrame(
    data, 
    columns=['year', 'state', 'pop', 'debt'],
    index=['one', 'two', 'three', 'four', 'five', 'six']
)

In [None]:
frame2

In [None]:
frame2['debt'] = 16.5
frame2

In [None]:
frame2['debt_2'] = 14

In [None]:
frame2

In [None]:
np.arange(6.)

In [None]:
frame2['debt'] = np.arange(6.)
frame2

- A partir de una serie con los mismos índices, también podemos asignar valores a las columnas.

In [None]:
frame2

In [None]:
val = pd.Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
val

In [None]:
frame2['debt'] = val
frame2

In [None]:
frame2.iloc[::2, :]

- Creación de nuevas columnas

In [None]:
frame2

In [None]:
nueva_col = frame2.state == 'Ohio'

In [None]:
nueva_col

In [None]:
frame2['eastern'] = nueva_col
frame2

- Eliminación de columnas.

In [None]:
del frame2['eastern']

In [None]:
frame2

In [None]:
frame2 = frame2.iloc[:, :-1]

In [None]:
frame2

In [None]:
frame2

In [None]:
frame_dropped = frame2.drop('state', axis=1)
frame_dropped

In [None]:
frame2.drop(['debt', 'pop'], axis=1)

In [None]:
frame2

In [None]:
frame2.columns

- Creación con una dict de dicts:

In [None]:
pop = {'Nevada': {2001: 2.4, 2002: 2.9},
       'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}
frame3 = pd.DataFrame(pop)
frame3

- Se puede transponer.

In [None]:
frame3.T

- Si no tenemos los datos para el índice, se generan NaN.

In [None]:
pop

In [None]:
pd.DataFrame(pop, index=[2001, 2002, 2003])

___
# Ejercicios

**3.1.1.**  Crea un dataframe a partir de la siguiente lista y diccionario.

In [None]:
data = {'animal': ['cat', 'cat', 'snake', 'dog', 'dog', 'cat', 'snake', 'cat', 'dog', 'dog'],
        'age': [2.5, 3, 0.5, np.nan, 5, 2, 4.5, np.nan, 7, 3],
        'visits': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
        'priority': ['yes', 'yes', 'no', 'yes', 'no', 'no', 'no', 'yes', 'no', 'no']}

labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']

**3.1.2.**  Muestra una descripción de los datos.

**3.1.3.**  Muestra las 2 primeras filas.

**3.1.4.**  Muestra la tercera columna.

**3.1.5.**  Selecciona las columnas animal y age.

**3.1.6.**  Elimina una de las columnas.

**3.1.7.**  Elimina una de las filas.

**3.1.8.**  Crea una columna nueva con los valores que quieras