# 3.2. Introducción a Pandas II.

In [None]:
import pandas as pd
import numpy as np
import matplotlib as plt

## Funcionalidad Básica

### Indexación y slicing en pandas

<center>
<img src="imgs/pd4.png"  alt="drawing" width="700"/>
<img src="imgs/pd5.png"  alt="drawing" width="700"/>
</center>

In [None]:
serie = pd.Series([1, 2, 3, 4], index = ['a', 'b', 'c', 'd'])
serie

In [None]:
dataframe = pd.DataFrame(np.arange(16).reshape(4, 4),
                         index=['f1', 'f2', 'f3', 'f4'],
                         columns=['c1','c2','c3','c4'])
dataframe

#### Indexación por atributo de clave

- Podemos indexar un elemento concreto de una Serie o una columna concreta de un DataFrame, mediante el uso de su etiqueta/clave como atributo, con sintaxis obj.etiqueta.

In [None]:
serie.a

In [None]:
dataframe.c1

#### Indexación con sintáxis [ ] directa

In [None]:
serie['a']

In [None]:
dataframe['c1']

#### Indexación con método .loc - Por claves

In [None]:
dataframe.loc['f1']

In [None]:
dataframe.loc['f1', 'c1']

In [None]:
dataframe.loc['f1', 'c1':]

#### Indexación con método .iloc - Por índices

- Al igual que en el core de Python y NumPy, un slice o selección se puede utilizar en el lado izquierdo de una asignación para modificar el contenido de los elementos dentro de la selección.

In [None]:
dataframe.iloc[1:, 2:]

- Otro Ejemplo con series:

In [None]:
obj = pd.Series(np.arange(4.), index=['a', 'b', 'c', 'd'])
obj

In [None]:
obj['b']

In [None]:
obj[1]

In [None]:
obj[2:4]

In [None]:
obj[['b', 'a', 'd']]

In [None]:
obj[[1, 3]]

In [None]:
obj

In [None]:
obj < 2

In [None]:
obj[obj < 2]

In [None]:
obj['b':'c']

In [None]:
obj['b':'c'] = 5
obj

- Otro ejemplo con DataFrame

In [None]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns=['one', 'two', 'three', 'four'])
data

In [None]:
data['two']

In [None]:
data[['three', 'one']]

In [None]:
data[:2]

In [None]:
data[data['three'] > 5]

In [None]:
data < 5

In [None]:
data[data < 5] = 0
data

In [None]:
# Selection with loc and iloc
data.loc['Colorado', ['two', 'three']]

In [None]:
data.iloc[2, [3, 0, 1]]

In [None]:
data.iloc[2]

In [None]:
data.iloc[[1, 2], [3, 0, 1]]

In [None]:
data.loc[:'Utah', 'two']

In [None]:
data.iloc[:, :3][data.three > 5]

### Reindexing

- Pueden existir ocasiones en las que se desee modificar el índice de una estructura tras haberla creado. 
- En este caso no se trata de cambiar los índices asignados sino de reordenaciones, eliminación o adición de índices. 
- Para ello, pandas nos ofrece el método <b>reindex</b>. 
- Lo que obtendremos será una nueva estructura (copia) con el índice seleccionado. <br/><br/>

En el caso de que con el nuevo índice se generen nuevos elementos, estos  se rellenarán a NaN. Para evitarlo, disponemos de los siguientes parámetros:<br/>
<ul>
<li><b>fill_value:</b> Relleno a un valor fijo establecido.</li>
<li><b>method:</b> Relleno según un método definido.
<ul>
<li>ffill: Relleno mediante la observación de los últimos valores rellenos.</li>
<li>bfill: Relleno mediante la observación de los próximos valores rellenos.</li>
<li>nearest: Relleno mediante la observación del valor más próximo.</li>
</ul>
</li>
</ul>

In [None]:
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])
obj

In [None]:
obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'])
obj2

In [None]:
obj3 = pd.Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])
obj3

In [None]:
obj3.reindex(range(6), method='ffill')

In [None]:
obj3.reindex(range(6), method='bfill')

In [None]:
frame = pd.DataFrame(np.arange(9).reshape((3, 3)),
                     index=['a', 'c', 'd'],
                     columns=['Ohio', 'Texas', 'California'])
frame

In [None]:
frame2 = frame.reindex(['a', 'b', 'c', 'd'])
frame2

In [None]:
states = ['Texas', 'Utah', 'California']
frame.reindex(columns=states)

### Eliminación de filas y/o columnas en pandas

In [None]:
obj = pd.Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])
obj

In [None]:
new_obj = obj.drop('c')
new_obj

In [None]:
obj.drop(['d', 'c'])

In [None]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns=['one', 'two', 'three', 'four'])
data

In [None]:
data.drop(['Colorado', 'Ohio'])

In [None]:
data.drop('two', axis=1)

In [None]:
data.drop(['two', 'four'], axis='columns')

In [None]:
# implace no retorna la nueva estrcutura
obj.drop('c', inplace=True)
obj

### Aritmética con estructuras de pandas

- Las  operaciones se aplican con una "alineación" de índices introduciendo valores NaN en los resultados, cuando no hay coincidencia de claves. 
- Para solucionar este problema, pandas nos ofrece algunas funciones de utilidad para las más básicas (suma, resta, multiplicación y división) que permiten establecer un valor de "relleno" en el caso de claves no coincidentes.

In [None]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])
s1

In [None]:
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1],
               index=['a', 'c', 'e', 'f', 'g'])
s2

In [None]:
s1 + s2

<center>
<img src="imgs/pd6.png"  alt="drawing" width="400"/>
</center>

In [None]:
s1.add(s2)

In [None]:
s1.add(s2, fill_value=0)

In [None]:
s1

In [None]:
s2

In [None]:
s1+s2

In [None]:
s2+s1

- Lo mismo para dataframes:

In [None]:
df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)), 
                   columns=list('bcd'),
                   index=['Ohio', 'Texas', 'Colorado'])
df1

In [None]:
df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), 
                   columns=list('bde'),
                   index=['Utah', 'Ohio', 'Texas', 'Oregon'])

df2

In [None]:
df1 + df2

In [None]:
df1 = pd.DataFrame({'A': [1, 2]})
df1

In [None]:
df2 = pd.DataFrame({'B': [3, 4]})
df2

In [None]:
# No coincide nada
df1 - df2

### Visualización Básica

In [None]:
data_dict = {
    'population': np.random.randint(100, 300, 10),
    'PIB': np.random.randint(10000, 30000, 10),
}
data = pd.DataFrame(data_dict)
data

In [None]:
import matplotlib as plt
#!matplotlib inline

In [None]:
data.plot()

In [None]:
data.population.plot()

In [None]:
data.index = list('abcdefghij')

In [None]:
data

In [None]:
data.population.plot()

In [None]:
data.plot.bar()

In [None]:
data.PIB.plot.pie()

___
# Ejercicios

**3.2.1.** Seleciona los datos en las filas 3, 4 y 8 y en las columnas  animal y age.

In [None]:
data = {'animal': ['cat', 'cat', 'snake', 'dog', 'dog', 'cat', 'snake', 'cat', 'dog', 'dog'],
        'age': [2.5, 3, 0.5, np.nan, 5, 2, 4.5, np.nan, 7, 3],
        'visits': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
        'priority': ['yes', 'yes', 'no', 'yes', 'no', 'no', 'no', 'yes', 'no', 'no']}

labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']

df = pd.DataFrame(data, index=labels)
df

**3.2.2.** Reindexa el dataframe usando números sequenciales empezando por el cero.

**3.2.3.** Seleciona las filas donde el número de vistas es mayor que 2.

**3.2.4.** Usando los siguientes daframe:

In [None]:
df_a = pd.DataFrame(np.random.randint(1, 10, 10),
                    index=np.arange(1, 11))
df_a

In [None]:
df_b = pd.DataFrame(np.random.randint(1, 10, 10),
                    index=np.arange(0, 10))
df_b

Calcula la resta de ambos y explica el resultado.