[![imagenes/pythonista.png](imagenes/pythonista.png)](https://pythonista.io)

# Gestión de datos.

Este capítulo explorará diversos atributos y métodos de las series y los dataframes de *Pandas* que pueden ser útiles para la gestión de los datos que contienen.

In [None]:
import pandas as pd
import numpy as np

## El dataframe ilustrativo.

El siguiente dataframe describe un censo poblacional de animmales en diversas regiones geográficas.

In [None]:
poblacion = pd.DataFrame({'Animal':('lobo',
                                   'coyote',
                                   'jaguar',
                                   'cerdo salvaje',
                                    'tapir',
                                    'venado',
                                    'ocelote',
                                    'puma'),
                         'Norte_I':(12,
                                   np.NAN,
                                    None,
                                    2,
                                    4,
                                    2,
                                    14,
                                    5
                                   ),
                          'Norte_II':(23,
                                    4,
                                    25,
                                    21,
                                    9,
                                    121,
                                    1,
                                    2
                                   ),
                         'Centro_I':(15,
                                    23,
                                    2,
                                    120,
                                    40,
                                    121,
                                    0,
                                    5),
                         'Sur_I':(28,
                                  46,
                                  14,
                                  156,
                                  79,
                                  12,
                                  2,
                                  np.NAN)}).set_index('Animal')

In [None]:
poblacion

## El atributo ```values```.

El atributo ```values``` regresa un arreglo de ```numpy``` con los valores que contiene una serie o dataframe.

**Ejemplo:**

In [None]:
poblacion.values

## El método ```head()```

Regresa los primeros ```n``` renglones de un objeto de Pandas.

```
<objeto de Pandas>.head(<n>)
```

En caso de no definir ```<n>``` el método regresa los primeros 5 renglones.

**Ejemplos:**

In [None]:
poblacion.head()

In [None]:
poblacion.head(3)

## El método ```tail()```.

Regresa los últimos *n* renglones de un objeto de *Pandas*.

```
<objeto de Pandas>.tail(<n>)
```

En caso de no definir ```<n>``` el método regresa los últimos 5 renglones.

**Ejemplos:**

In [None]:
poblacion.tail()

In [None]:
poblacion.tail(2)

## El método ```smallest()```

Regresa un número indicado de ```n``` renglones con los valores más pequeños de una o varias columnas de un objeto de *Pandas*.

```
<objeto de Pandas>.nsmallest(<n>, columms=[<columnas>])
```

El criterio de ordenamiento se da a partir de la primera columna enumerada en ```columns``` en adelante.

**Ejemplos:**

* La siguiente celda regresará los 3 renglones que contienen los valores más pequeños en la columna ```'Norte-1'``` del dataframe ```poblacion```.

In [None]:
poblacion.nsmallest(3, columns='Norte_I')

* La siguiente celda regresará los 3 renglones que contienen los valores más pequeños en las columnas ```'Norte-1'``` y ```'Sur-1'``` del dataframe ```poblacion```.

In [None]:
poblacion.nsmallest(3, columns=['Norte_I', 'Sur_I'])

## El método ```nlargest()```.

Regresa un número indicado de ```n``` renglones con los valores más grandes de una o varias columnas de un objeto de *Pandas*.

```
<objeto de Pandas>.nsmallest(<n>, columms=[<columnas>])
```

El criterio de ordenamiento se da a partir de la primera columna enumerada en ```columns``` en adelante.

**Ejemplos:**

* La siguiente celda regresará los 3 renglones que contienen los valores más grandes en la columna ```'Sur-1'``` del dataframe ```poblacion```.

In [None]:
poblacion.nlargest(3, columns='Sur_I')

* La siguiente celda regresará los 3 renglones que contienen los valores más grandes en la columna ```'Sur-1'``` y ```'Norte-1``` del dataframe ```poblacion```.

In [None]:
poblacion.nlargest(3, columns=['Sur_I', 'Norte_I'])

## El método ```isin()``` .

Regresa otro objeto con contenidos booleanos indicando si el elemento del  objeto original se encuentra dentro de un iterable dado como argumento.
```
<objeto de Pandas>.isin(<iterable>)
```

**Ejemplo:**

* La siguiente celda regresará un dataframe evaluando si cada elemento de ```poblacion``` tiene un valor entre ```20``` y ```30```.

In [None]:
poblacion.isin(range(20, 31))

* La siguiente celda creará al dataframe ```especies```.

In [None]:
especies = pd.DataFrame({'Animal':('lobo',
                                   'coyote',
                                   'jaguar'),
                         'Norte_I':('estable',
                                   'amenzado',
                                'amenazado'),
                          'Norte_II':('estable',
                                    'estable',
                                    'extinto'),
                         'Centro_I':('estable',
                                    'amenazado',
                                    'extinto'),
                         'Sur_I':('amenazado',
                                  'extinto',
                                  'estable')}).set_index('Animal')

In [None]:
especies

* La siguiente celda regresará un dataframe evaluando si cada elemento de ```especies``` tiene un valor que sea  ```'amenazado'``` o ```'extinto'```.

In [None]:
especies.isin(['amenazado', 'extinto'])

## El método ```diff()```.

Calcula la diferencia entre un elemento previo en el eje indicado (```0``` para los renglones y ```1``` para las columnas).

```
<objeto de Pandas>.diff(axis=<eje>)
```

El valor por defecto para ```axis``` es ```0```.

**Ejemplos:**

* Se utilizará el dataframe ```poblacion```.

In [None]:
poblacion

* Se aplicará el método ```diff()``` en el eje ```0```.

In [None]:
poblacion.diff()

* Se aplicará el método ```diff()``` en el eje ```1```.

In [None]:
poblacion.diff(axis=1)

## El método  ```eval()```.

Ese método evalúa expresiones que se ingresan como cadenas de catacteres y que implican a las columnas de un dataframe.

```
<objeto de Pandas>.eval('<expresion>')
```

El resultado es una serie.

**Ejemplos:**

* Se realizará la operación de adición renglón por renglón de la columna ```'Norte_1'``` a la ```'Norte_2'```.

In [None]:
poblacion.eval("Norte_I + Norte_II")

* El dataframe ```poblacion_erronea``` incluye índices de columnas que impiden usar el método ```eval()``` debido a que las cadenas contienen al caracter ```-```, el cual puede ser interpretado como un operador.

In [None]:
poblacion_erronea = pd.DataFrame({'Animal':('lobo',
                                   'coyote',
                                   'jaguar',
                                   'cerdo salvaje',
                                    'tapir',
                                    'venado',
                                    'ocelote',
                                    'puma'),
                         'Norte-I':(12,
                                   np.NAN,
                                    None,
                                    2,
                                    4,
                                    2,
                                    14,
                                    5
                                   ),
                          'Norte-II':(23,
                                    4,
                                    25,
                                    21,
                                    9,
                                    121,
                                    1,
                                    2
                                   ),
                         'Centro-I':(15,
                                    23,
                                    2,
                                    120,
                                    40,
                                    121,
                                    0,
                                    5),
                         'Sur-I':(28,
                                  46,
                                  14,
                                  156,
                                  79,
                                  12,
                                  2,
                                  np.NAN)}).set_index('Animal')

* La siguiente celda generará un error de tipo ```KeyError```.

In [None]:
poblacion_erronea.eval("Norte-I + Norte-II")

### Creación de una nueva columna mediante ```eval()```.

Si la expresión definida en eval incluye un operador de asignación ```=```, el resultado se guardará en la columna que rse indica para recibir el resultado de la operación.

**Ejemplo:**

* Se creará la columna ```'Norte'``` a partir de la operación de suma de ```'Norte_1'``` y ```'Norte_2'```.

In [None]:
poblacion.eval("Norte = Norte_I + Norte_II")

In [None]:
poblacion

### El parámetro ```inplace```.

Este parámetro con valor ```True``` indica que en lugar de regresar un  nuevo dataframe, las operaciones se reflejan en el dataframe original.

El valor por defecto de ```inplace```es ```False```.

In [None]:
poblacion.eval("Norte = Norte_I + Norte_II", inplace=True)

In [None]:
poblacion

## El método ```take()```.

 Este método regresa los renglones que se indiquen en función de un índice numérico.
 
 
 ```
 <objeto de Pandas>.take(<colección de índices numéricos>)
 ```

**Ejemplos:**

In [None]:
poblacion.take([1,4])

In [None]:
poblacion.take(range(2, 7, 2))

## El método ```replace()```.

Este método sustituye un valor a que coincida con uno de los valores dados como argumento.

 ```
 <objeto de Pandas>.relace(<colección de valores>, <valor de sustitución>)
 ```

**Ejemplos:**

* La siguiente celda sustituirá al valor ```NaN``` por ```0``` en ```poblacion```.

In [None]:
poblacion.replace(np.NaN, 0)

* La siguiente celda sustituirá a los valore ```NaN``` y ```0``` por ```'extinto'``` en ```poblacion```.

In [None]:
poblacion.replace([0, np.NaN], 'extinto')

## El método ```assign()```.

Crea una columna que contendrá los datos resultantes de una función.
```
<objeto de Pandas>.assign(<Identificador de columna>=<función>)
```

**Ejemplo:**

In [None]:
poblacion.assign(Sureste=poblacion['Sur_I'] + poblacion['Centro_I'])

In [None]:
poblacion.assign(Sureste=lambda x: x['Sur_I'] * .5)

## El método ```update()```.

Este método combinará 2 dataframes. Sólo va a sustituir los elemento que ya existan.

In [None]:
especies

In [None]:
otras_especies = pd.DataFrame({'Animal':('lobo',
                                   'antilope',
                                   'tucán'),
                         'Norte_I':('estable',
                                   'estable',
                                   'estable'),
                          'Norte_II':('extinto',
                                    'estable',
                                    'estable'),
                         'Centro_I':('estable',
                                    'estable',
                                    'estable'),
                         'Sur_I':('estable',
                                  'estable',
                                  'estable')}).set_index('Animal')

In [None]:
otras_especies

In [None]:
especies.update(otras_especies)

In [None]:
especies

## El metodo *all()*.

Ese método se aplica para validar si todos los elementos de una columna (*axis=0*) o renglón (*axis=1*) son *True*.

```
<objeto>.all(axis=<n>)
```

In [None]:
poblacion

In [None]:
poblacion > 0

In [None]:
(poblacion > 0).all()

In [None]:
(poblacion > 0).all(axis=1)

* Python toma como *True* a cualquier valor distinto de 0.

In [None]:
poblacion.all()

## El método *any()*.

Ese método se aplica para validar si al menos un elemento de una columna (*axis=0*) o renglón (*axis-1*) es *True*.

```
<objeto>.any(axis=<n>)
```

In [None]:
(poblacion > 0).any()

In [None]:
(poblacion > 0).any(axis=1)

## El método *items()*.

Este método crea un generador, el cual regresa tuplas de 2 elementos a partir de un  objeto de Pandas.

### El método *items()* en dataframes.
* En el caso de un dataframe, el generador regresa tuplas compiestas por los datos de cada columna con la siguiente estructura:

```
('<identificador de encabezado>', <objeto tipo pd.Series>)
```

### El método *items()* en series.
* En el caso de una serie, el generador regresa tuplas con la siguiente estructura:

```
('<identificador de índice>', <valor>)
```

In [None]:
poblacion.items()

In [None]:
for item in poblacion.items():
    print(item[0])
    print(item[1])

In [None]:
for i in poblacion.items():
    print(i[0])
    for j in i[1].items():
        print(j)

## El método *drop()*.

Elimina los identficadores de los índices (*axis=0*) o columnas (*axis=1*) localizados dentro de una colección ingresada como argumento.
```
<objeto de Pandas>.drop(<colección de identificadores>, axis=<n>)
```

In [None]:
poblacion

In [None]:
poblacion.drop(['Centro_I'], axis=1)

In [None]:
poblacion.drop(['lobo', 'tapir'])

## El método *combine()*.

In [None]:
menor = lambda s1, s2: s1 if s1.sum() < s2.sum() else s2

In [None]:
df1 = pd.DataFrame({'A': [0, 0], 'B': [None, 4]})

In [None]:
df1

In [None]:
df2 = pd.DataFrame({'A': [1, 1], 'B': [None, 3]})

In [None]:
df2

In [None]:
 df1.combine(df2, menor)

## El método *insert()*.

Este método insertará una columna en la posición que se le indique.

```
<objeto de Pandas>.insert(<posición numérica>. <nombre de columna>, <valores>)
```

In [None]:
poblacion.insert(4, 'Sur_II', [7, 21, 23, 6, 11, 32, 21, 1])

<p style="text-align: center"><a rel="license" href="http://creativecommons.org/licenses/by/4.0/"><img alt="Licencia Creative Commons" style="border-width:0" src="https://i.creativecommons.org/l/by/4.0/80x15.png" /></a><br />Esta obra está bajo una <a rel="license" href="http://creativecommons.org/licenses/by/4.0/">Licencia Creative Commons Atribución 4.0 Internacional</a>.</p>
<p style="text-align: center">&copy; José Luis Chiquete Valdivieso. 2019.</p>