<a href="https://colab.research.google.com/github/carlosramos1/numpy-pandas-matplotlib/blob/main/11_gestion_de_datos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Gestión de datos.

Este capítulo explorará diversos atributos y métodos de las series y los dataframes de *Pandas* que pueden ser útiles para la gestión de los datos.

In [1]:
import pandas as pd
import numpy as np

## El dataframe ilustrativo.

* El dataframe ```población``` describe un censo poblacional de animales en diversas regiones geográficas.

In [2]:
poblacion = pd.DataFrame({
  'Animal':('lobo','coyote','jaguar','cerdo salvaje','tapir','venado','ocelote','puma'),
  'Norte_I':  (12, np.nan,  None,  2,  4,  2,  14,  5 ),
  'Norte_II': (23, 4, 25, 21, 9, 121, 1, 2 ),
  'Centro_I': (15, 23, 2, 120, 40, 121, 0, 5),
  'Sur_I':    (28, 46, 14, 156, 79, 12, 2, np.nan)}).set_index('Animal')

poblacion

Unnamed: 0_level_0,Norte_I,Norte_II,Centro_I,Sur_I
Animal,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
lobo,12.0,23,15,28.0
coyote,,4,23,46.0
jaguar,,25,2,14.0
cerdo salvaje,2.0,21,120,156.0
tapir,4.0,9,40,79.0
venado,2.0,121,121,12.0
ocelote,14.0,1,0,2.0
puma,5.0,2,5,


## El atributo ```values```.

El atributo ```values``` regresa un arreglo de ```numpy``` con los valores que contiene.

**Ejemplo:**

In [3]:
poblacion.values

array([[ 12.,  23.,  15.,  28.],
       [ nan,   4.,  23.,  46.],
       [ nan,  25.,   2.,  14.],
       [  2.,  21., 120., 156.],
       [  4.,   9.,  40.,  79.],
       [  2., 121., 121.,  12.],
       [ 14.,   1.,   0.,   2.],
       [  5.,   2.,   5.,  nan]])

## Selección de filas

Los siguientes métodos seleccionan filas específicas de acuerdo algun criterio.

### El método ```head()```.

Regresa las `n` primeras filas.

```
<objeto de Pandas>.head(<n>)
```

En donde:

* ```<n>``` es un entero. _Por defecto regresa las **primeros 5 filas**_

**Ejemplos:**

In [6]:
# Sin argumentos, regresa las 5 primeras filas
poblacion.head()

Unnamed: 0_level_0,Norte_I,Norte_II,Centro_I,Sur_I
Animal,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
lobo,12.0,23,15,28.0
coyote,,4,23,46.0
jaguar,,25,2,14.0
cerdo salvaje,2.0,21,120,156.0
tapir,4.0,9,40,79.0


In [7]:
# Obtener las 3 primeras filas
poblacion.head(3)

Unnamed: 0_level_0,Norte_I,Norte_II,Centro_I,Sur_I
Animal,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
lobo,12.0,23,15,28.0
coyote,,4,23,46.0
jaguar,,25,2,14.0


### El método ```tail()```.

Regresa las últimos ```n``` filas.

```
<objeto de Pandas>.tail(<n>)
```

En donde:

* ```<n>``` es un entero. _Por defecto regresa las **últimos 5 filas**_

**Ejemplos:**

In [None]:
poblacion.tail()

Unnamed: 0_level_0,Norte_I,Norte_II,Centro_I,Sur_I
Animal,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
cerdo salvaje,2.0,21,120,156.0
tapir,4.0,9,40,79.0
venado,2.0,121,121,12.0
ocelote,14.0,1,0,2.0
puma,5.0,2,5,


In [None]:
poblacion.tail(2)

Unnamed: 0_level_0,Norte_I,Norte_II,Centro_I,Sur_I
Animal,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
ocelote,14.0,1,0,2.0
puma,5.0,2,5,


### El método ```take()```.

 Este método regresa las filas que se indiquen en función de un índice numérico.


 ```
 <objeto de Pandas>.take(<colección de índices numéricos>)
 ```

**Ejemplos:**

In [None]:
# Obtener las filas con indice 1 y 4
poblacion.take([1, 4])

Unnamed: 0_level_0,Norte_I,Norte_II,Centro_I,Sur_I
Animal,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
coyote,,4,23,46.0
tapir,4.0,9,40,79.0


### El método ```smallest()```.

Regresa las filas con **los valores más pequeños** de una o varias columnas.

```
<objeto de Pandas>.nsmallest(<n>, columms=[<col 1>, <col 2>, ...])
```
- `<n>` indica el número de filas a seleccionar.
- `<col x>` identificador de columna que se considerará para evaluar los valores más pequeños.

El criterio de ordenamiento se da a partir de la primera columna enumerada en ```columns``` en adelante.

**Ejemplos:**

In [8]:
# Obtener 3 filas con el valor más pequeño en la columna 'Norte-I'
poblacion.nsmallest(3, columns='Norte_I')

Unnamed: 0_level_0,Norte_I,Norte_II,Centro_I,Sur_I
Animal,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
cerdo salvaje,2.0,21,120,156.0
venado,2.0,121,121,12.0
tapir,4.0,9,40,79.0


In [9]:
# Lo mismo del anterior pero considerando dos columnas
poblacion.nsmallest(3, columns=['Norte_I', 'Sur_I'])

Unnamed: 0_level_0,Norte_I,Norte_II,Centro_I,Sur_I
Animal,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
venado,2.0,121,121,12.0
cerdo salvaje,2.0,21,120,156.0
tapir,4.0,9,40,79.0


### El método ```nlargest()```.

Regresa las filas con los **valores más grandes** de una o varias columnas

```
<objeto de Pandas>.nlargest(<n>, columms=[<col 1>, <col 2>, ...])
```
- `<n>` indica el número de filas a seleccionar.
- `<col x>` identificador de columna que se considerará para evaluar los valores más grande.

El criterio de ordenamiento se da a partir de la primera columna enumerada en ```columns``` en adelante.

**Ejemplos:**

In [10]:
# Obtener las 3 filas que contienen los valores más grandes en la columna 'Sur-1'
poblacion.nlargest(3, columns='Sur_I')

Unnamed: 0_level_0,Norte_I,Norte_II,Centro_I,Sur_I
Animal,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
cerdo salvaje,2.0,21,120,156.0
tapir,4.0,9,40,79.0
coyote,,4,23,46.0


## Sustitución de valores

### El método ```replace()```.

Este método sustituye elementos por un valor determinado.

 ```
 <objeto de Pandas>.replace(<lista de valores a sustituir>, <valor de sustitución>)
 ```


**Ejemplos:**

In [13]:
p3 = poblacion.head(3)
p3

Unnamed: 0_level_0,Norte_I,Norte_II,Centro_I,Sur_I
Animal,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
lobo,12.0,23,15,28.0
coyote,,4,23,46.0
jaguar,,25,2,14.0


In [20]:
# sustituis los valores NaN y 0 por 'extinto'
p3.replace([0, np.nan], 'extinto')

Unnamed: 0_level_0,Norte_I,Norte_II,Centro_I,Sur_I
Animal,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
lobo,12.0,23,15,28.0
coyote,extinto,4,23,46.0
jaguar,extinto,25,2,14.0


### El método ```update()```.

Sustituye las filas del dataframe con las filas de otro dataframe siempre y cuando los identificadores de ambos dataframes coincidan.

```
<dataframe 1>.update(<dataframe 2>)
```

**Ejemplo:**

* Se utilizará el dataframe ```especies```.

In [25]:
especies = pd.DataFrame(
    {'Animal':  ('lobo', 'coyote', 'jaguar'),
     'Norte_I': ('estable', 'amenazado', 'amenazado'),
     'Norte_II':('estable', 'estable', 'extinto'),
     'Centro_I':('estable', 'amenazado', 'extinto'),
     'Sur_I':   ('amenazado', 'extinto', 'estable')}).set_index('Animal')
especies

Unnamed: 0_level_0,Norte_I,Norte_II,Centro_I,Sur_I
Animal,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
lobo,estable,estable,estable,amenazado
coyote,amenazado,estable,amenazado,extinto
jaguar,amenazado,extinto,extinto,estable


* Se creará al dataframe ```otras_especies``` el cual comparte con ```especies``` el índice ```'lobo'```.

In [26]:
otras_especies = pd.DataFrame(
    {'Animal':('lobo', 'antilope', 'tucán'),
    'Norte_I':('estable', 'estable', 'estable'),
    'Norte_II':('extinto', 'estable', 'estable'),
    'Centro_I':('estable', 'estable', 'estable'),
    'Sureste':('estable', 'estable', 'estable')}).set_index('Animal')
otras_especies

Unnamed: 0_level_0,Norte_I,Norte_II,Centro_I,Sureste
Animal,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
lobo,estable,extinto,estable,estable
antilope,estable,estable,estable,estable
tucán,estable,estable,estable,estable


* La siguiente celda sustituirá los valores de la con índice ```lobo``` del dataframe ```especies``` con los valores del  ```otras_especies```

In [27]:
especies.update(otras_especies)

especies # Sustituirá la fila 'lobo' porque es el único identificador que coincide

Unnamed: 0_level_0,Norte_I,Norte_II,Centro_I,Sur_I
Animal,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
lobo,estable,extinto,estable,amenazado
coyote,amenazado,estable,amenazado,extinto
jaguar,amenazado,extinto,extinto,estable


## Evaluar elementos a True o False

### El método ```isin()``` .

Regresa otro dataframe de booleanos indicando si el elemento del dataframe original se encuentra dentro de un conjunto de valores.
```
<objeto de Pandas>.isin(<iterable>)
```
- `<iterable>` puede ser una instruccion `range()`, una lista, tupla, etc.




**Ejemplo:**

In [22]:
# Evaluar si los elementos son valores entre 20 y 30
poblacion.isin(range(20, 31)) # otra mejor opcion

Unnamed: 0_level_0,Norte_I,Norte_II,Centro_I,Sur_I
Animal,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
lobo,False,True,False,True
coyote,False,False,True,False
jaguar,False,True,False,False
cerdo salvaje,False,True,False,False
tapir,False,False,False,False
venado,False,False,False,False
ocelote,False,False,False,False
puma,False,False,False,False


In [24]:
# Evaluar que elementos tiene valor NaN o 0
poblacion.isin([np.nan, 0])

Unnamed: 0_level_0,Norte_I,Norte_II,Centro_I,Sur_I
Animal,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
lobo,False,False,False,False
coyote,True,False,False,False
jaguar,True,False,False,False
cerdo salvaje,False,False,False,False
tapir,False,False,False,False
venado,False,False,False,False
ocelote,False,False,True,False
puma,False,False,False,True


### El metodo ```all()```.

Este método valida si **todos los elementos** de una columna (*axis=0*) o y una fila (*axis=1*) son *True*.

```
<objeto>.all(axis=<n>)
```
- `<n>` indica el eje. Por defecto evalua las columnas `axis=0`

> **Recordar** que *Python* toma como `True` cualquier valor distinto de `0`

In [28]:
poblacion

Unnamed: 0_level_0,Norte_I,Norte_II,Centro_I,Sur_I
Animal,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
lobo,12.0,23,15,28.0
coyote,,4,23,46.0
jaguar,,25,2,14.0
cerdo salvaje,2.0,21,120,156.0
tapir,4.0,9,40,79.0
venado,2.0,121,121,12.0
ocelote,14.0,1,0,2.0
puma,5.0,2,5,


In [29]:
poblacion.all()

Unnamed: 0,0
Norte_I,True
Norte_II,True
Centro_I,False
Sur_I,True


In [30]:
poblacion.all(axis=1)

Unnamed: 0_level_0,0
Animal,Unnamed: 1_level_1
lobo,True
coyote,True
jaguar,True
cerdo salvaje,True
tapir,True
venado,True
ocelote,False
puma,True


### El método ```any()```.

Este método valida si **al menos un elemento** de una columna (*axis=0*) o fila (*axis=1*) es *True*.

```
<objeto>.any(axis=<n>)
```
- `<n>` indica el eje. Por defecto evalua las columnas `axis=0`

> **Recordar** que *Python* toma como `True` cualquier valor distinto de `0`

In [31]:
poblacion.any()

Unnamed: 0,0
Norte_I,True
Norte_II,True
Centro_I,True
Sur_I,True


In [32]:
poblacion.any(axis=1)

Unnamed: 0_level_0,0
Animal,Unnamed: 1_level_1
lobo,True
coyote,True
jaguar,True
cerdo salvaje,True
tapir,True
venado,True
ocelote,True
puma,True


## Insertar y eliminar filas o columnas

### El método ```drop()```.

Elimina filas o columnas.
```
<objeto de Pandas>.drop(<colección de identificadores>, axis=<n>)
```
- `<identificadores>` una lista de `str` de identificadores a eliminar
- `<n>` indica el eje, `axis=0` fila y `axis=1` columna. *Por defecto es* `0`.

In [33]:
poblacion

Unnamed: 0_level_0,Norte_I,Norte_II,Centro_I,Sur_I
Animal,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
lobo,12.0,23,15,28.0
coyote,,4,23,46.0
jaguar,,25,2,14.0
cerdo salvaje,2.0,21,120,156.0
tapir,4.0,9,40,79.0
venado,2.0,121,121,12.0
ocelote,14.0,1,0,2.0
puma,5.0,2,5,


In [34]:
poblacion.drop(['Centro_I'], axis=1)

Unnamed: 0_level_0,Norte_I,Norte_II,Sur_I
Animal,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
lobo,12.0,23,28.0
coyote,,4,46.0
jaguar,,25,14.0
cerdo salvaje,2.0,21,156.0
tapir,4.0,9,79.0
venado,2.0,121,12.0
ocelote,14.0,1,2.0
puma,5.0,2,


In [35]:
poblacion.drop(['lobo', 'tapir'])

Unnamed: 0_level_0,Norte_I,Norte_II,Centro_I,Sur_I
Animal,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
coyote,,4,23,46.0
jaguar,,25,2,14.0
cerdo salvaje,2.0,21,120,156.0
venado,2.0,121,121,12.0
ocelote,14.0,1,0,2.0
puma,5.0,2,5,


### El método ```insert()```.

Este método **insertará una columna** en la posición que se le indique.

```
<objeto de Pandas>.insert(<posición numérica>, <nombre de columna>, <valores>)
```

In [36]:
poblacion

Unnamed: 0_level_0,Norte_I,Norte_II,Centro_I,Sur_I
Animal,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
lobo,12.0,23,15,28.0
coyote,,4,23,46.0
jaguar,,25,2,14.0
cerdo salvaje,2.0,21,120,156.0
tapir,4.0,9,40,79.0
venado,2.0,121,121,12.0
ocelote,14.0,1,0,2.0
puma,5.0,2,5,


In [37]:
poblacion.insert(0, 'Sur', [7, 21, 23, 6, 11, 32, 21, 1])

In [38]:
poblacion

Unnamed: 0_level_0,Sur,Norte_I,Norte_II,Centro_I,Sur_I
Animal,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
lobo,7,12.0,23,15,28.0
coyote,21,,4,23,46.0
jaguar,23,,25,2,14.0
cerdo salvaje,6,2.0,21,120,156.0
tapir,11,4.0,9,40,79.0
venado,32,2.0,121,121,12.0
ocelote,21,14.0,1,0,2.0
puma,1,5.0,2,5,


## El método ```diff()```.

Calcula la diferencia entre un elemento previo en un eje determinado.

```
<objeto de Pandas>.diff(axis=<n>)
```

Donde:

* ```<n>``` es el número de eje ```axis=0``` (columna)  o ```axis=1```(fila) al que se aplicará el método. *Por defecto* es ```0```.

**Ejemplos:**

In [39]:
poblacion

Unnamed: 0_level_0,Sur,Norte_I,Norte_II,Centro_I,Sur_I
Animal,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
lobo,7,12.0,23,15,28.0
coyote,21,,4,23,46.0
jaguar,23,,25,2,14.0
cerdo salvaje,6,2.0,21,120,156.0
tapir,11,4.0,9,40,79.0
venado,32,2.0,121,121,12.0
ocelote,21,14.0,1,0,2.0
puma,1,5.0,2,5,


* Se aplicará el método ```diff()``` en el eje ```0``` (columna).

In [40]:
poblacion.diff()

Unnamed: 0_level_0,Sur,Norte_I,Norte_II,Centro_I,Sur_I
Animal,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
lobo,,,,,
coyote,14.0,,-19.0,8.0,18.0
jaguar,2.0,,21.0,-21.0,-32.0
cerdo salvaje,-17.0,,-4.0,118.0,142.0
tapir,5.0,2.0,-12.0,-80.0,-77.0
venado,21.0,-2.0,112.0,81.0,-67.0
ocelote,-11.0,12.0,-120.0,-121.0,-10.0
puma,-20.0,-9.0,1.0,5.0,


* Se aplicará el método ```diff()``` en el eje ```1```.

In [41]:
poblacion.diff(axis=1)

Unnamed: 0_level_0,Sur,Norte_I,Norte_II,Centro_I,Sur_I
Animal,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
lobo,,5.0,11.0,-8,13.0
coyote,,,,19,23.0
jaguar,,,,-23,12.0
cerdo salvaje,,-4.0,19.0,99,36.0
tapir,,-7.0,5.0,31,39.0
venado,,-30.0,119.0,0,-109.0
ocelote,,-7.0,-13.0,-1,2.0
puma,,4.0,-3.0,3,


## El método ```items()```.

Este método crea un generador, el cual regresa tuplas de 2 elementos a partir de un  objeto de Pandas.

### El método ```items()``` en dataframes.
* En el caso de un dataframe, el generador regresa tuplas compiestas por los datos de cada columna con la siguiente estructura:

```
('<identificador de encabezado>', <objeto tipo pd.Series>)
```

### El método ```items()``` en series.
* En el caso de una serie, el generador regresa tuplas con la siguiente estructura:

```
('<identificador de índice>', <valor>)
```

In [42]:
poblacion.items()

<generator object DataFrame.items at 0x7ce7d3dc26b0>

In [45]:
for item in poblacion.items():
    print(item[0])
    print("--------------")
    print(item[1])
    print('\n')

Sur
--------------
Animal
lobo              7
coyote           21
jaguar           23
cerdo salvaje     6
tapir            11
venado           32
ocelote          21
puma              1
Name: Sur, dtype: int64


Norte_I
--------------
Animal
lobo             12.0
coyote            NaN
jaguar            NaN
cerdo salvaje     2.0
tapir             4.0
venado            2.0
ocelote          14.0
puma              5.0
Name: Norte_I, dtype: float64


Norte_II
--------------
Animal
lobo              23
coyote             4
jaguar            25
cerdo salvaje     21
tapir              9
venado           121
ocelote            1
puma               2
Name: Norte_II, dtype: int64


Centro_I
--------------
Animal
lobo              15
coyote            23
jaguar             2
cerdo salvaje    120
tapir             40
venado           121
ocelote            0
puma               5
Name: Centro_I, dtype: int64


Sur_I
--------------
Animal
lobo              28.0
coyote            46.0
jaguar          

In [48]:
for item in poblacion.items(): #DataFrames.items()
    print(item[0])
    print("--------")
    for tupla in item[1].items(): #Serie.items()
        print(tupla)
    print()

Sur
--------
('lobo', 7)
('coyote', 21)
('jaguar', 23)
('cerdo salvaje', 6)
('tapir', 11)
('venado', 32)
('ocelote', 21)
('puma', 1)

Norte_I
--------
('lobo', 12.0)
('coyote', nan)
('jaguar', nan)
('cerdo salvaje', 2.0)
('tapir', 4.0)
('venado', 2.0)
('ocelote', 14.0)
('puma', 5.0)

Norte_II
--------
('lobo', 23)
('coyote', 4)
('jaguar', 25)
('cerdo salvaje', 21)
('tapir', 9)
('venado', 121)
('ocelote', 1)
('puma', 2)

Centro_I
--------
('lobo', 15)
('coyote', 23)
('jaguar', 2)
('cerdo salvaje', 120)
('tapir', 40)
('venado', 121)
('ocelote', 0)
('puma', 5)

Sur_I
--------
('lobo', 28.0)
('coyote', 46.0)
('jaguar', 14.0)
('cerdo salvaje', 156.0)
('tapir', 79.0)
('venado', 12.0)
('ocelote', 2.0)
('puma', nan)

