# ¿Qué es el Data Science?

El Data Science es un campo interdisciplinario que involucra métodos científicos, procesos y sistemas para extraer conocimiento o un mejor entendimiento de datos en sus diferentes formas, ya sea estructurados o no estructurados, lo cual es una continuación de algunos campos de análisis de datos como:

* La estadística
* La minería de datos
* El aprendizaje automático
* La analítica predictiva.

El Data Science combina:

* Software
* Estadística
* Matemática
* Programación y visualización

Finalmente, su objetivo es extraer datos suceptible de interpretarse e incluso crear nueva información. Las conclusiones que se obtienen permiten desarrollar productos demandados en el mercado o generar oportunidades de negocio de una empresa.


# ¿Qué es pandas?

Es la herramienta más importante a disposición de los científicos y analistas de datos que trabajan en Python en la actualidad. Las poderosas herramientas de aprendizaje automático y visualización glamorosa pueden llamar toda la atención, pero pandas es la columna vertebral de la mayoría de los proyectos de datos.

En Computación y Ciencia de datos, pandas es una biblioteca de software escrita como extensión de Numpy para manipulación y análisis de datos para el lenguaje de programación Python. Esta librería ofrece dos de las estructuras más usadas en Data Science: la estructura Series y el DataFrame.

# Las características de la biblioteca son:

* El tipo de datos DataFrame para manipulación de datos con indexación integrada. Tiene herramientas para leer y escribir datos entre estructuras de datos en memoria y formatos de archivos variados
* Permite la alineación de datos y manejo integrado de datos faltantes, la reestructuración y segmentación de conjuntos de datos, la segmentación vertical basada en etiquetas, indexación elegante, y segmentación horizontal de grandes conjuntos de datos, la inserción y eliminación de columnas en estructuras de datos.
* Puedes realizar cadenas de operaciones, dividir, aplicar y combinar sobre conjuntos de datos, la mezcla y unión de datos.
* Permite realizar indexación jerárquica de ejes para trabajar con datos de altas dimensiones en estructuras de datos de menor dimensión, la funcionalidad de series de tiempo: generación de rangos de fechas y conversión de frecuencias, desplazamiento de ventanas estadísticas y de regresiones lineales, desplazamiento de fechas y retrasos.

# Primeros pasos de Pandas

## Instalar e importar

Pandas es un paquete fácil de instalar. Abra su programa de terminal (para usuarios de Mac) o línea de comandos (para usuarios de PC) e instálelo usando cualquiera de los siguientes comandos:

**conda install pandas**

ó

**pip install pandas**

Desde un cuaderno de Jupyter

In [None]:
# El "!" al principio ejecuta las celdas como si estuvieran en una terminal
! pip install pandas

In [None]:
# El "!" al principio ejecuta las celdas como si estuvieran en una terminal
! conda install pandas

In [None]:
# Para importar pandas, generalmente lo importamos con un nombre más corto ya que se usa mucho

import pandas as pd

# Componentes principales de pandas: Series y DataFrames

Los dos componentes principales de los pandas son Series y DataFrame.

Una Series es esencialmente una columna y un DataFrame es una tabla multidimensional formada por una "colección de Series".

<img src="https://storage.googleapis.com/lds-media/images/series-and-dataframe.width-1200.png">


# Series

Las series son estructuras unidimensionales conteniendo un array de datos (de cualquier tipo "soportado por NumPy") y un array de etiquetas que van asociadas a los datos, llamado índice (index en la literatura en inglés):

**Clase pandas.Series ( datos = Ninguno , índice = Ninguno , dtype = Ninguno , nombre = Ninguno , copia = Falso , fastpath = Falso )**

Parámetros

* valor de tipo matriz de datos , iterable, dictado o escalar:  Contiene datos almacenados en Series. Si los datos son un dictado, se mantiene el orden de los argumentos.

* índice similar a una matriz o índice (1d):  Los valores deben ser hash y tener la misma longitud que los datos . Se permiten valores de índice no únicos. El valor predeterminado será RangeIndex (0, 1, 2,…, n) si no se proporciona. Si los datos son similares a un dictado y el índice es Ninguno, las claves de los datos se utilizan como índice. Si el índice no es Ninguno, la Serie resultante se vuelve a indexar con los valores del índice.

* dtype str, numpy.dtype o ExtensionDtype, opcional:  Tipo de datos para la serie de salida. Si no se especifica, esto se deducirá de los datos . Consulte la guía del usuario para conocer más usos.

* nombre str, opcional:  El nombre para darle a la Serie.

* copy bool: predeterminado Falso. Copie los datos de entrada.

In [None]:
import pandas as pd
d = [2, 3, 4, 5]
#indices = ['Numero1','Numero2','Numero3','Numero4',]

primerEjemplo = pd.Series(d)
primerEjemplo


In [None]:
import pandas as pd

d = {
    'a': 1, 
    'b': 2, 
    'c': 3
}

# class pandas.Series(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False)
ser = pd.Series(d)

# Llamado de la serie
ser

In [None]:
Lista = [15,12,21]
indice = ["Ene", "Feb", "Mar"]

ventas1 = pd.Series(Lista) # c/indice implicito
print(ventas1,'\n')

ventas = pd.Series(Lista, indice) # c/indice explicito

# Llamado de la serie
print(ventas)

Los elementos de la serie pueden extraerse con el nombre de la serie y, entre corchetes, el índice (posición) del elemento:

In [None]:
# mostrar a traves del valor implicito (indice)
print(ventas)

ventas[0] 

o con su etiqueta, si la tiene: 

In [None]:
# mostrar a traves del valor explicito (etiqueta)
print(ventas)

ventas["Ene"]

Las etiquetas que forman el índice no necesitan ser diferentes. Pueden ser de cualquier tipo (numérico, textos, tuplas...) siempre que sea posible aplicar la función hash sobre ellas.

hash : https://www.interactivechaos.com/python/function/hash

* Es de destacar que el lazo entre una etiqueta y un valor se mantendrá salvo que lo modifiquemos explícitamente. 

* Algo importante es la inmutabilidad del índice de etiquetas: Se puede asignar un indice a una serie, pero no se puede pretender cambiar individualmente alguna de ellas, dará ERROR.

* Al igual que ocurre con el array NumPy, una serie pandas solo puede contener datos de un mismo tipo.

In [None]:
# muestra el tipo de datos de "ventas"
print(ventas.dtype)

print(type(ventas))

Podemos acceder a los objetos que contienen los **índices** y los **valores** a través de los atributos: 
* index
* values

In [None]:
print(ventas)

ventas.index

In [None]:
print(ventas)

ventas.values

La serie tiene, además, un atributo **name** e **index**. Una vez fijado, se muestran junto a la estructura al imprimir la serie

In [None]:
# atributo name
NombreSerie = ventas.name = "Ventas 2020"
print(ventas)

In [None]:
# atributo index.name
ventas.index.name = "Meses"

Ahora, en la salida, tanto la serie como el índice se muestran con su respectivo nombre

In [None]:
# Llamado de la serie.
ventas

El atributo **axes** nos da acceso a una lista con los ejes de la serie (solo contiene un elemento al tratarse de una estructura unidimensional):

In [None]:
# atributo axes
ventas.axes

El atributo **shape** nos devuelve el tamaño de la serie:

In [None]:
# atributo shape
ventas.shape

Para conocer mas acerca de los atributos de las Series, consulte los siguientes enlaces:

https://pandas.pydata.org/pandas-docs/stable/reference/series.html

https://pandas.pydata.org/docs/reference/api/pandas.Series.html

# DataFrames 

Crear DataFrames directamente en Python y es bastante útil cuando se prueban nuevos métodos y funciones que se encuentran en los documentos de pandas. En consecuencia, los dataframes son datos tabulares bidimensionales, de tamaño mutable y potencialmente heterogéneos.

Por otro lado, La estructura de datos también contiene ejes etiquetados (filas y columnas). Las operaciones aritméticas se alinean en las etiquetas de fila y columna. Se puede considerar como un contenedor similar a un dict para los objetos de la serie. La estructura de datos primaria de los pandas.

Finalmente, hay muchas formas de crear un DataFrame desde cero, pero una gran opción es hacer uso de un simple **diccionario**.

In [None]:
# Diccionario
datos = { 
    'manzanas' : [ 3 , 2 , 0 , 1 ], 
    'naranjas' : [ 0 , 3 , 7 , 2 ], 
    'peras' : [ 0 , 3 , 7 , 2 ], 
    'mango' : [ 0 , 3 , 7 , 2 ], 
    'maracuya' : [ 0 , 3 , 7 , 2 ], 
    'piña' : [ 0 , 3 , 7 , 2 ]
}

Y luego se pasa al constructor de Pandas DataFrame:

In [None]:
# class pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)

compras = pd.DataFrame(datos)
compras

### ¿Cómo funcionó eso?

Cada elemento (clave, valor) en "datos" corresponde a una columna en el DataFrame resultante.

El índice de este DataFrame se nos dio en la creación como los números 0-3, pero también podríamos crear el nuestro cuando inicializamos el DataFrame.

Tengamos nombres de clientes como nuestro índice:

In [None]:
# Diccionario
datos = {
    'manzanas' : [ 3 , 2 , 0 , 1 ], 
    'naranjas' : [ 0 , 3 , 7 , 2 ]
    }

indice = [ 'Luis' , 'Roberto' , 'Liliana' , 'David' ]
# class pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)

compras = pd.DataFrame(datos, indice)   

#llamado del dataframe
compras

Las etiquetas de filas y de columnas (indices) son accesibles a través de los atributos 
* index
* columns

In [None]:
# atributo index (indice de filas, denominado index)
compras.index

In [None]:
# atributo columns (indice de columnas, denominado columns)
compras.columns

El eje 0 es el correspondiente al índice de filas (eje vertical) y el eje 1 al índice de columnas (eje horizontal).

El atributo **axes** devuelve una lista con los ejes de la estructura (dos, al tratarse de una estructura bidimensional):

In [None]:
# atributo axes
compras.axes

Al igual que ocurría con las series, los índices de filas y columnas son inmutables. 

Tanto el índice de filas como el de columnas poseen el atributo **name**.

In [None]:
# Adiciona un nombre para el indice vertical (clientes)
compras.index.name = "Clientes"

compras

In [None]:
# Adiciona un nombre para el indice horizontal (columns - manzanas y naranjas)
compras.columns.name = "Frutas"

compras

Similar a las series, el atributo **values** de un dataframe permite acceder a los valores del dataframe, con formato array NumPy 2d:

In [None]:
# atributo values
compras.values

Asimismo, un dataframe también tiene un atributo **shape** que informa de su dimensionalidad y número de elementos en cada dimensión.

In [None]:
# atributo shape
compras.shape

Para ver más información sobre DataFrame se puede consultar la documentación de pandas: https://pandas.pydata.org/pandas-docs/stable/reference/frame.html

# Creación de series

El constructor para la creación de una serie pandas es *pandas.Series*. 

Este constructor acepta tres parámetros principales:

- data: estructura de datos tipo array, iterable, diccionario o valor escalar que contendrá los valores a introducir en la serie.
- index: estructura tipo array con la misma longitud que los datos. Si este argumento no se añade al crear la serie, se agregará un índice por defecto formado por números enteros desde 0 hasta n-1, siendo n el número de datos.
- dtype: tipo de datos para la serie. Si no se especifica, se inferirá a partir de los datos.

Los valores del índice, como ya se ha comentado anteriormente, no tienen que ser necesariamente distintos aunque ciertas operaciones pueden generar un error si no soportan la posibilidad de tener índices duplicados.


### Utilizando una lista 

In [None]:
import pandas as pd

# crear una instancia de Series
Lista = [7,5,3]

s = pd.Series(Lista)

# mostrar la serie
s

Al no haberse especificado un índice, se asigna uno automáticamente con los valores 0, 1 y 2.

Si repetimos esta instrucción especificando un índice:

In [None]:
# se crea una instancia de Series indicando el valor de los indices desde una secuencia
lista = [7,5,3]
indice = ["Ene", "Feb", "Mar"]

s = pd.Series(lista, indice)

# mostrar la serie
print(s)

### Utilizando un diccionario

In [None]:
d = {
    "Ene":7, 
    "Feb":5, 
    "Mar":3
    }

# se crea una Serie (con el constructor) a partir de un diccionaro
s = pd.Series(d)

# mostrar la serie
s

Aquí vemos cómo: 
* las claves del diccionario son etiquetas del índice
* los valores del diccionario son los valores de la serie.

Si incluimos el índice explícitamente en el constructor, los valores en la serie se tomarán en el orden en el que estén en el índice explícito. Además, si en éste hay valores que no pertenecen al conjunto de claves del diccionario, se añaden a la serie con un valor NaN:

In [None]:
# datos
diccionario = {
    "Ene":7, 
    "Feb":5, 
    "Mar":3
    }

# indices
meses = ["Abr", "Mar", "Feb", "Ene"] 

s = pd.Series(diccionario, meses, dtype=int)

# mostrar la serie
s #NaN

### Utilizando un escalar

Si los datos se reducen a un único escalar será necesario crear el índice explícitamente. En esre caso, el número de elementos de la serie coincidirá con el número de elementos del índice.

In [None]:
# indices
meses = ["Ene", "Feb", "Mar"]

# serie
s = pd.Series(7,meses)

# mostrar la serie
s

# Creación de dataframes

El constructor de dataframes es *pandas.DataFrame*

Acepta cuatro parámetros principales:

* data: estructura de datos ndarray (array NumPy), diccionario u otro dataframe.
* index: índice a aplicar a las filas. Puede ser implicito o explicito.
* columns: índice de las columnas. Puede ser implicito o explicito.
* dtype: Tipo de datos que se asignan a los elementos del dataframe. Se puede asignar de forma explicita o por defecto según el tipo de datos.

Los valores de los índices de filas y columnas no tienen por qué ser necesariamente distintos.

In [None]:
import pandas as pd

lista1 = [1,2,3]
lista2 = [1,2,3]
lista3 = [1,2,3]
indices = ['frutas','verduras','carnes']
columnas = ['enero', 'febrero', 'marzo']

primerEjemplo = pd.DataFrame([lista1,lista2,lista3], indices,columns=columnas)

primerEjemplo

### Dataframe a partir de un diccionario

In [None]:
import pandas as pd

elementos = { 
    "Numero atómico":[1, 6, 47, 88],
    "Masa atómica":[1.008, 12.011, 107.87, 226],
    "Familia":["No metal", "No metal", "Metal", "Metal"]
}

# mostar el diccionario
print(elementos)

#se crea un dataframe a partir del diccionario
tabla_periodica = pd.DataFrame(elementos)

# mostrar el dataframe
tabla_periodica


A continuación repetimos la misma operación especificando las etiquetas tanto para filas como para columnas, utilizando los parámetros index y columns, respectivamente:

In [None]:
elementos = { 
    "Numero atómico":[1, 6, 47, 88],
    "Masa atómica":[1.008, 12.011, 107.87, 226],
    "Familia":["No metal", "No metal", "Metal", "Metal"]
}
indice = ["H", "C", "Ag", "Ra"]
columnas = ["Familia", "Numero atómico", "Masa atómica"]

tabla_periodica = pd.DataFrame(elementos, indice, columnas)
# mostrar el dataframe
tabla_periodica

Con el parámetro columns podemos:
* Especificar el orden de como se mostrarán las columnas o incluso filtrar éstas, pero no cambiar sus nombres. 
* Si una nueva etiqueta no esta incluida en el diccionario, se crea la nueva columna con todos sus valores en NaN.
* Si, en lugar de listas de datos como valores del diccionario hubiese sido arrays NumPy o series, el procedimiento es el mismo.

### Utilizando un array Numpy

En este caso, si no se especifican explicitamente las etiquetas de filas y columnas del array NumPy, se asignan las etiquetas por defecto (implicitas)

In [None]:
import numpy as np

arreglo = [[2, 5, 3, 2],
           [4, 6, 7, 2],
           [3, 2, 4, 1]
           ]

unidades_Datos = np.array(arreglo)

# se muestra el numpy array
print(unidades_Datos)

Ahora, se crea un dataframe a partir de un numpy array

In [None]:
# se crea un dataframe a partir de un numpy array
indice = ['Enero','Febrero','Marzo']
columnas = ['Pera','Manzana','Banano','Limon']

unidades = pd.DataFrame(unidades_Datos, indice, columnas)

unidades.index.name = 'Meses'
unidades.columns.name = 'Frutas'

# se muestra el dataframe
unidades

Las filas del *array NumPy* siguen siendo interpretadas como filas del dataframe.  Si especificamos las etiquetas de filas y columnas, el resultado es diferente:

In [None]:
# indice del dataframe
indice = [2015, 2016, 2017]

# columna del dataframe
columna = ["Ag", "Au", "Cu", "Pt"]

# creación del dataframe
unidades = pd.DataFrame(unidades_Datos, indice, columna)

# mostrar el dataframe
unidades

### Utilizando diferentes diccionarios

También podemos partir de un conjunto de diccionarios, cada uno definiendo el contenido de lo que será una fila del dataframe:

In [None]:
# diccionarios de datos
unidades_2015 = {
    "Ag":2, 
    "Au":5, 
    "Cu":3, 
    "Pt":2
    }
unidades_2016 = {
    "Ag":4, 
    "Au":6, 
    "Cu":7, 
    "Pt":2
    }
unidades_2017 = {
    "Ag":3, 
    "Au":2, 
    "Cu":4, 
    "Pt":1
    }

# se crean los indices a partir de una lista
indices = [2015, 2016, 2017]

# creación del dataframe
unidades = pd.DataFrame([unidades_2015, unidades_2016, unidades_2017], indices)

# mostrar el dataframe
unidades

Los diccionarios deberán compartir el mismo conjunto de claves que se interpretarán como etiquetas de columnas. Si las etiquetas no coinciden, se crearán todas las columnas pero se asignarán NaN a los valores desconocidos:

In [None]:
unidades_2015 = {
    "Ag":2, 
    "Au":5, 
    "Cu":3, 
    "Pt":2
    }
unidades_2016 = {
    "Ag":4, 
    "Au":6, 
    "Cu":7, 
    "Al":2 # <- valor nuevo, solo disponible en esete diccionario
    }
unidades_2017 = {
    "Ag":3, 
    "Pb":2, # <- valor nuevo, solo disponible en esete diccionario
    "Cu":4, 
    "Pt":1
    }

indices = [2015, 2016, 2017]

# creación del dataframe
unidades = pd.DataFrame([unidades_2015, unidades_2016, unidades_2017], indices)

# mostrar el dataframe
unidades

# Otros metodos de contrucción

- **pandas.DataFrame.from_dict**, crea un dataframe a partir de un diccionario de diccionarios o de secuencias tipo array:
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.from_dict.html

- **pandas.DataFrame.from_records**, que parte de una lista de tuplas o de arrays NumPy con un tipo estructurado:
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.from_records.html

# Inspección de la información 

Normalmente, una vez hemos cargado un bloque de datos en una serie o un dataframe, lo primero que haremos será inspeccionarlo para confirmar que los datos cargados son los esperados y que la lectura se ha realizado correctamente. Para esto tenemos los métodos **head**, **tail** y **sample**, con un comportamiento semejante en series y dataframes, que nos muestran un subconjunto de los datos cargados. Además, los métodos **describe** e **info** nos proporcionan información adicional sobre los datos. Veamos estos métodos por separado.

# El método head

* Disponible *pandas.Series.head* para *series* y *pandas.DataFrame.head* para *dataframes*
* Devuelve los primeros 5 elementos de la estructura 
* Se puede especificar el número de elementos a mostrar, satisfaciendo su argumento con un entero

In [None]:
import pandas as pd

# declaracion de valores de la seria "entrada"
ListaEntrada = [11, 18, 12, 16, 9, 16, 22, 28, 31, 29, 30, 12]

# definiendo indices "entrada"
indiceEntrada = ["ene", "feb", "mar", "abr", "may", "jun", "jul", "ago", "sep", "oct", "nov", "dic"]

# creación de la seria
entradas = pd.Series(ListaEntrada,indiceEntrada)

# se muestra la serie "entrada"
entradas

In [None]:
# declaracion de valores de la seria "salida"
ListaSalida = [9, 26, 18, 15, 6, 22, 19, 25, 34, 22, 21, 14]

# definiendo indices "salida"
indiceSalida = ["ene", "feb", "mar", "abr", "may", "jun", "jul", "ago", "sep", "oct", "nov", "dic"]

# creación de la seria
salidas = pd.Series(ListaSalida, indiceSalida)

# se muestra la serie "salida"
salidas

In [None]:
# declaracion de valores del dataframe "almacen" a partir de un diccionario
datosEntradaSalida = {
    "entradas": entradas, 
    "salidas": salidas
    }

almacen = pd.DataFrame(datosEntradaSalida)

# se crea una nueva columna llamada "neto", que calcula la diferencia de entradas - salidas
almacen["neto"] = almacen.entradas - almacen.salidas

En este ejemplo es posible mostrar todos los valores, en contraste, en un caso real, podrian ser miles o millones.

Ahora, para mostrar apenas los primeros elementos de la estructura, ejecutamos el método head:

In [None]:
# se muestra el dataframe resultante
print('Almacen actualizado')

# se imprime el cuerpo del dataframe resultante de "almacen"
print(f'\nCuerpo del dataframe: {almacen.shape}')

# se imprime el dataframe almacen
almacen

In [None]:
entradas.head()

In [None]:
salidas.head(3)

In [None]:
almacen.head(7)

# El método tail 

* Disponible para *pandas.Series.tail* y *pandas.DataFrame.tail* 
* Solo muestran los últimos 5 elementos de la estructura.
* Se puede especificar el número de elementos a mostrar, satisfaciendo su argumento con un entero

In [None]:
entradas.tail()

In [None]:
salidas.tail(2)

In [None]:
almacen.tail(2)

# El método sample

* Disponible para *pandas.Series.sample*  y *pandas.DataFrame.sample*
* Permite ver datos aleatorios de nuestra estructura
* Solo muestra 1 elemento de la estructura.
* Se puede especificar el número de elementos a mostrar, satisfaciendo su argumento con un entero

In [None]:
entradas.sample()

In [None]:
salidas.sample(2)

In [None]:
almacen.sample(5)

# El método describe

* Genera estadísticas descriptivas

| No | Función    | Descripción                        |
|----|------------|------------------------------------|
| 1  | recuento() | Número de observaciones no nulas   |
| 2  | suma ()    | Suma de valores                    |
| 3  | media ()   | Media de valores                   |
| 4  | mediana () | Mediana de valores                 |
| 5  | modo ()    | Modo de valores                    |
| 6  | std ()     | Desviación estándar de los valores |
| 7  | min ()     | Valor mínimo                       |
| 8  | max ()     | Valor máximo                       |
| 9  | abs ()     | Valor absoluto                     |
| 10 | prod ()    | Producto de valores                |
| 11 | cumsum ()  | Suma acumulada                     |
| 12 | cumprod () | Producto acumulativo               |

Formato:
DataFrame.describe(percentiles=None, include=None, exclude=None, datetime_is_numeric=False)

In [None]:
import pandas as pd

# declaracion de valores de la seria "entrada"
ListaEntrada = [11, 18, 12, 16, 9, 16, 22, 28, 31, 29, 30, 12]
# definiendo indices "entrada"
indiceEntrada = ["ene", "feb", "mar", "abr", "may", "jun", "jul", "ago", "sep", "oct", "nov", "dic"]
# creación de la seria
entradas = pd.Series(ListaEntrada,indiceEntrada)

# declaracion de valores de la seria "salida"
ListaSalida = [9, 26, 18, 15, 6, 22, 19, 25, 34, 22, 21, 14]
# definiendo indices "salida"
indiceSalida = ["ene", "feb", "mar", "abr", "may", "jun", "jul", "ago", "sep", "oct", "nov", "dic"]
# creación de la seria
salidas = pd.Series(ListaSalida,indiceSalida)

# declaracion de valores del dataframe "almacen" a partir de un diccionario
datosEntradaSalida = {
    "entradas": entradas, 
    "salidas": salidas
    }

almacen = pd.DataFrame(datosEntradaSalida)
# se crea una nueva columna llamada "neto", que calcula la diferencia de entradas - salidas
almacen["neto"] = almacen.entradas - almacen.salidas

In [None]:
entradas.describe()

In [None]:
salidas.describe()

In [None]:
almacen.describe()

# El método info

* Muestra un resumen de un dataframe
* Incluye información sobre el tipo de los índices de filas y columnas, los valores no nulos y la memoria usada
* Solo los dataframes tienen implementado este método.

In [None]:
almacen.info()

# El método pandas.Series.value_counts

* Método de la series pandas
* Devuelve una estructura que contiene los valores presentes en la serie y el número de ocurrencias de cada uno. Estos valores se muestran en orden decreciente

In [None]:
import numpy as np

# Se define la lista de valores
Lista = [3, 1, 2, 1, 1, 4, 1, 2, None, None]

# Se crea la serie
s = pd.Series(Lista)

# Se imprime la seria
print(s)

# Se muestra el número de ocurrencias de la serie
s.value_counts()

El parametro **dropna** de **pandas.Series.value_counts** permite mostrar los valores NaN (Nulos) de la serie

In [None]:
s.value_counts(dropna = False)

El parametro **bins** de **pandas.Series.value_counts** permite agrupar los datos dentro rangos (bins). Su valor, indica el ambito de rangos para la serie

In [None]:
s.value_counts(bins = 6)

Vemos que se han creados los dos bins, el primero conteniendo los valores entre 0.996 y 2.5 (intervalo abierto por la izquierda y cerrado por la derecha), bin en el que hay 6 valores, y el segundo conteniendo los valores entre 2.5 y 4 (intervalo también abierto por la izquierda y cerrado por la derecha), bin en el que hay 2 valores.

# Selección de datos en Series

Podemos seleccionar los valores haciendo referencia al índice asignado con la misma notación que en un diccionario (la llamada "notación corchetes" o "square bracket notation"):

In [None]:
import pandas as pd

# se define una lista de valores
Lista = [10, 20, 30, 40]
s = pd.Series(Lista)

# se muestra la serie
print(s)
# seleccionamos algunos valores de la serie
print(s[0])
print(s[2])

Usando esta sintaxis, si no se ha especificado un índice explícito, los índices negativos no están permitidos.

Si se asignan índices de forma explícita:

In [None]:
# se define una lista de valores
Lista = [10, 20, 30, 40]
# se definen los indices
Indices = ["a", "b", "c", "d"]
# se define la serie
s = pd.Series(Lista, Indices)
# se muestra la serie
s

Ahora, podemnos seleccionar los elementos usando el índice **explícito** o el **implícito**

In [None]:
print(s["a"],s[0])

In [None]:
print(s["d"],s[3])

Con la siguiente sintaxis, sí está permitido hacer uso de índices negativos para referirnos a los elementos desde el final de la estructura. Si los índices asignados son números enteros (al igual que las etiquetas del índice implícito), el índice implícito queda desactivado:

In [None]:
# se define una lista de valores
Lista = [10, 20, 30, 40]
# se definen los indices
Indices = [3, 2, 1, 0]
# se define la serie
s = pd.Series(Lista,Indices)
# se muestra la serie
s

In [None]:
# se imprime el valor a traves de un hash
s[3]

# Uso de rangos

Es posible seleccionar rangos de valores. De esta forma, si usamos un rango numérico en una serie en la que hemos definido un índice explícito:

In [None]:
# se define una lista de valores
Lista = [10, 20, 30, 40]
# se definen los indices
Indices = ["a", "b", "c", "d"]
# se define la serie
s = pd.Series(Lista,Indices)
# se muestra la serie
s

In [None]:
# se imprime una rebanada (rango) de la serie
s[1:3]

Si no se incluye alguno de los límites, se aplica el comportamiento natural de Python

In [None]:
s[1:]

In [None]:
s[:3]

Si se utilizan los índices explícitos en el rango, el comportamiento es ligeramente diferente:

In [None]:
s

In [None]:
s["a":"c"]  # [0:2] = [:2]

In [None]:
s[:"c"]

In [None]:
s["b":]

Una posible fuente de confusión viene derivada del hecho de que, usando rangos, es posible hacer referencia tanto a las etiquetas como a los índices numéricos: si utilizamos etiquetas, hacemos referencia a las etiquetas (por supuesto):

In [None]:
# se define una lista de valores
Lista = [10, 20, 30, 40]
# se definen los indices
Indices = ["a", "b", "c", "d"]
# se define la serie
s = pd.Series(Lista, index = Indices)

In [None]:
s["b":"d"]

y, por tanto, si utilizamos números, hacemos referencia a los índices numéricos (¿por supuesto...?):

In [None]:
s[1:3]

Ahora, si tenemos etiquetas numéricas, python omite las etiquetas y hace uso de los indices implicitos

In [None]:
# se define una lista de valores
Lista = [10, 20, 30, 40]
# se definen los indices
Indices = [3, 2, 1, 0]
# se define la serie
s = pd.Series(Lista, index = Indices)
# se imprime la seria
s

In [None]:
s[1:3]

Sin embargo, en el siguiente ejemplo devolverá el valor cuya etiqueta es 1 (si existe):

In [None]:
s[1]

Es debido a esto que existen los métodos **loc** e **iloc** 

Dichos métodos hacen una referencia explícita a etiquetas o posiciones, respectivamente, eliminando cualquier duda al respecto de su interpretación.

Al igual que con los array NumPy, es posible indicar, no un elemento simple ni un rango, sino una lista de valores. 

In [None]:
# se define una lista de valores
Lista = [10, 20, 30, 40]
# se definen los indices
Indices = ["a", "b", "c", "d"]
# se define la serie
# pandas.Series(data, index, dtype)
s = pd.Series(Lista, index = Indices, dtype = "int32")
# se imprime la serie
s

En el siguiente ejemplo, la lista contiene los números 3 y 1, y son los valores correspondientes a estos índices -y en el orden especificado- los devueltos por la instrucción.

Asi, con esta notación, en el caso de que la serie tenga un índice explícito numérico, los valores de la lista se interpretan como haciendo referencia al índice explícito.

In [None]:
segmento = s[[3, 1]]

# se imprime los valores 3 y 1
print(segmento)

# se imprime el tipo de datos del segmento
print(f'\nTipo de datos: {type(segmento)}')

# Metodo get

Retorna el valor dado su indice como argumento

In [None]:
# se define una lista de valores
Lista = [10, 20, 30, 40]
# se definen los indices
Indices = ["a", "b", "c", "d"]
# se define la serie
s = pd.Series(Lista, index = Indices)
# se imprime la serie
print(s)

# capturar el valor del indice 1
print(f'\nDesde el indice: {s.get(1)}')

# De otra forma, captura el valor del indice "b"
print(f'Desde la etiqueta: {s.get("b")}')

# Método loc 

El método **pandas.Series.loc** permite seleccionar un grupo de elementos por etiquetas. Como argumento de este método puede utilizarse una única etiqueta

Asimismo, No tolera valores de indices, solo de etiquetas

In [None]:
# se define una lista de valores
Lista = [10, 20, 30, 40]
# se definen los indices
Indices = ["a", "b", "c", "d"]
# se define la serie
s = pd.Series(Lista, index = Indices)
# se imprime la serie
print(s)

Con etiquetas

In [None]:
s.loc["b"]

Otro ejemplo

In [None]:
s.loc[["d","a"]]

Ahora, con un **rango de valores** en vez de **valores únicos**

In [None]:
s["b":"d"]

Con valores en vez de indices

In [None]:
s.loc[1]

# Método iloc

El método **pandas.Series.iloc** permite extraer datos de la serie a partir de los índices implícitos que éstos tienen asignados. La opción más simple es utilizar como argumento un simple número entero.

Asimismo, No tolera etiquetas, solo indices

In [None]:
# se define una lista de valores
Lista = [10, 20, 30, 40]
# se definen los indices
Indices = ["a", "b", "c", "d"]
# se define la serie
s = pd.Series(Lista, index = Indices)
# se imprime la serie
print(s)

Con indices

In [None]:
print(s.iloc[1])

print(s.iloc[0])

print(s.iloc[3])

# último elemento de la serie
print(s.iloc[-1]) # -> Si el número es negativo, hace referencia al final de la serie.

# primer elemento de la serie
print(s.iloc[-4])

Imprimiendo valores únicos de la serie

In [None]:
print(s)

s.iloc[[2, 0]]

También podemos incluir en esta lista números negativos, con la funcionalidad ya comentada:

In [None]:
# se define una lista de valores
Lista = [10, 20, 30, 40]
# se definen los indices
Indices = ["a", "b", "c", "d"]
# se define la serie
s = pd.Series(Lista, index = Indices)

# se imprime valores únicos
print(s.iloc[[-1]])
s.iloc[[-2, 0]]

Una tercera opción es usar como argumento un rango de números:

In [None]:
# se define una lista de valores
Lista = [10, 20, 30, 40]
# se definen los indices
Indices = ["a", "b", "c", "d"]
# se define la serie
s = pd.Series(Lista, index = Indices)

print(s)

# se imprime rebanada
print(s.iloc[1:3])

# se imprime rebanada
print(s.iloc[:3])

# se imprime rebanada
print(s.iloc[2:])

# se imprime rebanada
print(s.iloc[1:-1])

Con etiquetas

In [None]:
print(s.iloc["b":"d"])

# Uso de arrays booleanos

Una muy interesante opción para seleccionar elementos de una serie pandas es usar arrays booleanos. Por ejemplo, partimos de la siguiente serie:

In [None]:
# se define una lista de valores
Lista = [5, 2, -3, 7, 8, 4]
# se define la serie
s = pd.Series(Lista)
# se imprime la serie
s

Podemos seleccionar un conjunto de valores únicos de la serie a partir de un **valor de verdad**

In [None]:
print(s[[True, False, False, True, True, False]])

Ahora, a partir de una condición de verdad, mostrara todos los elementos incluyendo el valor de verdad de acuerdo a la condición

In [None]:
print(s > 2)

Asimismo, podemos entonces usar este resultado para extraer valores de la serie s (valores que serán aquellos mayores que 2):

In [None]:
import pandas as pd

# se define una lista de valores
Lista = [5, 2, -3, 7, 8, 4]

print(s[s>2])

Este mismo enfoque puede ser usado con los métodos **pandas.Series.loc** y **pandas.Series.iloc**

El método **loc** puede ser usado en un array explícito de booleanos, de la forma:

In [None]:
print(s.loc[[True, False, False, True, True, True]])

También puede ser utilizado con una proposición

In [None]:
print(s.loc[s>2])

Un enfoque ligeramente se puede apreciar cuando se usa con los métodos **iloc**

En un array explícito de booleanos, de la forma:

In [None]:
s.iloc[[True, False, False, True, True, True]]

Pero desde una proposición

In [None]:
s.iloc[s>2]

Si el objeto que está generando la estructura de booleanos (s, en s > 2) fuese un array NumPy en lugar de tratarse de una serie pandas, sí sería posible usar el método .iloc. De esta forma, la expresión s > 2 genera, como hemos visto, una serie pandas, pero podemos extraer los valores con el atributo values, que genera un array numpy:

In [None]:
type((s>2).values)

In [None]:
(s>2).values

Si usamos esta expresión para realizar la selección en la serie original "s", el resultado es ahora el correcto:

In [None]:
s.iloc[(s>2).values]

Es por ello que pandas recomienda usar el método loc cuando trabajemos con selección basada en booleanos.

# Selección aleatoria

El método **pandas.Series.sample** permite 

* Especificar o bien el número de elementos a extraer o bien la fracción del número total de elementos a extraer (parámetros **n** y **frac**, 
* Especificar si la extracción se realiza con reemplazo o no (parámetro **replace**)
* Especificar los pesos a aplicar a cada elemento para realizar una extracción aleatoria ponderada (parámetro **weights**)
* Finalmente, una semilla para el generador de números aleatorios que asegure la reproducibilidad de la extracción (parámetro **random_state**).

In [None]:
# se define una lista de valores
Lista = [10, 20, 30, 40]
# se definen los indices
Indices = ["a", "b", "c", "s"]
# se define la serie
s = pd.Series(Lista, index = Indices)

In [None]:
# Series.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None, ignore_index=False)
s.sample(2, random_state = 18)

Hemos extraído 3 elementos, por defecto sin reemplazo, aplicando el valor 18 como semilla del generador de números aleatorios.

In [None]:
# Series.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None, ignore_index=False)
s.sample(frac = 0.7, random_state = 18) # -> se extrae el 70% de los valores de la serie original haciendo uso del parámetro frac.

Asimismo, si no hay reemplazo, el número máximo de elementos que podemos extraer coincide con la longitud de la serie. 

Por el contrario, si la extracción la realizamos con reemplazo, podemos especificar cualquier número de elementos, como en el siguiente ejemplo

In [None]:
# Series.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None, ignore_index=False)
s.sample(10, random_state = 18, replace = True) # -> Se especifica número mayor de elementos ya que es con reemplazo

# Método pop

* El método **pandas.Series.pop** extrae y elimina un elemento de una serie cuyo índice se indica como argumento
* Devuelve error en caso de que no exista

In [None]:
# se define una lista de valores
Lista = [10, 20, 30, 40]
# se define la serie
s = pd.Series(Lista)
# se irmprime la serie
s

In [None]:
# se elimina el elemento 1 de la serie
print(Lista.pop(1))

# se imprime la serie resultante
Lista

In [None]:
# se define una lista de valores
Lista = [10, 20, 30, 40]
# se define la serie
s = pd.Series(Lista)

# usando el manejo de excepciones
try:
    # se irmprime la serie
    print(f'Serie original \n{s}')
    # se muestra y elemina el elemento
    print(f'\nElemento eliminado:  {s.pop(2)}')
    # se muestra la serie actualizada
    print(f'\nSerie actualizada \n{s}')
except:
    # mensaje que captura la excepción en caso de que el indice no se encuentre en la serie
    print("\nError, no existe el indice")

Si la serie tiene un índice explícito, el argumento de pop hará referencia a este índice:

In [None]:
# se define una lista de valores
Lista = [10, 20, 30, 40]
# se definen los indices
Indices = ["a", "b", "c", "s"]
# se define la serie
s = pd.Series(Lista, index = Indices)
# se irmprime la serie
print(f'Serie original \n{s}')

In [None]:
# se elimina el elemento ubicado a traves de la etiqueta
print(f'\nElemento eliminado:  {s.pop("a")}')

In [None]:
# se muestra la serie actualizada
print(f'\nSerie actualizada \n{s}')

y no al implícito, lo que devolvería un error:

In [None]:
print(f'Serie original \n{s}')

try:
    # se muestra y elemina el elemento
    print(f'\nElemento eliminado:  {s.pop(2)}')
    # se muestra la serie actualizada
    print(f'\nSerie actualizada \n{s}')
except:
    # mensaje que captura la excepción en caso de que el indice no se encuentre en la serie
    print("\nError, no existe el indice")

# Selección de datos en DataFrames

Desde un punto de vista semántico, un dataframe puede ser considerado semejante a un diccionario de series, en el que las claves son los nombres de las columnas y los valores, las columnas (que son series pandas).

In [None]:
import pandas as pd
# diccionario para las series -> Claves = nombres/columnas; valores = series pandas

diccionario = {
    "Entradas":[41, 32, 56, 18],
    "Salidas":[17, 54, 6, 78],
    "Valoración": [66, 54, 49, 66],
    "Límite": ["No", "Si", "No", "No"],
    "Cambio": [1.43, 1.16, -0.67, 0.77]
    }

# indices del dataframe
indices = ["Ene", "Feb", "Mar", "Abr"]

# se crea el dataframes
ventas = pd.DataFrame(diccionario,indices)

# se imprime el dataframe
ventas

Podemos utilizar la sintaxis de los diccionarios para seleccionar la columna Entradas. Puede verse en el ejemplo siguiente cómo dicha columna es extraída con tipo de serie pandas:

In [None]:
# mostramos la clave "entrada" con sus valores de serie panda
ventas["Entradas"]

Esto significa que podemos realizar una selección en dicho resultado para, por ejemplo, extraer el valor correspondiente a febrero:

In [None]:
# mostramos de la columna "entradas" el valor de la serie para febrero
ventas["Entradas"]["Feb"]

Sin embargo, la más que razonable opción de eliminar los corchetes que separan ambos índices y sustituirlos por una coma no funciona:

In [None]:
ventas["Entradas","Feb"] #Error

Si, una vez seleccionada una columna, le asignamos una lista o array (o serie) de valores de la misma longitud, estamos modificando dicha columna del dataframe:

In [None]:
# diccionario para las series -> Claves = nombres/columnas; valores = series pandas
diccionario = {
    "Entradas":[41, 32, 56, 18],
    "Salidas":[17, 54, 6, 78],
    "Valoración": [66, 54, 49, 66],
    "Límite": ["No", "Si", "No", "No"],
    "Cambio": [1.43, 1.16, -0.67, 0.77]
    }

# indices del dataframe
indices = ["Ene", "Feb", "Mar", "Abr"]

# se crea el dataframes
ventas = pd.DataFrame(diccionario, indices)

# se imprime la columna "entradas"
print(f'Entradas :\n{ventas.Entradas}')

# modificamos los valores actuales de la columna "entradas"
ventas["Entradas"] = [0, 0, 0, 0]
# se imprime el dataframe
ventas

Si asignamos un único valor escalar, este se propaga por toda la columna:

In [None]:
# diccionario para las series -> Claves = nombres/columnas; valores = series pandas
diccionario = {
    "Entradas":[41, 32, 56, 18],
    "Salidas":[17, 54, 6, 78],
    "Valoración": [66, 54, 49, 66],
    "Límite": ["No", "Si", "No", "No"],
    "Cambio": [1.43, 1.16, -0.67, 0.77]
    }

# indices del dataframe
indices = ["Ene", "Feb", "Mar", "Abr"]

# se crea el dataframes
ventas = pd.DataFrame(diccionario, index = indices)

# se imprime la columna "salidas"
print(f'Salidas :\n{ventas.Salidas}')

# modificamos las "salidas"
ventas["Salidas"] = 1
# se imprime el dataframe
ventas

## Importante

* Si un array no coincide con la lonjitud de la columna, obtendríamos un error.

In [None]:
# diccionario para las series -> Claves = nombres/columnas; valores = series pandas
diccionario = {
    "Entradas":[41, 32, 56, 18],
    "Salidas":[17, 54, 6, 78],
    "Valoración": [66, 54, 49, 66],
    "Límite": ["No", "Si", "No", "No"],
    "Cambio": [1.43, 1.16, -0.67, 0.77]
    }

# indices del dataframe
indices = ["Ene", "Feb", "Mar", "Abr"]

# se crea el dataframes
ventas = pd.DataFrame(diccionario, index = indices)

# se imprime el dataframe
ventas

En el siguiente ejemplo, estamos añadiendo una serie cuyos índices son "Ene", "Mar", "Abr" y "May". Es decir, la serie no tiene un valor para el índice "Feb" que sí se encuentra en el dataframe (se asigna un NaN), e incluye el índice "May" que no se encuentra en el dataframe y se descarta:

In [None]:
# se crea una nueva serie con un indice cuyo mes no existe en la serie anterior
lista = [5, 4, 6, 8]
indice = ["Ene", "Mar", "Abr", "May"]

ventas["Pérdidas"] = pd.Series(lista,indice)
# se imprime el dataframe
ventas

Asimismo, los valores asignados pueden proceder del propio dataframe:

In [None]:
ventas["Ganancias"] = (ventas["Entradas"]*2) - (ventas["Valoración"]/10)
# se imprime el dataframe
ventas

También podemos acceder a una columna con la llamada "notación punto":

In [None]:
# se imprime la columna "ganancias"
ventas.Ganancias

Deberemos tener en cuenta que con esta notación no es posible crear nuevas columnas ni eliminarlas con la función del y que solo funcionará si el nombre de la columna no incluye espacios en blanco y no coincide con ninguna palabra reservada de Python.

### Uso de rangos

El uso de un rango numérico entre los corchetes realiza una selección de filas, lo que puede parecer una cierta incoherencia:

In [None]:
#Crear un arreglo con indice, columnas y valores de 0 - 17 y cuerpo de 6x3
import numpy as np
import pandas as pd

# se crea el contenido del dataframe
contenido = np.arange(18).reshape([6, 3])

# se crea el indice del dataframe
indice = ["a", "b", "c", "d", "e", "f"]

# se crean las columnas del dataframe
columnas = ["A", "B", "C"]

# se crea el dataframe
df = pd.DataFrame(contenido, indice, columnas)

# se imprime el dataframe
df

In [None]:
# se imprime un subconjunto del dataframe
df[2:5]

El equipo de pandas lo justifica diciendo que esta sintaxis resulta extremadamente conveniente al tratarse de un tipo de selección frecuentemente usada. Esto es cierto, pero el hecho de que selecciones aparentemente semejantes (df[1,2], df[[1, 2]], df[1:3, 5], etc.) devuelvan un error no facilita su comprensión.

En todo caso, vemos en el ejemplo anterior que se devuelven las filas entre el primer valor del rango (incluido) y el último (sin incluir). También podríamos haber usado las etiquetas del índice:

In [None]:
# se imprime un subconjunto formado por las filas con etiqueta del b-d
df["b":"e"]

In [None]:
# se imprime un subconjunto formado por las filas con indice del 0-2
df[:2]

In [None]:
# se imprime un subconjunto formado por las filas con etiqueta desde "a"-"c"
df[:"c"]

In [None]:
# se imprime un subconjunto formado por las columnas con etiqueta desde "C-"A"
df[["C","A"]]

Ahora, usando el método **pandas.DataFrame.get** 

In [None]:
df.get("A")

In [None]:
df.get("E") # -> no muestra nada, ya que la etiqueta "E" no existe en el dataframe

# El método LOC

Al igual que ocurre con las series, el método pandas.DataFrame.loc permite seleccionar un conjunto de filas y columnas por etiquetas. Este método acepta diferentes argumentos. Para probarlos, partamos del siguiente dataframe:

In [None]:
#Crear un arreglo con indice, columnas y valores de 0 - 17 y cuerpo de 6x3
import numpy as np
import pandas as pd

# se crea el contenido del dataframe
contenido = np.arange(18).reshape([6, 3])

# se crea el indice del dataframe
indice = ["a", "b", "c", "d", "d", "f"]

# se crean las columnas del dataframe
columnas = ["A", "B", "C"]

# se crea el dataframe
df = pd.DataFrame(contenido, index = indice, columns = columnas)

# se imprime el dataframe
df

### Uso con etiqueta simple

El primer escenario lo encontramos cuando usamos este método indicando una única etiqueta. En este caso estamos seleccionando la fila cuya etiqueta se indique:

In [None]:
df.loc["c"]

El resultado es una serie pandas con las etiquetas de columnas del dataframe original como índice.

Es necesario mencionar que el argumento será siempre interpretado como etiqueta, aun cuando pueda estar representando un índice válido: 

In [None]:
#Crear un arreglo con indice, columnas y valores de 0 - 17 y cuerpo de 6x3
import numpy as np
import pandas as pd

# se crea el contenido del dataframe
contenido = np.arange(12).reshape([4, 3])

# se crea el indice del dataframe
indice = [1, 3, 0, 4]

# se crean las columnas del dataframe
columnas = ["A", "B", "C"]

# se crea el dataframe
df = pd.DataFrame(contenido, indice,columnas)

# se imprime el dataframe
df

In [None]:
df.loc[0]

Por supuesto, si dicha etiqueta no existe, se devuelve un error

Ahora, si pasamos a loc una lista de etiquetas, estaremos extrayendo las filas cuyas etiquetas no se indican, y en el orden en el que aparezcan en la lista

In [None]:
#Crear un arreglo con indice, columnas y valores de 0 - 17 y cuerpo de 6x3
import numpy as np
import pandas as pd

# se crea el contenido del dataframe
contenido = np.arange(18).reshape([6, 3])

# se crea el indice del dataframe
indice = ["a", "b", "c", "d", "e", "f"]

# se crean las columnas del dataframe
columnas = ["A", "B", "C"]

# se crea el dataframe
df = pd.DataFrame(contenido, indice,columnas)

# se imprime el dataframe
df

In [None]:
# se imprime un subconjunto de indices cuyas etiquetas fueron seleccionadas de forma arbitraria
df.loc[["c","a","e"]]


In [None]:
# se imprime un subconjunto de un solo indice cuya etiqueta fue seleccionada de forma arbitraria
df.loc[["c"]]

Otra opción es utilizar rangos limitados por etiquetas. De esta forma, si continuamos con el mismo ejemplo:

In [None]:
# se imprime un subconjunto a partir de un rango de etiquetas 
df.loc["b":"d"]

# Extracción de filas y columnas

In [None]:
#Crear un arreglo con indice, columnas y valores de 0 - 17 y cuerpo de 6x3
import numpy as np
import pandas as pd

# se crea el contenido del dataframe
contenido = np.arange(18).reshape([6, 3])

# se crea el indice del dataframe
indice = ["a", "b", "c", "d", "e", "f"]

# se crean las columnas del dataframe
columnas = ["A", "B", "C"]

# se crea el dataframe
df = pd.DataFrame(contenido,indice,columnas)

# se imprime el dataframe
df

In [None]:
# se imprime un subconjunto a partir de un indice "a" y una columna (serie) "C"
df.loc["a", "C"]

Podemos sustituir una de las dos etiquetas por el símbolo de dos puntos (:), lo que supondrá seleccionar todos los elementos de ese eje:

In [None]:
# se imprime un subconjunto de todos los indices del dataframe para la columna (seria) "A"
df.loc[: ,"A"] # -> F:F, C,C

Esto supone que, por ejemplo, las dos expresiones siguientes devuelven el mismo resultado:

In [None]:
# se imprime el indice "b" en todas las columnas (series)
df.loc["b"]

In [None]:
# desde otra sintaxis, se imprime el indice "b" en todas las columnas (series)
df.loc["b", :]

Los métodos vistos pueden combinarse. Podemos, por ejemplo, seleccionar la intersección de las filas e y c (en este orden) y la columna B:

In [None]:
# se imprime un subconjunto con los indices "e" y "c" que se interceptan con la columna (serie) "B"
print(df)

df.loc[["e", "c"], "B"]

# El método iloc

El método **pandas.DataFrame.iloc** permite realizar selecciones por posición. Tal y como cabría esperar, pueden utilizarse diferentes tipos de argumentos que determinan qué elementos se están extrayendo.

En este primer caso cuando hacemos uso un número entero estamos seleccionando la fila cuyo índice se indica

In [None]:
#Crear un arreglo con indice, columnas y valores de 0 - 17 y cuerpo de 6x3
import numpy as np
import pandas as pd

# se crea el contenido del dataframe
contenido = np.random.randint(0, 10, 18).reshape([6, 3])

# se crea el indice del dataframe
indice = ["a", "b", "c", "d", "e", "f"]

# se crean las columnas del dataframe
columnas = ["A", "B", "C"]

# se crea el dataframe
df = pd.DataFrame(contenido,indice,columnas)
             
# se imprime el dataframe
df

In [None]:
# se imprime un subconjunto a partir de los elementos del indice 2 en todas las columnas (series)
df.iloc[2]

El número indicado siempre será tratado como posición, y no como etiqueta:

In [None]:
#Crear un arreglo con indice, columnas y valores de 0 - 17 y cuerpo de 6x3
import numpy as np
import pandas as pd

# se crea el contenido del dataframe
contenido = np.arange(12).reshape([4, 3])

# se crea el indice del dataframe
indice = [3, 2, 1, 0]

# se crean las columnas del dataframe
columnas = ["A", "B", "C"]

# se crea el dataframe
df = pd.DataFrame(contenido,indice,columnas)
             
# se imprime el dataframe
df

In [None]:
# se imprime un subconjunto a partir de los elementos del indice 3 en todas las columnas (series), omitiendo las etiquetas
df.iloc[3]

Si el número es negativo, hace referencia al final del dataframe. Así, siguiendo con este último ejemplo:

In [None]:
# se imprime un subconjunto a partir de los elementos del indice -1 (último) en todas las columnas (series), omitiendo las etiquetas
df.iloc[-1]

Si utilizamos como argumento una lista o array de números, estamos extrayendo las filas cuyos índices son los elementos del mismo, y en el orden en el que aparecen en él:

In [None]:
# se imprime un subconjunto a partir de los elementos de los indice 3 y 1 en todas las columnas (series), omitiendo las etiquetas
print(df)

df.iloc[[3, 1]]

En el ejemplo anterior, estamos extrayendo las filas cuyos índices son 3 y 1, y extrayéndolas en este mismo orden.

Si alguno de los índices es negativo, hará referencia al final de la lista.

Si utilizamos un rango de números, como en el siguiente ejemplo en el que indicamos como argumento 2:4, estamos extrayendo las filas cuyos índices van de la primera cifra del rango incluida (2 en el ejemplo) hasta la última cifra sin incluir (4 en el ejemplo):

In [None]:
# se imprime el dataframe
df

In [None]:
# se imprime un subconjunto a partir de los elementos del indice 2 hasta el 4 en todas las columnas (series), omitiendo las etiquetas
df.iloc[2:]

Como suele ser habitual, si no se especifica el primer valor, se consideran las filas desde la primera. Y si no se especifica el último valor, se consideran las filas hasta la última (incluida):

In [None]:
# se imprime un subconjunto hasta el indice 3 en todas las columnas (series), omitiendo las etiquetas
df.iloc[:3]

In [None]:
# se imprime un subconjunto desde el indice 3 en todas las columnas (series), omitiendo las etiquetas
df.iloc[3:]

También pueden usarse valores negativos para especificar el comienzo o el final del rango.

# Extracción de filas y columnas

Si añadimos un segundo argumento, estaremos haciendo referencia al índice de columna:

In [None]:
#Crear un arreglo con indice, columnas y valores de 0 - 17 y cuerpo de 6x3
import numpy as np
import pandas as pd

# se crea el contenido del dataframe
contenido = np.random.randint(0, 10, 18).reshape([6, 3])

# se crea el indice del dataframe
indice = ["a", "b", "c", "d", "e", "f"]

# se crean las columnas del dataframe
columnas = ["A", "B", "C"]

# se crea el dataframe
df = pd.DataFrame(contenido,indice, columnas)
             
# se imprime el dataframe
df

In [None]:
# se imprime el valor correspondiente a la fila cuyo índice es 3 y a la columna (serie) cuyo índice es 1.
df.iloc[3, 1] #[F,C]

#  Selección con índices y etiquetas simultáneamente

En ocasiones nos encontraremos con que resultaría de utilidad poder realizar selecciones mezclando etiquetas e índices, y los métodos vistos, loc e iloc, solo permiten el uso de etiquetas o de índices, respectivamente. Para poder mezclar ambos tipos de referencias podemos recurrir a los métodos pandas.Index.get_loc y pandas.Index.get_indexer, métodos asociados a los índices de un dataframe:

El primero, get_loc, devuelve el índice de la etiqueta que se adjunte como parámetro. El segundo, get_indexer, devuelve un array con los índices de las etiquetas que se adjunten en forma de lista como parámetro. Por ejemplo, partimos del siguiente dataframe:

In [None]:
#Crear un arreglo con indice, columnas y valores de 0 - 17 y cuerpo de 6x3
import numpy as np
import pandas as pd

# se crea el contenido del dataframe
contenido = np.arange(18).reshape([6, 3])

# se crea el indice del dataframe
indice = ["a", "b", "c", "d", "e", "f"]

# se crean las columnas del dataframe
columnas = ["A", "B", "C"]

# se crea el dataframe
df = pd.DataFrame(contenido, index = indice, columns = columnas)
             
# se imprime el dataframe
df

### Método **pandas.columns.get_loc**

In [None]:
# se imprime el dataframe
print(df)

# se imprime el indice de la columna (serie) "B" solicitado
df.columns.get_loc("B")

### Método **pandas.columns.get_indexer**

In [None]:
# se imprime el dataframe
print(df)

# se imprime un arreglo con los indices de las columnas (serie) "A" y "C" solicitados
df.columns.get_indexer(["A", "C"])

### Método **pandas.index.get_loc**

In [None]:
# se imprime el dataframe
print(df)

# se imprime el indice de la fila "c" solicitado
df.index.get_loc("c")

### Método **pandas.index.get_indexer**

In [None]:
# se imprime el dataframe
print(df)

# se imprime un arreglo con los indices de las flias "c" y "e" solicitados
df.index.get_indexer(["c", "e"])

Otros ejemplos son:

In [None]:
# se imprime el dataframe
print(df)

# se imprime el elemento de la fila "c"  y columna (serie) 2 solicitado. Este valor es equivalente a escribir df.iloc[2,2]
df.iloc[df.index.get_loc("c"), 2]

In [None]:
# se imprime el dataframe de las filas 5 y 3 (en este orden) los valores correspondientes a las columnas C y A (en este orden)
print(df)

# se imprime 
df.iloc[[5, 3], df.columns.get_indexer(["C", "A"])] #[f,f][c,c]

# Uso de listas de booleanos

Si partimos del mismo dataframe usado en la sección anterior, podemos crear una lista de booleanos (que, por motivos puramente pedagógicos, asignamos a una variable, mask) y realizar la selección con ella entre los corchetes. Vemos a continuación que este método también selecciona filas del dataframe:

In [None]:
#Crear un arreglo con indice, columnas y valores de 0 - 17 y cuerpo de 6x3
import numpy as np
import pandas as pd

# se crea el contenido del dataframe
contenido = np.arange(18).reshape([6, 3])

# se crea el indice del dataframe
indice = ["a", "b", "c", "d", "e", "f"]

# se crean las columnas del dataframe
columnas = ["A", "B", "C"]

# se crea el dataframe
df = pd.DataFrame(contenido, indice,columnas)
             
# se imprime el dataframe
df

In [None]:
# se imprime las filas que cumplan con la condición "True"
mask = [True, False, True, False, False, True]
df[mask]

El vector de booleanos deberá tener la misma longitud que el índice de filas (es decir, un booleano por fila) y la selección devolverá aquellas filas para las que el elemento correspondiente del vector tome el valor True.

La verdadera potencia de este estilo de selección se pone de manifiesto cuando la máscara se genera a partir de los datos del propio dataframe. Por ejemplo, si queremos seleccionar las filas para las que el valor de la columna A sea mayor que 7:

In [None]:
# se imprime el dataframe
print(df)

# se imprimen las filas cuyo valor en la columna (serie) "A"  cumplan con la proposición solicitada
df[df.A > 7]

Esta técnica también es compatible con los métodos loc e iloc, con algún matiz adicional:

Con loc podemos usar directamente una expresión de comparación

In [None]:
# se imprime el dataframe
print(df)

# se imprimen las filas cuyo valor en la columna (serie) "B"  cumplan con la proposición solicitada
df.loc[df.B > 6]

Sin embargo, con iloc nos veremos obligados a extraer los valores del dataframe resultante de la comparación -tal y como ocurría con las series- pues, de otro modo, obtendremos un error:

In [None]:
# se imprime el dataframe
print(df)

# se imprimen las filas cuyo valor en la columna (serie) "B"  cumplan con la proposición solicitada
df.iloc[(df.B > 6 ).values]

Evitamos problemas si, tal y como sugiere pandas, utilizamos siempre el método loc.

# Selección aleatoria

El método **pandas.DataFrame.sample**, permite especificar el número de elementos a extraer, a traves de los parametros:

* Porcentaje respecto del total, con el parámetros **n** y **frac**
* Si la extracción se realiza con reemplazo o no (parámetro **replace**)
* Pesos a aplicar a los elementos para realizar una extracción aleatoria ponderada (parámetro **weights**)
* Semilla para el generador de números aleatorios que asegure la reproducibilidad de la extracción (parámetro **random_state**)
* También es posible indicar el eje a lo largo del cual se desea realizar la extracción (por defecto se extraen filas, correspondiente al eje 0).

In [None]:
#Crear un arreglo con indice, columnas y valores de 0 - 17 y cuerpo de 6x3
import numpy as np
import pandas as pd

# se crea el contenido del dataframe
contenido = np.arange(18).reshape([6, 3])

# se crea el indice del dataframe
indice = ["a", "b", "c", "d", "e", "f"]

# se crean las columnas del dataframe
columnas = ["A", "B", "C"]

# se crea el dataframe
df = pd.DataFrame(contenido,indice,columnas)

In [None]:
# se imprime el dataframe
print(df)

# se imprime la extracción de 2 filas de forma aleatoria, sin reemplazo (opción por defecto) y fijando como semilla del generador de números aleatorios el número 18.
df.sample(4, random_state = 18) # -> por defecto el axis es cero (filas)

Si especificamos como eje el valor 1, estaremos extrayendo columnas:

In [None]:
# se imprime el dataframe
print(df)

# se imprime dos columnas (2) (series) (axis = 1)  con una semilla = 18
df.sample(2, random_state = 18, axis = 1)

Si hacemos uso del parámetro frac, podemos especificar el porcentaje de elementos a extraer:

In [None]:
# se imprime el dataframe
print(df)

# se imprime el 60% de las filas del dataframe
df.sample(frac = 0.60, random_state = 18)

# El método pop

Otra forma de extraer datos es la proporcionada por el método pandas.DataFrame.pop, que extrae y elimina una columna de un dataframe:

In [None]:
#Crear un arreglo con indice, columnas y valores de 0 - 15 y cuerpo de 3x5
import numpy as np
import pandas as pd

# se crea el contenido del dataframe
contenido = np.arange(15).reshape([3, 5])

# se crea el indice del dataframe
indice = ["a", "b", "c"]

# se crean las columnas del dataframe
columnas = ["A", "B", "C", "D", "E"]

# se crea el dataframe
df = pd.DataFrame(contenido, indice, columnas)

In [None]:
# se imprime el dataframe
print(f'Dataframe original \n\n{df}')

# se selecciona la columna "B" para borrarse
columna = df.pop("B")

# se imprime pop
print(f'\nDatagrama eliminado con el método pop \n\n{columna}')

# se imprime el dataframe resultante
print(print(f'\nDatagrama actualizado \n\n{df}'))

# Resumen de tipos de selección 

La cantidad de posibilidades que nos ofrece la librería pandas a la hora de extraer información de un dataframe puede resultar un tanto abrumadora. Veamos un resumen de las principales técnicas vistas y qué estamos extrayendo con cada una. En la siguiente lista e representa una etiqueta, i un índice y b un booleano:

<img src="https://i.imgur.com/B0BpStV.png">

No se incluyen en el listado anterior combinaciones de estos métodos ni los métodos para la selección usando índices y etiquetas simultáneamente.

Aunque, a primera vista, pueda parecer bastante confuso, es posible destacar algunas reglas básicas:

1. Cuando se usan los métodos loc o iloc, el primer argumento siempre hace referencia a filas y el segundo a columnas. Esto significa que si no se incluye el segundo argumento, siempre estaremos extrayendo filas.
2. El método get devuelve columnas.
3. Sin incluir los métodos loc, iloc y get, solo hay -en el listado anterior- dos formas de extraer columnas: usando como argumento una etiqueta y usando como argumento una lista de etiquetas.
4. Del punto anterior extraemos como corolario que cualquier otra notación va a devolver filas (el uso de rangos y el uso de listas de booleanos)

Y, de hecho, si de los cuatro puntos anteriores quitamos los dos primeros por obvios, nos quedan dos reglas muy simples:

1. El uso de una etiqueta o de una lista de etiquetas devuelve columnas
2. En otros casos se devuelven filas (rangos de números o de etiquetas, o listas de booleanos)

Y, al respecto del tipo de estructura devuelta (si es un escalar, una serie o un dataframe) también es posible identificar una regla: salvo el caso más obvio en el que estemos extrayendo un valor resultante de la intersección de una fila y una columna, si la nomenclatura que estamos usado permite extraer más de una fila o de una columna (aunque estemos extrayendo solo una en un momento dado) devolverá siempre dataframes y, en caso contrario, series.

Por ejemplo, el uso de rangos permite extraer más de una fila (o de una columna), de forma que su uso siempre devuelve un dataframe. Así, df["e1":"e2"] siempre devolverá un dataframe, aunque en este ejemplo estemos usando el rango para extraer una única columna.

Otro ejemplo: si estamos usando la notación df.loc[:, "e"], estamos extrayendo una columna y solo una columna, y con esta notación (dos puntos para las filas y una etiqueta para columnas) nunca podríamos extraer más de una columna, de forma que el resultado de la extracción siempre será una serie.

# Edición de series 

Podemos modificar un valor de una serie usando la notación corchetes, y haciendo referencia a índices o a etiquetas:

In [None]:
import numpy as np
import pandas as pd

# se crea el contenido del dataframe
Lista = [1, 2, 3, 4, 5]

# se crea el indice del dataframe
indice = ["a", "b", "c", "d", "e"]

# se crea el dataframe
s = pd.Series(Lista, indice)

# se imprime la serie
s

In [None]:
# se cambia en valor del indice 0 por  -1
s[0] = -1

# se imprime la serie
s

In [None]:
# se cambia en valor de la etiqueta "b" por  -2
s["b"] = -2

# se imprime la serie
s

Podemos asignar un valor a un rango, definido éste por índices o por etiquetas, asignándose dicho valor a cada uno de los elementos involucrados en el rango:

In [None]:
# se cambia el valor del rango 1 a 3 por  0
s[1:3] = 0

# se imprime la serie
s

In [None]:
# se cambia el valor del rango de "b" a "d" por -2
s["b":"d"] = -2 

# se imprime la serie
s

Como ya hemos visto en más de una ocasión, si el rango está delimitado por números (haciendo referencia a la posición de los elementos), el último elemento del rango no se incluye. Por el contrario, si está delimitado por etiquetas, el último elemento sí se incluye.

Al rango podemos asignar también una lista de valores, aunque en este caso la lista deberá tener el mismo número de elementos que el rango en cuestión:

In [None]:
s

# se cambia el valor del rango de 1 a 3 por el rango de 0-1 respectivamente
s[1:3] = [0, 1] 

# se imprime la serie
s

In [None]:
s

# se cambia el valor del rango de 1 a 3 por el rango de 0-1 respectivamente
s["b":"d"] = [500, 400, 600] 

# se imprime la serie
s

In [None]:
import numpy as np
import pandas as pd

# se crea el contenido del dataframe
Lista = [1, 2, 3, 4, 5]

# se crea el indice del dataframe
indice = ["a", "b", "c", "d", "e"]

# se crea el dataframe
s = pd.Series(Lista,indice)

# se imprime la serie
s

In [None]:
# se cambia el valor del rango de "b" a "d" por el rango 10-12 respectivamente
s["b":"d"] = [10, 11, 12]

# se imprime la serie
s

Si asignamos un valor haciendo referencia a una etiqueta que no existe en el índice, se añade dicha etiqueta al índice y se le asigna el valor:

In [None]:
# se agrega un nuevo indice con el valor de 0
s["f"] = 0

# se imprime la serie
s

Esto solo funciona con etiquetas. Si utilizamos un índice y éste no existe en la serie, se devolverá un error.

Si usamos un rango con etiquetas y alguna de las etiquetas no existe, solo se asigna el valor a las existentes:

In [None]:
# se asigna el valor de 99 a los indices "f" y "h"
s["f":"h"] = 99

# se imprime la serie
s

Por último, también podemos usar en la selección una lista -tanto de índices como de etiquetas-, en cuyo caso ya sabemos que estamos seleccionando los valores indicados en el orden indicado. Por ejemplo, podemos usar la lista ["c", "a"] para asignar a los elementos correspondientes los valores 1 y 2, respectivamente:

In [None]:
# se asigna los valores de 100 y 200 a los indices "c" y "d"
s[["c", "d"]] = [100, 200]

# se imprime la serie
s

Si utilizamos índices, el resultado es semejante:

In [None]:
# se asigna los valores de 2000 y 3000 a los indices 1 y 0
s[[1, 0]] = [2000, 3000]

# se imprime la serie
s

# Eliminación de series con el método drop

El método ***pandas.Series.drop*** devuelve una copia de la serie tras eliminar el elemento cuya etiqueta se especifica como argumento

In [None]:
import numpy as np
import pandas as pd

# se crea el contenido del dataframe
Lista = [1, 2, 3, 4, 5]

# se crea el indice del dataframe
indice = ["a", "b", "c", "d", "e"]

# se crea el dataframe
s = pd.Series(Lista, indice)

# se imprime la serie
s

In [None]:
# se imprime una copia de la serie sin el indice "b"
print(s.drop("b"))

En este ejemplo hemos pasado como único argumento la etiqueta del elemento a eliminar, y el método ha devuelto la serie sin dicho elemento. Si la etiqueta no se encontrase en la serie, se devolvería un error.

También podemos pasar como argumento no una etiqueta, sino una lista de etiquetas. En este caso se eliminarán todos los elementos con dichas etiquetas:

In [None]:
s

In [None]:
# se imprime una copia de la serie sin los indices "d" y "a"
print(f'Uso del drop \n\n{s.drop(["d", "a"])}')

# se imprime una copia de la serie sin los indices "b" y "e"
print(f'\nUso del drop \n\n{s.drop(["b", "e"])}')

**Importante**

* Obsérvese que las etiquetas no tienen que estar en orden.
* Este método exige el uso de etiquetas para seleccionar los elementos a eliminar

# Método Where (Buscar - Buscar/Reemplazar)

* El método **pandas.Series.where** permite filtrar los valores de una serie de forma que solo los que cumplan cierta condición se mantengan. 

* Los valores que no la cumplan son sustituidos por un valor (NaN por defecto):

In [None]:
import numpy as np
import pandas as pd

# se crea el contenido del dataframe
Lista = np.arange(0, 10)

# se crea el dataframe
s = pd.Series(Lista)

# se imprime la serie
s

Supongamos ahora que queremos filtrar los valores de s que sean pares:

In [None]:
# se imprime la serie completa, sin embargo, los valores que no cumplan con la proposición aparecen como NaN
print(s.where(s % 2 == 0))

In [None]:
# se imprime la serie completa, sin embargo, los valores que no cumplan con la proposición son cambiados por -1
s.where(s % 2 == 0, -1)

# Edición de DataFrame

Podemos modificar un valor concreto usando los métodos **loc** o **iloc**, en función de que queramos usar sus etiquetas o índices:

In [None]:
import numpy as np
import pandas as pd

# se crea el contenido del dataframe
contenido = np.arange(12).reshape([4, 3])

# se crea el indice del dataframe
indice = ["a", "b", "c", "d"]

# se crea las columnas del dataframe
columna = ["A", "B", "C"]

# se crea el dataframe
df = pd.DataFrame(contenido, index = indice, columns = columna)

# se imprime la serie
df

In [None]:
# se imprime el dataframe cambiando el valor del indice [1, 2] con el número -1
df.iloc[1, 2] = -1

# se imprime la serie
df

Podemos modificar una columna completa seleccionándola y asignándole, por ejemplo, una lista con los nuevos valores. Si partimos del mismo ejemplo que en el caso anterior...

In [None]:
# se imprime el dataframe cambiando el valor de toda la columna (serie) "A" por los valores de la Lista
df["A"] = [10, 20, 30, 40]

# se imprime la serie
df

En este caso, la longitud de la lista conteniendo los valores a insertar deberá coincidir con la longitud de la columna, salvo que en lugar de una lista se esté asignando un único valor, en cuyo caso se propagará a toda la columna.

Si la selección es un bloque de datos de un tamaño arbitrario, nos encontramos en el mismo escenario: o bien insertamos datos con el mismo tamaño que la selección, o insertamos un único valor que se propagará a toda la selección. Veamos el primer caso:

In [None]:
import numpy as np
import pandas as pd

# se crea el contenido del dataframe
contenido = np.arange(12).reshape([4, 3])

# se crea el indice del dataframe
indice = ["a", "b", "c", "d"]

# se crea las columnas del dataframe
columna = ["A", "B", "C"]

# se crea el dataframe
df = pd.DataFrame(contenido, index = indice, columns = columna)

# se imprime el dataframe
df

In [None]:
# se imprime el dataframe con los nuevos valores de la forma: "b"-"A" = -1; "b"-"B" = -2; "c"-"A" = -3; "c"-"B" = -4
df.loc["b":"c", "A":"B"] = [[-1, -2], [-3, -4]]

# se imprime el dataframe
df

En este ejemplo hemos seleccionado un bloque de 2x2, y hemos insertado datos con una estructura de las mismas dimensiones.

In [None]:
# se imprime el dataframe con el valor -1 de la forma: "b"-"A" = -1; "b"-"B" = -; "c"-"A" = -1; "c"-"B" = -1
df.loc["b":"c", "A":"B"] = -1 

# se imprime el dataframe
df

In [None]:
#Se imprime el dataframe con una nueva columna (serie) "D"
df["D"] = [10, 20, 30, 40] 

# se imprime el dataframe
df

In [None]:
#Se imprime el dataframe con una nueva fila "e""
df.loc["e"] = [10, 20, 30, 40] 

# se imprime el dataframe
df

# El método Where

De forma semejante a las series, el método de los dataframes where filtra los valores contenidos en el dataframe de forma que solo los que cumplan cierta condición se mantengan. El resto de valores son sustituidos por un valor que, por defecto, es NaN.

Por ejemplo, partimos del siguiente dataframe:

In [None]:
import numpy as np
import pandas as pd

# se crea el contenido del dataframe
contenido = np.arange(12).reshape(-1, 3)

# se crea las columnas del dataframe
columna = ["A", "B", "C"]

# se crea el dataframe
df = pd.DataFrame(contenido, columns = columna)

# se imprime el dataframe
df

Si ahora queremos filtrar los valores múltiplos de 2, por ejemplo, podemos hacerlo de la siguiente forma:

In [None]:
#se imprime el dataframe con los valores que cumplen con la proposición, mientras que los que no, aparecen como NaN
df.where(df % 2 == 0, 111)

Todos aquellos valores que no son múltiplo de 2 son sustituidos por NaN. Si, por ejemplo, quisiéramos cambiar de signo a los valores que no cumplen la condición impuesta, lo haríamos así:

In [None]:
import numpy as np
import pandas as pd

# se crea el contenido del dataframe
contenido = np.arange(12).reshape(-1, 3)

# se crea las columnas del dataframe
columna = ["A", "B", "C"]

# se crea el dataframe
df = pd.DataFrame(contenido, columns = columna)

# se imprime el dataframe con los valores impares en forma negativa
df.where(df % 2 == 0, -df)

# Eliminación de elementos 

El método **pandas.DataFrame.drop** elimina las filas o columnas indicadas y devuelve el resultado, permitiéndose diferentes criterios para especificarlas.

In [None]:
import numpy as np
import pandas as pd

# se crea el contenido del dataframe
contenido = np.arange(16).reshape([4, 4])

# se crea los indices del dataframe
indice = ["a", "b", "c", "d"]

# se crea las columnas del dataframe
columna = ["A", "B", "C", "D"]

# se crea el dataframe
df = pd.DataFrame(contenido, index = indice, columns = columna)

# se imprime el dataframe
df

Podemos eliminar, por ejemplo, las filas cuyas etiquetas son "a" y "c" con el siguiente código:

In [None]:
# se imprime el dataframe sin los indices (axis 0) "a" y "c"
df.drop(["a", "c"],axis = 0)

In [None]:
# también de la forma
df.drop(["a", "c"])

In [None]:
# también de la forma
df.drop(index = ["a", "c"])

Para eliminar columnas, habría que indicar el eje correspondiente:

In [None]:
# se imprime el dataframe sin las columnas (series) (axis 1) "B" y "D"
df.drop(["B", "D"], axis = 1) #axis 0 Filas, axis 1 columnas

In [None]:
# también de la forma
df.drop(columns = ["B", "D"])

# Unión de series y dataframes

Frecuentemente nos encontramos con que los datos a analizar están repartidos entre dos o más bloques de datos, lo que nos obliga a unirlos, bien concatenándolos, o bien realizando un "join" entre las estructuras (uniones del mismo tipo que las realizadas en bases de datos). Revisemos las funciones asociadas.

# Unión de series

Comencemos revisando las opciones disponibles para las series pandas

# La función concat

In [None]:
# definimos la serie s
s = pd.Series([1, 2, 3, 4, 5,], index = ["a", "b", "c", "d", "e"])
# definimos la serie r
r = pd.Series([10, 11, 12], index = ["f", "g", "h"])

# utilizamos el método concat para unir la serie "s" y "r"
t = pd.concat([s, r])

# se imprime la nueva serie
print(f'La nueva serie \n{t}')

Podemos ver en el ejemplo anterior que el resultado es una serie pandas.

Si especificamos como eje de concatenación el eje 1, pandas alineará los valores con idénticas etiquetas. En el siguiente ejemplo, las series a y b tienen algunas etiquetas comunes (y otras no). El resultado incluye todas las etiquetas asignando el valor NaN ("Not a Number") a aquellos valores desconocidos:

In [None]:
# definimos la serie a
a = pd.Series([1, 2, 3, 4, 5,], index = ["a", "b", "c", "d", "e"])
# definimos la serie b
b = pd.Series([10, 11, 12], index = ["a", "b", "f"])

# utilizamos el método concat para unir la serie "a" y "b". Se crea una serie con los valores donde existan, de resto, aparece NaN
x = pd.concat([a, b], axis = 1, sort = True) # sort oculta cierto aviso al respecto de un cambio en la funcionalidad de esta función en versiones futuras de la librería pandas
x

Por otro lado, ya sabemos que las etiquetas del índice no tienen por qué ser diferentes, de forma que si estuviésemos concatenando series con etiquetas comunes en sus índices, el resultado sería equivalente a los vistos hasta ahora:

In [None]:
# definimos la serie s
s = pd.Series([1, 2, 3, 4], index = ["a", "b", "c", "d"])
# definimos la serie r
r = pd.Series([10, 11, 12], index = ["a", "c", "e"])

# se imprime una nueva seria con la union de todos los valores de las listas
pd.concat([s, r])

# El método append

El método **pandas.Series.append** es la versión simplificada de la función **concat**  que devuelve la unión de la serie sobre la que se aplica con otra (u otras) series, pero solo a lo largo del eje 0.

In [None]:
#Version concat simplificada
a = pd.Series([1, 2, 3, 4, 5], index = ["a", "b", "c", "d", "e"])
b = pd.Series([10, 11, 12], index = ["f", "g", "h"])

c = a.append(b)

# se imprime la nueva serie
c

Si el argumento ignore_index toma el valor True, se ignoran las etiquetas de las series:

In [None]:
c = a.append(b, ignore_index = True) #Solo valores

# se imprime la nueva serie
c

# Concatenación y unión de dataframes

Ésta es otra de las áreas en las que la variedad de opciones puede resultar confusa. A modo de resumen, digamos que pandas ofrece 3 funciones con este objetivo: 

### **pandas.concat** 

* La función concat permite concatenar dataframes a lo largo de un determinado eje


### **pandas.merge**

* La función merge permite realizar uniones (joins) entre dataframes tal y como se realizan en bases de datos. Esta función también está disponible como método: **pandas.DataFrame.merge**

### **pandas.DataFrame.append**

* Ofrece una funcionalidad semejante a la de la función concat pero reducida. Así, por ejemplo, solo permite realizar concatenaciones a lo largo del eje 0 (es decir, verticalmente).

In [None]:
import numpy as np

lista = np.arange(9).reshape([3, 3])
indices = ["a", "b", "d"]
columnas = ["A", "B", "C"]

df1 = pd.DataFrame(lista,indices,columnas) 
df1

In [None]:
lista2 = np.arange(12).reshape([4, 3])
indices2 = index = ["a", "b", "c", "e"]
columnas2 = ["B", "C", "D"]
df2 = pd.DataFrame(lista2, indices2, columnas2)
df2

In [None]:
pd.concat([df1, df2], sort = False) 

Si especificamos que la concatenación se realice a lo largo del eje 1 (eje horizontal), el resultado es el siguiente:

In [None]:
pd.concat([df1, df2], axis = 1, sort = False)

Ahora, si consideramos el argumento **join = "Inner"** los resultados pasan a considerar solo las etiquetas comunes incluyendo solo las columnas B y C comunes a ambos dataframes

In [None]:
pd.concat([df1, df2], join = "inner") #Solo muestra etiquetas comunes, por defecto outer.

Para el segundo ejemplo tenemos que se incluyen solo las filas a y b comunes a ambos dataframes.

In [None]:
pd.concat([df1, df2], axis = 1, join = "inner") #Solo muestra etiquetas comunes, por defecto outer.

El parámetro **ignore_index** controla el índice a asignar al eje a lo largo del cuál se realiza la concatenación. 

* Si este parámetro es False (por defecto), el eje de concatenación mantiene las etiquetas de los dataframes originales. 
* Si toma el valor True, se ignoran dichas etiquetas y el resultado de la concatenación recibe un nuevo índice automático numérico.

In [None]:
pd.concat([df1, df2], axis = 1, join = "inner", ignore_index = True)

# El método append

Es un atajo de la función **concat** que ofrece funcionalidad semejante pero limitada: 

* No permite especificar el eje de concatenación (siempre es el eje 0) ni el tipo de "join" (siempre es tipo "Outer").

In [None]:
df1 = pd.DataFrame(np.arange(9).reshape([3, 3]),
                  index = ["a", "b", "d"],
                  columns = ["A", "B", "C"]) 
df1

In [None]:
df2 = pd.DataFrame(np.arange(12).reshape([4, 3]),
                  index = ["a", "b", "c", "e"],
                  columns = ["B", "C", "D"]) 
df2

...podemos ver cuál es el resultado de aplicar este método a df1:

In [None]:
df1.append(df2, sort = False)

Al igual que ocurría con la función concat, el parámetro ignore_index nos permite controlar las etiquetas que recibe el índice del resultado: las de los dataframes originales (con ignore_index = False, opción por defecto), o uno nuevo automático (con ignore_index = True).

# Ejercicio

In [1]:
import pandas as pd


def ejercicio(l1, l2):

    indices = ["texto", "números"]
    columnas = ["A","B","C","D"]
    salida = pd.DataFrame([lista1, lista2], indices, columnas)
    salida.index.name = "caracteres"
    salida.columns.name = "Letras"
    return salida


lista1 = ['viendo', 'clase', 'de', 'Python']
lista2 = [1, 2, 3, 4]

ejercicio(lista1, lista2)

Letras,A,B,C,D
caracteres,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
texto,viendo,clase,de,Python
números,1,2,3,4
