# Instalación de dependencias e importación de librerías necesarias

In [1]:
pip install Faker




In [2]:
import pandas as pd
import hashlib 
from faker import Faker
from dateutil.relativedelta import relativedelta
from datetime import datetime, date
import math
Faker.seed(1234)
fake = Faker(['es_ES'])

In [3]:
def get_people(num):
  i = 0
  while i < num:
    birth_date = fake.date_between_dates(datetime(1960, 1, 1), datetime(2003, 1, 1))
    current_date = datetime(2021, 1, 1) # date.today()
    age = relativedelta(current_date, birth_date).years
    yield {
      "id": hashlib.md5(i.to_bytes((i.bit_length() + 7) // 8, byteorder='big')).hexdigest(),
      "nombre": fake.first_name(),
      "apellidos": fake.last_name(),
      "fecha_nacimiento": fake.date_between_dates(datetime(1960, 1, 1), datetime(2002, 6, 1)),
      "email": fake.email(),
      "telefono": fake.phone_number(),
      "trabajo": fake.job(),
      "edad": age
    }
    i += 1

# Manipulación de datos con Pandas

`pandas` es una librería de Python que nos proporciona estructuras y herramientas de alto nivel orientadas al análisis de datos y extracción de información.

Algunas de sus principales características son las siguientes:

* Define el **`DataFrame`**, un tipo de datos abstracto, que facilita la **recuperación** y **manipulación** de datos.
* Incorpora funcionalidad para el **tratamiento de valores ausentes** (nulos).
* Incorpora funciones para la __*limpieza* de datos__.
* Soporta una gran variedad de **formatos de entrada y salida** soportados: JSON, CSV, TSV, SQL, Excel, etc.
* Incluye operaciones para **concatenar, combinar, particionar** DataFrames, así como para la obtención de **agregaciones** sobre ellos.
* Altamente **optimizada**.

Podemos imaginar un DataFrame como una tabla de una base de datos relacional. Un DataFrame contendrá un conjunto de **columnas** nombradas, con un tipo de datos asociado. Cada una de estas columnas estará implementada por un objeto de tipo `Series` y todas ellas estarán alineadas por una etiqueta de índice, a través de la cual podremos recuperar los valores.

## Construcción y estructura de un DataFrame

### Inicialización de un DataFrame

Un `DataFrame` puede crearse a partir de una lista de diccionarios:

In [4]:
pd.DataFrame([{"id": 1, "test": "prueba", "value": "ok"}, {"id": 2, "test": "otro", "value": "no"}])

Unnamed: 0,id,test,value
0,1,prueba,ok
1,2,otro,no


También puede crearse a partir de un diccionario de listas:

In [5]:
pd.DataFrame({"id": [1, 2], "test": ["prueba", "otro"], "value": ["ok", "no"]})

Unnamed: 0,id,test,value
0,1,prueba,ok
1,2,otro,no


También puede crearse a partir de listas:

In [6]:
pd.DataFrame([[1,"prueba","ok"], [2, "otro", "no"]], columns=["id", "test", "value"])

Unnamed: 0,id,test,value
0,1,prueba,ok
1,2,otro,no


Y también puede hacerse a partir de objetos tipo `Serie` (recordemos que cada `Serie` representa una **columna** en el **DataFrame**):

In [7]:
serie1 = pd.Series([1,2])
serie2 = pd.Series(["prueba", "otro"])
serie3 = pd.Series(["ok", "no"])
pd.DataFrame({"id": serie1, "test": serie2, "value": serie3})

Unnamed: 0,id,test,value
0,1,prueba,ok
1,2,otro,no


### Dimensiones de un DataFrame

A partir de ahora, utilizaremos un conjunto generado de 10 personas para probar las operaciones más relevantes sobre `DataFrames`:

In [8]:
people1_df = pd.DataFrame([person for person in get_people(10)])
people1_df

Unnamed: 0,id,nombre,apellidos,fecha_nacimiento,email,telefono,trabajo,edad
0,d41d8cd98f00b204e9800998ecf8427e,Demetrio,Aguilera,1966-03-02,blanesclimaco@example.com,+34 879 00 05 97,Operador de plantas y máquinas de productos qu...,31
1,55a54008ad1ba589aa210d2629c1df41,Eustaquio,Bou,1972-06-16,alcarazanita@example.com,+34881 187 191,Mecánico y reparador de motores de avión,29
2,9e688c58a5487b8eaf69c9e1005ad0bf,Arturo,Lerma,1997-11-12,matealicia@example.com,+34 884 33 78 08,Asesor de inversiones,21
3,8666683506aacd900bbd5a74ac4edf68,Nazario,Cobo,1992-03-05,ddiego@example.org,+34980218320,Escribiente público,60
4,ec7f7e7bb43742ce868145f71d37b53c,Benita,Cid,1980-10-12,aarino@example.com,+34800 24 24 27,Analista de gestión y organización,53
5,8bb6c17838643f9691cc6a4de6c51709,Rolando,Olmedo,1993-09-28,dafne77@example.org,+34 976 92 78 74,Diseñador de productos,22
6,06eca1b437c7904cc3ce6546c8110110,Mayte,Estevez,1988-04-30,hcarreras@example.org,+34978643512,Operador de maquinaria agrícola y forestal móvil,52
7,89e74e640b8c46257a29de0616794d5d,Fabián,Morales,1990-05-25,bermudezruperto@example.org,+34 806 403 815,Empleado de agencia de viajes,42
8,e2ba905bf306f46faca223d3cb20e2cf,Blas,Jiménez,1964-12-19,gfranch@example.com,+34 872783538,Trabajador comunitario de la salud,29
9,5e732a1878be2342dbfeff5fe3ca5aa3,Félix,Frutos,1980-07-14,ortunobienvenida@example.org,+34 981875220,Operario del tratamiento de la madera,32


Utilizaremos la función `len` para obtener el número de filas de un `DataFrame`:

In [9]:
len(people1_df)

10

Mediante la propiedad `size` obtendremos el número total de valores almacenados en el `DataFrame` ($filas \times columnas$):

In [10]:
people1_df.size

80

Si quisiéramos obtener el número de columnas de un `DataFrame`, haremos uso de la propiedad `columns`, que nos devolverá una lista de las columnas del `DataFrame`, y la función `len`:

In [11]:
len(people1_df.columns)

8

Finalmente, la propiedad `shape` del `DataFrame` nos devolverá las dimensiones del `DataFrame` en la forma `(filas, columnas)`:

In [12]:
people1_df.shape

(10, 8)


## Recuperación de filas, columnas y valores de un `DataFrame`

`pandas` nos ofrece muchas facilidades para recuperar los elementos de un `DataFrame`.

Para recuperar la `Serie`, correspondiente a la columna `trabajo`, lo indexaríamos como si de un campo de un diccionario se tratara, escribiendo lo siguiente:

In [13]:
display(people1_df['trabajo'])
display(type(people1_df['trabajo']))

0    Operador de plantas y máquinas de productos qu...
1             Mecánico y reparador de motores de avión
2                                Asesor de inversiones
3                                  Escribiente público
4                   Analista de gestión y organización
5                               Diseñador de productos
6     Operador de maquinaria agrícola y forestal móvil
7                        Empleado de agencia de viajes
8                   Trabajador comunitario de la salud
9                Operario del tratamiento de la madera
Name: trabajo, dtype: object

pandas.core.series.Series

Si la columna no contiene caracteres no permitidos en Python, también podremos acceder a ella como si de una propiedad se tratara:

In [14]:
display(people1_df.trabajo)
display(type(people1_df.trabajo))

0    Operador de plantas y máquinas de productos qu...
1             Mecánico y reparador de motores de avión
2                                Asesor de inversiones
3                                  Escribiente público
4                   Analista de gestión y organización
5                               Diseñador de productos
6     Operador de maquinaria agrícola y forestal móvil
7                        Empleado de agencia de viajes
8                   Trabajador comunitario de la salud
9                Operario del tratamiento de la madera
Name: trabajo, dtype: object

pandas.core.series.Series

El `DataFrame`, además permite seleccionar subconjuntos de columnas mediante el operador `[[]]`. En este caso, el resultado será otro `DataFrame` (fijaos cómo, **el tipo del resultado devuelto no es `pandas.core.series.Series` sino `pandas.core.frame.DataFrame`**):

In [15]:
display(people1_df[['trabajo']])
display(type(people1_df[['trabajo']]))

Unnamed: 0,trabajo
0,Operador de plantas y máquinas de productos qu...
1,Mecánico y reparador de motores de avión
2,Asesor de inversiones
3,Escribiente público
4,Analista de gestión y organización
5,Diseñador de productos
6,Operador de maquinaria agrícola y forestal móvil
7,Empleado de agencia de viajes
8,Trabajador comunitario de la salud
9,Operario del tratamiento de la madera


pandas.core.frame.DataFrame

Probemos ahora a seleccionar las columnas `nombre` y `trabajo`:

In [16]:
people1_df[['nombre', 'trabajo']]

Unnamed: 0,nombre,trabajo
0,Demetrio,Operador de plantas y máquinas de productos qu...
1,Eustaquio,Mecánico y reparador de motores de avión
2,Arturo,Asesor de inversiones
3,Nazario,Escribiente público
4,Benita,Analista de gestión y organización
5,Rolando,Diseñador de productos
6,Mayte,Operador de maquinaria agrícola y forestal móvil
7,Fabián,Empleado de agencia de viajes
8,Blas,Trabajador comunitario de la salud
9,Félix,Operario del tratamiento de la madera


Cuando no estamos intersados en visualizar unas filas, sino solo las `n` primeras, podemos hacer uso del método `head` tanto sobre `Series` como sobre `DataFrames`:

In [17]:
people1_df.head(2)

Unnamed: 0,id,nombre,apellidos,fecha_nacimiento,email,telefono,trabajo,edad
0,d41d8cd98f00b204e9800998ecf8427e,Demetrio,Aguilera,1966-03-02,blanesclimaco@example.com,+34 879 00 05 97,Operador de plantas y máquinas de productos qu...,31
1,55a54008ad1ba589aa210d2629c1df41,Eustaquio,Bou,1972-06-16,alcarazanita@example.com,+34881 187 191,Mecánico y reparador de motores de avión,29


In [18]:
people1_df['trabajo'].head(2)

0    Operador de plantas y máquinas de productos qu...
1             Mecánico y reparador de motores de avión
Name: trabajo, dtype: object

Análogamente, el método `tail` nos permite devolver las `n` últimas filas del `DataFrame` o los `n` últimos valores de la `Serie`:

In [19]:
people1_df.tail(2)

Unnamed: 0,id,nombre,apellidos,fecha_nacimiento,email,telefono,trabajo,edad
8,e2ba905bf306f46faca223d3cb20e2cf,Blas,Jiménez,1964-12-19,gfranch@example.com,+34 872783538,Trabajador comunitario de la salud,29
9,5e732a1878be2342dbfeff5fe3ca5aa3,Félix,Frutos,1980-07-14,ortunobienvenida@example.org,+34 981875220,Operario del tratamiento de la madera,32


In [20]:
people1_df['trabajo'].tail(2)

8       Trabajador comunitario de la salud
9    Operario del tratamiento de la madera
Name: trabajo, dtype: object

Aunque generalmente, preferiremos el uso de los métodos **`loc`** e **`iloc`** para la recuperación de filas. El primero los recuperará por su **valor de índice**, mientras que el segundo lo hará por su **posición en el `DataFrame`**. Igual que ocurría en el caso de las columnas, el operador `[]` nos devolverá una `Serie` y el operador `[[]]` nos devolverá un `DataFrame`:

In [21]:
display(people1_df.loc[4]) # Recupera la fila cuyo índice sea 4
display(type(people1_df.loc[4]))

id                    ec7f7e7bb43742ce868145f71d37b53c
nombre                                          Benita
apellidos                                          Cid
fecha_nacimiento                            1980-10-12
email                               aarino@example.com
telefono                               +34800 24 24 27
trabajo             Analista de gestión y organización
edad                                                53
Name: 4, dtype: object

pandas.core.series.Series

In [22]:
display(people1_df.iloc[6]) # Recupera la fila que está en la posición 6
display(type(people1_df.iloc[6]))

id                                  06eca1b437c7904cc3ce6546c8110110
nombre                                                         Mayte
apellidos                                                    Estevez
fecha_nacimiento                                          1988-04-30
email                                          hcarreras@example.org
telefono                                                +34978643512
trabajo             Operador de maquinaria agrícola y forestal móvil
edad                                                              52
Name: 6, dtype: object

pandas.core.series.Series

In [23]:
display(people1_df.loc[[4, 6]]) # Recupera las filas de índices 4 y 6
display(type(people1_df.loc[[4, 6]]))

Unnamed: 0,id,nombre,apellidos,fecha_nacimiento,email,telefono,trabajo,edad
4,ec7f7e7bb43742ce868145f71d37b53c,Benita,Cid,1980-10-12,aarino@example.com,+34800 24 24 27,Analista de gestión y organización,53
6,06eca1b437c7904cc3ce6546c8110110,Mayte,Estevez,1988-04-30,hcarreras@example.org,+34978643512,Operador de maquinaria agrícola y forestal móvil,52


pandas.core.frame.DataFrame

In [24]:
display(people1_df.iloc[[3, 7]]) # Recupera las filas de posiciones 3 y 7
display(type(people1_df.iloc[[3, 7]]))

Unnamed: 0,id,nombre,apellidos,fecha_nacimiento,email,telefono,trabajo,edad
3,8666683506aacd900bbd5a74ac4edf68,Nazario,Cobo,1992-03-05,ddiego@example.org,+34980218320,Escribiente público,60
7,89e74e640b8c46257a29de0616794d5d,Fabián,Morales,1990-05-25,bermudezruperto@example.org,+34 806 403 815,Empleado de agencia de viajes,42


pandas.core.frame.DataFrame

Cuando utilizamos el operador `[]`, también podemos utilizar **rangos** de valores. En este caso el tipo devuelto es un `DataFrame` y no una `Serie`:

In [25]:
display(people1_df.iloc[2:4]) # Recupera filas de la posición 2 a la 4 (sin incluir)
type(people1_df.iloc[2:4])

Unnamed: 0,id,nombre,apellidos,fecha_nacimiento,email,telefono,trabajo,edad
2,9e688c58a5487b8eaf69c9e1005ad0bf,Arturo,Lerma,1997-11-12,matealicia@example.com,+34 884 33 78 08,Asesor de inversiones,21
3,8666683506aacd900bbd5a74ac4edf68,Nazario,Cobo,1992-03-05,ddiego@example.org,+34980218320,Escribiente público,60


pandas.core.frame.DataFrame

In [26]:
display(people1_df.loc[::2]) # Recupera filas cuyo índice es un número par
type(people1_df.loc[::2])

Unnamed: 0,id,nombre,apellidos,fecha_nacimiento,email,telefono,trabajo,edad
0,d41d8cd98f00b204e9800998ecf8427e,Demetrio,Aguilera,1966-03-02,blanesclimaco@example.com,+34 879 00 05 97,Operador de plantas y máquinas de productos qu...,31
2,9e688c58a5487b8eaf69c9e1005ad0bf,Arturo,Lerma,1997-11-12,matealicia@example.com,+34 884 33 78 08,Asesor de inversiones,21
4,ec7f7e7bb43742ce868145f71d37b53c,Benita,Cid,1980-10-12,aarino@example.com,+34800 24 24 27,Analista de gestión y organización,53
6,06eca1b437c7904cc3ce6546c8110110,Mayte,Estevez,1988-04-30,hcarreras@example.org,+34978643512,Operador de maquinaria agrícola y forestal móvil,52
8,e2ba905bf306f46faca223d3cb20e2cf,Blas,Jiménez,1964-12-19,gfranch@example.com,+34 872783538,Trabajador comunitario de la salud,29


pandas.core.frame.DataFrame

Cuando recuperamos por rangos, podemos prescindir de los métodos `loc` e `iloc` e indexar directamente sobre el `DataFrame`:

In [27]:
people1_df[::2]

Unnamed: 0,id,nombre,apellidos,fecha_nacimiento,email,telefono,trabajo,edad
0,d41d8cd98f00b204e9800998ecf8427e,Demetrio,Aguilera,1966-03-02,blanesclimaco@example.com,+34 879 00 05 97,Operador de plantas y máquinas de productos qu...,31
2,9e688c58a5487b8eaf69c9e1005ad0bf,Arturo,Lerma,1997-11-12,matealicia@example.com,+34 884 33 78 08,Asesor de inversiones,21
4,ec7f7e7bb43742ce868145f71d37b53c,Benita,Cid,1980-10-12,aarino@example.com,+34800 24 24 27,Analista de gestión y organización,53
6,06eca1b437c7904cc3ce6546c8110110,Mayte,Estevez,1988-04-30,hcarreras@example.org,+34978643512,Operador de maquinaria agrícola y forestal móvil,52
8,e2ba905bf306f46faca223d3cb20e2cf,Blas,Jiménez,1964-12-19,gfranch@example.com,+34 872783538,Trabajador comunitario de la salud,29


Para recuperar un **valor** de un `DataFrame` tenemos los métodos `at` e `iat`, que recuperarán valores por su índice y posición respectivamente:

In [28]:
people1_df.at[1,"nombre"]

'Eustaquio'

In [29]:
people1_df.iat[1,1]

'Eustaquio'

Dado que muchos de estos operadores devuelven un `DataFrame`, la selección de un subconjunto de filas y de columnas del `DataFrame` original se puede hacer de forma sencilla:

In [30]:
people1_df[1:5][['nombre', 'email']]

Unnamed: 0,nombre,email
1,Eustaquio,alcarazanita@example.com
2,Arturo,matealicia@example.com
3,Nazario,ddiego@example.org
4,Benita,aarino@example.com


Además, `pandas` nos permite seleccionar filas mediante condiciones. Por ejemplo, imaginemos que queremos obtener del `DataFrame` original aquellas filas cuya edad sea mayor que 40:

In [31]:
people1_df[people1_df.edad > 40]

Unnamed: 0,id,nombre,apellidos,fecha_nacimiento,email,telefono,trabajo,edad
3,8666683506aacd900bbd5a74ac4edf68,Nazario,Cobo,1992-03-05,ddiego@example.org,+34980218320,Escribiente público,60
4,ec7f7e7bb43742ce868145f71d37b53c,Benita,Cid,1980-10-12,aarino@example.com,+34800 24 24 27,Analista de gestión y organización,53
6,06eca1b437c7904cc3ce6546c8110110,Mayte,Estevez,1988-04-30,hcarreras@example.org,+34978643512,Operador de maquinaria agrícola y forestal móvil,52
7,89e74e640b8c46257a29de0616794d5d,Fabián,Morales,1990-05-25,bermudezruperto@example.org,+34 806 403 815,Empleado de agencia de viajes,42


O que queramos obtener aquellas personas cuyo trabajo no sea `Barrister`:

In [32]:
# Equivalente a people1_df[people1_df.trabajo != 'Barrister']
people1_df[~(people1_df.trabajo == 'Barrister')] 

Unnamed: 0,id,nombre,apellidos,fecha_nacimiento,email,telefono,trabajo,edad
0,d41d8cd98f00b204e9800998ecf8427e,Demetrio,Aguilera,1966-03-02,blanesclimaco@example.com,+34 879 00 05 97,Operador de plantas y máquinas de productos qu...,31
1,55a54008ad1ba589aa210d2629c1df41,Eustaquio,Bou,1972-06-16,alcarazanita@example.com,+34881 187 191,Mecánico y reparador de motores de avión,29
2,9e688c58a5487b8eaf69c9e1005ad0bf,Arturo,Lerma,1997-11-12,matealicia@example.com,+34 884 33 78 08,Asesor de inversiones,21
3,8666683506aacd900bbd5a74ac4edf68,Nazario,Cobo,1992-03-05,ddiego@example.org,+34980218320,Escribiente público,60
4,ec7f7e7bb43742ce868145f71d37b53c,Benita,Cid,1980-10-12,aarino@example.com,+34800 24 24 27,Analista de gestión y organización,53
5,8bb6c17838643f9691cc6a4de6c51709,Rolando,Olmedo,1993-09-28,dafne77@example.org,+34 976 92 78 74,Diseñador de productos,22
6,06eca1b437c7904cc3ce6546c8110110,Mayte,Estevez,1988-04-30,hcarreras@example.org,+34978643512,Operador de maquinaria agrícola y forestal móvil,52
7,89e74e640b8c46257a29de0616794d5d,Fabián,Morales,1990-05-25,bermudezruperto@example.org,+34 806 403 815,Empleado de agencia de viajes,42
8,e2ba905bf306f46faca223d3cb20e2cf,Blas,Jiménez,1964-12-19,gfranch@example.com,+34 872783538,Trabajador comunitario de la salud,29
9,5e732a1878be2342dbfeff5fe3ca5aa3,Félix,Frutos,1980-07-14,ortunobienvenida@example.org,+34 981875220,Operario del tratamiento de la madera,32


Tenemos también a nuestra disposición los operadores AND `&` y OR `|` para combinar múltiples condiciones:

In [33]:
people1_df[(people1_df.edad > 40) & ~(people1_df.trabajo == 'Barrister')]

Unnamed: 0,id,nombre,apellidos,fecha_nacimiento,email,telefono,trabajo,edad
3,8666683506aacd900bbd5a74ac4edf68,Nazario,Cobo,1992-03-05,ddiego@example.org,+34980218320,Escribiente público,60
4,ec7f7e7bb43742ce868145f71d37b53c,Benita,Cid,1980-10-12,aarino@example.com,+34800 24 24 27,Analista de gestión y organización,53
6,06eca1b437c7904cc3ce6546c8110110,Mayte,Estevez,1988-04-30,hcarreras@example.org,+34978643512,Operador de maquinaria agrícola y forestal móvil,52
7,89e74e640b8c46257a29de0616794d5d,Fabián,Morales,1990-05-25,bermudezruperto@example.org,+34 806 403 815,Empleado de agencia de viajes,42


Si queremos definir filtros más complejos, tendremos que recurrir a la definición de funciones y al uso del método `apply`:

In [34]:
filter_name = lambda x: x['nombre'].startswith('M') 
people1_df[people1_df.apply(filter_name, axis=1)]

Unnamed: 0,id,nombre,apellidos,fecha_nacimiento,email,telefono,trabajo,edad
6,06eca1b437c7904cc3ce6546c8110110,Mayte,Estevez,1988-04-30,hcarreras@example.org,34978643512,Operador de maquinaria agrícola y forestal móvil,52


Por último, disponemos del método [`sample`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sample.html) que, invocado sobre un `DataFrame`, nos devolverá una selección aleatoria de filas. Por ejemplo, el siguiente código nos devolverá dos personas cualquiera de nuestro `DataFrame` de personas:

In [35]:
people1_df.sample(n=2)

Unnamed: 0,id,nombre,apellidos,fecha_nacimiento,email,telefono,trabajo,edad
9,5e732a1878be2342dbfeff5fe3ca5aa3,Félix,Frutos,1980-07-14,ortunobienvenida@example.org,+34 981875220,Operario del tratamiento de la madera,32
1,55a54008ad1ba589aa210d2629c1df41,Eustaquio,Bou,1972-06-16,alcarazanita@example.com,+34881 187 191,Mecánico y reparador de motores de avión,29


El siguiente código seleccionará de manera aleatoria un 40% de las filas del `DataFrame` de personas:

In [36]:
people1_df.sample(frac=0.4)

Unnamed: 0,id,nombre,apellidos,fecha_nacimiento,email,telefono,trabajo,edad
8,e2ba905bf306f46faca223d3cb20e2cf,Blas,Jiménez,1964-12-19,gfranch@example.com,+34 872783538,Trabajador comunitario de la salud,29
7,89e74e640b8c46257a29de0616794d5d,Fabián,Morales,1990-05-25,bermudezruperto@example.org,+34 806 403 815,Empleado de agencia de viajes,42
1,55a54008ad1ba589aa210d2629c1df41,Eustaquio,Bou,1972-06-16,alcarazanita@example.com,+34881 187 191,Mecánico y reparador de motores de avión,29
6,06eca1b437c7904cc3ce6546c8110110,Mayte,Estevez,1988-04-30,hcarreras@example.org,+34978643512,Operador de maquinaria agrícola y forestal móvil,52


## Manipulación de filas, columnas y valores en DataFrames

### Manipulación de columnas

`pandas` nos ofrece una gran variedad de métodos para manipular la estructura de un `DataFrame`. Por ejemplo, podemos **renombrar** sus **columnas** mediante el uso del método `rename`:

In [37]:
renamed_columns_df = people1_df.rename(columns={'fecha_nacimiento': 'nacimiento', 'email': 'correo'})
renamed_columns_df.head(2)

Unnamed: 0,id,nombre,apellidos,nacimiento,correo,telefono,trabajo,edad
0,d41d8cd98f00b204e9800998ecf8427e,Demetrio,Aguilera,1966-03-02,blanesclimaco@example.com,+34 879 00 05 97,Operador de plantas y máquinas de productos qu...,31
1,55a54008ad1ba589aa210d2629c1df41,Eustaquio,Bou,1972-06-16,alcarazanita@example.com,+34881 187 191,Mecánico y reparador de motores de avión,29


Incluso podemos utilizar funciones para renombrar columnas. Por ejemplo, supongamos que queremos pasar a mayúsculas todos los nombres de columnas:

In [38]:
renamed_all_columns_df = people1_df.rename(mapper=lambda x: x.upper(), axis=1)
renamed_all_columns_df.head(2)

Unnamed: 0,ID,NOMBRE,APELLIDOS,FECHA_NACIMIENTO,EMAIL,TELEFONO,TRABAJO,EDAD
0,d41d8cd98f00b204e9800998ecf8427e,Demetrio,Aguilera,1966-03-02,blanesclimaco@example.com,+34 879 00 05 97,Operador de plantas y máquinas de productos qu...,31
1,55a54008ad1ba589aa210d2629c1df41,Eustaquio,Bou,1972-06-16,alcarazanita@example.com,+34881 187 191,Mecánico y reparador de motores de avión,29


Si quisiéramos transformar todos los índices de las filas, solamente tendríamos que cambiar el valor del parámetro `axis`:

In [39]:
renamed_all_rows_df = people1_df.rename(mapper=lambda x: x + 200, axis=0)
renamed_all_rows_df.head()

Unnamed: 0,id,nombre,apellidos,fecha_nacimiento,email,telefono,trabajo,edad
200,d41d8cd98f00b204e9800998ecf8427e,Demetrio,Aguilera,1966-03-02,blanesclimaco@example.com,+34 879 00 05 97,Operador de plantas y máquinas de productos qu...,31
201,55a54008ad1ba589aa210d2629c1df41,Eustaquio,Bou,1972-06-16,alcarazanita@example.com,+34881 187 191,Mecánico y reparador de motores de avión,29
202,9e688c58a5487b8eaf69c9e1005ad0bf,Arturo,Lerma,1997-11-12,matealicia@example.com,+34 884 33 78 08,Asesor de inversiones,21
203,8666683506aacd900bbd5a74ac4edf68,Nazario,Cobo,1992-03-05,ddiego@example.org,+34980218320,Escribiente público,60
204,ec7f7e7bb43742ce868145f71d37b53c,Benita,Cid,1980-10-12,aarino@example.com,+34800 24 24 27,Analista de gestión y organización,53


Añadir una nueva columna a un DataFrame es sencillo, simplemente tendremos que indicar el nombre de la nueva columna a añadir:

In [40]:
# Copiamos contenido de DataFrame original, necesitaremos datos originales más adelante
copied_df = people1_df.copy() 
copied_df['nombre_completo'] = copied_df['nombre'] + ' ' + copied_df['apellidos']
copied_df

Unnamed: 0,id,nombre,apellidos,fecha_nacimiento,email,telefono,trabajo,edad,nombre_completo
0,d41d8cd98f00b204e9800998ecf8427e,Demetrio,Aguilera,1966-03-02,blanesclimaco@example.com,+34 879 00 05 97,Operador de plantas y máquinas de productos qu...,31,Demetrio Aguilera
1,55a54008ad1ba589aa210d2629c1df41,Eustaquio,Bou,1972-06-16,alcarazanita@example.com,+34881 187 191,Mecánico y reparador de motores de avión,29,Eustaquio Bou
2,9e688c58a5487b8eaf69c9e1005ad0bf,Arturo,Lerma,1997-11-12,matealicia@example.com,+34 884 33 78 08,Asesor de inversiones,21,Arturo Lerma
3,8666683506aacd900bbd5a74ac4edf68,Nazario,Cobo,1992-03-05,ddiego@example.org,+34980218320,Escribiente público,60,Nazario Cobo
4,ec7f7e7bb43742ce868145f71d37b53c,Benita,Cid,1980-10-12,aarino@example.com,+34800 24 24 27,Analista de gestión y organización,53,Benita Cid
5,8bb6c17838643f9691cc6a4de6c51709,Rolando,Olmedo,1993-09-28,dafne77@example.org,+34 976 92 78 74,Diseñador de productos,22,Rolando Olmedo
6,06eca1b437c7904cc3ce6546c8110110,Mayte,Estevez,1988-04-30,hcarreras@example.org,+34978643512,Operador de maquinaria agrícola y forestal móvil,52,Mayte Estevez
7,89e74e640b8c46257a29de0616794d5d,Fabián,Morales,1990-05-25,bermudezruperto@example.org,+34 806 403 815,Empleado de agencia de viajes,42,Fabián Morales
8,e2ba905bf306f46faca223d3cb20e2cf,Blas,Jiménez,1964-12-19,gfranch@example.com,+34 872783538,Trabajador comunitario de la salud,29,Blas Jiménez
9,5e732a1878be2342dbfeff5fe3ca5aa3,Félix,Frutos,1980-07-14,ortunobienvenida@example.org,+34 981875220,Operario del tratamiento de la madera,32,Félix Frutos


Mediante esta forma, también podremos **reemplazar** los valores de una columna:

In [41]:
copied_df['nombre_completo'] = copied_df['nombre_completo'].str.upper()
copied_df

Unnamed: 0,id,nombre,apellidos,fecha_nacimiento,email,telefono,trabajo,edad,nombre_completo
0,d41d8cd98f00b204e9800998ecf8427e,Demetrio,Aguilera,1966-03-02,blanesclimaco@example.com,+34 879 00 05 97,Operador de plantas y máquinas de productos qu...,31,DEMETRIO AGUILERA
1,55a54008ad1ba589aa210d2629c1df41,Eustaquio,Bou,1972-06-16,alcarazanita@example.com,+34881 187 191,Mecánico y reparador de motores de avión,29,EUSTAQUIO BOU
2,9e688c58a5487b8eaf69c9e1005ad0bf,Arturo,Lerma,1997-11-12,matealicia@example.com,+34 884 33 78 08,Asesor de inversiones,21,ARTURO LERMA
3,8666683506aacd900bbd5a74ac4edf68,Nazario,Cobo,1992-03-05,ddiego@example.org,+34980218320,Escribiente público,60,NAZARIO COBO
4,ec7f7e7bb43742ce868145f71d37b53c,Benita,Cid,1980-10-12,aarino@example.com,+34800 24 24 27,Analista de gestión y organización,53,BENITA CID
5,8bb6c17838643f9691cc6a4de6c51709,Rolando,Olmedo,1993-09-28,dafne77@example.org,+34 976 92 78 74,Diseñador de productos,22,ROLANDO OLMEDO
6,06eca1b437c7904cc3ce6546c8110110,Mayte,Estevez,1988-04-30,hcarreras@example.org,+34978643512,Operador de maquinaria agrícola y forestal móvil,52,MAYTE ESTEVEZ
7,89e74e640b8c46257a29de0616794d5d,Fabián,Morales,1990-05-25,bermudezruperto@example.org,+34 806 403 815,Empleado de agencia de viajes,42,FABIÁN MORALES
8,e2ba905bf306f46faca223d3cb20e2cf,Blas,Jiménez,1964-12-19,gfranch@example.com,+34 872783538,Trabajador comunitario de la salud,29,BLAS JIMÉNEZ
9,5e732a1878be2342dbfeff5fe3ca5aa3,Félix,Frutos,1980-07-14,ortunobienvenida@example.org,+34 981875220,Operario del tratamiento de la madera,32,FÉLIX FRUTOS


Utilizaremos el método `insert` cuando queramos especificar la posición en la que insertar la nueva columna:

In [42]:
copied_df.insert(4, 'dia_nacimiento', pd.to_datetime(copied_df['fecha_nacimiento']).dt.day)
copied_df.insert(4, 'mes_nacimiento', pd.to_datetime(copied_df['fecha_nacimiento']).dt.month)
copied_df.insert(4, 'año_nacimiento', pd.to_datetime(copied_df['fecha_nacimiento']).dt.year)
copied_df

Unnamed: 0,id,nombre,apellidos,fecha_nacimiento,año_nacimiento,mes_nacimiento,dia_nacimiento,email,telefono,trabajo,edad,nombre_completo
0,d41d8cd98f00b204e9800998ecf8427e,Demetrio,Aguilera,1966-03-02,1966,3,2,blanesclimaco@example.com,+34 879 00 05 97,Operador de plantas y máquinas de productos qu...,31,DEMETRIO AGUILERA
1,55a54008ad1ba589aa210d2629c1df41,Eustaquio,Bou,1972-06-16,1972,6,16,alcarazanita@example.com,+34881 187 191,Mecánico y reparador de motores de avión,29,EUSTAQUIO BOU
2,9e688c58a5487b8eaf69c9e1005ad0bf,Arturo,Lerma,1997-11-12,1997,11,12,matealicia@example.com,+34 884 33 78 08,Asesor de inversiones,21,ARTURO LERMA
3,8666683506aacd900bbd5a74ac4edf68,Nazario,Cobo,1992-03-05,1992,3,5,ddiego@example.org,+34980218320,Escribiente público,60,NAZARIO COBO
4,ec7f7e7bb43742ce868145f71d37b53c,Benita,Cid,1980-10-12,1980,10,12,aarino@example.com,+34800 24 24 27,Analista de gestión y organización,53,BENITA CID
5,8bb6c17838643f9691cc6a4de6c51709,Rolando,Olmedo,1993-09-28,1993,9,28,dafne77@example.org,+34 976 92 78 74,Diseñador de productos,22,ROLANDO OLMEDO
6,06eca1b437c7904cc3ce6546c8110110,Mayte,Estevez,1988-04-30,1988,4,30,hcarreras@example.org,+34978643512,Operador de maquinaria agrícola y forestal móvil,52,MAYTE ESTEVEZ
7,89e74e640b8c46257a29de0616794d5d,Fabián,Morales,1990-05-25,1990,5,25,bermudezruperto@example.org,+34 806 403 815,Empleado de agencia de viajes,42,FABIÁN MORALES
8,e2ba905bf306f46faca223d3cb20e2cf,Blas,Jiménez,1964-12-19,1964,12,19,gfranch@example.com,+34 872783538,Trabajador comunitario de la salud,29,BLAS JIMÉNEZ
9,5e732a1878be2342dbfeff5fe3ca5aa3,Félix,Frutos,1980-07-14,1980,7,14,ortunobienvenida@example.org,+34 981875220,Operario del tratamiento de la madera,32,FÉLIX FRUTOS


También podemos añadir valores a una nueva columna en función de una condición lógica:

In [43]:
copied_df.loc[copied_df.edad < 30,'joven'] = True
copied_df

Unnamed: 0,id,nombre,apellidos,fecha_nacimiento,año_nacimiento,mes_nacimiento,dia_nacimiento,email,telefono,trabajo,edad,nombre_completo,joven
0,d41d8cd98f00b204e9800998ecf8427e,Demetrio,Aguilera,1966-03-02,1966,3,2,blanesclimaco@example.com,+34 879 00 05 97,Operador de plantas y máquinas de productos qu...,31,DEMETRIO AGUILERA,
1,55a54008ad1ba589aa210d2629c1df41,Eustaquio,Bou,1972-06-16,1972,6,16,alcarazanita@example.com,+34881 187 191,Mecánico y reparador de motores de avión,29,EUSTAQUIO BOU,True
2,9e688c58a5487b8eaf69c9e1005ad0bf,Arturo,Lerma,1997-11-12,1997,11,12,matealicia@example.com,+34 884 33 78 08,Asesor de inversiones,21,ARTURO LERMA,True
3,8666683506aacd900bbd5a74ac4edf68,Nazario,Cobo,1992-03-05,1992,3,5,ddiego@example.org,+34980218320,Escribiente público,60,NAZARIO COBO,
4,ec7f7e7bb43742ce868145f71d37b53c,Benita,Cid,1980-10-12,1980,10,12,aarino@example.com,+34800 24 24 27,Analista de gestión y organización,53,BENITA CID,
5,8bb6c17838643f9691cc6a4de6c51709,Rolando,Olmedo,1993-09-28,1993,9,28,dafne77@example.org,+34 976 92 78 74,Diseñador de productos,22,ROLANDO OLMEDO,True
6,06eca1b437c7904cc3ce6546c8110110,Mayte,Estevez,1988-04-30,1988,4,30,hcarreras@example.org,+34978643512,Operador de maquinaria agrícola y forestal móvil,52,MAYTE ESTEVEZ,
7,89e74e640b8c46257a29de0616794d5d,Fabián,Morales,1990-05-25,1990,5,25,bermudezruperto@example.org,+34 806 403 815,Empleado de agencia de viajes,42,FABIÁN MORALES,
8,e2ba905bf306f46faca223d3cb20e2cf,Blas,Jiménez,1964-12-19,1964,12,19,gfranch@example.com,+34 872783538,Trabajador comunitario de la salud,29,BLAS JIMÉNEZ,True
9,5e732a1878be2342dbfeff5fe3ca5aa3,Félix,Frutos,1980-07-14,1980,7,14,ortunobienvenida@example.org,+34 981875220,Operario del tratamiento de la madera,32,FÉLIX FRUTOS,


De la misma manera, los valores de una columna pueden ser reemplazados:

In [44]:
copied_df.nombre = copied_df.nombre.str.upper()
copied_df

Unnamed: 0,id,nombre,apellidos,fecha_nacimiento,año_nacimiento,mes_nacimiento,dia_nacimiento,email,telefono,trabajo,edad,nombre_completo,joven
0,d41d8cd98f00b204e9800998ecf8427e,DEMETRIO,Aguilera,1966-03-02,1966,3,2,blanesclimaco@example.com,+34 879 00 05 97,Operador de plantas y máquinas de productos qu...,31,DEMETRIO AGUILERA,
1,55a54008ad1ba589aa210d2629c1df41,EUSTAQUIO,Bou,1972-06-16,1972,6,16,alcarazanita@example.com,+34881 187 191,Mecánico y reparador de motores de avión,29,EUSTAQUIO BOU,True
2,9e688c58a5487b8eaf69c9e1005ad0bf,ARTURO,Lerma,1997-11-12,1997,11,12,matealicia@example.com,+34 884 33 78 08,Asesor de inversiones,21,ARTURO LERMA,True
3,8666683506aacd900bbd5a74ac4edf68,NAZARIO,Cobo,1992-03-05,1992,3,5,ddiego@example.org,+34980218320,Escribiente público,60,NAZARIO COBO,
4,ec7f7e7bb43742ce868145f71d37b53c,BENITA,Cid,1980-10-12,1980,10,12,aarino@example.com,+34800 24 24 27,Analista de gestión y organización,53,BENITA CID,
5,8bb6c17838643f9691cc6a4de6c51709,ROLANDO,Olmedo,1993-09-28,1993,9,28,dafne77@example.org,+34 976 92 78 74,Diseñador de productos,22,ROLANDO OLMEDO,True
6,06eca1b437c7904cc3ce6546c8110110,MAYTE,Estevez,1988-04-30,1988,4,30,hcarreras@example.org,+34978643512,Operador de maquinaria agrícola y forestal móvil,52,MAYTE ESTEVEZ,
7,89e74e640b8c46257a29de0616794d5d,FABIÁN,Morales,1990-05-25,1990,5,25,bermudezruperto@example.org,+34 806 403 815,Empleado de agencia de viajes,42,FABIÁN MORALES,
8,e2ba905bf306f46faca223d3cb20e2cf,BLAS,Jiménez,1964-12-19,1964,12,19,gfranch@example.com,+34 872783538,Trabajador comunitario de la salud,29,BLAS JIMÉNEZ,True
9,5e732a1878be2342dbfeff5fe3ca5aa3,FÉLIX,Frutos,1980-07-14,1980,7,14,ortunobienvenida@example.org,+34 981875220,Operario del tratamiento de la madera,32,FÉLIX FRUTOS,


Para eliminar columnas de un `DataFrame`, disponemos de tres opciones:

* El operador `del` eliminará la columna indicada del `DataFrame`:

In [45]:
del copied_df['nombre_completo']
copied_df.head(2)

Unnamed: 0,id,nombre,apellidos,fecha_nacimiento,año_nacimiento,mes_nacimiento,dia_nacimiento,email,telefono,trabajo,edad,joven
0,d41d8cd98f00b204e9800998ecf8427e,DEMETRIO,Aguilera,1966-03-02,1966,3,2,blanesclimaco@example.com,+34 879 00 05 97,Operador de plantas y máquinas de productos qu...,31,
1,55a54008ad1ba589aa210d2629c1df41,EUSTAQUIO,Bou,1972-06-16,1972,6,16,alcarazanita@example.com,+34881 187 191,Mecánico y reparador de motores de avión,29,True


* El método `pop` eliminará la columna del `DataFrame` y nos la devolverá como resultado:

In [46]:
copied_df.pop('año_nacimiento')

0    1966
1    1972
2    1997
3    1992
4    1980
5    1993
6    1988
7    1990
8    1964
9    1980
Name: año_nacimiento, dtype: int64

* Mediante el método `drop` devolveremos una copia del `DataFrame` sin las columnas especificadas. Este método también puede utilizarse para eliminar filas si modificamos el valor del parámetro `axis`:

In [47]:
copied_df.drop(['mes_nacimiento', 'dia_nacimiento'], axis=1).head(2)

Unnamed: 0,id,nombre,apellidos,fecha_nacimiento,email,telefono,trabajo,edad,joven
0,d41d8cd98f00b204e9800998ecf8427e,DEMETRIO,Aguilera,1966-03-02,blanesclimaco@example.com,+34 879 00 05 97,Operador de plantas y máquinas de productos qu...,31,
1,55a54008ad1ba589aa210d2629c1df41,EUSTAQUIO,Bou,1972-06-16,alcarazanita@example.com,+34881 187 191,Mecánico y reparador de motores de avión,29,True


### Manipulación de filas

Igual que en el caso de las columnas, también podemos **renombrar** los índices de cada **fila**:

In [48]:
renamed_rows_df = people1_df.rename(index={0: 100, 1: 101})
renamed_rows_df.head(2)

Unnamed: 0,id,nombre,apellidos,fecha_nacimiento,email,telefono,trabajo,edad
100,d41d8cd98f00b204e9800998ecf8427e,Demetrio,Aguilera,1966-03-02,blanesclimaco@example.com,+34 879 00 05 97,Operador de plantas y máquinas de productos qu...,31
101,55a54008ad1ba589aa210d2629c1df41,Eustaquio,Bou,1972-06-16,alcarazanita@example.com,+34881 187 191,Mecánico y reparador de motores de avión,29


E incluso también podemos utilizar funciones para renombrar los índices de las filas. Por ejemplo, supongamos que deseamos elevar al cuadrado el valor de cada índice:

In [49]:
renamed_all_rows_df = people1_df.rename(mapper=lambda x: math.pow(x, 2), axis=0)
renamed_all_rows_df.head(5)

Unnamed: 0,id,nombre,apellidos,fecha_nacimiento,email,telefono,trabajo,edad
0.0,d41d8cd98f00b204e9800998ecf8427e,Demetrio,Aguilera,1966-03-02,blanesclimaco@example.com,+34 879 00 05 97,Operador de plantas y máquinas de productos qu...,31
1.0,55a54008ad1ba589aa210d2629c1df41,Eustaquio,Bou,1972-06-16,alcarazanita@example.com,+34881 187 191,Mecánico y reparador de motores de avión,29
4.0,9e688c58a5487b8eaf69c9e1005ad0bf,Arturo,Lerma,1997-11-12,matealicia@example.com,+34 884 33 78 08,Asesor de inversiones,21
9.0,8666683506aacd900bbd5a74ac4edf68,Nazario,Cobo,1992-03-05,ddiego@example.org,+34980218320,Escribiente público,60
16.0,ec7f7e7bb43742ce868145f71d37b53c,Benita,Cid,1980-10-12,aarino@example.com,+34800 24 24 27,Analista de gestión y organización,53


Para añadir nuevas filas, utilizaremos el método `concat`. Por ejemplo, imaginemos que tenemos un segundo `DataFrame` con datos de personas:

In [50]:
copied2_df = pd.DataFrame([person for person in get_people(10)])
copied2_df['Nuevo'] = True
copied2_df.head(3)

Unnamed: 0,id,nombre,apellidos,fecha_nacimiento,email,telefono,trabajo,edad,Nuevo
0,d41d8cd98f00b204e9800998ecf8427e,Ángela,Coca,1997-02-27,morellfrancisco-javier@example.org,+34 811 23 06 65,Cuidador de animales,49,True
1,55a54008ad1ba589aa210d2629c1df41,Sandra,Losada,1996-07-29,telmo59@example.org,+34986 14 46 69,Diseñador de prendas,35,True
2,9e688c58a5487b8eaf69c9e1005ad0bf,Danilo,Perez,1978-08-29,manuelpuig@example.org,+34925 737 264,Acarreador de agua,25,True


Obtendríamos un nuevo `DataFrame` con las filas de ambos `DataFrames` de la siguiente manera:

In [51]:
appended_df = pd.concat([copied_df,copied2_df])
appended_df[::2] # Por concisión, mostramos solamente las posiciones pares

Unnamed: 0,id,nombre,apellidos,fecha_nacimiento,mes_nacimiento,dia_nacimiento,email,telefono,trabajo,edad,joven,Nuevo
0,d41d8cd98f00b204e9800998ecf8427e,DEMETRIO,Aguilera,1966-03-02,3.0,2.0,blanesclimaco@example.com,+34 879 00 05 97,Operador de plantas y máquinas de productos qu...,31,,
2,9e688c58a5487b8eaf69c9e1005ad0bf,ARTURO,Lerma,1997-11-12,11.0,12.0,matealicia@example.com,+34 884 33 78 08,Asesor de inversiones,21,True,
4,ec7f7e7bb43742ce868145f71d37b53c,BENITA,Cid,1980-10-12,10.0,12.0,aarino@example.com,+34800 24 24 27,Analista de gestión y organización,53,,
6,06eca1b437c7904cc3ce6546c8110110,MAYTE,Estevez,1988-04-30,4.0,30.0,hcarreras@example.org,+34978643512,Operador de maquinaria agrícola y forestal móvil,52,,
8,e2ba905bf306f46faca223d3cb20e2cf,BLAS,Jiménez,1964-12-19,12.0,19.0,gfranch@example.com,+34 872783538,Trabajador comunitario de la salud,29,True,
0,d41d8cd98f00b204e9800998ecf8427e,Ángela,Coca,1997-02-27,,,morellfrancisco-javier@example.org,+34 811 23 06 65,Cuidador de animales,49,,True
2,9e688c58a5487b8eaf69c9e1005ad0bf,Danilo,Perez,1978-08-29,,,manuelpuig@example.org,+34925 737 264,Acarreador de agua,25,,True
4,ec7f7e7bb43742ce868145f71d37b53c,Aurelia,Sebastián,1992-04-13,,,solegertrudis@example.org,+34735 712 955,Recepcionista de hoteles,49,,True
6,06eca1b437c7904cc3ce6546c8110110,Álvaro,Lastra,1965-10-12,,,higuerasjose-angel@example.com,+34 843 06 00 32,Empleado de contabilidad y cálculo de costos,39,,True
8,e2ba905bf306f46faca223d3cb20e2cf,Natanael,Gras,1971-01-22,,,rvalera@example.net,+34843 89 91 28,Técnico de prótesis médicas y dentales,21,,True


Si observamos el resultado producido, hay dos aspectos interesantes a destacar:

* **El nuevo `DataFrame` contiene índices duplicados**, ya que `concat` no comprueba su existencia. De esta forma, el método `loc` nos devolverá **dos** resultados (existen dos índices con un determinado valor).


* Las **columnas finales** son el conjunto **unión de las columnas de los dos `DataFrames` originales** (se mantiene la columna `joven` del primer `DataFrame` y la columna `nuevo` del segundo). Los valores de las filas del `DataFrame` para una columna que no existía en el `DataFrame` inicial tomarán el valor `NaN`.

Si ejecutamos el método loc para recuperar las filas cuyo índice sea 0, obtendríamos lo siguiente:

In [52]:
appended_df.loc[0]

Unnamed: 0,id,nombre,apellidos,fecha_nacimiento,mes_nacimiento,dia_nacimiento,email,telefono,trabajo,edad,joven,Nuevo
0,d41d8cd98f00b204e9800998ecf8427e,DEMETRIO,Aguilera,1966-03-02,3.0,2.0,blanesclimaco@example.com,+34 879 00 05 97,Operador de plantas y máquinas de productos qu...,31,,
0,d41d8cd98f00b204e9800998ecf8427e,Ángela,Coca,1997-02-27,,,morellfrancisco-javier@example.org,+34 811 23 06 65,Cuidador de animales,49,,True


Vemos que se recuperan 2 resultados, ya que el método `loc` recupera filas por su índice o etiqueta. Sin embargo, el método ´iloc´, como recupera las filas por posición, seguirá devolviendo un único resultado:

In [53]:
appended_df.iloc[0]

id                                   d41d8cd98f00b204e9800998ecf8427e
nombre                                                       DEMETRIO
apellidos                                                    Aguilera
fecha_nacimiento                                           1966-03-02
mes_nacimiento                                                    3.0
dia_nacimiento                                                    2.0
email                                       blanesclimaco@example.com
telefono                                             +34 879 00 05 97
trabajo             Operador de plantas y máquinas de productos qu...
edad                                                               31
joven                                                             NaN
Nuevo                                                             NaN
Name: 0, dtype: object

Una forma de evitar el problema de los índices duplicados sería hacer uso del argumento `ignore_index`. De esta forma, se ignorará el índice de los `DataFrames` originales y se insertará un nuevo índice secuencial:




In [54]:
copied_df = pd.concat([copied_df, copied2_df], ignore_index=True)
copied_df

Unnamed: 0,id,nombre,apellidos,fecha_nacimiento,mes_nacimiento,dia_nacimiento,email,telefono,trabajo,edad,joven,Nuevo
0,d41d8cd98f00b204e9800998ecf8427e,DEMETRIO,Aguilera,1966-03-02,3.0,2.0,blanesclimaco@example.com,+34 879 00 05 97,Operador de plantas y máquinas de productos qu...,31,,
1,55a54008ad1ba589aa210d2629c1df41,EUSTAQUIO,Bou,1972-06-16,6.0,16.0,alcarazanita@example.com,+34881 187 191,Mecánico y reparador de motores de avión,29,True,
2,9e688c58a5487b8eaf69c9e1005ad0bf,ARTURO,Lerma,1997-11-12,11.0,12.0,matealicia@example.com,+34 884 33 78 08,Asesor de inversiones,21,True,
3,8666683506aacd900bbd5a74ac4edf68,NAZARIO,Cobo,1992-03-05,3.0,5.0,ddiego@example.org,+34980218320,Escribiente público,60,,
4,ec7f7e7bb43742ce868145f71d37b53c,BENITA,Cid,1980-10-12,10.0,12.0,aarino@example.com,+34800 24 24 27,Analista de gestión y organización,53,,
5,8bb6c17838643f9691cc6a4de6c51709,ROLANDO,Olmedo,1993-09-28,9.0,28.0,dafne77@example.org,+34 976 92 78 74,Diseñador de productos,22,True,
6,06eca1b437c7904cc3ce6546c8110110,MAYTE,Estevez,1988-04-30,4.0,30.0,hcarreras@example.org,+34978643512,Operador de maquinaria agrícola y forestal móvil,52,,
7,89e74e640b8c46257a29de0616794d5d,FABIÁN,Morales,1990-05-25,5.0,25.0,bermudezruperto@example.org,+34 806 403 815,Empleado de agencia de viajes,42,,
8,e2ba905bf306f46faca223d3cb20e2cf,BLAS,Jiménez,1964-12-19,12.0,19.0,gfranch@example.com,+34 872783538,Trabajador comunitario de la salud,29,True,
9,5e732a1878be2342dbfeff5fe3ca5aa3,FÉLIX,Frutos,1980-07-14,7.0,14.0,ortunobienvenida@example.org,+34 981875220,Operario del tratamiento de la madera,32,,


Otra opción sería especificar mediante el parámetro `keys` un prefijo. De esta forma, el prefijo **distinguirá** de qué `DataFrame` procede el índice:

In [55]:
hierarchical_df = pd.concat([copied_df, copied2_df], keys=['first', 'second'])
hierarchical_df

Unnamed: 0,Unnamed: 1,id,nombre,apellidos,fecha_nacimiento,mes_nacimiento,dia_nacimiento,email,telefono,trabajo,edad,joven,Nuevo
first,0,d41d8cd98f00b204e9800998ecf8427e,DEMETRIO,Aguilera,1966-03-02,3.0,2.0,blanesclimaco@example.com,+34 879 00 05 97,Operador de plantas y máquinas de productos qu...,31,,
first,1,55a54008ad1ba589aa210d2629c1df41,EUSTAQUIO,Bou,1972-06-16,6.0,16.0,alcarazanita@example.com,+34881 187 191,Mecánico y reparador de motores de avión,29,True,
first,2,9e688c58a5487b8eaf69c9e1005ad0bf,ARTURO,Lerma,1997-11-12,11.0,12.0,matealicia@example.com,+34 884 33 78 08,Asesor de inversiones,21,True,
first,3,8666683506aacd900bbd5a74ac4edf68,NAZARIO,Cobo,1992-03-05,3.0,5.0,ddiego@example.org,+34980218320,Escribiente público,60,,
first,4,ec7f7e7bb43742ce868145f71d37b53c,BENITA,Cid,1980-10-12,10.0,12.0,aarino@example.com,+34800 24 24 27,Analista de gestión y organización,53,,
first,5,8bb6c17838643f9691cc6a4de6c51709,ROLANDO,Olmedo,1993-09-28,9.0,28.0,dafne77@example.org,+34 976 92 78 74,Diseñador de productos,22,True,
first,6,06eca1b437c7904cc3ce6546c8110110,MAYTE,Estevez,1988-04-30,4.0,30.0,hcarreras@example.org,+34978643512,Operador de maquinaria agrícola y forestal móvil,52,,
first,7,89e74e640b8c46257a29de0616794d5d,FABIÁN,Morales,1990-05-25,5.0,25.0,bermudezruperto@example.org,+34 806 403 815,Empleado de agencia de viajes,42,,
first,8,e2ba905bf306f46faca223d3cb20e2cf,BLAS,Jiménez,1964-12-19,12.0,19.0,gfranch@example.com,+34 872783538,Trabajador comunitario de la salud,29,True,
first,9,5e732a1878be2342dbfeff5fe3ca5aa3,FÉLIX,Frutos,1980-07-14,7.0,14.0,ortunobienvenida@example.org,+34 981875220,Operario del tratamiento de la madera,32,,


A este índice se le conoce como **índice jerárquico**. Para acceder a las filas de este `DataFrame` lo haríamos de la siguiente manera:

In [56]:
# Recuperamos todas las filas con el prefijo first
hierarchical_df.loc['first']

Unnamed: 0,id,nombre,apellidos,fecha_nacimiento,mes_nacimiento,dia_nacimiento,email,telefono,trabajo,edad,joven,Nuevo
0,d41d8cd98f00b204e9800998ecf8427e,DEMETRIO,Aguilera,1966-03-02,3.0,2.0,blanesclimaco@example.com,+34 879 00 05 97,Operador de plantas y máquinas de productos qu...,31,,
1,55a54008ad1ba589aa210d2629c1df41,EUSTAQUIO,Bou,1972-06-16,6.0,16.0,alcarazanita@example.com,+34881 187 191,Mecánico y reparador de motores de avión,29,True,
2,9e688c58a5487b8eaf69c9e1005ad0bf,ARTURO,Lerma,1997-11-12,11.0,12.0,matealicia@example.com,+34 884 33 78 08,Asesor de inversiones,21,True,
3,8666683506aacd900bbd5a74ac4edf68,NAZARIO,Cobo,1992-03-05,3.0,5.0,ddiego@example.org,+34980218320,Escribiente público,60,,
4,ec7f7e7bb43742ce868145f71d37b53c,BENITA,Cid,1980-10-12,10.0,12.0,aarino@example.com,+34800 24 24 27,Analista de gestión y organización,53,,
5,8bb6c17838643f9691cc6a4de6c51709,ROLANDO,Olmedo,1993-09-28,9.0,28.0,dafne77@example.org,+34 976 92 78 74,Diseñador de productos,22,True,
6,06eca1b437c7904cc3ce6546c8110110,MAYTE,Estevez,1988-04-30,4.0,30.0,hcarreras@example.org,+34978643512,Operador de maquinaria agrícola y forestal móvil,52,,
7,89e74e640b8c46257a29de0616794d5d,FABIÁN,Morales,1990-05-25,5.0,25.0,bermudezruperto@example.org,+34 806 403 815,Empleado de agencia de viajes,42,,
8,e2ba905bf306f46faca223d3cb20e2cf,BLAS,Jiménez,1964-12-19,12.0,19.0,gfranch@example.com,+34 872783538,Trabajador comunitario de la salud,29,True,
9,5e732a1878be2342dbfeff5fe3ca5aa3,FÉLIX,Frutos,1980-07-14,7.0,14.0,ortunobienvenida@example.org,+34 981875220,Operario del tratamiento de la madera,32,,


In [57]:
# Manera alternativa de recuperar filas con prefijo first
hierarchical_df.xs('first')

Unnamed: 0,id,nombre,apellidos,fecha_nacimiento,mes_nacimiento,dia_nacimiento,email,telefono,trabajo,edad,joven,Nuevo
0,d41d8cd98f00b204e9800998ecf8427e,DEMETRIO,Aguilera,1966-03-02,3.0,2.0,blanesclimaco@example.com,+34 879 00 05 97,Operador de plantas y máquinas de productos qu...,31,,
1,55a54008ad1ba589aa210d2629c1df41,EUSTAQUIO,Bou,1972-06-16,6.0,16.0,alcarazanita@example.com,+34881 187 191,Mecánico y reparador de motores de avión,29,True,
2,9e688c58a5487b8eaf69c9e1005ad0bf,ARTURO,Lerma,1997-11-12,11.0,12.0,matealicia@example.com,+34 884 33 78 08,Asesor de inversiones,21,True,
3,8666683506aacd900bbd5a74ac4edf68,NAZARIO,Cobo,1992-03-05,3.0,5.0,ddiego@example.org,+34980218320,Escribiente público,60,,
4,ec7f7e7bb43742ce868145f71d37b53c,BENITA,Cid,1980-10-12,10.0,12.0,aarino@example.com,+34800 24 24 27,Analista de gestión y organización,53,,
5,8bb6c17838643f9691cc6a4de6c51709,ROLANDO,Olmedo,1993-09-28,9.0,28.0,dafne77@example.org,+34 976 92 78 74,Diseñador de productos,22,True,
6,06eca1b437c7904cc3ce6546c8110110,MAYTE,Estevez,1988-04-30,4.0,30.0,hcarreras@example.org,+34978643512,Operador de maquinaria agrícola y forestal móvil,52,,
7,89e74e640b8c46257a29de0616794d5d,FABIÁN,Morales,1990-05-25,5.0,25.0,bermudezruperto@example.org,+34 806 403 815,Empleado de agencia de viajes,42,,
8,e2ba905bf306f46faca223d3cb20e2cf,BLAS,Jiménez,1964-12-19,12.0,19.0,gfranch@example.com,+34 872783538,Trabajador comunitario de la salud,29,True,
9,5e732a1878be2342dbfeff5fe3ca5aa3,FÉLIX,Frutos,1980-07-14,7.0,14.0,ortunobienvenida@example.org,+34 981875220,Operario del tratamiento de la madera,32,,


In [58]:
# Recuperamos fila 1 de prefijo first
hierarchical_df.loc['first'].loc[1]

id                          55a54008ad1ba589aa210d2629c1df41
nombre                                             EUSTAQUIO
apellidos                                                Bou
fecha_nacimiento                                  1972-06-16
mes_nacimiento                                           6.0
dia_nacimiento                                          16.0
email                               alcarazanita@example.com
telefono                                      +34881 187 191
trabajo             Mecánico y reparador de motores de avión
edad                                                      29
joven                                                   True
Nuevo                                                    NaN
Name: 1, dtype: object

In [59]:
# Manera alternativa de recuperar fila 1 de prefijo first
hierarchical_df.loc['first', 1]

id                          55a54008ad1ba589aa210d2629c1df41
nombre                                             EUSTAQUIO
apellidos                                                Bou
fecha_nacimiento                                  1972-06-16
mes_nacimiento                                           6.0
dia_nacimiento                                          16.0
email                               alcarazanita@example.com
telefono                                      +34881 187 191
trabajo             Mecánico y reparador de motores de avión
edad                                                      29
joven                                                   True
Nuevo                                                    NaN
Name: (first, 1), dtype: object

Si queremos estar seguros de que no se nos producen índices duplicados, la función `concat` define el parámetro `verify_integrity` mediante el que el que obtendremos un error si se producen índices duplicados:

In [60]:
#pd.concat([copied_df, copied2_df], verify_integrity=True)

La función `concat` es muy versátil, y nos permite también concatenar por columnas en lugar de por filas mediante el parámetro `axis`:

In [66]:
pd.concat([copied_df, copied2_df], axis=1)

Unnamed: 0,id,nombre,apellidos,fecha_nacimiento,mes_nacimiento,dia_nacimiento,email,telefono,trabajo,edad,...,Nuevo,id.1,nombre.1,apellidos.1,fecha_nacimiento.1,email.1,telefono.1,trabajo.1,edad.1,Nuevo.1
0,d41d8cd98f00b204e9800998ecf8427e,DEMETRIO,Aguilera,1966-03-02,3.0,2.0,blanesclimaco@example.com,+34 879 00 05 97,Operador de plantas y máquinas de productos qu...,31.0,...,,d41d8cd98f00b204e9800998ecf8427e,Ángela,Coca,1997-02-27,morellfrancisco-javier@example.org,+34 811 23 06 65,Cuidador de animales,49.0,True
1,55a54008ad1ba589aa210d2629c1df41,EUSTAQUIO,Bou,1972-06-16,6.0,16.0,alcarazanita@example.com,+34881 187 191,Mecánico y reparador de motores de avión,29.0,...,,55a54008ad1ba589aa210d2629c1df41,Sandra,Losada,1996-07-29,telmo59@example.org,+34986 14 46 69,Diseñador de prendas,35.0,True
2,9e688c58a5487b8eaf69c9e1005ad0bf,ARTURO,Lerma,1997-11-12,11.0,12.0,matealicia@example.com,+34 884 33 78 08,Asesor de inversiones,21.0,...,,9e688c58a5487b8eaf69c9e1005ad0bf,Danilo,Perez,1978-08-29,manuelpuig@example.org,+34925 737 264,Acarreador de agua,25.0,True
3,8666683506aacd900bbd5a74ac4edf68,NAZARIO,Cobo,1992-03-05,3.0,5.0,ddiego@example.org,+34980218320,Escribiente público,60.0,...,,8666683506aacd900bbd5a74ac4edf68,Alexandra,Prat,1980-04-22,ltena@example.com,+34977 249 595,Cristalero,56.0,True
4,ec7f7e7bb43742ce868145f71d37b53c,BENITA,Cid,1980-10-12,10.0,12.0,aarino@example.com,+34800 24 24 27,Analista de gestión y organización,53.0,...,,ec7f7e7bb43742ce868145f71d37b53c,Aurelia,Sebastián,1992-04-13,solegertrudis@example.org,+34735 712 955,Recepcionista de hoteles,49.0,True
5,8bb6c17838643f9691cc6a4de6c51709,ROLANDO,Olmedo,1993-09-28,9.0,28.0,dafne77@example.org,+34 976 92 78 74,Diseñador de productos,22.0,...,,8bb6c17838643f9691cc6a4de6c51709,Marc,Muro,1998-04-20,chus38@example.net,+34886 189 358,Ensamblador de equipos electrónicos,41.0,True
6,06eca1b437c7904cc3ce6546c8110110,MAYTE,Estevez,1988-04-30,4.0,30.0,hcarreras@example.org,+34978643512,Operador de maquinaria agrícola y forestal móvil,52.0,...,,06eca1b437c7904cc3ce6546c8110110,Álvaro,Lastra,1965-10-12,higuerasjose-angel@example.com,+34 843 06 00 32,Empleado de contabilidad y cálculo de costos,39.0,True
7,89e74e640b8c46257a29de0616794d5d,FABIÁN,Morales,1990-05-25,5.0,25.0,bermudezruperto@example.org,+34 806 403 815,Empleado de agencia de viajes,42.0,...,,89e74e640b8c46257a29de0616794d5d,Pedro,Rovira,1995-01-24,mayoljuan-carlos@example.net,+34978 93 58 10,Pescador de agua dulce y en aguas costeras,25.0,True
8,e2ba905bf306f46faca223d3cb20e2cf,BLAS,Jiménez,1964-12-19,12.0,19.0,gfranch@example.com,+34 872783538,Trabajador comunitario de la salud,29.0,...,,e2ba905bf306f46faca223d3cb20e2cf,Natanael,Gras,1971-01-22,rvalera@example.net,+34843 89 91 28,Técnico de prótesis médicas y dentales,21.0,True
9,5e732a1878be2342dbfeff5fe3ca5aa3,FÉLIX,Frutos,1980-07-14,7.0,14.0,ortunobienvenida@example.org,+34 981875220,Operario del tratamiento de la madera,32.0,...,,5e732a1878be2342dbfeff5fe3ca5aa3,Jennifer,Córdoba,1994-06-18,imorera@example.net,+34 987997051,Historiador,44.0,True


Cuando concatenamos por columnas, aquellas filas que compartan el mismo índice serán colocadas una a continuación de la otra. Si los índices no coincidieran, las columnas no definidas serán rellenadas con `NaN`. Veámoslo con un ejemplo:

In [62]:
copied_df.loc[123] = copied_df.loc[0]
copied2_df.loc[321] = copied2_df.loc[0]
pd.concat([copied_df, copied2_df], axis=1).tail(3)

Unnamed: 0,id,nombre,apellidos,fecha_nacimiento,mes_nacimiento,dia_nacimiento,email,telefono,trabajo,edad,...,Nuevo,id.1,nombre.1,apellidos.1,fecha_nacimiento.1,email.1,telefono.1,trabajo.1,edad.1,Nuevo.1
19,5e732a1878be2342dbfeff5fe3ca5aa3,Jennifer,Córdoba,1994-06-18,,,imorera@example.net,+34 987997051,Historiador,44.0,...,True,,,,,,,,,
123,d41d8cd98f00b204e9800998ecf8427e,DEMETRIO,Aguilera,1966-03-02,3.0,2.0,blanesclimaco@example.com,+34 879 00 05 97,Operador de plantas y máquinas de productos qu...,31.0,...,,,,,,,,,,
321,,,,,,,,,,,...,,d41d8cd98f00b204e9800998ecf8427e,Ángela,Coca,1997-02-27,morellfrancisco-javier@example.org,+34 811 23 06 65,Cuidador de animales,49.0,True


Si queremos evitar que se añadan las filas cuyos índices no coincidan, estableceremos el parámetro `join` con valor `inner`:

In [68]:
pd.concat([copied_df, copied2_df], axis=1, join = 'inner').tail(3)

Unnamed: 0,id,nombre,apellidos,fecha_nacimiento,mes_nacimiento,dia_nacimiento,email,telefono,trabajo,edad,...,Nuevo,id.1,nombre.1,apellidos.1,fecha_nacimiento.1,email.1,telefono.1,trabajo.1,edad.1,Nuevo.1
7,89e74e640b8c46257a29de0616794d5d,FABIÁN,Morales,1990-05-25,5.0,25.0,bermudezruperto@example.org,+34 806 403 815,Empleado de agencia de viajes,42,...,,89e74e640b8c46257a29de0616794d5d,Pedro,Rovira,1995-01-24,mayoljuan-carlos@example.net,+34978 93 58 10,Pescador de agua dulce y en aguas costeras,25,True
8,e2ba905bf306f46faca223d3cb20e2cf,BLAS,Jiménez,1964-12-19,12.0,19.0,gfranch@example.com,+34 872783538,Trabajador comunitario de la salud,29,...,,e2ba905bf306f46faca223d3cb20e2cf,Natanael,Gras,1971-01-22,rvalera@example.net,+34843 89 91 28,Técnico de prótesis médicas y dentales,21,True
9,5e732a1878be2342dbfeff5fe3ca5aa3,FÉLIX,Frutos,1980-07-14,7.0,14.0,ortunobienvenida@example.org,+34 981875220,Operario del tratamiento de la madera,32,...,,5e732a1878be2342dbfeff5fe3ca5aa3,Jennifer,Córdoba,1994-06-18,imorera@example.net,+34 987997051,Historiador,44,True


También podemos **insertar** y **reemplazar** filas en un `DataFrame` especificando su índice:

In [69]:
copied_df.loc[49] = ['nuevo', 'Prueba', 'Prueba', '1900-01-01', 1, 1,'prueba@correo.es', '99955443322', 'None', 0, False,True]
copied_df.tail(2)

Unnamed: 0,id,nombre,apellidos,fecha_nacimiento,mes_nacimiento,dia_nacimiento,email,telefono,trabajo,edad,joven,Nuevo
123,d41d8cd98f00b204e9800998ecf8427e,DEMETRIO,Aguilera,1966-03-02,3.0,2.0,blanesclimaco@example.com,+34 879 00 05 97,Operador de plantas y máquinas de productos qu...,31,,
49,nuevo,Prueba,Prueba,1900-01-01,1.0,1.0,prueba@correo.es,99955443322,,0,False,True


Para **eliminar** filas, podemos hacer uso del método `drop`. Este método nos devolverá una copia del `DataFrame` sin las filas especificadas:

In [72]:
copied_df.drop(49).tail(2)

Unnamed: 0,id,nombre,apellidos,fecha_nacimiento,mes_nacimiento,dia_nacimiento,email,telefono,trabajo,edad,joven,Nuevo
19,5e732a1878be2342dbfeff5fe3ca5aa3,Jennifer,Córdoba,1994-06-18,,,imorera@example.net,+34 987997051,Historiador,44,,True
123,d41d8cd98f00b204e9800998ecf8427e,DEMETRIO,Aguilera,1966-03-02,3.0,2.0,blanesclimaco@example.com,+34 879 00 05 97,Operador de plantas y máquinas de productos qu...,31,,


Otra forma de **eliminar** un conjunto de filas que no cumplan una determinada condición sería aplicando operadores de filtrado. Por ejemplo, de la siguiente manera obtendríamos únicamente aquellas filas cuya dirección de correo no acaba en `.es`:

In [71]:
copied_df[~copied_df['email'].str.endswith('.es')]

Unnamed: 0,id,nombre,apellidos,fecha_nacimiento,mes_nacimiento,dia_nacimiento,email,telefono,trabajo,edad,joven,Nuevo
0,d41d8cd98f00b204e9800998ecf8427e,DEMETRIO,Aguilera,1966-03-02,3.0,2.0,blanesclimaco@example.com,+34 879 00 05 97,Operador de plantas y máquinas de productos qu...,31,,
1,55a54008ad1ba589aa210d2629c1df41,EUSTAQUIO,Bou,1972-06-16,6.0,16.0,alcarazanita@example.com,+34881 187 191,Mecánico y reparador de motores de avión,29,True,
2,9e688c58a5487b8eaf69c9e1005ad0bf,ARTURO,Lerma,1997-11-12,11.0,12.0,matealicia@example.com,+34 884 33 78 08,Asesor de inversiones,21,True,
3,8666683506aacd900bbd5a74ac4edf68,NAZARIO,Cobo,1992-03-05,3.0,5.0,ddiego@example.org,+34980218320,Escribiente público,60,,
4,ec7f7e7bb43742ce868145f71d37b53c,BENITA,Cid,1980-10-12,10.0,12.0,aarino@example.com,+34800 24 24 27,Analista de gestión y organización,53,,
5,8bb6c17838643f9691cc6a4de6c51709,ROLANDO,Olmedo,1993-09-28,9.0,28.0,dafne77@example.org,+34 976 92 78 74,Diseñador de productos,22,True,
6,06eca1b437c7904cc3ce6546c8110110,MAYTE,Estevez,1988-04-30,4.0,30.0,hcarreras@example.org,+34978643512,Operador de maquinaria agrícola y forestal móvil,52,,
7,89e74e640b8c46257a29de0616794d5d,FABIÁN,Morales,1990-05-25,5.0,25.0,bermudezruperto@example.org,+34 806 403 815,Empleado de agencia de viajes,42,,
8,e2ba905bf306f46faca223d3cb20e2cf,BLAS,Jiménez,1964-12-19,12.0,19.0,gfranch@example.com,+34 872783538,Trabajador comunitario de la salud,29,True,
9,5e732a1878be2342dbfeff5fe3ca5aa3,FÉLIX,Frutos,1980-07-14,7.0,14.0,ortunobienvenida@example.org,+34 981875220,Operario del tratamiento de la madera,32,,


También podemos hacer esta eliminación especificando el rango de filas de nuestro interés. Por ejemplo, mediante el siguiente código nos quedaríamos únicamente con las dos primeras filas:

In [73]:
copied_df[:2]

Unnamed: 0,id,nombre,apellidos,fecha_nacimiento,mes_nacimiento,dia_nacimiento,email,telefono,trabajo,edad,joven,Nuevo
0,d41d8cd98f00b204e9800998ecf8427e,DEMETRIO,Aguilera,1966-03-02,3.0,2.0,blanesclimaco@example.com,+34 879 00 05 97,Operador de plantas y máquinas de productos qu...,31,,
1,55a54008ad1ba589aa210d2629c1df41,EUSTAQUIO,Bou,1972-06-16,6.0,16.0,alcarazanita@example.com,+34881 187 191,Mecánico y reparador de motores de avión,29,True,


## Variables categóricas

Como hemos visto anteriormente, una variable **categórica** o **cualitativa** es aquella que representa un conjunto fijo y finito de valores, en contraste con las variables de tipo **cuantitativo** en las que el conjunto de valores es infinito.

`pandas` define un tipo de objeto especial, denominado `Categorical`, para definir este tipo de variables. Podemos crear una secuencia de valores categóricos de la siguiente manera:

In [74]:
grades = ['A', 'A', 'B', 'C', 'E', 'D', 'A', 'B']
grades_cat = pd.Categorical(grades)
grades_cat

['A', 'A', 'B', 'C', 'E', 'D', 'A', 'B']
Categories (5, object): ['A', 'B', 'C', 'D', 'E']

Podemos acceder a las categorías de una secuencia de este tipo mediante la propiedad `categories`:

In [75]:
grades_cat.categories

Index(['A', 'B', 'C', 'D', 'E'], dtype='object')

También podemos recuperar la codificación interna que `pandas` asigna a estas categorías mediante la propiedad `codes`:

In [76]:
grades_cat.codes

array([0, 0, 1, 2, 4, 3, 0, 1], dtype=int8)

Observemos que a la etiqueta `A` se le ha asignado el valor 0, a la `B` el valor 1, a la `C` el valor 2, a la `D` el valor 3 y a la `E` el valor 4. Podremos modificar la codificación de cada símbolo mediante el parámetro `categories` de la función `pd.Categorical`. Esta codificación interna define una manera de **ordenar** los valores categóricos, de manera que el método `sort_values` ordenará en este caso las categorías desde la A hasta la E:

In [77]:
grades_cat.sort_values()

['A', 'A', 'A', 'B', 'B', 'C', 'D', 'E']
Categories (5, object): ['A', 'B', 'C', 'D', 'E']

También es posible crear mediante la función `pd.Series` una secuencia de tipo categórica. Para ello, haremos uso del parámetro `dtype`:

In [78]:
grades = ['A', 'A', 'B', 'C', 'E', 'D', 'A', 'B']
grades_ser = pd.Series(grades, dtype="category")
grades_ser

0    A
1    A
2    B
3    C
4    E
5    D
6    A
7    B
dtype: category
Categories (5, object): ['A', 'B', 'C', 'D', 'E']

En este caso, accederemos a su objeto `Categorical` asociado mediante la propiedad `cat`:

In [79]:
grades_ser.cat

<pandas.core.arrays.categorical.CategoricalAccessor object at 0x00000202D39FA6D0>

### Discretización de variables continuas

In [80]:
# Copiamos nuevamente DataFrame original
copy_df = people1_df.copy()

La **discretización**, cuantización o agrupamiento es un proceso por el que convertimos una variable **cuantitativa** en una variable **cualitativa ordinal**, agrupando conjuntos de valores en unos rangos previamente definidos. Existen múltiples escenarios en los que puede interesarnos **discretizar** variables cuantitativas:

* Si se trata de una variable de salida, para convertir un problema de **regresión** (estimación del valor de una variable) en uno de **clasificación** (asignación de la clase adecuada a una variable).
* La **distribución de la variable no es relevante**, pero sí lo son determinados puntos de corte.
* Los valores **no se distribuyen de forma lineal** y queremos corregir esta distribución.


La librería `pandas` nos permite realizar esta agrupación mediante la función `cut`. Por ejemplo, imaginemos que queremos agrupar por rangos las edades de nuestro `DataFrame` original de personas:

In [81]:
copy_df['edad_categorizada'] = pd.cut(copy_df['edad'], [0,30, 55, 100])
copy_df

Unnamed: 0,id,nombre,apellidos,fecha_nacimiento,email,telefono,trabajo,edad,edad_categorizada
0,d41d8cd98f00b204e9800998ecf8427e,Demetrio,Aguilera,1966-03-02,blanesclimaco@example.com,+34 879 00 05 97,Operador de plantas y máquinas de productos qu...,31,"(30, 55]"
1,55a54008ad1ba589aa210d2629c1df41,Eustaquio,Bou,1972-06-16,alcarazanita@example.com,+34881 187 191,Mecánico y reparador de motores de avión,29,"(0, 30]"
2,9e688c58a5487b8eaf69c9e1005ad0bf,Arturo,Lerma,1997-11-12,matealicia@example.com,+34 884 33 78 08,Asesor de inversiones,21,"(0, 30]"
3,8666683506aacd900bbd5a74ac4edf68,Nazario,Cobo,1992-03-05,ddiego@example.org,+34980218320,Escribiente público,60,"(55, 100]"
4,ec7f7e7bb43742ce868145f71d37b53c,Benita,Cid,1980-10-12,aarino@example.com,+34800 24 24 27,Analista de gestión y organización,53,"(30, 55]"
5,8bb6c17838643f9691cc6a4de6c51709,Rolando,Olmedo,1993-09-28,dafne77@example.org,+34 976 92 78 74,Diseñador de productos,22,"(0, 30]"
6,06eca1b437c7904cc3ce6546c8110110,Mayte,Estevez,1988-04-30,hcarreras@example.org,+34978643512,Operador de maquinaria agrícola y forestal móvil,52,"(30, 55]"
7,89e74e640b8c46257a29de0616794d5d,Fabián,Morales,1990-05-25,bermudezruperto@example.org,+34 806 403 815,Empleado de agencia de viajes,42,"(30, 55]"
8,e2ba905bf306f46faca223d3cb20e2cf,Blas,Jiménez,1964-12-19,gfranch@example.com,+34 872783538,Trabajador comunitario de la salud,29,"(0, 30]"
9,5e732a1878be2342dbfeff5fe3ca5aa3,Félix,Frutos,1980-07-14,ortunobienvenida@example.org,+34 981875220,Operario del tratamiento de la madera,32,"(30, 55]"


El método `cut` define una serie de parámetros que modifican la manera en que se hace esta agrupación:

* **`bins`**: además de una lista con los puntos de corte de cada intervalo, podemos especificar un entero cuando la separación entre los puntos de corte sea uniforme.
* **`right`**: los intervalos producidos están cerrados (incluyen) en un extremo y abiertos (excluyen) en el otro. Mediante este parámetro especificaremos si el extremo a incluir es el derecho (`right=True`) o el izquierdo (`right=False`).
* **`labels`**: especifica las etiquetas asignadas a cada intervalo. Si su valor es `None`, se mostrará el intervalo directamente; si su valor es `False` se asignará un valor entero, y si es una `lista` se asignará el valor especificado a cada intervalo.
* **`ordered`**: mediante este parámetro indicamos si los intervalos producidos por el agrupamiento se encuentran ordenados (valor `True`) o no definen una relación de orden (valor `False`). 

Conociendo estos parámetros, vamos a reescriir el código anterior para hacer un mejor agrupamiento por edad:

In [83]:
copy_df['edad_categorizada'] = pd.cut(copy_df['edad'], 
                                      # Puntos de corte: 0, 30, 55, 100
                                      bins=[0,30, 55, 100], 
                                      # Incluye extremo izquierdo, excluye derecho
                                      right=False, 
                                      # Texto a mostrar en lugar de intervalo
                                      labels=["Joven", "Intermedio", "Mayor"],
                                      # Joven < Intermedio < Mayor
                                      ordered=True
                                    )
copy_df

Unnamed: 0,id,nombre,apellidos,fecha_nacimiento,email,telefono,trabajo,edad,edad_categorizada
0,d41d8cd98f00b204e9800998ecf8427e,Demetrio,Aguilera,1966-03-02,blanesclimaco@example.com,+34 879 00 05 97,Operador de plantas y máquinas de productos qu...,31,Intermedio
1,55a54008ad1ba589aa210d2629c1df41,Eustaquio,Bou,1972-06-16,alcarazanita@example.com,+34881 187 191,Mecánico y reparador de motores de avión,29,Joven
2,9e688c58a5487b8eaf69c9e1005ad0bf,Arturo,Lerma,1997-11-12,matealicia@example.com,+34 884 33 78 08,Asesor de inversiones,21,Joven
3,8666683506aacd900bbd5a74ac4edf68,Nazario,Cobo,1992-03-05,ddiego@example.org,+34980218320,Escribiente público,60,Mayor
4,ec7f7e7bb43742ce868145f71d37b53c,Benita,Cid,1980-10-12,aarino@example.com,+34800 24 24 27,Analista de gestión y organización,53,Intermedio
5,8bb6c17838643f9691cc6a4de6c51709,Rolando,Olmedo,1993-09-28,dafne77@example.org,+34 976 92 78 74,Diseñador de productos,22,Joven
6,06eca1b437c7904cc3ce6546c8110110,Mayte,Estevez,1988-04-30,hcarreras@example.org,+34978643512,Operador de maquinaria agrícola y forestal móvil,52,Intermedio
7,89e74e640b8c46257a29de0616794d5d,Fabián,Morales,1990-05-25,bermudezruperto@example.org,+34 806 403 815,Empleado de agencia de viajes,42,Intermedio
8,e2ba905bf306f46faca223d3cb20e2cf,Blas,Jiménez,1964-12-19,gfranch@example.com,+34 872783538,Trabajador comunitario de la salud,29,Joven
9,5e732a1878be2342dbfeff5fe3ca5aa3,Félix,Frutos,1980-07-14,ortunobienvenida@example.org,+34 981875220,Operario del tratamiento de la madera,32,Intermedio


Como hemos definido una relación de ordenación entre las diferentes categorías, podemos consultar, por ejemplo, que personas son `Jovenes` o `Intermedias` de la siguiente manera:

In [84]:
copy_df[copy_df['edad_categorizada'] < 'Mayor']

Unnamed: 0,id,nombre,apellidos,fecha_nacimiento,email,telefono,trabajo,edad,edad_categorizada
0,d41d8cd98f00b204e9800998ecf8427e,Demetrio,Aguilera,1966-03-02,blanesclimaco@example.com,+34 879 00 05 97,Operador de plantas y máquinas de productos qu...,31,Intermedio
1,55a54008ad1ba589aa210d2629c1df41,Eustaquio,Bou,1972-06-16,alcarazanita@example.com,+34881 187 191,Mecánico y reparador de motores de avión,29,Joven
2,9e688c58a5487b8eaf69c9e1005ad0bf,Arturo,Lerma,1997-11-12,matealicia@example.com,+34 884 33 78 08,Asesor de inversiones,21,Joven
4,ec7f7e7bb43742ce868145f71d37b53c,Benita,Cid,1980-10-12,aarino@example.com,+34800 24 24 27,Analista de gestión y organización,53,Intermedio
5,8bb6c17838643f9691cc6a4de6c51709,Rolando,Olmedo,1993-09-28,dafne77@example.org,+34 976 92 78 74,Diseñador de productos,22,Joven
6,06eca1b437c7904cc3ce6546c8110110,Mayte,Estevez,1988-04-30,hcarreras@example.org,+34978643512,Operador de maquinaria agrícola y forestal móvil,52,Intermedio
7,89e74e640b8c46257a29de0616794d5d,Fabián,Morales,1990-05-25,bermudezruperto@example.org,+34 806 403 815,Empleado de agencia de viajes,42,Intermedio
8,e2ba905bf306f46faca223d3cb20e2cf,Blas,Jiménez,1964-12-19,gfranch@example.com,+34 872783538,Trabajador comunitario de la salud,29,Joven
9,5e732a1878be2342dbfeff5fe3ca5aa3,Félix,Frutos,1980-07-14,ortunobienvenida@example.org,+34 981875220,Operario del tratamiento de la madera,32,Intermedio


### Renombrar, añadir y eliminar categorías existentes

La librería `pandas` nos ofrece dos formas de renombrar las categorías de un `DataFrame`. La primera es mediante el método `rename_categories`, mediante el cual obtendremos una nueva secuencia con las categorías renombradas. Por ejemplo, imaginemos que deseamos renombrar la `edad_categorizada` de la sección anterior, de manera que la agrupación `Intermedio` pase a denominarse `Mediano`. Haríamos lo siguiente:

In [85]:
copy_df['edad_categorizada'].cat.rename_categories(["Joven", "Mediano", "Mayor"])

0    Mediano
1      Joven
2      Joven
3      Mayor
4    Mediano
5      Joven
6    Mediano
7    Mediano
8      Joven
9    Mediano
Name: edad_categorizada, dtype: category
Categories (3, object): ['Joven' < 'Mediano' < 'Mayor']

También puede resultarnos de interés utilizar el método `value_counts`, mediante el que *contaremos* el número de filas que utilizan una determinada categoría:

In [86]:
copy_df['edad_categorizada'].value_counts()

Intermedio    5
Joven         4
Mayor         1
Name: edad_categorizada, dtype: int64

Finalmente, mediante el método `set_categories` podremos añadir y eliminar a la vez categorías, así como especificar nuevas formas de ordenarlas:

In [87]:
copy_df['edad_categorizada'].cat.set_categories(['Infante', 'Joven', 'Mayor', 'Centenario'], ordered=True, rename=False)

0      NaN
1    Joven
2    Joven
3    Mayor
4      NaN
5    Joven
6      NaN
7      NaN
8    Joven
9      NaN
Name: edad_categorizada, dtype: category
Categories (4, object): ['Infante' < 'Joven' < 'Mayor' < 'Centenario']

Del resultado obtenido, podemos extraer las siguientes conclusiones:
* Hemos añadido dos nuevas categorías: `Infante` y `Centenario`.
* Hemos eliminado la categoría `Mediano` y las filas con este valor ahora tienen el valor `NaN`.
* La ordenación respeta el orden en el que hemos indicado las categorías: `Infante` < `Joven` < `Mayor` < `Centenario`.