# **Manipulación y Transformación de Datos con Pandas y Numpy**

In [1]:
#Importar librerias
import numpy as np
import pandas as pd

## **Np.Arrays**

In [2]:
# Creación de listas en Python
lista = [1,2,3,4,5,6,7,8,9]
lista

[1, 2, 3, 4, 5, 6, 7, 8, 9]

In [3]:
# Creación de listas en Numpy
lista = np.array(lista)
lista

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [4]:
# Tipo de las listas en numpy
type(lista)

numpy.ndarray

In [5]:
# Creación de matrices en python

matriz = [[1,2,3],[4,5,6],[7,8,9]]
matriz = np.array(matriz)
matriz

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

## **Indexing**

In [6]:
# Indexing en listas
print(lista)

lista[0]

[1 2 3 4 5 6 7 8 9]


1

In [7]:
# Indexing en matrices
print(matriz)

matriz[0,2]

[[1 2 3]
 [4 5 6]
 [7 8 9]]


3

In [8]:
# Indexing negativo en listas
print(lista)

lista[-1]

[1 2 3 4 5 6 7 8 9]


9

In [9]:
# Indexing negativo en matrices
print(matriz)

matriz[-1,-1]

[[1 2 3]
 [4 5 6]
 [7 8 9]]


9

## **Slicing**

In [10]:
# Slicing definidos en listas
print(lista)

lista[0:3]

[1 2 3 4 5 6 7 8 9]


array([1, 2, 3])

In [11]:
# Slicing definidos en matrices
print(matriz)

matriz[0:2,0:2]

[[1 2 3]
 [4 5 6]
 [7 8 9]]


array([[1, 2],
       [4, 5]])

In [12]:
# Slicing indefinidos en listas
print(lista)

lista[3:]

[1 2 3 4 5 6 7 8 9]


array([4, 5, 6, 7, 8, 9])

In [13]:
# Slicing indefinidos en matrices
print(matriz)

matriz[1:,1:]

[[1 2 3]
 [4 5 6]
 [7 8 9]]


array([[5, 6],
       [8, 9]])

In [14]:
# Slicing por pasos en listas
print(lista)

lista[0:7:2]

[1 2 3 4 5 6 7 8 9]


array([1, 3, 5, 7])

## **Tipos de datos en Np.Arrays**

In [15]:
# Definición del tipo de dato

lista = np.array(lista, dtype = "float64")
print(lista.dtype)
print(lista)

float64
[1. 2. 3. 4. 5. 6. 7. 8. 9.]


In [16]:
# si y aexiste una lista con un tipo de dato y se quiere cambiar el tipo de dato
# podemos hacer lo siguiente

print(lista) # Lista existente con tipo de dato float
print(lista.dtype)

lista = lista.astype("int") # Cambio de tipo de dato

print(lista)
print(lista.dtype)

[1. 2. 3. 4. 5. 6. 7. 8. 9.]
float64
[1 2 3 4 5 6 7 8 9]
int32


## **Dimensiones en Numpy**

In [17]:
# Dimensión de escalares
scalar = np.array(42)
print(scalar)
print("Número de dimensiones:", scalar.ndim)

42
Número de dimensiones: 0


In [18]:
# Dimensiòn de vectores
vector = np.array([1,2,3,4,5,6,7,8,9])
print(vector)
print("Número de dimensiones:", vector.ndim)

[1 2 3 4 5 6 7 8 9]
Número de dimensiones: 1


In [19]:
# Dimensión de matrices
matriz = np.array([[1,2,3],[4,5,6],[7,8,9]])
print(matriz)
print("Número de dimensiones:", matriz.ndim)

[[1 2 3]
 [4 5 6]
 [7 8 9]]
Número de dimensiones: 2


In [20]:
# Dimensión de tensores
tensor = np.array([
    [[1,2,3],[4,5,6],[7,8,9]],
    [[1,2,3],[4,5,6],[7,8,9]],
    [[1,2,3],[4,5,6],[7,8,9]]
])
print(tensor)
print("Número de dimensiones:", tensor.ndim)

[[[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]]
Número de dimensiones: 3


In [21]:
# Para agregar dimensiones a un array existente, podemos hacer lo siguiente:
vector = np.array([1,2,3], ndmin = 10)
print(vector)
print("Número de dimensiones:", vector.ndim)

[[[[[[[[[[1 2 3]]]]]]]]]]
Número de dimensiones: 10


In [22]:
# Si ya está creado el vector (o en general array), y queremeos agregarle dimensiones, podemos hacer lo siguiente:
print(vector)
print("Número de dimensiones:", vector.ndim)

vector = np.expand_dims(vector, axis = 0)
print(vector)
print("Número de dimensiones:", vector.ndim)

[[[[[[[[[[1 2 3]]]]]]]]]]
Número de dimensiones: 10
[[[[[[[[[[[1 2 3]]]]]]]]]]]
Número de dimensiones: 11


In [23]:
# si tenemos dimensiones extra que no se estén usando, podemos eliminarlas con la función squeeze
print(vector)
print("Número de dimensiones:", vector.ndim)

vector = np.squeeze(vector)
print(vector)
print("Número de dimensiones:", vector.ndim)

[[[[[[[[[[[1 2 3]]]]]]]]]]]
Número de dimensiones: 11
[1 2 3]
Número de dimensiones: 1


## **Creación de Np.Arrays útiles**

In [24]:
# Secuencia de números con numpy arange, que comienza en 0 y termina en 20, con saltos de 2
sequence = np.arange(0,20,2)
print(sequence)

[ 0  2  4  6  8 10 12 14 16 18]


In [25]:
# Arrays de ceros con numpy zeros
zeros = np.zeros((3,3))
print(zeros)

[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]


In [26]:
# Arrays de unos con numpy ones
ones = np.ones((3,3))
print(ones)

[[1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]]


In [27]:
# Arrays de números aleatorios con numpy random
random = np.random.random((3,3))
print(random)

[[0.20855611 0.48403645 0.07036896]
 [0.10309231 0.10264964 0.97486501]
 [0.26104918 0.58602162 0.04174437]]


In [28]:
# Arrays de números aleatorios enteros con numpy randint
randomint = np.random.randint(0,10,(3,3))
print(randomint)

[[6 8 9]
 [0 7 7]
 [3 0 0]]


In [29]:
# Lista de números con numpy linspace
linspace = np.linspace(0,10,30) # De 0 a 10, 20 números
print(linspace)

[ 0.          0.34482759  0.68965517  1.03448276  1.37931034  1.72413793
  2.06896552  2.4137931   2.75862069  3.10344828  3.44827586  3.79310345
  4.13793103  4.48275862  4.82758621  5.17241379  5.51724138  5.86206897
  6.20689655  6.55172414  6.89655172  7.24137931  7.5862069   7.93103448
  8.27586207  8.62068966  8.96551724  9.31034483  9.65517241 10.        ]


In [30]:
# Matriz identidad de tamaño n
identity = np.eye(3)
print(identity)

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


## **Shape y Reshape**

In [31]:
arr = np.random.randint(1,10,(3,2))
arr

array([[8, 2],
       [8, 7],
       [3, 7]])

In [32]:
# dimensiones del arreglo arr
arr.shape

(3, 2)

In [33]:
#Ahora, para cambiar las dimensiones del arreglo, podemos usar el metodo reshape

print("Reshape 1: \n", arr.reshape(2,3))

print("Reshape 2: \n", arr.reshape(6,1))

Reshape 1: 
 [[8 2 8]
 [7 3 7]]
Reshape 2: 
 [[8]
 [2]
 [8]
 [7]
 [3]
 [7]]


In [34]:
# Ahora, para ver el orden en el que se hace el reshape, tenemos las siguientes opciones:
print("Array original: \n", arr)

print("Orden como C: \n", np.reshape(arr, (2,3), order = "C")) # Mismo orden que en el lenguage C

print("Orden como Fortran: \n", np.reshape(arr, (2,3), order = "F")) # Mismo orden que en el lenguage Fortran

print("Orden Optimizado: \n", np.reshape(arr, (2,3), order = "A")) # Orden optimizado para la memoria (entre C y F)

Array original: 
 [[8 2]
 [8 7]
 [3 7]]
Orden como C: 
 [[8 2 8]
 [7 3 7]]
Orden como Fortran: 
 [[8 3 7]
 [8 2 7]]
Orden Optimizado: 
 [[8 2 8]
 [7 3 7]]


## **Funciones Principales de Numpy**

In [35]:
#Vamos a trabajar con el siguiente arreglo
arr  = np.random.randint(1,20,10)
arr = arr.reshape(2,5)
arr

array([[10, 13,  2, 15, 17],
       [15,  1, 15,  8,  1]])

In [36]:
# Función "max" para encontrar el valor máximo de todo el arreglo
print("Máximo global:", arr.max())

# Para encontrar el máximo por filas, podemos usar el argumento axis = 1
print("Máximo por filas:", arr.max(axis = 1))

# Para encontrar el máximo por columnas, podemos usar el argumento axis = 0
print("Máximo por columnas:", arr.max(axis = 0))

Máximo global: 17
Máximo por filas: [17 15]
Máximo por columnas: [15 13 15 15 17]


In [37]:
# Función "min" para encontrar el valor mínimo de todo el arreglo
print("Mínimo global:", arr.min())

# Para encontrar el mínimo por filas, podemos usar el argumento axis = 1
print("Mínimo por filas:", arr.min(axis = 1))

# Para encontrar el mínimo por columnas, podemos usar el argumento axis = 0
print("Mínimo por columnas:", arr.min(axis = 0))


Mínimo global: 1
Mínimo por filas: [2 1]
Mínimo por columnas: [10  1  2  8  1]


In [38]:
# Si queremos encontrar el índice del valor máximo, podemos usar la función argmax
print("Índice del máximo global:", arr.argmax())

# Para encontrar el índice del máximo por filas, podemos usar el argumento axis = 1
print("Índice del máximo por filas:", arr.argmax(axis = 1))

# Para encontrar el índice del máximo por columnas, podemos usar el argumento axis = 0
print("Índice del máximo por columnas:", arr.argmax(axis = 0))

Índice del máximo global: 4
Índice del máximo por filas: [4 0]
Índice del máximo por columnas: [1 0 1 0 0]


In [39]:
# Si queremos encontrar el índice del valor mínimo, podemos usar la función argmin
print("Índice del mínimo global:", arr.argmin())

# Para encontrar el índice del mínimo por filas, podemos usar el argumento axis = 1
print("Índice del mínimo por filas:", arr.argmin(axis = 1))

# Para encontrar el índice del mínimo por columnas, podemos usar el argumento axis = 0
print("Índice del mínimo por columnas:", arr.argmin(axis = 0))

Índice del mínimo global: 6
Índice del mínimo por filas: [2 1]
Índice del mínimo por columnas: [0 1 0 1 1]


In [40]:
# Si queremos saber la difenencia entre el valor máximo y el mínimo, podemos usar la función peak_to_peak
print("Valor mínimo", arr.min())
print("Valor máximo", arr.max())
print("Pico a pico:", arr.ptp())

Valor mínimo 1
Valor máximo 17
Pico a pico: 16


In [41]:
# Para el cálculo de los percentiles, podemos usar la función percentile
print("Percentil 25:", np.percentile(arr, 25))
print("Percentil 50:", np.percentile(arr, 50))
print("Percentil 75:", np.percentile(arr, 75))

Percentil 25: 3.5
Percentil 50: 11.5
Percentil 75: 15.0


In [42]:
# Para ordenar un arreglo, podemos usar la función sort
arr = np.random.randint(1,20,10)
print("Arreglo original:", arr)
print("Arreglo ordenado:", np.sort(arr))

Arreglo original: [17  4  2 15  9  1 18 15  7  6]
Arreglo ordenado: [ 1  2  4  6  7  9 15 15 17 18]


In [43]:
# Media de un arreglo
print("Media:", np.mean(arr))

# Mediana de un arreglo
print("Mediana:", np.median(arr))

# Desviación estándar de un arreglo
print("Desviación estándar:", np.std(arr))

# Varianza de un arreglo
print("Varianza:", np.var(arr))

Media: 9.4
Mediana: 8.0
Desviación estándar: 6.053098380168622
Varianza: 36.64


In [44]:
# Si queremos concatenar los siguientes arreglos, podemos usar la función concatenate
a = np.array([[1,2], [3,4], [5,6]])
b = np.array([[7,8], [9,10], [11,12]])

print("Arreglo a: \n", a)
print("Arreglo b: \n", b)

c = np.concatenate((a,b), axis = 0)

print("Arreglo concatenado: \n", c)

Arreglo a: 
 [[1 2]
 [3 4]
 [5 6]]
Arreglo b: 
 [[ 7  8]
 [ 9 10]
 [11 12]]
Arreglo concatenado: 
 [[ 1  2]
 [ 3  4]
 [ 5  6]
 [ 7  8]
 [ 9 10]
 [11 12]]


## **Función Copy**

In [45]:
# Considere el siguiente problema:

## 1) Tenemos un arreglo de 10 elementos
arr = np.arange(0,10+1)
arr

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [46]:
## 2) queremos extraer un subconjunto de 5 elementos
pedazo_del_array =  arr[:6]
pedazo_del_array 

array([0, 1, 2, 3, 4, 5])

In [47]:
## 3) queremos modificar este arreglo pequeño que acabamos de crear
pedazo_del_array[:] = 0
pedazo_del_array

array([0, 0, 0, 0, 0, 0])

In [48]:
## 4) sin embargo, notemos los que le ha pasado al arreglo original
arr

array([ 0,  0,  0,  0,  0,  0,  6,  7,  8,  9, 10])

In [49]:
# Para solucionar este problema, podemos hacer uso de la función copy:
arr = np.arange(0,10+1)
print("Arreglo original:", arr)

pedazo2 = arr.copy()[:6]
print("Nuevo pedazo:", pedazo2)

Arreglo original: [ 0  1  2  3  4  5  6  7  8  9 10]
Nuevo pedazo: [0 1 2 3 4 5]


In [50]:
# Ahora, podemos editar libremente el nuevo arreglo llamado pedazo, sin afectar al arreglo original
pedazo2[:] = 0

In [51]:
print("Arreglo original:", arr)
print("Nuevo pedazo:", pedazo2)

Arreglo original: [ 0  1  2  3  4  5  6  7  8  9 10]
Nuevo pedazo: [0 0 0 0 0 0]


## **Condiciones**

In [52]:
# Tomemos el siguiente arreglo
arr = np.arange(0,10+1)
arr

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [53]:
# Ahora, para seleccionar los elementos que cumplan una condución (por ejmplo mayores a 5), podemos hacer lo siguiente:
arr[arr>5] 

array([ 6,  7,  8,  9, 10])

In [54]:
# Si queremos dos condiciones, podemos hacer los siguiente:
arr[ (arr>5) & (arr<9) ]

array([6, 7, 8])

## **Operaciones**

In [55]:
# Considere el siguiente arreglo:

arr = np.arange(10+1)
arr

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [56]:
# Suma

arr + arr

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18, 20])

In [57]:
# Resta 
arr - arr

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [58]:
# Multiplicación
arr * arr

array([  0,   1,   4,   9,  16,  25,  36,  49,  64,  81, 100])

In [59]:
# División
arr / arr

  arr / arr


array([nan,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.])

In [60]:
# Potencia
arr ** arr

array([         1,          1,          4,         27,        256,
             3125,      46656,     823543,   16777216,  387420489,
       1410065408])

In [61]:
# Raíz cuadrada
np.sqrt(arr)

array([0.        , 1.        , 1.41421356, 1.73205081, 2.        ,
       2.23606798, 2.44948974, 2.64575131, 2.82842712, 3.        ,
       3.16227766])

In [62]:
# Exponencial
np.exp(arr)

array([1.00000000e+00, 2.71828183e+00, 7.38905610e+00, 2.00855369e+01,
       5.45981500e+01, 1.48413159e+02, 4.03428793e+02, 1.09663316e+03,
       2.98095799e+03, 8.10308393e+03, 2.20264658e+04])

In [63]:
# Logaritmo natural
np.log(arr)

  np.log(arr)


array([      -inf, 0.        , 0.69314718, 1.09861229, 1.38629436,
       1.60943791, 1.79175947, 1.94591015, 2.07944154, 2.19722458,
       2.30258509])

In [64]:
# multiplicación por escalar
arr * 10

array([  0,  10,  20,  30,  40,  50,  60,  70,  80,  90, 100])

In [65]:
# Dadas dos matrices, podemos hacer las siguientes operaciones:
matriz1 = np.arange(0,9).reshape(3,3)
matriz2 = np.arange(10,19).reshape(3,3)

print("Matriz 1: \n", matriz1)
print("Matriz 2: \n", matriz2)

Matriz 1: 
 [[0 1 2]
 [3 4 5]
 [6 7 8]]
Matriz 2: 
 [[10 11 12]
 [13 14 15]
 [16 17 18]]


In [66]:
# Suma
matriz1 + matriz2

array([[10, 12, 14],
       [16, 18, 20],
       [22, 24, 26]])

In [67]:
# Resta
matriz1 - matriz2

array([[-10, -10, -10],
       [-10, -10, -10],
       [-10, -10, -10]])

In [68]:
# Multiplicación
matriz1 * matriz2

array([[  0,  11,  24],
       [ 39,  56,  75],
       [ 96, 119, 144]])

In [69]:
# División
matriz1 / matriz2

array([[0.        , 0.09090909, 0.16666667],
       [0.23076923, 0.28571429, 0.33333333],
       [0.375     , 0.41176471, 0.44444444]])

In [70]:
# Producto punto
matriz1.dot(matriz2)

# Alternativamente
np.dot(matriz1, matriz2)

# Alternativamente
matriz1 @ matriz2

array([[ 45,  48,  51],
       [162, 174, 186],
       [279, 300, 321]])

In [71]:
# Transpuesta
matriz1.T

array([[0, 3, 6],
       [1, 4, 7],
       [2, 5, 8]])

# **Pandas**

In [72]:
# Vamos a hacer un ejemplo con el conjunto de datos de sms.penguin

import seaborn as sns

datos = sns.load_dataset('penguins')
datos.head()

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female
3,Adelie,Torgersen,,,,,
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female


In [73]:
# La función reset_

In [74]:
# Primero que todo, eliminamos las filas con valores nulos, y re indexamos el conjunto de datos
datos = datos.dropna().reset_index(drop = True)

## **Iloc y Loc**

In [75]:
# Para acceder a los registros usando índices, podemos usar la función iloc
datos.iloc[0:5, 0:3]

Unnamed: 0,species,island,bill_length_mm
0,Adelie,Torgersen,39.1
1,Adelie,Torgersen,39.5
2,Adelie,Torgersen,40.3
3,Adelie,Torgersen,36.7
4,Adelie,Torgersen,39.3


In [76]:
# Para acceder a los registros usando etiquetas, podemos usar la función loc
datos.loc[0:5, ["species", "island", "bill_length_mm"]]

Unnamed: 0,species,island,bill_length_mm
0,Adelie,Torgersen,39.1
1,Adelie,Torgersen,39.5
2,Adelie,Torgersen,40.3
3,Adelie,Torgersen,36.7
4,Adelie,Torgersen,39.3
5,Adelie,Torgersen,38.9


## **Borrar Filas y Columnas**

In [77]:
# Para borrar columnas
datos.drop(['species', 'island'], axis=1) # El parámetro inplace sirve para que los cambios se guarden en el mismo dataframe

Unnamed: 0,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
0,39.1,18.7,181.0,3750.0,Male
1,39.5,17.4,186.0,3800.0,Female
2,40.3,18.0,195.0,3250.0,Female
3,36.7,19.3,193.0,3450.0,Female
4,39.3,20.6,190.0,3650.0,Male
...,...,...,...,...,...
328,47.2,13.7,214.0,4925.0,Female
329,46.8,14.3,215.0,4850.0,Female
330,50.4,15.7,222.0,5750.0,Male
331,45.2,14.8,212.0,5200.0,Female


In [78]:
# Para borrar filas
datos.drop([0,1,2,3,4,5], axis=0) # El parámetro inplace sirve para que los cambios se guarden en el mismo dataframe

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
6,Adelie,Torgersen,39.2,19.6,195.0,4675.0,Male
7,Adelie,Torgersen,41.1,17.6,182.0,3200.0,Female
8,Adelie,Torgersen,38.6,21.2,191.0,3800.0,Male
9,Adelie,Torgersen,34.6,21.1,198.0,4400.0,Male
10,Adelie,Torgersen,36.6,17.8,185.0,3700.0,Female
...,...,...,...,...,...,...,...
328,Gentoo,Biscoe,47.2,13.7,214.0,4925.0,Female
329,Gentoo,Biscoe,46.8,14.3,215.0,4850.0,Female
330,Gentoo,Biscoe,50.4,15.7,222.0,5750.0,Male
331,Gentoo,Biscoe,45.2,14.8,212.0,5200.0,Female


## **Crear (añadir) columnas**

In [79]:
# Vamos a crear una nueva columna, llamada "masa 2", la cual corresponderá a multiplicar la columna
# "body_mass_g" por 2
datos["masa 2"] = datos["body_mass_g"] * 2

# Así, nuestro conjunto de datos queda de la siguiente forma:
datos.head()

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,masa 2
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male,7500.0
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female,7600.0
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female,6500.0
3,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female,6900.0
4,Adelie,Torgersen,39.3,20.6,190.0,3650.0,Male,7300.0


## **Crear (añadir) Filas**

In [80]:
# Si queremos añadir el siguiente registro a la base de datos "datos": 
datos.iloc[0,:] 
# Podemos hacer lo siguiente:
# datos.append(datos.iloc[0,:], ignore_index = True)

# no lo vamos a hacer, para no modificar el conjunto de datos original xd

species                 Adelie
island               Torgersen
bill_length_mm            39.1
bill_depth_mm             18.7
flipper_length_mm        181.0
body_mass_g             3750.0
sex                       Male
masa 2                  7500.0
Name: 0, dtype: object

## **Filtros (Parecidos a SQL)**

In [81]:
# Recordemos que estamos trabajando con el siguiente conjunto de datos:
datos.head()

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,masa 2
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male,7500.0
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female,7600.0
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female,6500.0
3,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female,6900.0
4,Adelie,Torgersen,39.3,20.6,190.0,3650.0,Male,7300.0


In [82]:
# Ejemplo: SELECT species, island, sex
#           FROM datos
#           WHERE bill_length_mm > 39
#           ORDER BY bill_length_mm DESC
#           LIMIT 3
(
    datos
    .sort_values(by="bill_length_mm", ascending=False)
    .loc[datos["bill_length_mm"] > 39, ["species", "island", "sex"]]
    .reset_index(drop=True)
    .head(3)
)

# Note que, dado que no vamos a incluir la variable "bill_length_mm" en el resultado, 
# pero queremos ordenar por esta variable, entonces debemos ordenar antes de filtrar
# (ya que si filtramos antes, no podremos ordenar por esta variable).

Unnamed: 0,species,island,sex
0,Gentoo,Biscoe,Male
1,Chinstrap,Dream,Female
2,Gentoo,Biscoe,Male


In [83]:
# Ejemplo: SELECT island, species, masa 2,
#          FROM datos
#          WHERE masa 2 > 5000 AND bill_length_mm > 39
#          ORDER BY masa 2 DESC
#          LIMIT 5

(
    datos
    .loc[(datos["masa 2"] > 5000) & (datos["bill_length_mm"] > 39), ["island", "species", "masa 2"]]
    .sort_values(by="masa 2", ascending=False)
    .reset_index(drop=True)
    .head(5)
)

Unnamed: 0,island,species,masa 2
0,Biscoe,Gentoo,12600.0
1,Biscoe,Gentoo,12100.0
2,Biscoe,Gentoo,12000.0
3,Biscoe,Gentoo,12000.0
4,Biscoe,Gentoo,11900.0


**Group By**

In [84]:
# Ejemplo: Agrupe los datos por la variable "species", y para cada grupo, calcule el número de registros.
#         Además, calcule el valor mínimo, mediana y máximo de las variables "bill_length_mm" y "bill_depth_mm". 
datos.groupby("species").agg({"species": "count",
                               "bill_length_mm": ["min", "median", "max"], 
                               "bill_depth_mm": ["min", "median","max"]})

Unnamed: 0_level_0,species,bill_length_mm,bill_length_mm,bill_length_mm,bill_depth_mm,bill_depth_mm,bill_depth_mm
Unnamed: 0_level_1,count,min,median,max,min,median,max
species,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
Adelie,146,32.1,38.85,46.0,15.5,18.4,21.5
Chinstrap,68,40.9,49.55,58.0,16.4,18.45,20.8
Gentoo,119,40.9,47.4,59.6,13.1,15.0,17.3


In [85]:
datos.head(3)

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,masa 2
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male,7500.0
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female,7600.0
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female,6500.0


In [86]:
# Ejemplo: Obtenga el conteo por sexo de los pinguinos, así como el promedio y mediana de cada variable numérica, agrupando por sexo.
datos.groupby("sex").agg({"sex":"count", 
                          "bill_length_mm":["mean", "median"], 
                          "bill_depth_mm":["mean", "median"], 
                          "flipper_length_mm":["mean", "median"], 
                          "body_mass_g":["mean", "median"]})

Unnamed: 0_level_0,sex,bill_length_mm,bill_length_mm,bill_depth_mm,bill_depth_mm,flipper_length_mm,flipper_length_mm,body_mass_g,body_mass_g
Unnamed: 0_level_1,count,mean,median,mean,median,mean,median,mean,median
sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
Female,165,42.09697,42.8,16.425455,17.0,197.363636,193.0,3862.272727,3650.0
Male,168,45.854762,46.8,17.891071,18.45,204.505952,200.5,4545.684524,4300.0


In [87]:
# Ejemplo: Obtenga el conteo por sexo de los pinguinos en cada una de las islas
(
    datos
    .groupby(["island", "sex"])
    .agg({"sex":"count"})
)

Unnamed: 0_level_0,Unnamed: 1_level_0,sex
island,sex,Unnamed: 2_level_1
Biscoe,Female,80
Biscoe,Male,83
Dream,Female,61
Dream,Male,62
Torgersen,Female,24
Torgersen,Male,23


## **Combinación de DataFrames**

![image.png](attachment:image.png)

In [104]:
# Para esta sección, haremos uso de los siguientes dataframes:

df1 = pd.DataFrame({"A": ["A0", "A1", "A2", "A3"],
                    "B": ["B0", "B1", "B2", "B3"],
                    "C": ["C0", "C1", "C2", "C3"],
                    "D": ["D0", "D1", "D2", "D3"]})

df2 = pd.DataFrame({"A": ["A4", "A5", "A6", "A7"],
                    "B": ["B4", "B5", "B6", "B7"],
                    "C": ["C4", "C5", "C6", "C7"],
                    "D": ["D4", "D5", "D6", "D7"]})


**Concat**

In [105]:
# Si queremos unir los registros de ambos dataframe, de tal manera que cada uno quede en su respectiva columna,
# podemos hacer lo siguiente:
pd.concat([df1, df2], axis = 0).reset_index(drop = True)

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [106]:
# si queremos unir los registros de ambos dataframe, de tal manera que cada uno quede en su respectiva fila,
# podemos hacer lo siguiente:
pd.concat([df1,df2], axis = 1).reset_index(drop = True)

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1
0,A0,B0,C0,D0,A4,B4,C4,D4
1,A1,B1,C1,D1,A5,B5,C5,D5
2,A2,B2,C2,D2,A6,B6,C6,D6
3,A3,B3,C3,D3,A7,B7,C7,D7


**Merge**

In [139]:
# Ahora, consideremos los siguientes dataframes, los cuales comparten la variabe "llave", como llave primaria:

df1 = pd.DataFrame({"llave_1": ["k0", "k1", "k2", "faltante_1"],
                    "A": ["A0", "A1", "A2", "A3"],
                    "B": ["B0", "B1", "B2", "B3"]})

df2 = pd.DataFrame({"llave_2": ["k0", "k1", "faltante_2", "k3"],
                    "C": ["C0", "C1", "C2", "C3"],
                    "D": ["D0", "D1", "D2", "D3"]})

In [140]:
# Visualicemos ambos dataframes

print("df1 = \n ", df1)
print("")
print("df2 = \n ", df2)

df1 = 
        llave_1   A   B
0          k0  A0  B0
1          k1  A1  B1
2          k2  A2  B2
3  faltante_1  A3  B3

df2 = 
        llave_2   C   D
0          k0  C0  D0
1          k1  C1  D1
2  faltante_2  C2  D2
3          k3  C3  D3


In [141]:
# Luego, si queremos hacer un inner join, podemos hacer lo siguiente:

pd.merge(df1, df2, left_on = "llave_1", right_on = "llave_2", how="inner")

Unnamed: 0,llave_1,A,B,llave_2,C,D
0,k0,A0,B0,k0,C0,D0
1,k1,A1,B1,k1,C1,D1


In [142]:
# Si queremos hacer un left join, podemos hacer lo siguiente:

pd.merge(df1, df2, left_on = "llave_1", right_on = "llave_2", how="left")

Unnamed: 0,llave_1,A,B,llave_2,C,D
0,k0,A0,B0,k0,C0,D0
1,k1,A1,B1,k1,C1,D1
2,k2,A2,B2,,,
3,faltante_1,A3,B3,,,


In [143]:
# Si queremos hacer un right join, podemos hacer lo siguiente:

pd.merge(df1, df2, left_on = "llave_1", right_on = "llave_2", how="right")

Unnamed: 0,llave_1,A,B,llave_2,C,D
0,k0,A0,B0,k0,C0,D0
1,k1,A1,B1,k1,C1,D1
2,,,,faltante_2,C2,D2
3,,,,k3,C3,D3


In [147]:
# Si queremos hacer un full join (outer join), podemos hacer lo siguiente:

pd.merge(df1, df2, left_on = "llave_1", right_on = "llave_2", how="outer")

Unnamed: 0,llave_1,A,B,llave_2,C,D
0,k0,A0,B0,k0,C0,D0
1,k1,A1,B1,k1,C1,D1
2,k2,A2,B2,,,
3,faltante_1,A3,B3,,,
4,,,,faltante_2,C2,D2
5,,,,k3,C3,D3


## **Funciones más usadas**

In [89]:
datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 333 entries, 0 to 332
Data columns (total 8 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   species            333 non-null    object 
 1   island             333 non-null    object 
 2   bill_length_mm     333 non-null    float64
 3   bill_depth_mm      333 non-null    float64
 4   flipper_length_mm  333 non-null    float64
 5   body_mass_g        333 non-null    float64
 6   sex                333 non-null    object 
 7   masa 2             333 non-null    float64
dtypes: float64(5), object(3)
memory usage: 20.9+ KB


In [90]:
datos.describe()

Unnamed: 0,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,masa 2
count,333.0,333.0,333.0,333.0,333.0
mean,43.992793,17.164865,200.966967,4207.057057,8414.114114
std,5.468668,1.969235,14.015765,805.215802,1610.431604
min,32.1,13.1,172.0,2700.0,5400.0
25%,39.5,15.6,190.0,3550.0,7100.0
50%,44.5,17.3,197.0,4050.0,8100.0
75%,48.6,18.7,213.0,4775.0,9550.0
max,59.6,21.5,231.0,6300.0,12600.0


## **Apply**

In [156]:
# Procederemos a usar los datos de pinguinos que se encuentran en la libreria seaborn
import seaborn as sns

datos = sns.load_dataset('penguins')
datos = datos.dropna().reset_index(drop = True) # Le eliminamos los NaNs y re indexamos
datos.head()

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female
3,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female
4,Adelie,Torgersen,39.3,20.6,190.0,3650.0,Male


In [157]:
# Ahora, definiremos la siguiente función (muy sencilla):

def multiplicar_por_2(x):
    return x*2

In [158]:
# Así, si queremos aplicar la función "multiplicar_por_2" a la columna "body_mass_g", podemos hacer lo siguiente:

datos["body_mass_g"].apply(multiplicar_por_2)

# Lo cual va a ser mucho más rápido que hacer un for loop.

0       7500.0
1       7600.0
2       6500.0
3       6900.0
4       7300.0
        ...   
328     9850.0
329     9700.0
330    11500.0
331    10400.0
332    10800.0
Name: body_mass_g, Length: 333, dtype: float64

In [159]:
# Otro ejemplo, podría ser con las funciones lambda, las cuales son funciones anónimas, es decir, que no tienen nombre.
# Por ejemplo, si queremos aplicar la función lambda que eleva al cuadrado, podemos hacer lo siguiente:

datos["body_mass_g"].apply(lambda x: x**2)

0      14062500.0
1      14440000.0
2      10562500.0
3      11902500.0
4      13322500.0
          ...    
328    24255625.0
329    23522500.0
330    33062500.0
331    27040000.0
332    29160000.0
Name: body_mass_g, Length: 333, dtype: float64

In [160]:
datos.head()

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female
3,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female
4,Adelie,Torgersen,39.3,20.6,190.0,3650.0,Male


In [171]:
# Otro ejemplo podría ser el siguiente: Multiplicamos por dos la columna "body_mass_g" si el pinguino es macho, 
# y dejamos el valor original si es hembra.

datos.apply(lambda x: x["body_mass_g"]*2 if x["sex"] == "Male" else x["body_mass_g"], axis = 1)

0       7500.0
1       3800.0
2       3250.0
3       3450.0
4       7300.0
        ...   
328     4925.0
329     4850.0
330    11500.0
331     5200.0
332    10800.0
Length: 333, dtype: float64