# Notas de curso manejo de datos con NumPy y Pandas

## NumPy

* Se instala con el comando pip install numpy
* Se importa con el comando import numpy as np


### Array de numpy

* Es la estructura central de NumPy
* Representa datos de una manera estructurada
* Indexado que facilita la consulta de datos
* Facilita el acceso a uno o muchos elementos


In [1]:
# importar numpy
import numpy as np


In [2]:
# crear una lista corriente de python
lista = [1,2,3,4,5,6,7,8,9]
lista


[1, 2, 3, 4, 5, 6, 7, 8, 9]

In [3]:
# llevar la lista a un array de python
arr = np.array(lista)


In [4]:
# se crea una matriz con listas de python
matriz = [[1, 2, 3],[4, 5, 6],[7, 8, 9]]

# se convierte la matriz en array
matriz = np.array(matriz)
matriz


array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

#### Indexing
Se usa para acceder a una posición específica del array

In [5]:
# los indexados se manejan con posiciones en el array y empiezan desde cero

arr[0] # devuelve la primera posicion del array


1

In [6]:
# cuando son array que vienen de matrices [0] devuelve la primera fila
matriz[0]


array([1, 2, 3])

In [7]:
# para acceder a un valor especifico fila, columna se pone [fila, columna]
matriz[0,2] # devuelve de la primera fila, el tercer elemento


3

#### Slicing
Se usa para acceder a varios valores de un array al tiempo

In [8]:
# selecciona desde la posicion inicio hasta fin menos uno [inicio:fin], así [0,3] devuelve desde la posicion cero hasta la posicion 2
arr[0:3]


array([1, 2, 3])

In [9]:
# Si no se indica un valor de inicio, devuleve desde la posicion cero 
arr[:5]


array([1, 2, 3, 4, 5])

In [10]:
# Si no se indica un valor de fin, devuleve desde la posicion inicio hasta la ultima posicion
arr[2:]


array([3, 4, 5, 6, 7, 8, 9])

In [11]:
# Si no se indica inicio ni fin devuelve todo
arr[:]


array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [12]:
# Tambien se puede usar slicing en matrices [inicio:fin, inicio:fin] a la izquierda de la coma son las filas y a la derecha de la coma son las columnas
matriz[1:,0:2]


array([[4, 5],
       [7, 8]])

### Tipos de datos en NumPy
Se usa la propiedad dtype de los objetos array, también se puede usar el método astype(np.tipo_dato), todo el array queda con el mismo tipo de dato, no se pueden mezclar número y texto

In [13]:
# se crea un array
arr = np.array([1, 2, 3, 4])
arr


array([1, 2, 3, 4])

In [14]:
# dtype devuleve el tipo de dato que esta almacenado
arr.dtype


dtype('int64')

In [15]:
# Se puede definir el dtype al crear el array
arr = np.array([1, 2, 3, 4], dtype='float64')
arr.dtype


dtype('float64')

In [16]:
# tambien se puede definir el tipo con el metodo astype
arr2 = np.array([1, 2, 3, 4])
arr2 = arr2.astype(np.float64)
arr2.dtype


dtype('float64')

### Dimensiones en NumPy
Se accede al número de dimensiones con la propiedad ndim de los array
* Escalar, cuando es solo un valor o dimensión 0
* Vector, cuando es una fila o una columna dimmensión 1
* Matriz, cuando es fila y columna hasta la dimensión 3
* Tensor, cuando tiene dimensión n,n

In [17]:
# definir un escalar
escalar = np.array(42)
print(escalar)
print('dimensión: '+ str(escalar.ndim))


42
dimensión: 0


In [18]:
# definir un vector
vector = np.array([1,2,3])
print(vector)
print('dimensión: '+ str(vector.ndim))


[1 2 3]
dimensión: 1


In [19]:
# definir una matriz
matriz2 = np.array([[1,2,3],[4,5,6]])
print(matriz2)
print('dimensión: '+ str(matriz2.ndim))


[[1 2 3]
 [4 5 6]]
dimensión: 2


In [20]:
# definir un tensor
tensor = np.array([[[1,2,3],[4,5,6]],[[7,8,9],[10,11,12]]])
print(tensor)
print('dimensión: '+ str(tensor.ndim))


[[[ 1  2  3]
  [ 4  5  6]]

 [[ 7  8  9]
  [10 11 12]]]
dimensión: 3


#### Agregar o quitar dimensiones
Se pueden definir el número de dimensiones desde el inicio o agregar a un objeto que ya existe

In [21]:
# en este ejemplo se esta definiendo un tensor de tres dimensiones
tensor_3d = np.array([1,2,3], ndmin=3)
print(tensor_3d)
print('dimensión: '+ str(tensor_3d.ndim))


[[[1 2 3]]]
dimensión: 3


In [22]:
# en este ejemplo se expande la dimension de un vector ya creado
matriz_2d = np.expand_dims(vector, axis=0) #axis 0 es fila, axis 1 es columna
print(matriz_2d)
print('dimensión: '+ str(matriz_2d.ndim))


[[1 2 3]]
dimensión: 2


Con la funcion np.squeeze() se dejan los datos con el número de dimensiones que se están usando

In [23]:
# vamos a quitarle la dimension que tiene de mas matriz_2d
print(matriz_2d, matriz_2d.ndim)
vector_1d = np.squeeze(matriz_2d)
print(vector_1d, vector_1d.ndim)


[[1 2 3]] 2
[1 2 3] 1


### Creando arrays con NumPy
* para rango de valores np.arange(inicio, fin, step)
* para crear un array lleno de ceros np.zeros((nfilas, ncolumnas))
* para crear un array lleno de unos np.ones((nfilas, ncolumnas))
* para crear un array con valor inicio, valor final y cuantos valores en ese rango np.linespace(v_inicio, v_final, cantidad_valores)
* para crear una matriz cuadrada con la diagonal con valores 1 np.eye(valor)
* para crear un array con x cantidad de valores aleatorios entre cero y uno np.random.rand(x)
* para crear una matriz con x cantidad de filas e y cantidad de columnas con valores aleatorios entre cero y uno np.random.rand(nfilas, ncolumnas)
* para generar un valor aleatorio en un rango de datos dado np.random.randint(min, max)
* para generar una matriz con nfilas, mcolumnas y valores aleatorios en un rango dado np.random.randint(min, max,(nfilas,ncolumnas))

In [24]:
# crear un rango de valores con python, sin usar numpy
list(range(0,10)) # crea lista con valores de 0 a 9


[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [25]:
# crear rango con numpy
np.arange(0,10)


array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [26]:
# crear rango con numpy usando step
np.arange(0,10,2) # crea un array con valores entre cero y 9, de dos en dos, el resultado es 0,2,4,6,8


array([0, 2, 4, 6, 8])

In [27]:
# crear un vector con cinco ceros
np.zeros(5)


array([0., 0., 0., 0., 0.])

In [28]:
# crear una matriz de 3x3 con ceros
np.zeros((3,3))


array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [29]:
# crear una matriz de 3x3 con unos
np.ones((3,3))


array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

In [30]:
# vector con 5 datos que empieza en cero y termina en 10
np.linspace(0, 10, 5)


array([ 0. ,  2.5,  5. ,  7.5, 10. ])

In [31]:
# crea una matriz de 4x4 con la diagonal 1
np.eye(4)


array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

In [32]:
# genera un array de 4 valores aleatorios entre 0 y 1
np.random.rand(4)


array([0.17991969, 0.72964462, 0.66154792, 0.87600049])

In [33]:
# genera una matriz de 4x4 con valores aleatorios entre 0 y 1
np.random.rand(4,4)


array([[0.96555979, 0.93674981, 0.01406613, 0.36014989],
       [0.43321793, 0.02875461, 0.50292043, 0.27480331],
       [0.48551105, 0.43935308, 0.73908852, 0.22208044],
       [0.80019583, 0.21411411, 0.21597986, 0.9115986 ]])

In [34]:
# genera un valor aleatorio en n rango dado
np.random.randint(1, 15)


10

In [35]:
# genera una matriz de 4x4 con valores aleatorios en un rango entre 1 y 15
np.random.randint(1,15,(4,4))

array([[10,  3,  5, 13],
       [14, 11, 12,  8],
       [ 5,  9,  7, 13],
       [ 9,  4, 12, 12]])

### Modificar dimensiones de arrays con NumPy - shape y reshape
Al modificar los array debe mantener la cantidad de datos inicial nfilas x mcolumnas
* la propiedad shape me dice numero de filas y columnas
* el método reshape sirve para cambiar las dimensiones del array
* se puede usar también la función np.reshape(array, (nfilas, ncolumnas), 'lenguaje')

In [36]:
# crea un array de 3x2 con valores aleatorios entre 1 y 10
arr = np.random.randint(1,10,(3,2))
arr


array([[4, 9],
       [6, 6],
       [9, 4]])

In [37]:
# conocer numero de filas y columnas
arr.shape


(3, 2)

In [38]:
# cambiar array de 3x2 a 1x6
arr.reshape(1,6)


array([[4, 9, 6, 6, 9, 4]])

In [39]:
arr

array([[4, 9],
       [6, 6],
       [9, 4]])

In [40]:
# cambia el array de 3x2 a 1x6 como lo haría el lenguaje C, que organiza por filas
np.reshape(arr, (1,6), 'C')


array([[4, 9, 6, 6, 9, 4]])

In [41]:
# cambia el array de 3x2 a 1x6 como lo haría el lenguaje Fortrant, que organiza por columnas
np.reshape(arr, (1,6), 'F')


array([[4, 6, 9, 9, 6, 4]])

### Funciones principales de NumPy
* obtener valores máximos array.max()
* obtener valores máximos por fila array.max(1)
* obtener valores máximos por columna array.max(0)
* obtener el índice o posición de donde se encuentra el valor máximo del array array.argmax()
* obtener valores mínimos array.max()
* obtener valores mínimos por fila array.max(1)
* obtener valores mínimos por columna array.max(0)
* obtener el índice o posición de donde se encuentra el valor mínimo del array array.argmin()
* obtener la distancia entre el valor máximo y mínimos del array array.ptp()
* organizar los datos de menor a mayor array.sort()
* para concatenar dos array deben tener las mismas dimensiones np.concatenate((array_1, array_2),axis=) axis=0 es por fila, axis=1 es por columna


In [42]:
# se crea un array
arr = np.random.randint(1,20,10)
arr

array([ 1, 13,  1, 11, 12,  3, 16, 10,  8, 13])

In [43]:
# convertir en matriz el array
matriz = arr.reshape(2,5)
matriz

array([[ 1, 13,  1, 11, 12],
       [ 3, 16, 10,  8, 13]])

In [44]:
# obtener maximo de todo el conjunto de datos
print(arr.max())
print(matriz.max())


16
16


In [45]:
# obtener maximo por filas d ela matriz
matriz.max(1)


array([13, 16])

In [46]:
# obtener el maximo por columnas
matriz.max(0)


array([ 3, 16, 10, 11, 13])

In [47]:
# obtiene la posicion en donde se encuentra el valor maximo
arr.argmax()


6

In [48]:
# obtiene la posicion en donde se encuentra el valor maximo
matriz.argmax()


6

In [49]:
matriz


array([[ 1, 13,  1, 11, 12],
       [ 3, 16, 10,  8, 13]])

In [50]:
# obtener la distancia entre el valor maximo y minimo de la matriz, es como obtener el rango
matriz.ptp()


15

In [51]:
# obtiene la distancia entre el valor maximo y minimo de la matriz por filas
matriz.ptp(1)

array([12, 13])

In [52]:
# obtiene la distancia entre el valor maximo y minimo de la matriz por columnas
matriz.ptp(0)

array([2, 3, 9, 3, 1])

In [53]:
# organiza los datos del array de menor a mayor
arr.sort()
arr

array([ 1,  1,  3,  8, 10, 11, 12, 13, 13, 16])

In [54]:
# crear dos array por fila
a = np.array([[1,2],[3,4]])
b = np.array([5,6])
a.ndim


2

In [55]:
# aumentar una dimension de b para luego concatenar por fila con a
b = np.expand_dims(b,0)
b.ndim

2

In [56]:
# concatenar a y b por fila
c = np.concatenate((a,b),axis=0) #axis=0 indica que es por fila
c

array([[1, 2],
       [3, 4],
       [5, 6]])

In [57]:
# concatenar a y b por columna, se debe transponer b
d = np.concatenate((a, b.T), axis=1) # axis=1 indica que es por columna
d

array([[1, 2, 5],
       [3, 4, 6]])

### Copiar un array con NumPy
Numpy asigna un solo sitio en memoria a un array. Si se asigna otro nombre al mismo array y se modifica uno de los dos, se modificarán ambos.
Para que eso no pase se usa la función .copy() que crea una copia de los datos para no modificar el original

In [58]:
# se crea un array con veinte elementos aleatorios entre 1 y 10
arr = np.random.randint(1,10, 20)
arr

array([7, 3, 8, 2, 7, 1, 5, 6, 9, 5, 4, 9, 5, 8, 9, 4, 3, 8, 4, 5])

In [59]:
# se crea otro array con los primeros cinco valores de arr
parte_arr = arr[0:6]
parte_arr

array([7, 3, 8, 2, 7, 1])

In [60]:
# se modifican los cinco valores de parte_arr por ceros
parte_arr[:] = 0
parte_arr

array([0, 0, 0, 0, 0, 0])

In [61]:
# se valida que arr tambien cambio al modificar parte_arr
arr

array([0, 0, 0, 0, 0, 0, 5, 6, 9, 5, 4, 9, 5, 8, 9, 4, 3, 8, 4, 5])

In [62]:
# para no modificar arr se debe hacer una copia con .copy()
parte_arr2 = arr[0:6].copy()
parte_arr2

array([0, 0, 0, 0, 0, 0])

In [63]:
# modifico parte_arr2 asignando los valores de 5
parte_arr2[:] = 5
parte_arr2

array([5, 5, 5, 5, 5, 5])

In [64]:
# valido de arr no ha cambiado
arr

array([0, 0, 0, 0, 0, 0, 5, 6, 9, 5, 4, 9, 5, 8, 9, 4, 3, 8, 4, 5])

### Condiciones con NumPy
Sirve para seleccionar datos con una condición dada y modificar valores si se requiere

In [65]:
# se crea un array con 10 datos y valores entre 1 y 10
arr = np.linspace(1,10,10, dtype='int8')
arr

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10], dtype=int8)

In [66]:
# validar cuales valores del array son mayores que 5
arr>5

array([False, False, False, False, False,  True,  True,  True,  True,
        True])

In [67]:
# crea array con los que son mayores de 5
condicion = arr>5
otro_array = arr[condicion]
otro_array

array([ 6,  7,  8,  9, 10], dtype=int8)

In [68]:
# agregar mas de una condicion
condicion2 = (arr>5) & (arr<9)
otro_array2 = arr[condicion2]
otro_array2

array([6, 7, 8], dtype=int8)

In [69]:
# modificar valores que cumplen una condicion dada
arr[condicion2] = 4 
arr

array([ 1,  2,  3,  4,  5,  4,  4,  4,  9, 10], dtype=int8)

### Operaciones con NumPy


In [70]:
# se crean dos vectores con valores de 1 a 9
arr = np.arange(1,10)
arr2 = arr.copy()
arr

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [71]:
# sumar dos vectores
arr + arr2

array([ 2,  4,  6,  8, 10, 12, 14, 16, 18])

In [72]:
# multiplicar dos vectores
arr * arr2

array([ 1,  4,  9, 16, 25, 36, 49, 64, 81])

In [73]:
# convertir a matriz 
matriz = arr.reshape(3,3)
matriz2 = matriz.copy()
matriz

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [74]:
# sumar uno a uno los elementos de dos matrices
matriz + matriz2

array([[ 2,  4,  6],
       [ 8, 10, 12],
       [14, 16, 18]])

In [75]:
# multiplicar uno a uno los elementos de dos matrices
matriz * matriz2

array([[ 1,  4,  9],
       [16, 25, 36],
       [49, 64, 81]])

In [76]:
# producto matricial o producto punto, para resolver este producto el numero de filas de la priera matriz debe ser igual al numero de columnas de la segunda matriz
np.matmul(matriz,matriz2)

array([[ 30,  36,  42],
       [ 66,  81,  96],
       [102, 126, 150]])

In [77]:
# otra forma de producto punto con el uso de @
matriz @ matriz2

array([[ 30,  36,  42],
       [ 66,  81,  96],
       [102, 126, 150]])

## Pandas
* Pandas Series: es un arreglo unidimensional indexado, permite búsqueda por índice y también hacer Slicing, es parecido a un vector de NumPy, se pueden realizar operaciones aritméticas y permite el almacenamiento de distintos de datos, no solo numéricos, en esto se diferencia de NumPy ya que puede tener en la misma serie tipos de datos distintos
* Pandas DataFrame: Es la estructura principal de Pandas, es un arreglo de dos dimensiones, permite búsqueda por índice (columnas o filas), los índices de las columnas son los nombres de las columnas y los índices de las filas se pueden asignar manualmente o toman un valor automático, las columnas pueden ser de distintos tipos de datos

### Pandas Series

In [78]:
#importar libreria de pandas
import pandas as pd

In [79]:
# crear un panda serie con lista de jugadores de PSG y se asigna el indice
jugadores_psg = pd.Series(['Navas', 'Mbappe', 'Neymar', 'Messi'],
          index=[1,7,10,30] # se asigna el indice a cada jugador
          )
jugadores_psg

1      Navas
7     Mbappe
10    Neymar
30     Messi
dtype: object

In [80]:
# otra forma de crear una serie con indices es a partir de un diccionario {key:value} el key se vuelve indice
diccionario = {1:'Navas', 7:'Mbappe', 10:'Neymar', 30:'Messi'}
jugadores = pd.Series(diccionario)
jugadores

1      Navas
7     Mbappe
10    Neymar
30     Messi
dtype: object

### Pandas DataFrame

In [81]:
# definir un DataFrame a partir de un diccionario
diccionario2 = {
    'jugador':['Navas', 'Mbappe', 'Neymar', 'Messi'],
    'altura':[183.0, 170.0, 170.0, 165.0],
    'goles':[2, 200, 200, 200]
}
diccionario2

{'jugador': ['Navas', 'Mbappe', 'Neymar', 'Messi'],
 'altura': [183.0, 170.0, 170.0, 165.0],
 'goles': [2, 200, 200, 200]}

In [82]:
# crear el dataframe
jugadores = pd.DataFrame(diccionario2, index=[1,7,10,30])
jugadores

Unnamed: 0,jugador,altura,goles
1,Navas,183.0,2
7,Mbappe,170.0,200
10,Neymar,170.0,200
30,Messi,165.0,200


In [83]:
# si no agrego los indices pandas los agrega con un consecutivo de cero hasta la cantidad de registros que tenga
jugadores = pd.DataFrame(diccionario2)
jugadores

Unnamed: 0,jugador,altura,goles
0,Navas,183.0,2
1,Mbappe,170.0,200
2,Neymar,170.0,200
3,Messi,165.0,200


### Leer archivos con Pandas
* Leer un archivo csv pd.read_csv(ruta, sep=',', header=0) sep, indica el separador del csv, header indica la línea en donde se encuentran los encabezados si no tiene se pone None

In [84]:
# Leer un archivo csv que se encuentra en la misma carpeta del jupyternotebook
df_libros = pd.read_csv('./bestsellers-with-categories.csv')
df_libros

Unnamed: 0,Name,Author,User Rating,Reviews,Price,Year,Genre
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,2016,Non Fiction
1,11/22/63: A Novel,Stephen King,4.6,2052,22,2011,Fiction
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7,18979,15,2018,Non Fiction
3,1984 (Signet Classics),George Orwell,4.7,21424,6,2017,Fiction
4,"5,000 Awesome Facts (About Everything!) (Natio...",National Geographic Kids,4.8,7665,12,2019,Non Fiction
...,...,...,...,...,...,...,...
545,Wrecking Ball (Diary of a Wimpy Kid Book 14),Jeff Kinney,4.9,9413,8,2019,Fiction
546,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,2016,Non Fiction
547,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,2017,Non Fiction
548,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,2018,Non Fiction


In [85]:
# obtener nombres de columnas
df_libros.columns

Index(['Name', 'Author', 'User Rating', 'Reviews', 'Price', 'Year', 'Genre'], dtype='object')

In [86]:
# leer un json
pd.read_json('./hpcharactersdataraw.json')

Unnamed: 0,Name,Link,Descr,Gender,Species/Race,Blood,School,Profession
0,Mrs. Abbott,https://www.hp-lexicon.org/character/abbott-fa...,"Mrs. Abbott was the mother of Hannah Abbott, a...",Female,Witch,Muggle-born,Unknown,Unknown
1,Hannah Abbott,https://www.hp-lexicon.org/character/abbott-fa...,Hannah Abbott is a Hufflepuff student in Harry...,Female,Witch,Half-blood,Hogwarts - Hufflepuff,Landlady of the Leaky Cauldron
2,Abel Treetops,https://www.hp-lexicon.org/character/abel-tree...,Abel Treetops was a wizard from Cincinnati who...,Male,Wizard,Unknown,Unknown,Unknown
3,Euan Abercrombie,https://www.hp-lexicon.org/character/abercromb...,Euan Abercrombie was a small boy with prominen...,Male,Wizard,Unknown,Hogwarts - Gryffindor,Unknown
4,Aberforth Dumbledore,https://www.hp-lexicon.org/character/dumbledor...,"Aberforth Dumbledore was a tall, thin, grumpy-...",Male,Wizard,Half-blood,Hogwarts - Student,Barman
...,...,...,...,...,...,...,...,...
1935,Georgi Zdravko,https://www.hp-lexicon.org/character/georgi-zd...,Georgi Zdravko played Keeper for the Bulgarian...,Male,Wizard,Unknown,Unknown,Quidditch player (Seeker)
1936,Zograf,https://www.hp-lexicon.org/character/zograf/,Zograf played Keeper for the Bulgarian Nationa...,,Wizard,Unknown,Unknown,Quidditch player (Keeper)
1937,Zonko,https://www.hp-lexicon.org/character/zonko/,Founder(?) of Zonko’s Joke Shop. Possibly a re...,,Unknown,Unknown,Unknown,Unknown
1938,Valentina Vázquez,https://www.hp-lexicon.org/character/valentina...,Valentina Vázquez was President of the Argenti...,Female,Witch,Unknown,Unknown,President of the Argentinian Council of Magic


### iloc y loc
Usados para navegar en un DataFrame, la l de loc significa que accede por label de la columna; la i de iloc significa que accede por índice de la columna se numeran desde cero
* .loc[inicio:fin]; muestra los registros de fila inicio hasta fila fin incluyéndola
* .loc[inicio:fin, [lista de campos]]; se pueden filtrar además nombres de columnas
* .loc[inicio:fin, [campo]] == 'condicion de campo'; para tener una lista de bool de los que cumplen la condición
* .loc[inicio:fin, [campo]] * operación; si el campo es numérico puedo hacer operaciones con el filtro realizado
* .iloc[inicio:fin, [ncolumna_i, ncolumna_f]]; muestra los resgitro de la fila inicio a la fila fin incluyendo la última fila, y las columnas i hasta la f menos 1



In [87]:
# slicing los primeros 4 registros
df_libros[0:4]

Unnamed: 0,Name,Author,User Rating,Reviews,Price,Year,Genre
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,2016,Non Fiction
1,11/22/63: A Novel,Stephen King,4.6,2052,22,2011,Fiction
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7,18979,15,2018,Non Fiction
3,1984 (Signet Classics),George Orwell,4.7,21424,6,2017,Fiction


In [88]:
# acceder por nombre de una columna
df_libros['Name']

0                          10-Day Green Smoothie Cleanse
1                                      11/22/63: A Novel
2                12 Rules for Life: An Antidote to Chaos
3                                 1984 (Signet Classics)
4      5,000 Awesome Facts (About Everything!) (Natio...
                             ...                        
545         Wrecking Ball (Diary of a Wimpy Kid Book 14)
546    You Are a Badass: How to Stop Doubting Your Gr...
547    You Are a Badass: How to Stop Doubting Your Gr...
548    You Are a Badass: How to Stop Doubting Your Gr...
549    You Are a Badass: How to Stop Doubting Your Gr...
Name: Name, Length: 550, dtype: object

In [89]:
# acceder por nombre de dos o mas columnas
df_libros[['Name', 'Author']]

Unnamed: 0,Name,Author
0,10-Day Green Smoothie Cleanse,JJ Smith
1,11/22/63: A Novel,Stephen King
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson
3,1984 (Signet Classics),George Orwell
4,"5,000 Awesome Facts (About Everything!) (Natio...",National Geographic Kids
...,...,...
545,Wrecking Ball (Diary of a Wimpy Kid Book 14),Jeff Kinney
546,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero
547,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero
548,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero


#### Uso de loc

In [90]:
# muestras los registros entre cero y cuatro incluyendo el cuatro
df_libros.loc[0:4]

Unnamed: 0,Name,Author,User Rating,Reviews,Price,Year,Genre
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,2016,Non Fiction
1,11/22/63: A Novel,Stephen King,4.6,2052,22,2011,Fiction
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7,18979,15,2018,Non Fiction
3,1984 (Signet Classics),George Orwell,4.7,21424,6,2017,Fiction
4,"5,000 Awesome Facts (About Everything!) (Natio...",National Geographic Kids,4.8,7665,12,2019,Non Fiction


In [91]:
# muestra los registros entre cero y cuatro de las columnas Name y Author
df_libros.loc[0:4,['Name', 'Author']]

Unnamed: 0,Name,Author
0,10-Day Green Smoothie Cleanse,JJ Smith
1,11/22/63: A Novel,Stephen King
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson
3,1984 (Signet Classics),George Orwell
4,"5,000 Awesome Facts (About Everything!) (Natio...",National Geographic Kids


In [92]:
# realizar una operacion con un campo numerico
df_libros.loc[:,['Reviews']] * -1

Unnamed: 0,Reviews
0,-17350
1,-2052
2,-18979
3,-21424
4,-7665
...,...
545,-9413
546,-14331
547,-14331
548,-14331


In [93]:
# validar que cumplen una condicion
df_libros.loc[:,['Author']] == 'JJ Smith'

Unnamed: 0,Author
0,True
1,False
2,False
3,False
4,False
...,...
545,False
546,False
547,False
548,False


#### uso de iloc

In [94]:
# devuelve todo el dataframe
df_libros.iloc[:]

Unnamed: 0,Name,Author,User Rating,Reviews,Price,Year,Genre
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,2016,Non Fiction
1,11/22/63: A Novel,Stephen King,4.6,2052,22,2011,Fiction
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7,18979,15,2018,Non Fiction
3,1984 (Signet Classics),George Orwell,4.7,21424,6,2017,Fiction
4,"5,000 Awesome Facts (About Everything!) (Natio...",National Geographic Kids,4.8,7665,12,2019,Non Fiction
...,...,...,...,...,...,...,...
545,Wrecking Ball (Diary of a Wimpy Kid Book 14),Jeff Kinney,4.9,9413,8,2019,Fiction
546,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,2016,Non Fiction
547,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,2017,Non Fiction
548,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,2018,Non Fiction


In [95]:
# devuelve los todos los registros de las columnas cero a la tres, la numeracion de columnas empieza en cero
df_libros.iloc[:,0:3]

Unnamed: 0,Name,Author,User Rating
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7
1,11/22/63: A Novel,Stephen King,4.6
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7
3,1984 (Signet Classics),George Orwell,4.7
4,"5,000 Awesome Facts (About Everything!) (Natio...",National Geographic Kids,4.8
...,...,...,...
545,Wrecking Ball (Diary of a Wimpy Kid Book 14),Jeff Kinney,4.9
546,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7
547,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7
548,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7


### Eliminar datos en Pandas

In [96]:
# crear una copia de df_libros
df_libros_copia = df_libros.copy()


In [97]:
# borrar columna sin afectar dataframe
df_libros_copia.drop('Genre', axis=1) # axis=1 es columna

Unnamed: 0,Name,Author,User Rating,Reviews,Price,Year
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,2016
1,11/22/63: A Novel,Stephen King,4.6,2052,22,2011
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7,18979,15,2018
3,1984 (Signet Classics),George Orwell,4.7,21424,6,2017
4,"5,000 Awesome Facts (About Everything!) (Natio...",National Geographic Kids,4.8,7665,12,2019
...,...,...,...,...,...,...
545,Wrecking Ball (Diary of a Wimpy Kid Book 14),Jeff Kinney,4.9,9413,8,2019
546,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,2016
547,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,2017
548,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,2018


In [98]:
# borrar columna en el mismo dataframe
df_libros_copia.drop('Genre', axis=1, inplace=True) # axis=1 es columna
df_libros_copia.head()


Unnamed: 0,Name,Author,User Rating,Reviews,Price,Year
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,2016
1,11/22/63: A Novel,Stephen King,4.6,2052,22,2011
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7,18979,15,2018
3,1984 (Signet Classics),George Orwell,4.7,21424,6,2017
4,"5,000 Awesome Facts (About Everything!) (Natio...",National Geographic Kids,4.8,7665,12,2019


In [99]:
# otra forma de borrar columnas usando drop es asignando de nuevo al dataframe
df_libros_copia = df_libros_copia.drop('Year', axis=1)
df_libros_copia

Unnamed: 0,Name,Author,User Rating,Reviews,Price
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8
1,11/22/63: A Novel,Stephen King,4.6,2052,22
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7,18979,15
3,1984 (Signet Classics),George Orwell,4.7,21424,6
4,"5,000 Awesome Facts (About Everything!) (Natio...",National Geographic Kids,4.8,7665,12
...,...,...,...,...,...
545,Wrecking Ball (Diary of a Wimpy Kid Book 14),Jeff Kinney,4.9,9413,8
546,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8
547,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8
548,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8


In [100]:
# borrar la primera fila
print(df_libros_copia.drop(0, axis=0).head(3)) # axis=0 significa que borra la fila
df_libros_copia.head(4)

                                      Name              Author  User Rating  \
1                        11/22/63: A Novel        Stephen King          4.6   
2  12 Rules for Life: An Antidote to Chaos  Jordan B. Peterson          4.7   
3                   1984 (Signet Classics)       George Orwell          4.7   

   Reviews  Price  
1     2052     22  
2    18979     15  
3    21424      6  


Unnamed: 0,Name,Author,User Rating,Reviews,Price
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8
1,11/22/63: A Novel,Stephen King,4.6,2052,22
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7,18979,15
3,1984 (Signet Classics),George Orwell,4.7,21424,6


In [101]:
# borrar un rango de filas (0,10) y mostrar los tres primeros registros que quedan en el dataframe
print(df_libros_copia.drop(range(0,10), axis=0).head(3))

                                                 Name            Author  \
10                          A Man Called Ove: A Novel   Fredrik Backman   
11  A Patriot's History of the United States: From...  Larry Schweikart   
12                            A Stolen Life: A Memoir     Jaycee Dugard   

    User Rating  Reviews  Price  
10          4.6    23848      8  
11          4.6      460      2  
12          4.6     4149     32  


### Agregar datos con Pandas

In [102]:
# agregar columna nueva con NaN
df_libros_copia['nueva_columna'] = np.nan
df_libros_copia

Unnamed: 0,Name,Author,User Rating,Reviews,Price,nueva_columna
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,
1,11/22/63: A Novel,Stephen King,4.6,2052,22,
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7,18979,15,
3,1984 (Signet Classics),George Orwell,4.7,21424,6,
4,"5,000 Awesome Facts (About Everything!) (Natio...",National Geographic Kids,4.8,7665,12,
...,...,...,...,...,...,...
545,Wrecking Ball (Diary of a Wimpy Kid Book 14),Jeff Kinney,4.9,9413,8,
546,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,
547,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,
548,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,


In [103]:
# obtener el numero de registros
df_libros_copia.shape[0]

550

In [104]:
# usar el numero de registros para crear un consecutivo
id = np.arange(0, df_libros_copia.shape[0])
id

array([  0,   1,   2,   3,   4,   5,   6,   7,   8,   9,  10,  11,  12,
        13,  14,  15,  16,  17,  18,  19,  20,  21,  22,  23,  24,  25,
        26,  27,  28,  29,  30,  31,  32,  33,  34,  35,  36,  37,  38,
        39,  40,  41,  42,  43,  44,  45,  46,  47,  48,  49,  50,  51,
        52,  53,  54,  55,  56,  57,  58,  59,  60,  61,  62,  63,  64,
        65,  66,  67,  68,  69,  70,  71,  72,  73,  74,  75,  76,  77,
        78,  79,  80,  81,  82,  83,  84,  85,  86,  87,  88,  89,  90,
        91,  92,  93,  94,  95,  96,  97,  98,  99, 100, 101, 102, 103,
       104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116,
       117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129,
       130, 131, 132, 133, 134, 135, 136, 137, 138, 139, 140, 141, 142,
       143, 144, 145, 146, 147, 148, 149, 150, 151, 152, 153, 154, 155,
       156, 157, 158, 159, 160, 161, 162, 163, 164, 165, 166, 167, 168,
       169, 170, 171, 172, 173, 174, 175, 176, 177, 178, 179, 18

In [105]:
# agregar consecutivo al dataframe
df_libros_copia['nuevo_consecutivo'] = id
df_libros_copia

Unnamed: 0,Name,Author,User Rating,Reviews,Price,nueva_columna,nuevo_consecutivo
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,,0
1,11/22/63: A Novel,Stephen King,4.6,2052,22,,1
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7,18979,15,,2
3,1984 (Signet Classics),George Orwell,4.7,21424,6,,3
4,"5,000 Awesome Facts (About Everything!) (Natio...",National Geographic Kids,4.8,7665,12,,4
...,...,...,...,...,...,...,...
545,Wrecking Ball (Diary of a Wimpy Kid Book 14),Jeff Kinney,4.9,9413,8,,545
546,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,,546
547,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,,547
548,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,,548


In [106]:
# agregar filas se hace con pd.concat
df_libros_copia = pd.concat([df_libros_copia, df_libros_copia], ignore_index=True)
df_libros_copia

Unnamed: 0,Name,Author,User Rating,Reviews,Price,nueva_columna,nuevo_consecutivo
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,,0
1,11/22/63: A Novel,Stephen King,4.6,2052,22,,1
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7,18979,15,,2
3,1984 (Signet Classics),George Orwell,4.7,21424,6,,3
4,"5,000 Awesome Facts (About Everything!) (Natio...",National Geographic Kids,4.8,7665,12,,4
...,...,...,...,...,...,...,...
1095,Wrecking Ball (Diary of a Wimpy Kid Book 14),Jeff Kinney,4.9,9413,8,,545
1096,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,,546
1097,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,,547
1098,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,,548


### Manejo de datos nulos

In [107]:
# crear un dataframe con valores NaN y None
dict_pd = {
    'col1':[1, 2, 3, np.nan],
    'col2':[4, np.nan, 6,7],
    'col3':['a','b', 'c', None]
}
df = pd.DataFrame(dict_pd)
df

Unnamed: 0,col1,col2,col3
0,1.0,4.0,a
1,2.0,,b
2,3.0,6.0,c
3,,7.0,


In [108]:
# saber si es NaN o None
df.isnull()

Unnamed: 0,col1,col2,col3
0,False,False,False
1,False,True,False
2,False,False,False
3,True,False,True


In [109]:
# cambiar por 1 si es nulo
df.isnull() *1


Unnamed: 0,col1,col2,col3
0,0,0,0
1,0,1,0
2,0,0,0
3,1,0,1


In [110]:
# llenar con palabra o valor especifico
df.fillna('faltante')

Unnamed: 0,col1,col2,col3
0,1.0,4.0,a
1,2.0,faltante,b
2,3.0,6.0,c
3,faltante,7.0,faltante


In [111]:
# fillna recibe tambien funciones como media, maximo, minimo,etc
df.fillna(df.mean(numeric_only=True))

Unnamed: 0,col1,col2,col3
0,1.0,4.0,a
1,2.0,5.666667,b
2,3.0,6.0,c
3,2.0,7.0,


In [112]:
# otra forma de llenar NaN con interpolate
df.interpolate()

Unnamed: 0,col1,col2,col3
0,1.0,4.0,a
1,2.0,5.0,b
2,3.0,6.0,c
3,3.0,7.0,


In [113]:
# se pueden borrar los NaN, se debe tener cuidado porque borra toda la fila en caso de que haya un NaN
df.dropna()

Unnamed: 0,col1,col2,col3
0,1.0,4.0,a
2,3.0,6.0,c


### Filtrado por condiciones
Funciona igual que el filtrado de NumPy

In [114]:
# se crea la condicion
condicion_2016 = df_libros['Year'] > 2016
condicion_2016

0      False
1      False
2       True
3       True
4       True
       ...  
545     True
546    False
547     True
548     True
549     True
Name: Year, Length: 550, dtype: bool

In [115]:
# se pone la condicion al dataframe
df_libros[condicion_2016]

Unnamed: 0,Name,Author,User Rating,Reviews,Price,Year,Genre
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7,18979,15,2018,Non Fiction
3,1984 (Signet Classics),George Orwell,4.7,21424,6,2017,Fiction
4,"5,000 Awesome Facts (About Everything!) (Natio...",National Geographic Kids,4.8,7665,12,2019,Non Fiction
7,A Gentleman in Moscow: A Novel,Amor Towles,4.7,19699,15,2017,Fiction
8,"A Higher Loyalty: Truth, Lies, and Leadership",James Comey,4.7,5983,3,2018,Non Fiction
...,...,...,...,...,...,...,...
544,Wonder,R. J. Palacio,4.8,21625,9,2017,Fiction
545,Wrecking Ball (Diary of a Wimpy Kid Book 14),Jeff Kinney,4.9,9413,8,2019,Fiction
547,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,2017,Non Fiction
548,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,2018,Non Fiction


In [116]:
# se pueden poner varias condiciones
condicion_genero = df_libros['Genre'] == 'Fiction'
df_libros[condicion_genero & condicion_2016]

Unnamed: 0,Name,Author,User Rating,Reviews,Price,Year,Genre
3,1984 (Signet Classics),George Orwell,4.7,21424,6,2017,Fiction
7,A Gentleman in Moscow: A Novel,Amor Towles,4.7,19699,15,2017,Fiction
10,A Man Called Ove: A Novel,Fredrik Backman,4.6,23848,8,2017,Fiction
13,A Wrinkle in Time (Time Quintet),Madeleine L'Engle,4.5,5153,5,2018,Fiction
40,"Brown Bear, Brown Bear, What Do You See?",Bill Martin Jr.,4.9,14344,5,2017,Fiction
...,...,...,...,...,...,...,...
509,To Kill a Mockingbird,Harper Lee,4.8,26234,7,2019,Fiction
529,What Should Danny Do? (The Power to Choose Ser...,Adir Levy,4.8,8170,13,2019,Fiction
534,Where the Crawdads Sing,Delia Owens,4.8,87841,15,2019,Fiction
544,Wonder,R. J. Palacio,4.8,21625,9,2017,Fiction


In [117]:
# se puede poner la negacion de la condicion con el simbolo ~
df_libros[~condicion_2016]

Unnamed: 0,Name,Author,User Rating,Reviews,Price,Year,Genre
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,2016,Non Fiction
1,11/22/63: A Novel,Stephen King,4.6,2052,22,2011,Fiction
5,A Dance with Dragons (A Song of Ice and Fire),George R. R. Martin,4.4,12643,11,2011,Fiction
6,A Game of Thrones / A Clash of Kings / A Storm...,George R. R. Martin,4.7,19735,30,2014,Fiction
9,A Man Called Ove: A Novel,Fredrik Backman,4.6,23848,8,2016,Fiction
...,...,...,...,...,...,...,...
540,Wonder,R. J. Palacio,4.8,21625,9,2013,Fiction
541,Wonder,R. J. Palacio,4.8,21625,9,2014,Fiction
542,Wonder,R. J. Palacio,4.8,21625,9,2015,Fiction
543,Wonder,R. J. Palacio,4.8,21625,9,2016,Fiction


### Funciones principales en Pandas
* .head(x); muestra los primeros x registros
* .tail(x); muestra los últimos x registros
* .info(); muestra qué columnas tienen, si hay null y el tipo de datos
* .describe(include='all'); muestra métricas generales del dataframe, se puede cambiar el include por 'numeric' u 'object'
* .columna.value_counts(); realiza el conteo de valores únicos de la columna señalada

In [118]:
# para saber informacion de la estructura de los datos
df_libros.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 550 entries, 0 to 549
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Name         550 non-null    object 
 1   Author       550 non-null    object 
 2   User Rating  550 non-null    float64
 3   Reviews      550 non-null    int64  
 4   Price        550 non-null    int64  
 5   Year         550 non-null    int64  
 6   Genre        550 non-null    object 
dtypes: float64(1), int64(3), object(3)
memory usage: 30.2+ KB


In [119]:
# para saber metricas generales del dataframe, sin parametro me muestra solo metricas de columnas numericas
df_libros.describe()

Unnamed: 0,User Rating,Reviews,Price,Year
count,550.0,550.0,550.0,550.0
mean,4.618364,11953.281818,13.1,2014.0
std,0.22698,11731.132017,10.842262,3.165156
min,3.3,37.0,0.0,2009.0
25%,4.5,4058.0,7.0,2011.0
50%,4.7,8580.0,11.0,2014.0
75%,4.8,17253.25,16.0,2017.0
max,4.9,87841.0,105.0,2019.0


In [120]:
# describe métricas de todas las columnas de dataframe
df_libros.describe(include='all')

Unnamed: 0,Name,Author,User Rating,Reviews,Price,Year,Genre
count,550,550,550.0,550.0,550.0,550.0,550
unique,351,248,,,,,2
top,Publication Manual of the American Psychologic...,Jeff Kinney,,,,,Non Fiction
freq,10,12,,,,,310
mean,,,4.618364,11953.281818,13.1,2014.0,
std,,,0.22698,11731.132017,10.842262,3.165156,
min,,,3.3,37.0,0.0,2009.0,
25%,,,4.5,4058.0,7.0,2011.0,
50%,,,4.7,8580.0,11.0,2014.0,
75%,,,4.8,17253.25,16.0,2017.0,


In [121]:
# contar cantidad de veces que aparece un nombre en la columna Author
df_libros.Author.value_counts()

Author
Jeff Kinney                           12
Gary Chapman                          11
Rick Riordan                          11
Suzanne Collins                       11
American Psychological Association    10
                                      ..
Keith Richards                         1
Chris Cleave                           1
Alice Schertle                         1
Celeste Ng                             1
Adam Gasiewski                         1
Name: count, Length: 248, dtype: int64

In [122]:
# elimina los duplicados que habiamos agregado antes
df_libros_copia = df_libros_copia.drop_duplicates()
df_libros_copia

Unnamed: 0,Name,Author,User Rating,Reviews,Price,nueva_columna,nuevo_consecutivo
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,,0
1,11/22/63: A Novel,Stephen King,4.6,2052,22,,1
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7,18979,15,,2
3,1984 (Signet Classics),George Orwell,4.7,21424,6,,3
4,"5,000 Awesome Facts (About Everything!) (Natio...",National Geographic Kids,4.8,7665,12,,4
...,...,...,...,...,...,...,...
545,Wrecking Ball (Diary of a Wimpy Kid Book 14),Jeff Kinney,4.9,9413,8,,545
546,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,,546
547,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,,547
548,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,,548


In [123]:
# organizar dataframe por valores de una columna de menor a mayor
df_libros_copia.sort_values('Price')

Unnamed: 0,Name,Author,User Rating,Reviews,Price,nueva_columna,nuevo_consecutivo
42,"Cabin Fever (Diary of a Wimpy Kid, Book 6)",Jeff Kinney,4.8,4505,0,,42
71,"Diary of a Wimpy Kid: Hard Luck, Book 8",Jeff Kinney,4.8,6812,0,,71
381,The Getaway,Jeff Kinney,4.8,5836,0,,381
116,Frozen (Little Golden Book),RH Disney,4.7,3642,0,,116
505,To Kill a Mockingbird,Harper Lee,4.8,26234,0,,505
...,...,...,...,...,...,...,...
346,The Book of Basketball: The NBA According to T...,Bill Simmons,4.7,858,53,,346
151,Hamilton: The Revolution,Lin-Manuel Miranda,4.9,5867,54,,151
473,The Twilight Saga Collection,Stephenie Meyer,4.7,3801,82,,473
69,Diagnostic and Statistical Manual of Mental Di...,American Psychiatric Association,4.5,6679,105,,69


In [124]:
# organizar dataframe por valores de una columna de mayor a menor
df_libros_copia.sort_values('Price', ascending=False)


Unnamed: 0,Name,Author,User Rating,Reviews,Price,nueva_columna,nuevo_consecutivo
69,Diagnostic and Statistical Manual of Mental Di...,American Psychiatric Association,4.5,6679,105,,69
70,Diagnostic and Statistical Manual of Mental Di...,American Psychiatric Association,4.5,6679,105,,70
473,The Twilight Saga Collection,Stephenie Meyer,4.7,3801,82,,473
151,Hamilton: The Revolution,Lin-Manuel Miranda,4.9,5867,54,,151
346,The Book of Basketball: The NBA According to T...,Bill Simmons,4.7,858,53,,346
...,...,...,...,...,...,...,...
116,Frozen (Little Golden Book),RH Disney,4.7,3642,0,,116
71,"Diary of a Wimpy Kid: Hard Luck, Book 8",Jeff Kinney,4.8,6812,0,,71
505,To Kill a Mockingbird,Harper Lee,4.8,26234,0,,505
506,To Kill a Mockingbird,Harper Lee,4.8,26234,0,,506


### Función Grupby de Pandas

In [125]:
# agrupar por columna Author y contar 
df_libros.groupby('Author').count()

Unnamed: 0_level_0,Name,User Rating,Reviews,Price,Year,Genre
Author,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Abraham Verghese,2,2,2,2,2,2
Adam Gasiewski,1,1,1,1,1,1
Adam Mansbach,1,1,1,1,1,1
Adir Levy,1,1,1,1,1,1
Admiral William H. McRaven,1,1,1,1,1,1
...,...,...,...,...,...,...
Walter Isaacson,3,3,3,3,3,3
William Davis,2,2,2,2,2,2
William P. Young,2,2,2,2,2,2
Wizards RPG Team,3,3,3,3,3,3


In [126]:
# agrupar por columna Author y obtener la media de columnas numericas
df_libros.groupby('Author').mean(numeric_only=True)

Unnamed: 0_level_0,User Rating,Reviews,Price,Year
Author,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Abraham Verghese,4.600000,4866.000000,11.000000,2010.500000
Adam Gasiewski,4.400000,3113.000000,6.000000,2017.000000
Adam Mansbach,4.800000,9568.000000,9.000000,2011.000000
Adir Levy,4.800000,8170.000000,13.000000,2019.000000
Admiral William H. McRaven,4.700000,10199.000000,11.000000,2017.000000
...,...,...,...,...
Walter Isaacson,4.566667,6222.666667,20.333333,2013.333333
William Davis,4.400000,7497.000000,6.000000,2012.500000
William P. Young,4.600000,19720.000000,8.000000,2013.000000
Wizards RPG Team,4.800000,16990.000000,27.000000,2018.000000


In [127]:
# obtener el resultado promedio de un solo autor
df_libros.groupby('Author').mean(numeric_only=True).loc['Walter Isaacson']

User Rating       4.566667
Reviews        6222.666667
Price            20.333333
Year           2013.333333
Name: Walter Isaacson, dtype: float64

In [128]:
# si quiero que el valor de agrupacion no sea indice se usa .reset_index()
df_libros.groupby('Author').mean(numeric_only=True).reset_index()

Unnamed: 0,Author,User Rating,Reviews,Price,Year
0,Abraham Verghese,4.600000,4866.000000,11.000000,2010.500000
1,Adam Gasiewski,4.400000,3113.000000,6.000000,2017.000000
2,Adam Mansbach,4.800000,9568.000000,9.000000,2011.000000
3,Adir Levy,4.800000,8170.000000,13.000000,2019.000000
4,Admiral William H. McRaven,4.700000,10199.000000,11.000000,2017.000000
...,...,...,...,...,...
243,Walter Isaacson,4.566667,6222.666667,20.333333,2013.333333
244,William Davis,4.400000,7497.000000,6.000000,2012.500000
245,William P. Young,4.600000,19720.000000,8.000000,2013.000000
246,Wizards RPG Team,4.800000,16990.000000,27.000000,2018.000000


In [129]:
# obtener varias metricas
df_libros.groupby('Author').agg(['min', 'max'])

Unnamed: 0_level_0,Name,Name,User Rating,User Rating,Reviews,Reviews,Price,Price,Year,Year,Genre,Genre
Unnamed: 0_level_1,min,max,min,max,min,max,min,max,min,max,min,max
Author,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2
Abraham Verghese,Cutting for Stone,Cutting for Stone,4.6,4.6,4866,4866,11,11,2010,2011,Fiction,Fiction
Adam Gasiewski,Milk and Vine: Inspirational Quotes From Class...,Milk and Vine: Inspirational Quotes From Class...,4.4,4.4,3113,3113,6,6,2017,2017,Non Fiction,Non Fiction
Adam Mansbach,Go the F**k to Sleep,Go the F**k to Sleep,4.8,4.8,9568,9568,9,9,2011,2011,Fiction,Fiction
Adir Levy,What Should Danny Do? (The Power to Choose Ser...,What Should Danny Do? (The Power to Choose Ser...,4.8,4.8,8170,8170,13,13,2019,2019,Fiction,Fiction
Admiral William H. McRaven,Make Your Bed: Little Things That Can Change Y...,Make Your Bed: Little Things That Can Change Y...,4.7,4.7,10199,10199,11,11,2017,2017,Non Fiction,Non Fiction
...,...,...,...,...,...,...,...,...,...,...,...,...
Walter Isaacson,Leonardo da Vinci,Steve Jobs,4.5,4.6,3014,7827,20,21,2011,2017,Non Fiction,Non Fiction
William Davis,"Wheat Belly: Lose the Wheat, Lose the Weight, ...","Wheat Belly: Lose the Wheat, Lose the Weight, ...",4.4,4.4,7497,7497,6,6,2012,2013,Non Fiction,Non Fiction
William P. Young,The Shack: Where Tragedy Confronts Eternity,The Shack: Where Tragedy Confronts Eternity,4.6,4.6,19720,19720,8,8,2009,2017,Fiction,Fiction
Wizards RPG Team,Player's Handbook (Dungeons & Dragons),Player's Handbook (Dungeons & Dragons),4.8,4.8,16990,16990,27,27,2017,2019,Fiction,Fiction


In [130]:
# se puede especificar por columna que metrica usar
df_libros.groupby('Author').agg({'User Rating':['min', 'max'], 'Price':'mean'})

Unnamed: 0_level_0,User Rating,User Rating,Price
Unnamed: 0_level_1,min,max,mean
Author,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Abraham Verghese,4.6,4.6,11.000000
Adam Gasiewski,4.4,4.4,6.000000
Adam Mansbach,4.8,4.8,9.000000
Adir Levy,4.8,4.8,13.000000
Admiral William H. McRaven,4.7,4.7,11.000000
...,...,...,...
Walter Isaacson,4.5,4.6,20.333333
William Davis,4.4,4.4,6.000000
William P. Young,4.6,4.6,8.000000
Wizards RPG Team,4.8,4.8,27.000000


In [133]:
# agrupar por dos columnas
df_libros.groupby(['Author', 'Year']).count()

Unnamed: 0_level_0,Unnamed: 1_level_0,Name,User Rating,Reviews,Price,Genre
Author,Year,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Abraham Verghese,2010,1,1,1,1,1
Abraham Verghese,2011,1,1,1,1,1
Adam Gasiewski,2017,1,1,1,1,1
Adam Mansbach,2011,1,1,1,1,1
Adir Levy,2019,1,1,1,1,1
...,...,...,...,...,...,...
Wizards RPG Team,2017,1,1,1,1,1
Wizards RPG Team,2018,1,1,1,1,1
Wizards RPG Team,2019,1,1,1,1,1
Zhi Gang Sha,2009,1,1,1,1,1


### Combinar DataFrames
* Merge - Join:
    * left-join le da prioridad al DataFrame de la izquierda y une del DataFrame de la derecha lo que haya en común
    * rigth-join le da prioridad al DataFrame de la derecha y une del DataFrame de la izquierda lo que haya en común
    * inner-join une únicamente lo que haya común en ambos DataFrame
    * outer-join Une todos los datos del DataFrame, respetando las filas y columnas en común
    
![Ejemplos gráficos](./merge_join.png)

* Concat:
    * se usa para fusionar dos DataFrame se debe especificar el eje axis=0 es unirlos a nivel de fila, pondrá el segundo DataFrame debajo del primero
    * Si se usa axis=1 va a unir los dos DataFrame por columnas

    ![Concat axis = 0](./concat_axis_cero.png) ![Concat axis = 1](./concat_axis_uno.png)

#### Usando concat

In [134]:
# se crean DataFrame desde cero
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
 'B': ['B0', 'B1', 'B2', 'B3'],
 'C': ['C0', 'C1', 'C2', 'C3'],
 'D': ['D0', 'D1', 'D2', 'D3']})

df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
 'B': ['B4', 'B5', 'B6', 'B7'],
 'C': ['C4', 'C5', 'C6', 'C7'],
 'D': ['D4', 'D5', 'D6', 'D7']})

In [136]:
# se concatenan los dos DataFrame por fila y se ignora el index para que los numere nuevamente
pd.concat([df1, df2], axis=0, ignore_index=True)

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [138]:
# se concatenan los dos DataFrame por columna y sin ignorar el index para mantener nombres de columnas
pd.concat([df1, df2], axis=1)

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1
0,A0,B0,C0,D0,A4,B4,C4,D4
1,A1,B1,C1,D1,A5,B5,C5,D5
2,A2,B2,C2,D2,A6,B6,C6,D6
3,A3,B3,C3,D3,A7,B7,C7,D7


#### Usando Merge
A merge le puedo indicar por cuál columna se deben unir

In [139]:
# crear DataFrame
df_izq = pd.DataFrame({'key':['k0','k1', 'k2', 'k3'],
 'A': ['A0', 'A1', 'A2', 'A3'],
 'B': ['B0', 'B1', 'B2', 'B3']})

df_dere = pd.DataFrame({'key':['k0','k1', 'k2', 'k3'],
 'C': ['C0', 'C1', 'C2', 'C3'],
 'D': ['D0', 'D1', 'D2', 'D3']})


In [141]:
# se hace un merge, el que se encuentra dentro del parentesis es que se considera como DataFrame del lado derecho, se elige el campo sobre el que se hace el merge si tiene nombre igual en ambos DataFrame
df_izq.merge(df_dere, on='key')

Unnamed: 0,key,A,B,C,D
0,k0,A0,B0,C0,D0
1,k1,A1,B1,C1,D1
2,k2,A2,B2,C2,D2
3,k3,A3,B3,C3,D3


In [143]:
# crear DataFrame
df_izq = pd.DataFrame({'key':['k0','k1', 'k2', 'k3'],
 'A': ['A0', 'A1', 'A2', 'A3'],
 'B': ['B0', 'B1', 'B2', 'B3']})

df_dere = pd.DataFrame({'key_2':['k0','k1', 'k2', 'k3'],
 'C': ['C0', 'C1', 'C2', 'C3'],
 'D': ['D0', 'D1', 'D2', 'D3']})


In [144]:
# se hace un merge indicando cual es la llave del DataFrame de la derecha con el DataFrame de la izquierda
df_izq.merge(df_dere, left_on='key', right_on='key_2')

Unnamed: 0,key,A,B,key_2,C,D
0,k0,A0,B0,k0,C0,D0
1,k1,A1,B1,k1,C1,D1
2,k2,A2,B2,k2,C2,D2
3,k3,A3,B3,k3,C3,D3


In [146]:
# crear DataFrame
df_izq = pd.DataFrame({'key':['k0','k1', 'k2', 'k3'],
 'A': ['A0', 'A1', 'A2', 'A3'],
 'B': ['B0', 'B1', 'B2', 'B3']})

df_dere = pd.DataFrame({'key_2':['k0','k1', 'k2', np.nan],
 'C': ['C0', 'C1', 'C2', 'C3'],
 'D': ['D0', 'D1', 'D2', 'D3']})


In [148]:
# hacer el merge left-merge, manteniendo los valores del DataFrame de la izquierda los comunes de la derecha
df_izq.merge(df_dere, left_on='key', right_on='key_2', how='left')

Unnamed: 0,key,A,B,key_2,C,D
0,k0,A0,B0,k0,C0,D0
1,k1,A1,B1,k1,C1,D1
2,k2,A2,B2,k2,C2,D2
3,k3,A3,B3,,,


In [150]:
# hacer el merge right-merge, manteniendo los valores del DataFrame de la derecha los comunes de la izquierda
df_izq.merge(df_dere, left_on='key', right_on='key_2', how='right')

Unnamed: 0,key,A,B,key_2,C,D
0,k0,A0,B0,k0,C0,D0
1,k1,A1,B1,k1,C1,D1
2,k2,A2,B2,k2,C2,D2
3,,,,,C3,D3


In [151]:
# hacer el merge inner-merge, manteniendo los valores comunes de ambos DataFrame
df_izq.merge(df_dere, left_on='key', right_on='key_2', how='inner')

Unnamed: 0,key,A,B,key_2,C,D
0,k0,A0,B0,k0,C0,D0
1,k1,A1,B1,k1,C1,D1
2,k2,A2,B2,k2,C2,D2


In [158]:
# hacer el merge outer-merge, manteniendo los valores comunes de ambos DataFrame
df_izq.merge(df_dere, left_on='key', right_on='key_2', how='outer')

Unnamed: 0,key,A,B,key_2,C,D
0,k0,A0,B0,k0,C0,D0
1,k1,A1,B1,k1,C1,D1
2,k2,A2,B2,k2,C2,D2
3,k3,A3,B3,,,
4,,,,,C3,D3


#### Usando Join
Join usa los índices de cada DataFrame

In [153]:
# se crean DataFrame
df_izq2 =pd.DataFrame({'A': ['A0', 'A1', 'A2'],
                       'B': ['B0', 'B1', 'B2']},
                        index=['k0','k1','k2'])

df_dere2 =pd.DataFrame({'C': ['C0', 'C1', 'C2'],
                       'D': ['D0', 'D1', 'D2']},
                        index=['k0','k2','k3'])

In [154]:
# usando inner-join, esta funcion va directo a los index
df_izq2.join(df_dere2, how='inner')

Unnamed: 0,A,B,C,D
k0,A0,B0,C0,D0
k2,A2,B2,C1,D1


In [155]:
# usando left-join, esta funcion va directo a los index
df_izq2.join(df_dere2, how='left')

Unnamed: 0,A,B,C,D
k0,A0,B0,C0,D0
k1,A1,B1,,
k2,A2,B2,C1,D1


In [156]:
# usando right-join, esta funcion va directo a los index
df_izq2.join(df_dere2, how='right')

Unnamed: 0,A,B,C,D
k0,A0,B0,C0,D0
k2,A2,B2,C1,D1
k3,,,C2,D2


In [157]:
# usando right-join, esta funcion va directo a los index
df_izq2.join(df_dere2, how='outer')

Unnamed: 0,A,B,C,D
k0,A0,B0,C0,D0
k1,A1,B1,,
k2,A2,B2,C1,D1
k3,,,C2,D2


### Pivot y Melt

In [159]:
# creando un pivot_table, tabla dinamica con pandas
df_libros.pivot_table(index='Author',
                      columns='Genre',
                      values='User Rating')

Genre,Fiction,Non Fiction
Author,Unnamed: 1_level_1,Unnamed: 2_level_1
Abraham Verghese,4.6,
Adam Gasiewski,,4.400000
Adam Mansbach,4.8,
Adir Levy,4.8,
Admiral William H. McRaven,,4.700000
...,...,...
Walter Isaacson,,4.566667
William Davis,,4.400000
William P. Young,4.6,
Wizards RPG Team,4.8,


In [165]:
# tabla dinamica funciona igual que en una hoja de calculo, se pueden poner varios indices y varias funciones de agregacion
df_libros.pivot_table(index=['Genre', 'Year'],
                      values='User Rating',
                      aggfunc=['count','sum', 'mean', 'std'])

Unnamed: 0_level_0,Unnamed: 1_level_0,count,sum,mean,std
Unnamed: 0_level_1,Unnamed: 1_level_1,User Rating,User Rating,User Rating,User Rating
Genre,Year,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Fiction,2009,24,110.2,4.591667,0.224416
Fiction,2010,20,92.3,4.615,0.200722
Fiction,2011,21,97.0,4.619048,0.177817
Fiction,2012,21,94.4,4.495238,0.387913
Fiction,2013,24,109.1,4.545833,0.359927
Fiction,2014,29,134.3,4.631034,0.2451
Fiction,2015,17,79.1,4.652941,0.335629
Fiction,2016,19,89.6,4.715789,0.252241
Fiction,2017,24,113.7,4.7375,0.173988
Fiction,2018,21,99.5,4.738095,0.193588


In [169]:
# poner la columna Year como columna para contar la cantidad de libros de ficcion y no ficcion
df_libros.pivot_table(index='Genre',
                      columns='Year',
                      values='User Rating',
                      aggfunc='count')

Year,2009,2010,2011,2012,2013,2014,2015,2016,2017,2018,2019
Genre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Fiction,24,20,21,21,24,29,17,19,24,21,20
Non Fiction,26,30,29,29,26,21,33,31,26,29,30


#### Usando Melt

In [171]:
df_libros.head(3)

Unnamed: 0,Name,Author,User Rating,Reviews,Price,Year,Genre
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,2016,Non Fiction
1,11/22/63: A Novel,Stephen King,4.6,2052,22,2011,Fiction
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7,18979,15,2018,Non Fiction


In [176]:
# se puede poner nombre de columnas con var_name y value_name
df_libros.melt(id_vars='Year',
               var_name='Variables',
               value_vars=['Genre', 'Author'],
               value_name='Valores')

Unnamed: 0,Year,Variables,Valores
0,2016,Genre,Non Fiction
1,2011,Genre,Fiction
2,2018,Genre,Non Fiction
3,2017,Genre,Fiction
4,2019,Genre,Non Fiction
...,...,...,...
1095,2019,Author,Jeff Kinney
1096,2016,Author,Jen Sincero
1097,2017,Author,Jen Sincero
1098,2018,Author,Jen Sincero
