In [314]:
import pandas as pd
import numpy as np

# **NumPy**
### Arrays
El array es el principal objeto de la librería. Representa datos de manera estructurada y se puede acceder a ellos a través del indexado,<br>a un dato específico o un grupo de muchos datos específicos.

In [315]:
# Para poder acceder a los beneficios de los arrays de NumPy, debemos primero crear el array:
a = np.array([1,2,3,4,5,6,7,8,9])
print(a)
# Para acceder a los datos dentro del array de forma individual, utilizamos los indices:
print(a[0])

[1 2 3 4 5 6 7 8 9]
1


In [316]:
# Si definimos una matriz como un array de arrays, entonces la forma de crear una matriz con numpy sería:
b = np.array([[1,2,3],[4,5,6],[7,8,9]])
print(b)
# Para acceder a los datos dentro de la matriz, podemos utilizar indices:
print(b[0][0])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
1


In [317]:
# Luego de seleccionar individualmente el dato que necesitamos del array, podemos realizar operaciones con él.
print(a[0] + b[0,0])
# Así mismo si seleccionamos un array, pues se pueden realizar las operaciones con arrays (algebra lineal)
print(a[0] + b[0])

2
[2 3 4]


### Slicing
El concepto de Slicing en los arrays son formas de navegar el array utilizando una forma inteligente de indexado

In [318]:
# En este caso se tiene un array que inicia con el valor en la posición uno y se detiene antes de la posición 3
print(a[1:3])
# En este caso se tiene un array que toma el valor en la posición inicial y se detiene antes de la posición 4
print(a[:4])
# En este caso se tiene un array que inicia con el valor en la posición uno
print(a[1:])

[2 3]
[1 2 3 4]
[2 3 4 5 6 7 8 9]


In [319]:
# A este tipo de indexado se le puede agregar saltos, como por ejemplo de 2 en 2
print(a[::2])

[1 3 5 7 9]


In [320]:
# También se aplican para la matrices
print(b[-2:,-2:])

[[5 6]
 [8 9]]


### Tipos de Datos

In [321]:
# Primero creamos un array
a = np.array([0,1,2,3,4,5,6,7,8,9])
# Y podemos revisar el tipo de dato del array usando la propiedad .dtype
a.dtype

dtype('int32')

In [322]:
# Este tipo de dato se puede modificar al momento de crear el array
b = np.array([0,1,2,3,4,5,6,7,8,9], dtype="float64")
print(b.dtype)
# O también podemos convertir el array, teniendo el cuidado de los cambios que se efectuan
a = a.astype(np.bool_)
print(a)
print(f"Este array es de tipo {a.dtype}")

float64
[False  True  True  True  True  True  True  True  True  True]
Este array es de tipo bool


### Dimensiones
NumPy genera por defecto una estructura que se acomode de manera optima los datos que se están ingresando

In [323]:
# Si es un unico valor, le va a dar una dimensionalidad 0
escalar = np.array(42)
print(f"El escalar tiene {escalar.ndim} dimensiones")
# Si es un conjunto de datos con 1 métrica, le va a dar una dimensionalidad 1
vector = np.array([1,2,3,4,5,6,7,8,9])
print(f"El vector tiene {vector.ndim} dimensiones")
# Si es un conjunto de datos con 2 métricas, le va a dar una dimensionalidad 2
matriz = np.array([[1,2,3],[4,5,6],[7,8,9]])
print(f"La matriz tiene {matriz.ndim} dimensiones")
# Si es un conjunto de datos con 3 métricas, le va a dar una dimensionalidad 3
tensor = np.array([[[1,2,3],[4,5,6],[7,8,9]],[['a','b','c'],['d','e','f'],['g','h','i']]])
print(f"El tensor tiene {tensor.ndim} dimensiones")

El escalar tiene 0 dimensiones
El vector tiene 1 dimensiones
La matriz tiene 2 dimensiones
El tensor tiene 3 dimensiones


In [324]:
# Para agregar dimensiones, lo podemos hacer en la creación del vector:
vector = np.array([1,2,3,4,5,6,7,8,9], ndmin=10)
print(f"La variable tiene {vector.ndim} dimensiones")
print(vector)

La variable tiene 10 dimensiones
[[[[[[[[[[1 2 3 4 5 6 7 8 9]]]]]]]]]]


In [325]:
# También lo podemos hacer utilizando la funcion np.expand_dims
expansion = np.expand_dims(np.array([1,2,3,4,5,6,7,8,9]),axis=0)
# Donde axis recibe como parámetro la dimensión a la que se desea expandir
print(expansion, expansion.ndim)

[[1 2 3 4 5 6 7 8 9]] 2


In [326]:
# Para eliminar dimensiones, podemos utilizar la función np.squeeze
comprension=np.squeeze(np.array([[1,2,3,4,5,6,7,8,9]]))
print(comprension, comprension.ndim)

[1 2 3 4 5 6 7 8 9] 1


### Creando Arrays
NumPy tiene diferentes formas de crear arrays

In [327]:
# Con la función arange podemos crear un array con los valores de un rango específico
np.arange(5,20,2)
# Donde 5 es el dato inicial, 10 será el dato de stop (no lo toma) y 2 serán los steps

array([ 5,  7,  9, 11, 13, 15, 17, 19])

In [328]:
# Así mismo podemos crear estructuras lleno de ceros
np.zeros([3,2])
# O llenos de unos
np.ones([3,2])
# La función np.linspace crea una estructura con n valores normalizados dentro de un intervalo
np.linspace(0,10,10)

array([ 0.        ,  1.11111111,  2.22222222,  3.33333333,  4.44444444,
        5.55555556,  6.66666667,  7.77777778,  8.88888889, 10.        ])

In [329]:
# La función np.linspace crea una estructura con n valores normalizados dentro de un intervalo
np.linspace(0,10,10)
# Crea una matriz de dos dimensiones cuya diagonal principal son 1s y el resto son 0s
np.eye(4)

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

In [330]:
# Crea una estructura con valores aleatorios entre 0 y 1
np.random.rand(4,4)
# Crea una estructura con valores aleatorios establecidos
np.random.randint(-1,1,(3,3))

array([[-1, -1,  0],
       [-1, -1, -1],
       [-1, -1, -1]])

### Shape y Reshape

In [331]:
# Teniendo un array
a = np.random.randint(1,10,(3,2))
# Podemos ver sus dimensiones usando la propiedad shape
print(a, a.shape)
# Podemos cambiar esas dimensiones usando el método reashape
b = a.reshape(1,6)
print(b, b.shape)
# El unico requisito es que la estructura destino tiene que tener la misma cantidad de campos

[[6 4]
 [2 8]
 [6 3]] (3, 2)
[[6 4 2 8 6 3]] (1, 6)


In [332]:
# También podemos modificar el orden en que se escogen los valores para el reshape
print(np.reshape(a,(2,3),'C'))
print(np.reshape(a,(2,3),'F'))
# Si ingresamos como parámetro la letra A, se optimizará según el sistema
print(np.reshape(a,(2,3),'A'))

[[6 4 2]
 [8 6 3]]
[[6 6 8]
 [2 4 3]]
[[6 4 2]
 [8 6 3]]


### Funciones Principales de NumPy

In [333]:
# Teniendo una matriz
a = np.random.randint(1,10,10)
b = a.reshape(2,5)
# Podemos extraer el número más grande dentro de la estructura utilizando la función máx
print(b, b.max())
# O el más grande dentro de cada fila o columna
print(b, b.max(1))
print(b, b.max(0))
# También podemos extraer el índice donde se encuentra el primer máximo valor
print(b, b.argmax(1))
print(b, b.argmax(0))

[[1 1 1 3 2]
 [4 8 8 2 2]] 8
[[1 1 1 3 2]
 [4 8 8 2 2]] [3 8]
[[1 1 1 3 2]
 [4 8 8 2 2]] [4 8 8 3 2]
[[1 1 1 3 2]
 [4 8 8 2 2]] [3 1]
[[1 1 1 3 2]
 [4 8 8 2 2]] [1 1 1 0 0]


In [334]:
# Podemos extraer el número más pequeño dentro de la estructura utilizando la función máx
print(b, b.min())
# O el más pequeño dentro de cada fila o columna
print(b, b.min(1))
print(b, b.min(0))
# También podemos extraer el índice donde se encuentra el primer mínimo valor
print(b, b.argmin(1))
print(b, b.argmin(0))

[[1 1 1 3 2]
 [4 8 8 2 2]] 1
[[1 1 1 3 2]
 [4 8 8 2 2]] [1 2]
[[1 1 1 3 2]
 [4 8 8 2 2]] [1 1 1 2 2]
[[1 1 1 3 2]
 [4 8 8 2 2]] [0 3]
[[1 1 1 3 2]
 [4 8 8 2 2]] [0 0 0 1 0]


In [335]:
# La diferencia entre el valor más grande y el valor más pequeño usando el método ptp
print(b, b.ptp())
# Dentro de cada fila o columna
print(b, b.ptp(1))
print(b, b.ptp(0))

[[1 1 1 3 2]
 [4 8 8 2 2]] 7
[[1 1 1 3 2]
 [4 8 8 2 2]] [2 6]
[[1 1 1 3 2]
 [4 8 8 2 2]] [3 7 7 1 0]


In [336]:
# Podemos extraer la media dentro de la estructura utilizando el método mean
print(b, b.mean())
# O la media de cada fila o columna
print(b, b.mean(1))
print(b, b.mean(0))
# Podemos extraer la mediana dentro de la estructura
print(b, np.median(b))
# Podemos extraer los percentiles dentro de la estructura
print(b, np.percentile(b,75))
# Podemos extraer la desviación estandar dentro de la estructura
print(b, np.std(b))
# Podemos extraer la varianza dentro de la estructura = std(b)**2
print(b, np.var(b))

[[1 1 1 3 2]
 [4 8 8 2 2]] 3.2
[[1 1 1 3 2]
 [4 8 8 2 2]] [1.6 4.8]
[[1 1 1 3 2]
 [4 8 8 2 2]] [2.5 4.5 4.5 2.5 2. ]
[[1 1 1 3 2]
 [4 8 8 2 2]] 2.0
[[1 1 1 3 2]
 [4 8 8 2 2]] 3.75
[[1 1 1 3 2]
 [4 8 8 2 2]] 2.5612496949731396
[[1 1 1 3 2]
 [4 8 8 2 2]] 6.56


In [337]:
# El método sort se encarga de organizar de menor a mayor los datos dentro de la estructura
a = np.random.randint(1,10,10)
print(a)
a.sort()
print(a)
# Concatenate se encarga de fusionar dos estructuras
a = np.random.randint(1,10,10)
b = np.random.randint(1,10,5)
print(a, b, np.concatenate((a,b), axis=0))
# Hay que tener en cuenta que el axis de concatenación tengan la misma dimensión

[5 3 9 8 6 1 1 4 9 1]
[1 1 1 3 4 5 6 8 9 9]
[3 5 1 3 9 1 4 3 4 5] [2 5 3 5 1] [3 5 1 3 9 1 4 3 4 5 2 5 3 5 1]


In [338]:
# Podemos realizar la transpuesta de una matriz
a = np.random.randint(1,10,10)
b = a.reshape(2,5)
print(b, b.T)

[[5 6 3 6 2]
 [7 5 9 4 5]] [[5 7]
 [6 5]
 [3 9]
 [6 4]
 [2 5]]


### Copy

In [339]:
# Si bien tenemos una estructura de datos
a = np.arange(0,11)
print(a)
# De la cual extraemos cierta cantidad de datos
b = a[0:6]
print(b)
# El operador = realmente genera una referencia a esos datos
b[:] = 0
print(b)
# Si se modifica la "nueva estructura" se modifica la original
print(a)

[ 0  1  2  3  4  5  6  7  8  9 10]
[0 1 2 3 4 5]
[0 0 0 0 0 0]
[ 0  0  0  0  0  0  6  7  8  9 10]


In [340]:
a = np.arange(0,11)
print(a)
# Aquí entra el método copy, el cual se encarga de crear una nueva estructura
b = a[:4].copy()
b[:] = 0
print(b)
print(a)

[ 0  1  2  3  4  5  6  7  8  9 10]
[0 0 0 0]
[ 0  1  2  3  4  5  6  7  8  9 10]


### Condiciones

In [341]:
# Teniendo una estructura
a = np.linspace(1,10,10,dtype='int8')
print(a)
# Podemos ejecutar un condicional que nos devolverá una lista
print(a[(a > 5)&(a < 8)])
# Así mismo podemos modificar esas partes de la estructura
a[(a > 5)&(a < 8)] = 42
print(a)

[ 1  2  3  4  5  6  7  8  9 10]
[6 7]
[ 1  2  3  4  5 42 42  8  9 10]


### Operaciones

In [342]:
# Teniendo una estructura
a = np.linspace(1,10,10,dtype='int8')
print(f"tenemos la estructura {a}")
# Podemos realizar operaciones teniendo en cuenta el álgebra lineal
#   operaciones entre estructuras y escalares
print(a.copy()+2)
print(a.copy()-2)
print(a.copy()*2)
print(a.copy()/2)
#   operaciones entre estructuras
b = np.linspace(11,20,10,dtype='int8')
print(f"tenemos la estructura {b}")
print(a.copy()+b.copy())
print(a.copy()-b.copy())
print(a.copy()*b.copy())
print(a.copy()/b.copy())

tenemos la estructura [ 1  2  3  4  5  6  7  8  9 10]
[ 3  4  5  6  7  8  9 10 11 12]
[-1  0  1  2  3  4  5  6  7  8]
[ 2  4  6  8 10 12 14 16 18 20]
[0.5 1.  1.5 2.  2.5 3.  3.5 4.  4.5 5. ]
tenemos la estructura [11 12 13 14 15 16 17 18 19 20]
[12 14 16 18 20 22 24 26 28 30]
[-10 -10 -10 -10 -10 -10 -10 -10 -10 -10]
[  11   24   39   56   75   96  119 -112  -85  -56]
[0.09090909 0.16666667 0.23076923 0.28571429 0.33333333 0.375
 0.41176471 0.44444444 0.47368421 0.5       ]


In [343]:

#   como operaciones entre matrices
a = a.reshape(2,5)
print(a)
b = b.reshape(2,5)
print(b)
#   entre la cual se destaca la operación de producto punto
print(np.matmul(a,b.T))
#   otra forma de escribirlo es
print(a@b.T)

[[ 1  2  3  4  5]
 [ 6  7  8  9 10]]
[[11 12 13 14 15]
 [16 17 18 19 20]]
[[-51  24]
 [ 18 -38]]
[[-51  24]
 [ 18 -38]]


# **Pandas**
### Series y DataFrames
Las series de pandas son muy parecidos a los arrays de numpy, puesto que permiten la misma cantidad de manipulaciones. <br>
Los DataFrames se parece más a las estructuras matriciales de numpy, sin embargo las filas y las columnas tienen indices que pueden asignarse (como los titulos de cada columna).

In [344]:
psg_jugadores = pd.Series(['Navas', 'Mbappe', 'Neymar', 'Messi'], index=[1,7,10,30])
print(psg_jugadores)

1      Navas
7     Mbappe
10    Neymar
30     Messi
dtype: object


In [345]:
dicc = {1:'Navas',7:'Mbappe',10:'Neymar',30:'Messi'}
pd.Series(dicc)

1      Navas
7     Mbappe
10    Neymar
30     Messi
dtype: object

In [346]:
dicc = {'Jugadores':['Navas','Mbappe','Neymar','Messi'],
        'Altura':[183.0,170.0,175.0,165.0],
        'Goles':[2,200,200,200]}
df_jugadores = pd.DataFrame(dicc, index=[1,7,10,30])

In [347]:
df_jugadores.columns

Index(['Jugadores', 'Altura', 'Goles'], dtype='object')

In [348]:
df_jugadores.index

Int64Index([1, 7, 10, 30], dtype='int64')

### Leer archivos CSV y JSON con Pandas

In [349]:
# Para cargar un archivo delimitado utilizamos el método read_csv donde podemos especificar:
    # la dirección del archivo que vamos a abrir
    # sep: para indicar el simbolo que separa el contenido del dataframe
    # header: para indicar qué fila debe tomarse para los nombres de las columnas
    # names: para cambiar los nombres de las columnas
libros = pd.read_csv('bestsellers-with-categories_e591527f-ae45-4fa5-b0d1-d50142128fa6.csv',
                    sep=',',header = 0, 
                    names=['Titulo', 'Autor', 'Calificación', 'Revisiones', 'Precio', 'Year', 'Genero'])
display(libros)

Unnamed: 0,Titulo,Autor,Calificación,Revisiones,Precio,Year,Genero
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,2016,Non Fiction
1,11/22/63: A Novel,Stephen King,4.6,2052,22,2011,Fiction
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7,18979,15,2018,Non Fiction
3,1984 (Signet Classics),George Orwell,4.7,21424,6,2017,Fiction
4,"5,000 Awesome Facts (About Everything!) (Natio...",National Geographic Kids,4.8,7665,12,2019,Non Fiction
...,...,...,...,...,...,...,...
545,Wrecking Ball (Diary of a Wimpy Kid Book 14),Jeff Kinney,4.9,9413,8,2019,Fiction
546,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,2016,Non Fiction
547,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,2017,Non Fiction
548,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,2018,Non Fiction


In [350]:
# Para archivos JSON utilizamos el método read_json donde podemos especificar:
    # la dirección del archivo que vamos a abrir
    # typ: para colocar el formato. Series para RAW
pd.read_json('iris.json', typ='Series')

0      {'sepalLength': 5.1, 'sepalWidth': 3.5, 'petal...
1      {'sepalLength': 4.9, 'sepalWidth': 3.0, 'petal...
2      {'sepalLength': 4.7, 'sepalWidth': 3.2, 'petal...
3      {'sepalLength': 4.6, 'sepalWidth': 3.1, 'petal...
4      {'sepalLength': 5.0, 'sepalWidth': 3.6, 'petal...
                             ...                        
145    {'sepalLength': 6.7, 'sepalWidth': 3.0, 'petal...
146    {'sepalLength': 6.3, 'sepalWidth': 2.5, 'petal...
147    {'sepalLength': 6.5, 'sepalWidth': 3.0, 'petal...
148    {'sepalLength': 6.2, 'sepalWidth': 3.4, 'petal...
149    {'sepalLength': 5.9, 'sepalWidth': 3.0, 'petal...
Length: 150, dtype: object

### Filtrando con LOC y ILOC

In [351]:
# Teniendo un dataframe
libros = pd.read_csv('bestsellers-with-categories_e591527f-ae45-4fa5-b0d1-d50142128fa6.csv',
                    sep=',',header = 0, 
                    names=['Titulo', 'Autor', 'Calificación', 'Revisiones', 'Precio', 'Year', 'Genero'])
# Podemos utilizar los nombres de las columnas para extraer los campos que vamos a utilizar
print(libros[['Autor','Year']])

                        Autor  Year
0                    JJ Smith  2016
1                Stephen King  2011
2          Jordan B. Peterson  2018
3               George Orwell  2017
4    National Geographic Kids  2019
..                        ...   ...
545               Jeff Kinney  2019
546               Jen Sincero  2016
547               Jen Sincero  2017
548               Jen Sincero  2018
549               Jen Sincero  2019

[550 rows x 2 columns]


In [352]:
# Pero si queremos seleccionar ciertas filas y ciertas columnas utilizamos el método loc
libros.loc[0:4,['Titulo','Autor']]

Unnamed: 0,Titulo,Autor
0,10-Day Green Smoothie Cleanse,JJ Smith
1,11/22/63: A Novel,Stephen King
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson
3,1984 (Signet Classics),George Orwell
4,"5,000 Awesome Facts (About Everything!) (Natio...",National Geographic Kids


In [353]:
# Si queremos trabajar las columnas como si fueran indices, debemos utilizar el método iloc
libros.iloc[:,0:3]

Unnamed: 0,Titulo,Autor,Calificación
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7
1,11/22/63: A Novel,Stephen King,4.6
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7
3,1984 (Signet Classics),George Orwell,4.7
4,"5,000 Awesome Facts (About Everything!) (Natio...",National Geographic Kids,4.8
...,...,...,...
545,Wrecking Ball (Diary of a Wimpy Kid Book 14),Jeff Kinney,4.9
546,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7
547,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7
548,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7


### Agregar o Eliminar datos con Pandas

In [354]:
# Teniendo un dataframe
libros = pd.read_csv('bestsellers-with-categories_e591527f-ae45-4fa5-b0d1-d50142128fa6.csv',
                    sep=',',header = 0, 
                    names=['Titulo', 'Autor', 'Calificación', 'Revisiones', 'Precio', 'Year', 'Genero'])

In [355]:
# Podemos utilizar el método head para indicar la cantidad de primeras filas que queremos ver
libros.head(2)

Unnamed: 0,Titulo,Autor,Calificación,Revisiones,Precio,Year,Genero
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,2016,Non Fiction
1,11/22/63: A Novel,Stephen King,4.6,2052,22,2011,Fiction


In [356]:
# Para eliminar columnas dentro de un dataframe utilizamos el método drop donde especificamos:
    # Especificamos el nombre de la columna a eliminar
    # axis: 1 para columnas y 0 para filas
    # inplace: True o False para eliminarlo definitivamente del dataframe
libros.drop('Genero', axis=1, inplace=True)
libros.head(2)

Unnamed: 0,Titulo,Autor,Calificación,Revisiones,Precio,Year
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,2016
1,11/22/63: A Novel,Stephen King,4.6,2052,22,2011


In [357]:
# Para elminar filas dentro de un dataframe utilizamos el método drop
    # colocamos el indice de la fila que deseamos eliminar
        # Puede ser un escalar o una tupla
    # axis = 0 para eliminar fila
    # inplace = True para mantener los cambios
libros.drop(range(0,10), axis=0, inplace=True)
libros.head(2)

Unnamed: 0,Titulo,Autor,Calificación,Revisiones,Precio,Year
10,A Man Called Ove: A Novel,Fredrik Backman,4.6,23848,8,2017
11,A Patriot's History of the United States: From...,Larry Schweikart,4.6,460,2,2010


In [358]:
# Para crear una nueva columna, podemos asignarla directamente y colocar los valores que contendrá
libros['Nueva_Columna'] = np.nan
libros

Unnamed: 0,Titulo,Autor,Calificación,Revisiones,Precio,Year,Nueva_Columna
10,A Man Called Ove: A Novel,Fredrik Backman,4.6,23848,8,2017,
11,A Patriot's History of the United States: From...,Larry Schweikart,4.6,460,2,2010,
12,A Stolen Life: A Memoir,Jaycee Dugard,4.6,4149,32,2011,
13,A Wrinkle in Time (Time Quintet),Madeleine L'Engle,4.5,5153,5,2018,
14,"Act Like a Lady, Think Like a Man: What Men Re...",Steve Harvey,4.6,5013,17,2009,
...,...,...,...,...,...,...,...
545,Wrecking Ball (Diary of a Wimpy Kid Book 14),Jeff Kinney,4.9,9413,8,2019,
546,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,2016,
547,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,2017,
548,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,2018,


In [359]:
# TAREA
# Para agregar filas utilizamos el método append
    # Ya que los dataframe son "diccionarios", pues tenemos que crear uno con la información
    # 
nuevoLibro = {"Titulo":"Titulo de Ejemplo",
              "Autor":"Autor de Ejemplo",
              "Calificación":5,
              "Revisiones":42069,
              "Precio":10,
              "Year":2022,
              "Nueva_Columna":np.nan}
libros.append(nuevoLibro,ignore_index=True)

  libros.append(nuevoLibro,ignore_index=True)


Unnamed: 0,Titulo,Autor,Calificación,Revisiones,Precio,Year,Nueva_Columna
0,A Man Called Ove: A Novel,Fredrik Backman,4.6,23848,8,2017,
1,A Patriot's History of the United States: From...,Larry Schweikart,4.6,460,2,2010,
2,A Stolen Life: A Memoir,Jaycee Dugard,4.6,4149,32,2011,
3,A Wrinkle in Time (Time Quintet),Madeleine L'Engle,4.5,5153,5,2018,
4,"Act Like a Lady, Think Like a Man: What Men Re...",Steve Harvey,4.6,5013,17,2009,
...,...,...,...,...,...,...,...
536,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,2016,
537,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,2017,
538,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,2018,
539,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,2019,


### Manejo de datos nulos

In [360]:
# Dado un dataframe con valores nulos
dict = {'Col1':[1,2,3,np.nan],
        'Col2':[4, np.nan,6,7],
        'Col3':['a','b','c', None]}
df = pd.DataFrame(dict)
display(df)

Unnamed: 0,Col1,Col2,Col3
0,1.0,4.0,a
1,2.0,,b
2,3.0,6.0,c
3,,7.0,


In [361]:
# Podemos utilizar el método isnull para identificar valores nulos 
df.isnull()*1

Unnamed: 0,Col1,Col2,Col3
0,0,0,0
1,0,1,0
2,0,0,0
3,1,0,1


In [362]:
# Podemos utilizar el método fillna para cambiar ese valor nulo por otro valor
df.fillna('Missing')
# Esto es importante porque podemos remplazar valores con la media o la moda
df.fillna(df.mean(0),inplace=True)
frecuente=df['Col3'].value_counts().idxmax()
df['Col3'].fillna(frecuente,inplace=True)
# o una interpolación, que es cuando los datos tienen una sucesión
df.interpolate()
display(df)

  df.fillna(df.mean(0),inplace=True)


Unnamed: 0,Col1,Col2,Col3
0,1.0,4.0,a
1,2.0,5.666667,b
2,3.0,6.0,c
3,2.0,7.0,a


Sin embargo, entre los analistas y científicos de datos, la práctica común es realizar un drop de todas aquellas filas que contengan valores nulos (dropna), puesto que puede funcionar como sesgo a la hora de utilizarlos como caracteristicas de patrones.


### Filtrado por Condiciones

In [363]:
# Teniendo un dataframe
libros = pd.read_csv('bestsellers-with-categories_e591527f-ae45-4fa5-b0d1-d50142128fa6.csv',
                    sep=',',header = 0, 
                    names=['Titulo', 'Autor', 'Calificación', 'Revisiones', 'Precio', 'Year', 'Genero'])

In [364]:
# Podemos ejecutar un filtrado por columnas utilizando listas booleanas
condicion1 = libros['Genero'] == 'Fiction'
condicion2 = libros['Calificación'] >= 4
# En este caso estamos buscando libros:
    # Genero fiction
    # Calificación NO mayor o igual a 4
libros[condicion1 & ~condicion2]

Unnamed: 0,Titulo,Autor,Calificación,Revisiones,Precio,Year,Genero
22,Allegiant,Veronica Roth,3.9,6310,13,2013,Fiction
106,Fifty Shades of Grey: Book One of the Fifty Sh...,E L James,3.8,47265,14,2012,Fiction
107,Fifty Shades of Grey: Book One of the Fifty Sh...,E L James,3.8,47265,14,2013,Fiction
132,Go Set a Watchman: A Novel,Harper Lee,3.6,14982,19,2015,Fiction
353,The Casual Vacancy,J.K. Rowling,3.3,9372,12,2012,Fiction
392,The Goldfinch: A Novel (Pulitzer Prize for Fic...,Donna Tartt,3.9,33844,20,2013,Fiction
393,The Goldfinch: A Novel (Pulitzer Prize for Fic...,Donna Tartt,3.9,33844,20,2014,Fiction


### Funciones Principales de Pandas

In [365]:
# El método head trae las n primeras filas
libros.head(5)

Unnamed: 0,Titulo,Autor,Calificación,Revisiones,Precio,Year,Genero
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,2016,Non Fiction
1,11/22/63: A Novel,Stephen King,4.6,2052,22,2011,Fiction
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7,18979,15,2018,Non Fiction
3,1984 (Signet Classics),George Orwell,4.7,21424,6,2017,Fiction
4,"5,000 Awesome Facts (About Everything!) (Natio...",National Geographic Kids,4.8,7665,12,2019,Non Fiction


In [366]:
# Mientras que el método tails trae las n últimas filas
libros.tail(5)

Unnamed: 0,Titulo,Autor,Calificación,Revisiones,Precio,Year,Genero
545,Wrecking Ball (Diary of a Wimpy Kid Book 14),Jeff Kinney,4.9,9413,8,2019,Fiction
546,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,2016,Non Fiction
547,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,2017,Non Fiction
548,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,2018,Non Fiction
549,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,2019,Non Fiction


In [367]:
# El método info extrae la información estructural del dataframe
libros.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 550 entries, 0 to 549
Data columns (total 7 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Titulo        550 non-null    object 
 1   Autor         550 non-null    object 
 2   Calificación  550 non-null    float64
 3   Revisiones    550 non-null    int64  
 4   Precio        550 non-null    int64  
 5   Year          550 non-null    int64  
 6   Genero        550 non-null    object 
dtypes: float64(1), int64(3), object(3)
memory usage: 30.2+ KB


In [368]:
# el método describe extrae información de los campos numéricos del dataframe
libros.describe()

Unnamed: 0,Calificación,Revisiones,Precio,Year
count,550.0,550.0,550.0,550.0
mean,4.618364,11953.281818,13.1,2014.0
std,0.22698,11731.132017,10.842262,3.165156
min,3.3,37.0,0.0,2009.0
25%,4.5,4058.0,7.0,2011.0
50%,4.7,8580.0,11.0,2014.0
75%,4.8,17253.25,16.0,2017.0
max,4.9,87841.0,105.0,2019.0


In [369]:
# El método memory_usage entrega un resumen del consumo de memoria del dataframe
libros.memory_usage(deep=True)

Index             128
Titulo          59737
Autor           39078
Calificación     4400
Revisiones       4400
Precio           4400
Year             4400
Genero          36440
dtype: int64

In [370]:
# El método value_counts por columna, retorna una tabla de frecuencias
libros['Autor'].value_counts()
# Esto ya lo vimos al momento de extraer la moda de un campo categórico
    # de aquí es importante saber que con idxmax extraemos esa categoría que más se repite

Jeff Kinney                           12
Gary Chapman                          11
Rick Riordan                          11
Suzanne Collins                       11
American Psychological Association    10
                                      ..
Keith Richards                         1
Chris Cleave                           1
Alice Schertle                         1
Celeste Ng                             1
Adam Gasiewski                         1
Name: Autor, Length: 248, dtype: int64

In [371]:
# El método drop_duplicates ayuda a eliminar aquellas filas que se repiten
    # keep: mantener el último registro duplicado (last) o el primero (first)
libros.drop_duplicates(keep='last')


Unnamed: 0,Titulo,Autor,Calificación,Revisiones,Precio,Year,Genero
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,2016,Non Fiction
1,11/22/63: A Novel,Stephen King,4.6,2052,22,2011,Fiction
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7,18979,15,2018,Non Fiction
3,1984 (Signet Classics),George Orwell,4.7,21424,6,2017,Fiction
4,"5,000 Awesome Facts (About Everything!) (Natio...",National Geographic Kids,4.8,7665,12,2019,Non Fiction
...,...,...,...,...,...,...,...
545,Wrecking Ball (Diary of a Wimpy Kid Book 14),Jeff Kinney,4.9,9413,8,2019,Fiction
546,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,2016,Non Fiction
547,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,2017,Non Fiction
548,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,2018,Non Fiction


In [372]:
# Sort_values ordena los valores por columna
    # ascending: ordenado (True) acendente o (False) Decendente
libros.sort_values('Year',ascending=False)

Unnamed: 0,Titulo,Autor,Calificación,Revisiones,Precio,Year,Genero
549,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,2019,Non Fiction
294,School Zone - Big Preschool Workbook - Ages 4 ...,School Zone,4.8,23047,6,2019,Non Fiction
489,The Wonderful Things You Will Be,Emily Winfield Martin,4.9,8842,10,2019,Fiction
263,P is for Potty! (Sesame Street) (Lift-the-Flap),Naomi Kleinberg,4.7,10820,5,2019,Non Fiction
130,"Girl, Wash Your Face: Stop Believing the Lies ...",Rachel Hollis,4.6,22288,12,2019,Non Fiction
...,...,...,...,...,...,...,...
418,The Last Olympian (Percy Jackson and the Olymp...,Rick Riordan,4.8,4628,7,2009,Fiction
38,"Breaking Dawn (The Twilight Saga, Book 4)",Stephenie Meyer,4.6,9769,13,2009,Fiction
92,"Eat This, Not That! Thousands of Simple Food S...",David Zinczenko,4.3,956,14,2009,Non Fiction
139,Good to Great: Why Some Companies Make the Lea...,Jim Collins,4.5,3457,14,2009,Non Fiction


### Group By

In [373]:
# Teniendo un dataframe
libros = pd.read_csv('bestsellers-with-categories_e591527f-ae45-4fa5-b0d1-d50142128fa6.csv',
                    sep=',',header = 0, 
                    names=['Titulo', 'Autor', 'Calificación', 'Revisiones', 'Precio', 'Year', 'Genero'])

In [374]:
# Podemos utilizar el método groupby para agrupar por campos categóricos
    # Luego de agruparlos utilizamos una función que se aplicará al resto de campos
libros.groupby('Genero').corr()
    # Hay que tener en cuenta que la función aplicada puede ser para valores numéricos o categóricos

Unnamed: 0_level_0,Unnamed: 1_level_0,Calificación,Revisiones,Precio,Year
Genero,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Fiction,Calificación,1.0,-0.236137,-0.103018,0.271013
Fiction,Revisiones,-0.236137,1.0,0.021369,0.188107
Fiction,Precio,-0.103018,0.021369,1.0,-0.156804
Fiction,Year,0.271013,0.188107,-0.156804,1.0
Non Fiction,Calificación,1.0,0.315612,-0.134869,0.228196
Non Fiction,Revisiones,0.315612,1.0,-0.145563,0.414921
Non Fiction,Precio,-0.134869,-0.145563,1.0,-0.165569
Non Fiction,Year,0.228196,0.414921,-0.165569,1.0


In [375]:
# En caso de necesitar que el indice se mantenga, podemos utilizar el método reset_index
libros.groupby('Genero').sum().reset_index()

Unnamed: 0,Genero,Calificación,Revisiones,Precio,Year
0,Fiction,1115.6,3764110,2604,483342
1,Non Fiction,1424.5,2810195,4601,624358


In [376]:
# Si queremos aplicar multiples funciones, debemos utilizar la función agg
libros.groupby('Genero').agg(['min','max','mean','std']).reset_index()

  libros.groupby('Genero').agg(['min','max','mean','std']).reset_index()


Unnamed: 0_level_0,Genero,Calificación,Calificación,Calificación,Calificación,Revisiones,Revisiones,Revisiones,Revisiones,Precio,Precio,Precio,Precio,Year,Year,Year,Year
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,mean,std,min,max,mean,std,min,max,mean,std,min,max,mean,std
0,Fiction,3.3,4.9,4.648333,0.265123,548,87841,15683.791667,13984.12089,0,82,10.85,8.57275,2009,2019,2013.925,3.142801
1,Non Fiction,4.0,4.9,4.595161,0.189555,37,61133,9065.145161,8606.737629,0,105,14.841935,12.043241,2009,2019,2014.058065,3.186214


In [377]:
# Si queremos aplicar multiples funciones pero seleccionando las columnas
libros.groupby('Genero').agg(
    {'Calificación':['min','max','mean','std'],
     'Revisiones':['sum']}
    ).reset_index()

Unnamed: 0_level_0,Genero,Calificación,Calificación,Calificación,Calificación,Revisiones
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,mean,std,sum
0,Fiction,3.3,4.9,4.648333,0.265123,3764110
1,Non Fiction,4.0,4.9,4.595161,0.189555,2810195


### Combinando DataFrames - Merge y Concat

In [378]:
# Teniendo dos dataframes

df1 = pd.DataFrame({'A1':['A10', 'A11', 'A12','A13'],
                    'B1':['B10', 'B11', 'B12','B13'],
	                'C1':['C10', 'C11', 'C12','C13'],
	                'D1':['D10', 'D11', 'D12','D13']})

df2 = pd.DataFrame({'A2':['A24', 'A25', 'A26','A27'],
	                'B2':['B24', 'B25', 'B26','B27'],
	                'C2':['C24', 'C25', 'C26','C27'],
                    'D2':['D24', 'D25', 'D26','D27']})

In [379]:
# Podemos utilizar el método concat para concatenar dos dataframes
    # axis: concatenamos (0) horizontalmente y (1) verticalmente
    # ignore_index: (True) asigna nuevos indices
pd.concat([df1,df2],ignore_index=True, axis=1)

Unnamed: 0,0,1,2,3,4,5,6,7
0,A10,B10,C10,D10,A24,B24,C24,D24
1,A11,B11,C11,D11,A25,B25,C25,D25
2,A12,B12,C12,D12,A26,B26,C26,D26
3,A13,B13,C13,D13,A27,B27,C27,D27


In [380]:
# Teniendo dos dataframes

izq = pd.DataFrame({'key1' : ['k0', 'k1', 'k2','k3'],
                      'A' : ['A0', 'A1', 'A2','A3'],
                      'B' : ['B0', 'B1', 'B2','B3']})

der = pd.DataFrame({'key2' : ['k0', 'k2', 'k3','k4'],
                      'C' : ['C0', 'C1', 'C2','C3'],
                      'D' : ['D0', 'D1', 'D2','D3']})

In [381]:
# Podemos utilizar el método merge para unir dos dataframes
    # left_on: especificamos la columna del dataframe izquierdo que utilizaremos para unir
    # right_on: especificamos la columna del dataframe derecho que utilizaremos para unir
    # how: especificamos cómo se va a realizar el join
        # 'left': left-join base dataframe izquierdo, agrega columnas dataframe derecho
        # 'right': right-join base dataframe derecho, agrega columnas dataframe izquierdo
        # 'inner': inner-join toma solo las columnas que tengan ambos dataframes
        # 'outer': outer-join toma todas las columnas de ambos dataframes
izq.merge(der,left_on='key1',right_on='key2',how='outer')

Unnamed: 0,key1,A,B,key2,C,D
0,k0,A0,B0,k0,C0,D0
1,k1,A1,B1,,,
2,k2,A2,B2,k2,C1,D1
3,k3,A3,B3,k3,C2,D2
4,,,,k4,C3,D3


### Join
Hace la relación utilizando los indices

In [382]:
# Teniendo dos dataframes

izquierda = pd.DataFrame({'A1':['A10', 'A11', 'A12'],
                          'B1':['B10', 'B11', 'B12'],
	                      'C1':['C10', 'C11', 'C12'],
	                      'D1':['D10', 'D11', 'D12']},
                          index=['k0','k1','k2'])

derecha = pd.DataFrame({'A2':['A24', 'A25', 'A26'],
	                    'B2':['B24', 'B25', 'B26'],
	                    'C2':['C24', 'C25', 'C26'],
                        'D2':['D24', 'D25', 'D26']},
                        index=['k0','k1','k2'])

In [383]:
# Podemos realizar una unión usando los indices de las filas
    # how: al igual que el merge, podemos modificar el tipo de unión
        # 'left': left-join base dataframe izquierdo, agrega columnas dataframe derecho
        # 'right': right-join base dataframe derecho, agrega columnas dataframe izquierdo
        # 'inner': inner-join toma solo las columnas que tengan ambos dataframes
        # 'outer': outer-join toma todas las columnas de ambos dataframes
izquierda.join(derecha, how='outer')

Unnamed: 0,A1,B1,C1,D1,A2,B2,C2,D2
k0,A10,B10,C10,D10,A24,B24,C24,D24
k1,A11,B11,C11,D11,A25,B25,C25,D25
k2,A12,B12,C12,D12,A26,B26,C26,D26


### Pivot y Melt
Pivot, básicamente, transforma los valores de determinadas columnas o filas en los índices de un nuevo DataFrame, y la intersección de estos es el valor resultante.

In [384]:
# Teniendo un dataframe
libros = pd.read_csv('bestsellers-with-categories_e591527f-ae45-4fa5-b0d1-d50142128fa6.csv',
                    sep=',',header = 0, 
                    names=['Titulo', 'Autor', 'Calificación', 'Revisiones', 'Precio', 'Year', 'Genero'])

In [385]:
# Podemos utilizar el método pivot_table para generar una tabla de pivote
    # index: columna que serán las filas de la tabla pivote
    # columns: columna que se convertirá en las columnas de la tabla pivote
    # values: columna de la cual se tomaran los valores para llenar la tabla
    # aggfunc: podemos agregar funciones que trabajen con los values
        # 'sum': suma los values para cada campo dentro de la tabla
libros.pivot_table(index='Genero',columns='Year',values='Calificación',aggfunc='sum')

Year,2009,2010,2011,2012,2013,2014,2015,2016,2017,2018,2019
Genero,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Fiction,110.2,92.3,97.0,94.4,109.1,134.3,79.1,89.6,113.7,99.5,96.4
Non Fiction,119.0,135.6,130.9,132.2,118.6,96.8,153.3,144.3,119.3,133.9,140.6


El método melt toma las columnas del DataFrame y las pasa a filas, con dos nuevas columnas para especificar la antigua columna y el valor que traía.

In [386]:
# Utilizando el mismo dataframe, utilizamos el método melt para convertir las columnas en filas
libros[['Titulo','Genero']].head(5).melt()

Unnamed: 0,variable,value
0,Titulo,10-Day Green Smoothie Cleanse
1,Titulo,11/22/63: A Novel
2,Titulo,12 Rules for Life: An Antidote to Chaos
3,Titulo,1984 (Signet Classics)
4,Titulo,"5,000 Awesome Facts (About Everything!) (Natio..."
5,Genero,Non Fiction
6,Genero,Fiction
7,Genero,Non Fiction
8,Genero,Fiction
9,Genero,Non Fiction


### Apply
Para aplicar funciones predefinidas en python sobre el dataframe

In [387]:
# Teniendo un dataframe
libros = pd.read_csv('bestsellers-with-categories_e591527f-ae45-4fa5-b0d1-d50142128fa6.csv',
                    sep=',',header = 0, 
                    names=['Titulo', 'Autor', 'Calificación', 'Revisiones', 'Precio', 'Year', 'Genero'])

In [388]:
# Podemos crear una función
def doblar(valor):
    return valor*2

In [389]:
# Podemos aplicar la función a cada unos de los valores dentro de una columna
    # Los resultados podemos almacenarlos en una nueva columna
libros['CalificaciónX2'] = libros['Calificación'].apply(doblar)
display(libros)

Unnamed: 0,Titulo,Autor,Calificación,Revisiones,Precio,Year,Genero,CalificaciónX2
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,2016,Non Fiction,9.4
1,11/22/63: A Novel,Stephen King,4.6,2052,22,2011,Fiction,9.2
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7,18979,15,2018,Non Fiction,9.4
3,1984 (Signet Classics),George Orwell,4.7,21424,6,2017,Fiction,9.4
4,"5,000 Awesome Facts (About Everything!) (Natio...",National Geographic Kids,4.8,7665,12,2019,Non Fiction,9.6
...,...,...,...,...,...,...,...,...
545,Wrecking Ball (Diary of a Wimpy Kid Book 14),Jeff Kinney,4.9,9413,8,2019,Fiction,9.8
546,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,2016,Non Fiction,9.4
547,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,2017,Non Fiction,9.4
548,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,2018,Non Fiction,9.4


In [390]:
# También funciona con funciones de tipo lambda!
libros['CalificaciónX3'] = libros['Calificación'].apply(lambda x : x*3)
display(libros)

Unnamed: 0,Titulo,Autor,Calificación,Revisiones,Precio,Year,Genero,CalificaciónX2,CalificaciónX3
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,2016,Non Fiction,9.4,14.1
1,11/22/63: A Novel,Stephen King,4.6,2052,22,2011,Fiction,9.2,13.8
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7,18979,15,2018,Non Fiction,9.4,14.1
3,1984 (Signet Classics),George Orwell,4.7,21424,6,2017,Fiction,9.4,14.1
4,"5,000 Awesome Facts (About Everything!) (Natio...",National Geographic Kids,4.8,7665,12,2019,Non Fiction,9.6,14.4
...,...,...,...,...,...,...,...,...,...
545,Wrecking Ball (Diary of a Wimpy Kid Book 14),Jeff Kinney,4.9,9413,8,2019,Fiction,9.8,14.7
546,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,2016,Non Fiction,9.4,14.1
547,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,2017,Non Fiction,9.4,14.1
548,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,2018,Non Fiction,9.4,14.1


In [394]:
# Podemos trabajar con múltiples columnas haciendo uso de condicionales
    # axis: Para aplicar la función (0) por filas o (1) por columnas
libros.apply(lambda x:x['Calificación']*2 if x['Genero'] == 'Fiction'else x ['Calificación'], axis=1)

0      4.7
1      9.2
2      4.7
3      9.4
4      4.8
      ... 
545    9.8
546    4.7
547    4.7
548    4.7
549    4.7
Length: 550, dtype: float64