# Clase 1: Introducción a Numpy y Pandas #

## Numpy

In [1]:
import numpy as np # Acrónimo reconocido de Numpy
print(np.__version__)

1.19.2


### Creación de ndarrays ###

Un ndarray es un array de n dimensiones. Asemeja una matriz en Álgebra Lineal. Para definir la forma de una matriz, definimos primeros sus dimensiones mayores y luego sus dimensiones menores.

In [2]:
# Se puede crear...
lista = [2, 5, 8, 9, 0]
# a través de una lista de Python
lista_nd = np.array(lista)
# rellenándolo con un valor en especial
ceros, unos, vacios, rellenos = np.zeros((2, 3)), np.ones((2, 4)), np.empty((3, 2)), np.full((4, 3), 5)
# de un intervalo
intervalo = np.arange(1, 12)
# de forma aleatoria
random = np.random.rand(2, 3)

In [3]:
lista_nd

array([2, 5, 8, 9, 0])

In [4]:
ceros, unos, vacios, rellenos

(array([[0., 0., 0.],
        [0., 0., 0.]]),
 array([[1., 1., 1., 1.],
        [1., 1., 1., 1.]]),
 array([[1.60437151e-51, 9.14063446e-43],
        [1.21458713e-46, 1.19028694e-47],
        [0.00000000e+00, 0.00000000e+00]]),
 array([[5, 5, 5],
        [5, 5, 5],
        [5, 5, 5],
        [5, 5, 5]]))

In [5]:
intervalo, random

(array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11]),
 array([[0.47410347, 0.11997195, 0.27943585],
        [0.20823113, 0.09344311, 0.68551068]]))

In [6]:
# o de forma personalizada
custom_2d = np.array([[2, 3, 4], [5, 6, 7]])
custom_3d = np.array([[[3, 4, 3], [5, 3, 6]], [[2, 8, 3], [7, 4, 6]]])
custom_4d = np.arange(16).reshape((2, 2, 2, 2))

Existen múltiples dimensiones en una matriz

In [7]:
custom_2d, custom_2d.shape

(array([[2, 3, 4],
        [5, 6, 7]]),
 (2, 3))

In [8]:
custom_3d, custom_3d.shape

(array([[[3, 4, 3],
         [5, 3, 6]],
 
        [[2, 8, 3],
         [7, 4, 6]]]),
 (2, 2, 3))

In [9]:
np.sum(custom_3d, axis=2)

array([[10, 14],
       [13, 17]])

In [10]:
custom_4d, custom_4d.shape

(array([[[[ 0,  1],
          [ 2,  3]],
 
         [[ 4,  5],
          [ 6,  7]]],
 
 
        [[[ 8,  9],
          [10, 11]],
 
         [[12, 13],
          [14, 15]]]]),
 (2, 2, 2, 2))

### Manipulando ndarrays ###

Las selección de elementos en un array es tan fácil como seleccionar coordenadas. De forma similar que en la creación de arrays o en la función reshape, elegimos desde las dimensiones mayores hasta las menores

In [11]:
# coordenada mayor, ... , coordenada menor
# Hay dos formas de hacerlo
custom_2d[1][2], custom_2d[1,2]

(7, 7)

In [12]:
# La selección no se limita a números escalares
custom_3d[1]

array([[2, 8, 3],
       [7, 4, 6]])

In [13]:
# También se pueden seleccionar segmentos personalizados
custom_4d[0,:,:,1]

array([[1, 3],
       [5, 7]])

In [14]:
# No es lo mismo esto
custom_4d[0][:][:][1]

array([[4, 5],
       [6, 7]])

### Operaciones de álgebra lineal ###

In [15]:
# Multiplicación
A = np.array([[2, 3, 7],[3, 4, 5]])
B = np.array([[3, 3],[4, 9], [2, 1]])
C = np.matmul(A, B) # Ojo, A*B es multiplicación elemento a elemento! (Element-wise)
C

array([[32, 40],
       [35, 50]])

In [16]:
# Matriz transpuesta
A, A.T

(array([[2, 3, 7],
        [3, 4, 5]]),
 array([[2, 3],
        [3, 4],
        [7, 5]]))

### Funciones universales y otros métodos ###
Las funciones universales son fucniones que viven en el contexto global de numpy y pueden aplicarse a las matrices

In [17]:
# Un simple promedio
notas = np.array([9.4, 5.6, 8.5])
np.mean(notas), np.sum(notas)/notas.shape[0]

(7.833333333333333, 7.833333333333333)

In [18]:
# Más promedios
notas_salon = np.array([[8.9, 9.1, 9.0, 9.0], [5.6, 8.7, 7.8, 4.5], [7.8, 5.6, 5.7, 8.0]])
np.mean(notas_salon, axis=1) # A lo largo del eje 1 (de mayor a menor dimensión)

array([9.   , 6.65 , 6.775])

Al seleccionar un eje, los elementos que se encuentren a lo largo de este se verán afectados por la función.

Existen más métodos como max(), min(), std(), var(), etc

## Pandas ##

In [19]:
import pandas as pd
print(pd.__version__)

1.1.2


Todo objeto en Pandas es una instancia de Series o de DataFrame. Almacenan conjuntos de datos (files y columnas) que identifican con índices

### Series ###

In [20]:
ser1 = pd.Series([4, -6, 5, 7])
ser1 # Índices y valores

0    4
1   -6
2    5
3    7
dtype: int64

In [21]:
# También se acepta texto 
ser2 = pd.Series(['a', 'b', 'c', 'd', 9]) # el 9 se convierte a texto
ser2

0    a
1    b
2    c
3    d
4    9
dtype: object

### DataFrames ###

In [22]:
df1 = pd.DataFrame({'mate': [9,5,8], 'biologia': [8,6,8], 'etica': [9,9,9]},
                   index = ['Luis', 'Alberto', 'Sergio']) 
df1

Unnamed: 0,mate,biologia,etica
Luis,9,8,9
Alberto,5,6,9
Sergio,8,8,9


In [23]:
df2 = pd.DataFrame({'mate': {'Luis': 5, 'Adolfo': 8},
                  'etica': {'Luis': 9, 'Adolfo': 9}})
df2

Unnamed: 0,mate,etica
Luis,5,9
Adolfo,8,9


### Seleccionando valores ###

In [24]:
df1['mate']['Luis'] # Primero columnas, luego filas

9

In [25]:
df1['mate'] # Una columna entera (Series)

Luis       9
Alberto    5
Sergio     8
Name: mate, dtype: int64

In [26]:
df1[['mate']] # Una columna entera (DataFrame)

Unnamed: 0,mate
Luis,9
Alberto,5
Sergio,8


Pasar algo entre corchetes es interpretado por defecto como una selección de columnas. Para seleccionar filas existen otras formas.

In [27]:
# Una fila (con loc)
df1.loc['Luis']

mate        9
biologia    8
etica       9
Name: Luis, dtype: int64

In [28]:
# Multiples files
df1.loc[['Luis', 'Alberto']]

Unnamed: 0,mate,biologia,etica
Luis,9,8,9
Alberto,5,6,9


In [29]:
# Una fila (con slicing de enteros, se incluye la primera posición del rango)
df1[0:1]

Unnamed: 0,mate,biologia,etica
Luis,9,8,9


In [30]:
# Las condiciones también pueden usarse como selección de filas
df1[df1['mate']<9]

Unnamed: 0,mate,biologia,etica
Alberto,5,6,9
Sergio,8,8,9


In [31]:
# ¿Cómo es que sucede? Usando una máscara booleana
df1['mate'] < 9

Luis       False
Alberto     True
Sergio      True
Name: mate, dtype: bool

### Asignando y añadiendo Valores ###

In [41]:
df2

Unnamed: 0,mate,etica,biologia,promedio
Luis,5,10,9,7.666667
Adolfo,8,10,8,8.333333


In [43]:
# Asignar un valor a una columna existente modifica la columna
# Nota: El slicing crea una copia del DF. Usar apply para esos casos
df2['etica'] = 8

In [39]:
df2

Unnamed: 0,mate,etica,biologia,promedio
Luis,5,10,9,7.666667
Adolfo,8,10,8,8.333333


In [34]:
# Asignar un valor/valores a columnas no existentes las crea
df2['biologia'] = [9, 8]
df2['promedio'] = df2.mean(axis=1) # las funciones universales también existen en Pandas

In [38]:
df2

Unnamed: 0,mate,etica,biologia,promedio
Luis,5,10,9,7.666667
Adolfo,8,10,8,8.333333


Añadir filas normalmente se hace con la función "append", con la que dos DF se unen.

In [36]:
df3 = pd.DataFrame({'mate': 6, 'biologia': 9, 'etica': 6, 'promedio': 7}, index=['Antonio'])
df2.append(df3) # Devuelve un nuevo objeto, no lo incorpora al original

Unnamed: 0,mate,etica,biologia,promedio
Luis,5,9,9,7.666667
Adolfo,8,9,8,8.333333
Antonio,6,6,9,7.0
