# Data Manipulation
Enrique López Droguett - Cristián Herrera

El objetivo de este notebook consiste en introducir y repasar las principales librerías que serán utilizadas a lo largo del curso.

Dado que la manipulación de matrices y bases de datos resulta escencial en lo que respecta a la ciencia de datos, Numpy y Pandas se han posicionado como las librerías fundamentales ante cualquier proyecto de Machine Learning. De este modo es necesario poseer una buena base sobre estas librerías y sus funcionalidades antes de seguir con proyectos de mayor complejidad.

## Documentación
Las documentaciones respectivas de estas librerías pueden ser encontradas en los siguientes links:
- https://numpy.org/doc/stable/
- https://pandas.pydata.org/docs/



# Numpy

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/3/31/NumPy_logo_2020.svg/1024px-NumPy_logo_2020.svg.png" width="400">


Numpy provee de funcionalidades orientadas a la manipulación de arreglos multidimensionales. De este modo su objeto principal corresponde al arreglo multidimensional homogeneo `numpy.ndarray` o `numpy.array`. Los `numpy.array` consisten en tablas o matrices de elementos (del mismo tipo) que pueden ser indexados mediante tuplas de enteros. En numpy, las dimensiones son referenciadas como `axes`.

Comencemos por importar la librería.



In [None]:
import numpy as np

Existen varios métodos que permiten crear o inicializar `np.arrays`, cada uno con su respectiva funcionalidad.

In [None]:
# np.array: Crea un array a partir de la lista entregada.
# note que se interpreta que una lista de listas corresponde a un 2D-array.
# analogamente, un lista de listas de listas corresponde a un 3D-array.
a = np.array( [ [1.5, 9.1, 2.9], [5.0, 6.3, 3.2], [0.0, 2.8, 7.3] ])
print('np.array:\n', a)

# np.zeros: Crea un array de ceros a partir de las dimensiones entregadas.
# las dimensiones se entregan en tuplas (m, n) -> (rows, cols)
a = np.zeros( (3, 5) )
print('\nnp.zeros:\n', a)

# np.ones: Crea un array de unos a partir de las dimensiones entregadas.
a = np.ones( (3, 4) )
print('\nnp.ones:\n', a)

# np.linspace: Crea un array de num valores equiespaciados dentro del rango.
a = np.linspace( 0.0, 10.0, num=5 )
print('\nnp.linspace:\n', a)

# np.random.uniform: Crea un array de valores random a partir de una
# distribución uniforme.
a = np.random.uniform( 0.0, 10.0, (4, 4) )
print('\nnp.random.uniform:\n', a)

# np.random.normal: Crea un array de valores random a partir de una
# distribución normal.
a = np.random.normal( 0.0, 1.0, (5, 3) )
print('\nnp.random.normal:\n', a)


np.array:
 [[1.5 9.1 2.9]
 [5.  6.3 3.2]
 [0.  2.8 7.3]]

np.zeros:
 [[0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]]

np.ones:
 [[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]

np.linspace:
 [ 0.   2.5  5.   7.5 10. ]

np.random.uniform:
 [[3.23573468 4.76957754 5.67018872 7.76188426]
 [5.16223444 8.32111908 5.66705088 2.5232637 ]
 [8.93247306 8.57087872 7.94031945 7.8486596 ]
 [9.79856676 5.61320038 1.28053228 1.56349772]]

np.random.normal:
 [[-0.29202196  1.16278938 -0.31936935]
 [-0.89836967  1.6432111   0.60512721]
 [ 0.44551727  1.02137228 -0.67206473]
 [-0.34212516  0.04920108  1.83973327]
 [-0.25502654  0.39920576  1.42905663]]


## Atributos
Como toda clase o objeto, los `np.array` contienen varios atributos que entregan información sobre el objeto, como sus dimensiones y el tipo de elementos que contiene.

In [None]:
a = np.random.normal( 0.0, 2.0, (5, 3, 7) )

# :size: entrega la cantidad de elementos contenidos en el array.
print('size:', a.size)

# :ndim: entrega la cantidad de dimensiones del array.
print('ndim:', a.ndim)

# :shape: entrega el tamaño de cada una de las dimensiones del array.
print('shape:', a.shape)

# :dtype: entrega el tipo/type de los elementos contenidos.
print('dtype:', a.dtype)


size: 105
ndim: 3
shape: (5, 3, 7)
dtype: float64


## Indexing
Similar a como los elementos son indexados en objetos `list`, los elementos de un `np.array` pueden ser indexados especificando cada una de sus dimensiones entre corchetes.

In [None]:
a = np.random.uniform( 0.0, 100.0, (4, 6, 5) )

# elemento en la celda (2, 5, 1)
b = a[2, 5, 1]
print('a[2, 5, 1]: ', b)

# se puede acceder al último elemento en una dimensión mediante -1
b = a[2, -1, -1]
print('\na[2, 5, 4]: ', b)

# también es posible acceder a múltiples elementos en una única operación,
# como también seleccionar sub-array dentro de un array.

# start:stop accede a los elementos dentro del intervalo [start, stop)
b = a[0:3, 5, 4]
print('\na[0:3, 5, 4]: ', b)

# start: accede a los elementos desde start hasta el último elemento.
b = a[2:, 5, 4]
print('\na[2:, 5, 4]: ', b)

# :stop accede a los elementos desde el primer elemento hasta stop - 1.
b = a[:3, 5, 4]
print('\na[:3, 5, 4]: ', b)

# : accede a todos los elementos en esa dimensión.
b = a[:, :, 0]
print('\na[:, :, 0]:\n', b)


a[2, 5, 1]:  73.99702221931797

a[2, 5, 4]:  73.99397759598483

a[0:3, 5, 4]:  [49.9638716  60.21083013 73.9939776 ]

a[2:, 5, 4]:  [73.9939776  95.06289087]

a[:3, 5, 4]:  [49.9638716  60.21083013 73.9939776 ]

a[:, :, 0]:
 [[ 4.87568527 70.48714168 37.07204233 59.65543191 82.16969247 30.82659748]
 [30.82598158 87.6449747  35.87899524 80.64358143 54.59047228 77.82194324]
 [20.45329096 53.14920206 30.97284281 10.11996891 46.90276126 13.67818616]
 [28.74120901 73.74964531 76.44028647 33.24755324 72.67226073 41.86898208]]


## Concatenar
Concatenar consiste en combinar dos o más `np.array`, lo cual puede ser logrado mediante `np.concatenate`, `np.vstack`, `np.hstack` o `np.dstack`, dependiendo de la dimensión en la que se desee trabajar.

In [None]:
a = np.random.uniform( 0.0, 100.0, (5, 3) )
b = np.ones( (5, 3) )

# np.concatenate concatena una secuencia de arrays en el axis especificado.
c = np.concatenate( (a, b), axis=1 )
print('np.concatenate (axis=1):\n', c)

# np.vstack es equivalente a np.concatenate en axis=0 (row wise)
c = np.vstack( (a, b) )
print('\nnp.vstack:\n', c)

# np.hstack es equivalente a np.concatenate en axis=1 (col wise)
c = np.hstack( (a, b) )
print('\nnp.hstack:\n', c)

# np.dstack es equivalente a np.concatenate en axis=2 (3D wise)
c = np.dstack( (a, b) )
print('\nnp.dstack dimensions:\n', c.shape)



np.concatenate (axis=1):
 [[75.96271223 74.50270672 24.93841131  1.          1.          1.        ]
 [99.14335717 20.63760305 56.19939214  1.          1.          1.        ]
 [69.60230806 73.13624261 16.62758336  1.          1.          1.        ]
 [87.71464775 84.62625074  9.55495326  1.          1.          1.        ]
 [31.13086486 79.82355023 58.80384514  1.          1.          1.        ]]

np.vstack:
 [[75.96271223 74.50270672 24.93841131]
 [99.14335717 20.63760305 56.19939214]
 [69.60230806 73.13624261 16.62758336]
 [87.71464775 84.62625074  9.55495326]
 [31.13086486 79.82355023 58.80384514]
 [ 1.          1.          1.        ]
 [ 1.          1.          1.        ]
 [ 1.          1.          1.        ]
 [ 1.          1.          1.        ]
 [ 1.          1.          1.        ]]

np.hstack:
 [[75.96271223 74.50270672 24.93841131  1.          1.          1.        ]
 [99.14335717 20.63760305 56.19939214  1.          1.          1.        ]
 [69.60230806 73.13624261 16.62

## Reshape
Una de las funcionalidades más útiles de numpy es su capacidad de transformar y modificar el `shape` de un `np.array`. La forma más común de realizar esta operación es mediante `np.reshape`.

In [None]:
a = np.arange(1, 25)
print('a:\n', a)

# np.reshape recibe el array a transformar y una tupla de la nueva shape.
# la nueva forma debe ser compatible con la cantidad de elementos original.
b = np.reshape(a, (3, 8))
print('\nnp.reshape(a, (3, 3)):\n', b)

# en caso de querer inferir alguna de las nuevas dimensiones, se debe entregar
# un -1 en la dimensión correspondiente
b = np.reshape(a, (-1, 3, 2))
print('\nnp.reshape(a, (-1, 3, 2))[:, :, 0]:\n', b[:, :, 0])

# note que en el orden del reshape anterior, los elementos se van insertando
# siguiendo la última dimensión, y a medida que esta se completa, se sigue con
# la dimensión anterior.
# esto puede ser controlado mediante el parámetro 'order'.
b = np.reshape(a, (-1, 3, 2), order='F')
print("\nnp.reshape(a, (-1, 3, 2), order='F')[:, :, 0]:\n", b[:, :, 0])


a:
 [ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24]

np.reshape(a, (3, 3)):
 [[ 1  2  3  4  5  6  7  8]
 [ 9 10 11 12 13 14 15 16]
 [17 18 19 20 21 22 23 24]]

np.reshape(a, (-1, 3, 2))[:, :, 0]:
 [[ 1  3  5]
 [ 7  9 11]
 [13 15 17]
 [19 21 23]]

np.reshape(a, (-1, 3, 2), order='F')[:, :, 0]:
 [[ 1  5  9]
 [ 2  6 10]
 [ 3  7 11]
 [ 4  8 12]]


En caso de requerir transformar un array a un array 1D, esto puede ser logrado mediante `np.ravel` o `flatten`.

In [None]:
a = np.arange(1, 10).reshape( (-1, 3) )
print('a:\n', a)

b = a.flatten()
print('\na.flatten():\n', b)

b = a.ravel()
print('\na.ravel():\n', b)

# note que los resultados anteriores son distintos a a.reshape( (1, 9) ), pues
# pues el shape de este último es (1, 9), mientras que a.flatten() es (9, ).
b = a.reshape( (1, 9) )
print('\na.reshape( (1, 9) ):\n', b)


a:
 [[1 2 3]
 [4 5 6]
 [7 8 9]]

a.flatten():
 [1 2 3 4 5 6 7 8 9]

a.ravel():
 [1 2 3 4 5 6 7 8 9]

a.reshape( (1, 9) ):
 [[1 2 3 4 5 6 7 8 9]]


# Pandas

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/e/ed/Pandas_logo.svg/1200px-Pandas_logo.svg.png" width="400">

Pandas es una librería construida sobre Numpy y contiene funcionalidades orientadas a la manipulación de su objeto principal el `DataFrame`. Los `pandas.DataFrame` consisten en arreglos multidimensionales que, a diferencia del `np.ndarray`, poseen etiquetas `labels` para filas y columnas, y son capaces de contener elementos heterogéneos. Adicionalmente, el framework bajo el que fue implementado resulta sumamente similar a otros frameworks especializados en la manipulación de bases de datos como Excel.

Como se vio anteriormente, la estructura de datos de `np.ndarray`/`np.array` provee de las funcionalidades y operaciones escenciales para la manipulación de los siempre bien estructurados datos numéricos. No obstante, esta estructura se queda corta rápidamente a la hora de trabajar con bases de datos que requieren mayor flexibilidad: datos heterogéneos, series de datos incompletas, grupos de datos, etc. Básicamente, a la hora de trabajar en el mundo real.

Es así como Pandas, junto a sus estructutas fundamentales `pandas.Series` y `pandas.DataFrame`, habilita toda esta serie de funcionalidades necesarias ante cualquier proyecto de Data Science.

In [None]:
import pandas as pd

En su abstracción más elemental se podría decir que los `pandas.Series` y `pandas.DataFrame` consisten simplemente en `numpy.array` en donde tanto las filas como las columnas pueden ser indexadas mediante etiquetas particulares, en vez de índices numéricos.

## Series

El objeto `pandas.Series` consiste básicamente en un arreglo unidimensional (1D) de datos indexables. De este modo, contiene tando la secuencia de valores de los datos `values` y la secuencia de índices correspondiente `index`.

In [None]:
# del mismo modo que np.array, este objeto puede ser inicilizado a partir de
# una secuencia de datos (array-like).
a = pd.Series( [1.5, 9.1, 2.9, 0.2, 7.3] )
print('a:\n',a)

# :values: entrega los datos contenidos en el pd.Series.
print('\na.values: ', a.values)

# :index: entrega los index de los datos en el pd.Series.
print('\na.index: ', a.index)

# :dtype: entrega el type de los datos contenidos.
print('\na.dtype: ', a.dtype)


a:
 0    1.5
1    9.1
2    2.9
3    0.2
4    7.3
dtype: float64

a.values:  [1.5 9.1 2.9 0.2 7.3]

a.index:  RangeIndex(start=0, stop=5, step=1)

a.dtype:  float64


Del mismo modo que en los `np.array`, los datos contenidos en un `pd.Series` se pueden acceder a partir de su `index`. No obstante, esta estructura de datos permite algo más de flexibilidad. La diferencia radica en que mientras los `np.array` poseen `index` implícitamente definidos, en los `pd.Series` estos pueden ser explícitamente definidos.

In [None]:
a = pd.Series( [1.5, 9.1, 2.9, 0.2, 7.3] )
print('a[2]: ', a[2])

# el index puede ser definido mediante el parámetro index.
b = pd.Series( [1.5, 9.1, 2.9, 0.2, 7.3],
              index = ['a', 'b', 'c', 'd', 'e'])
print('\nb:\n',b)
print("\nb['c']: ", b['c'])

# en ocasiones conviene trabajar con index relacionados a secuencias
# temporales o timestamps.
c = pd.Series( [1.5, 9.1, 2.9, 0.2, 7.3],
              index = ['07-09-2020', '08-09-2020', '09-09-2020',
                       '10-09-2020', '11-09-2020'] )
print("\nc['11-09-2020']: ", c['11-09-2020'])


a[2]:  2.9

b:
 a    1.5
b    9.1
c    2.9
d    0.2
e    7.3
dtype: float64

b['c']:  2.9

c['11-09-2020']:  7.3


## DataFrame
Si el `pandas.Series` puede ser considerado como un arreglo unidimensional con datos indexables, entonces el `pandas.DataFrame` es su análogo bidimensional, donde las etiquetas tanto de las filas `index` como de las columnas `columns` pueden ser explícitamente definidas. De esta forma, los `pd.DataFrame` pueden ser vistos como una serie de `pd.Series` alineados, en el sentido de que comparten el mismo `index`.

In [None]:
# los pd.Series también pueden ser inicializados a partir de un diccionario
population = {'California': 38332521,
              'Texas': 26448193,
              'New York': 19651127,
              'Florida': 19552860,
              'Illinois': 12882135}
population = pd.Series(population)

area = {'California': 423967,
        'Texas': 695662,
        'New York': 141297,
        'Florida': 170312,
        'Illinois': 149995}
area = pd.Series(area)

db = pd.DataFrame({'population':population,
                   'area':area})
print('db:\n', db)

# :values: entrega todos los datos contenidos como un np.array.
print('\ndb.values:\n', db.values)

# :index: entrega el index del DataFrame.
print('\ndb.index:\n', db.index)

# :columns: entrega la lista con el nombre de las columnas del DataFrame.
print('\ndb.columns:\n', db.columns)
                  

db:
             population    area
California    38332521  423967
Texas         26448193  695662
New York      19651127  141297
Florida       19552860  170312
Illinois      12882135  149995

db.values:
 [[38332521   423967]
 [26448193   695662]
 [19651127   141297]
 [19552860   170312]
 [12882135   149995]]

db.index:
 Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

db.columns:
 Index(['population', 'area'], dtype='object')


Por supuesto, un `pd.DataFrame` puede ser inicializado o creado de múltiples maneras, y no necesariamente a partir de `pd.Series` previos.

In [None]:
# crear pd.DataFrames de zeros
a = pd.DataFrame(0.0,
                 index = ['Enero', 'Febrero', 'Marzo', 'Abril'],
                 columns = ['2018', '2019', '2020'])
print('a:\n', a)

# crear pd.DataFrames a partir de np.ndarray
b = np.random.uniform(0, 255, (4, 3)).astype('int')
a = pd.DataFrame(b,
                 index = ['Enero', 'Febrero', 'Marzo', 'Abril'],
                 columns = ['2018', '2019', '2020'])
print('\na:\n', a)

a:
          2018  2019  2020
Enero     0.0   0.0   0.0
Febrero   0.0   0.0   0.0
Marzo     0.0   0.0   0.0
Abril     0.0   0.0   0.0

a:
          2018  2019  2020
Enero     143   133    95
Febrero    41    41    53
Marzo      36    86   104
Abril      25   208   242


En ocasiones será necesario trabajar con datos contenidos en hojas de cálculo como son los archivos `.csv` y `.xls` comúnmente usados en Excel. Por suerte, Pandas contiene métodos que permiten importar este tipo de archivos directamente en la estructura `pd.DataFrame` como `pd.read_csv` o `pd.read_excel`.

Para probar alguno de estos métodos carguemos el repositorio del curso.

In [None]:
!git clone https://github.com/cherrerab/deeplearningfallas.git
%cd /content/deeplearningfallas

Cloning into 'deeplearningfallas'...
remote: Enumerating objects: 72, done.[K
remote: Counting objects:   1% (1/72)[Kremote: Counting objects:   2% (2/72)[Kremote: Counting objects:   4% (3/72)[Kremote: Counting objects:   5% (4/72)[Kremote: Counting objects:   6% (5/72)[Kremote: Counting objects:   8% (6/72)[Kremote: Counting objects:   9% (7/72)[Kremote: Counting objects:  11% (8/72)[Kremote: Counting objects:  12% (9/72)[Kremote: Counting objects:  13% (10/72)[Kremote: Counting objects:  15% (11/72)[Kremote: Counting objects:  16% (12/72)[Kremote: Counting objects:  18% (13/72)[Kremote: Counting objects:  19% (14/72)[Kremote: Counting objects:  20% (15/72)[Kremote: Counting objects:  22% (16/72)[Kremote: Counting objects:  23% (17/72)[Kremote: Counting objects:  25% (18/72)[Kremote: Counting objects:  26% (19/72)[Kremote: Counting objects:  27% (20/72)[Kremote: Counting objects:  29% (21/72)[Kremote: Counting objects:  30% (22/72)[Kremote

Dentro de la carpeta de este workshop `\content\deeplearningfallas\workshop_01` se encuentra el archivo `cities.csv`

In [None]:
# importar archivo
file_path = 'workshop_01//cities.csv'
db = pd.read_csv(file_path)

# imprimir información de las primeras 5 filas.
a = db.head()
print('db_cities.head():\n', a)

# obtener columnas del dataset.
cols = db.columns
print('\ncolumns:\n', cols)

# extraer un pd.Series a partir del pd.DataFrame
states = db['State']
print("\ndb['State'].head():\n", states.head())

db_cities.head():
    LatD  LatM  LatS NS  LonD  LonM  LonS EW             City State
0    41     5    59  N    80    39     0  W       Youngstown    OH
1    42    52    48  N    97    23    23  W          Yankton    SD
2    46    35    59  N   120    30    36  W           Yakima    WA
3    42    16    12  N    71    48     0  W        Worcester    MA
4    43    37    48  N    89    46    11  W  Wisconsin Dells    WI

columns:
 Index(['LatD', 'LatM', 'LatS', 'NS', 'LonD', 'LonM', 'LonS', 'EW', 'City',
       'State'],
      dtype='object')

db['State'].head():
 0    OH
1    SD
2    WA
3    MA
4    WI
Name: State, dtype: object


Por último, existen varios métodos para acceder o bien, extraer, elementos contenidos dentro de un `pandas.DataFrame`. Los más comunes son `pd.DataFrame.at`, `pd.DataFrame.loc` y `pd.DataFrame.iloc`.

In [None]:
# pd.DataFrame.at permite acceder a un valor único dentro del DataFrame a partir
# de sus etiquetas index y columns correspondientes.
a = db.at[2, 'City']
print("db.at[3, 'City']: ", a)

# pd.DataFrame.loc permite acceder a múltiples valores dentro del DataFrame a
# partir de sus etiquetas index y columns correspondientes.
# i.e este método permite slicing y el uso de listas.
a = db.loc[0:3, ['City', 'State'] ]
print("\ndb.loc[0:3, ['City', 'State'] ]:\n", a)

# analogamente pd.DataFrame.iloc permite acceder a múltiples valores dentro del
# DataFrame a partir de sus índices enteros tanto en filas como columnas.
# del mismo modo, permite slicing y listas.
a = db.iloc[[2, 4, 7], 8:10]
print("\ndb.iloc[[2, 4, 7], 8:10 ]:\n", a)

db.at[3, 'City']:  Yakima

db.loc[0:3, ['City', 'State'] ]:
          City State
0  Youngstown    OH
1     Yankton    SD
2      Yakima    WA
3   Worcester    MA

db.iloc[[2, 4, 7], 8:10 ]:
               City State
2           Yakima    WA
4  Wisconsin Dells    WI
7       Winchester    VA
