<center>
    <img src="http://sct.inf.utfsm.cl/wp-content/uploads/2020/04/logo_di.png" style="width:60%">
    <h1> INF280 - Estadística Computacional </h1>
    <h2> Introducción a Pandas y NumPy </h2>
    <h2> Version: 0.03 </h2>
    <h2> Ay. Nicolás Armijo Calquín </h2>
    <h2> Ay. Eva Wang Liu </h2> 
</center>

<div id='toc'>

## Tabla de Contenidos

* [Introducción](#intro)
* [Pandas](#pandas)
    * [DataFrame y Series](#df-series)
    * [Leer/Escribir Archivos](#io)
    * [Conocer un DataFrame](#df-meth)
    * [Indexar, Seleccionar y Añadir Datos](#indexing)
    * [Extras](#extra-pd)
* [NumPy](#numpy)
    * [Objetos ndarray](#ndarray)
    * [Vectorización](#vectorize)
    * [Números Aleatorios](#random)

* [Historial Cambios](#hist)

<div id='intro'>

## Introducción

En el presente Jupyter Notebook se presentarán las herramientas básicas para comenzar a trabajar con las librerías Pandas y Numpy del lenguaje Python. Estas librerías le ayudarán enormemente con las tareas relacionadas a los laboratorios del curso y además le proporcionarán una base para las especialidades dentro del área estadística y numérica. 

Cabe destacar que estas librerías fueron escogidas dentro del **top 3** de las tecnologías más utilizadas dentro del StackOverflow Survey 2023, por lo que se espera que este material le sean de gran apoyo a su formación. [[StackOverflow Survey 2023] Ver Notcia](https://survey.stackoverflow.co/2023/#most-popular-technologies-misc-tech)

<div id='pandas'>

## Pandas

Pandas es una librería de código abierto para el lenguaje de programación Python que proporciona estructuras de datos de alto rendimiento y herramientas de análisis de datos. Es ampliamente utilizada en ciencia de datos, finanzas, estadísticas, análisis de negocios y otras áreas donde se trabaja con datos tabulares y series temporales.

* **Estructuras de datos**: Pandas proporciona dos estructuras de datos principales: Series y DataFrames. Las Series son un arreglo unidimensional etiquetado que puede contener cualquier tipo de datos, mientras que los DataFrames son estructuras de datos bidimensionales etiquetadas que pueden contener múltiples tipos de datos.

* **Manipulación de datos**: Pandas permite la manipulación de datos a través de operaciones como filtrado, selección, agregación, transformación, fusión, unión, entre otras.

* **Limpieza de datos**: Pandas proporciona herramientas para limpiar datos, como la eliminación de valores nulos o duplicados, la corrección de tipos de datos, el relleno de valores faltantes, la eliminación de columnas innecesarias y la normalización de datos.

* **Análisis de datos**: Pandas permite realizar análisis de datos, como la agregación de datos, la agrupación, la aplicación de funciones estadísticas, la exploración de datos, entre otras.

* **Visualización de datos**: Pandas también permite la visualización de datos, ya que puede integrarse con otras bibliotecas de visualización como Matplotlib, Seaborn y Plotly.

Se adjuntan distintos recursos que les puede ser de utilidad:


*   **Documentación Oficial** https://pandas.pydata.org/docs/
*   **Pandas CheatSheet** https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf
*   **Mini Curso Pandas - Kaggle** https://www.kaggle.com/learn/pandas (Recomendable)

In [68]:
# Importamos Pandas - Debemos instalarlo con pip install pandas
import pandas as pd

<div id='df-series'>

### DataFrame y Series

En pandas trabajamos con dos objetos principales: Los `DataFrame` y las `Series`.

Los `DataFrame` es una tabla. Estos contienen un array de entradas, los cuales tienen ciertos valores. Cada entrada corresponde a una fila y a una columna. Podemos enterdelo como una tabla de una base de datos.

Las `Series` son una secuencia de valores. Podemos interpretarla como una única columna de un DataFrame. Existen ciertas diferencias con el DataFrame, como por ejemplo, las Series no contienen nombre de columna, sino, poseen un nombre para todo el conjunto.

A continuación, veremos ejemplos obtenidos de la plataforma Kaggle:

In [69]:
# DataFrame
pd.DataFrame({'Alice': [8.5, 5.0 ], 'Bob': [9.5, 10]}, index=['Producto A', 'Producto B'])

Unnamed: 0,Alice,Bob
Producto A,8.5,9.5
Producto B,5.0,10.0


In [70]:
# Series
pd.Series([30, 35, 40], index=['2015 Sales', '2016 Sales', '2017 Sales'], name='Product A')

2015 Sales    30
2016 Sales    35
2017 Sales    40
Name: Product A, dtype: int64

<div id='io'>

### Leer/Escribir Archivos

Por otra parte, pandas nos permite leer múltiples tipos de archivos. La función que lee los contenidos de los archivos se escriben como `pd.read_<file-type>()` y reciben como argumento el `path` del archivo, en donde los tipos más importantes soportados por Pandas son:

* `pd.read_json()`
* `pd.read_html()`
* `pd.read_sql()`
* `pd.read_excel()`
* entre otros.

En nuestro caso, es común tabajar con un archivo `CSV`. Cuando abrimos un archivo los datos se guardarán en forma de DataFrame. Así aprovecharemos todas las ventajas que nos entregan estos objetos. 

Al cargar un archivo y asignarlo a una variable (en nuestro caso `df`) podemos utilizar el método `.head()` para observar las primeras 5 filas del dataset. 

In [71]:
# Ejemplo de apertura de un CSV de manera remota - Cargaremos el Iris Dataset 

url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"

# El dataset no contiene nombres de columnas por lo que se las agregaremos
col_names = ["sepal_length_in_cm",
            "sepal_width_in_cm",
            "petal_length_in_cm",
            "petal_width_in_cm",
            "class"]

df = pd.read_csv(url, names=col_names)

# Con el método .head() mostraremos las 5 primeras filas del dataset
df.head()

Unnamed: 0,sepal_length_in_cm,sepal_width_in_cm,petal_length_in_cm,petal_width_in_cm,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


De igual forma podemos utilizar `.tail()` para observar las últimas 5 filas del dataset.


In [72]:
# Con el método .tail() mostraremos las 5 últimas filas del dataset
df.tail()

Unnamed: 0,sepal_length_in_cm,sepal_width_in_cm,petal_length_in_cm,petal_width_in_cm,class
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica
149,5.9,3.0,5.1,1.8,Iris-virginica


Por último, también tenemos distintas opciones para escribir y guardar un DataFrame en un archivo de nuestra elección. La función que escribe los contenidos de un Dataframe en un archivos escriben como `DataFrame.to_<file-type>()` y reciben como argumento el `path` del archivo. Los archivos mencionados anteriormente sirven como escritura de un archivo.

<div id='df-meth'>

### Análizando un DataFrame

Dentro de los Dataframes, posee una variedad de atributos que nos entregarán información sobre el dataset en particular. Es muy común partir con el análisis intentado conocer la estructura de los datos con los que vamos a trabajar. A continuación, se listarán distintas opciones para conocer la data con la que trabajeremos.

El atributo `shape` nos entregara una tupla la cual indicará las filas y columnas del DataFrame.

In [73]:
# shape nos entrega una tupla (filas, columnas)
df.shape

(150, 5)

El atributo `columns` nos entregara un objeto Index la cual indicará el nombre de las columnas del DataFrame. Además, es posible modificar las etiquetas accediendo a este.

In [74]:
# columns nos entrega un objeto Index con los nombres de las columnas
# En nuestro ejemplo nosotros les asignamos los nombres a las columnas al cargar el dataset

df.columns

Index(['sepal_length_in_cm', 'sepal_width_in_cm', 'petal_length_in_cm',
       'petal_width_in_cm', 'class'],
      dtype='object')

In [75]:
# Si queremos modificar las columnas le entregamos una lista con los nombre de interés
# Cambiaremos los nombres de las columnas a español
df. columns = ["sepalo_largo_en_cm",
            "sepalo_ancho_en_cm",
            "petalo_largo_en_cm",
            "petalo_ancho_en_cm",
            "clase"]

df.columns

Index(['sepalo_largo_en_cm', 'sepalo_ancho_en_cm', 'petalo_largo_en_cm',
       'petalo_ancho_en_cm', 'clase'],
      dtype='object')

El atributo `index` nos entregará los índices de las filas del dataset.

In [76]:
# En nuestro caso el índice corresponde a un rango de 0 a 150 (150 no se cuenta) con pasos de 1. 
df.index

RangeIndex(start=0, stop=150, step=1)

El atributo `dtype` nos entregará una `Series` con los tipos de cada columna dentro del dataset. Dentro de los valores comunes tenemos a: valores enteros `int`; valores flotantes `float`; objetos `object` que puede tener cualquier objeto de Python (normalmente se refieren a `strings` aunque posee un tipo dedicado llamado `StringDtype`); booleanos `bool`; y tipos de tiempo como `datetime64[ns]`.

Además, mencionar los `NaN`, que es la representación utilizada para los valores faltantes o perdidos. Hablaremos más adelante cómo trabajar con estos. 

In [77]:
df.dtypes

sepalo_largo_en_cm    float64
sepalo_ancho_en_cm    float64
petalo_largo_en_cm    float64
petalo_ancho_en_cm    float64
clase                  object
dtype: object

Finalmente, un método que resumen toda la información de un DataFrame es `info()`.

In [78]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   sepalo_largo_en_cm  150 non-null    float64
 1   sepalo_ancho_en_cm  150 non-null    float64
 2   petalo_largo_en_cm  150 non-null    float64
 3   petalo_ancho_en_cm  150 non-null    float64
 4   clase               150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB


<div id='indexing'>

### Indexar, Seleccionar y Añadir Datos

Luego de conocer el dataset, la función requerida para cualquier herramienta de manipulación de datos es poder acceder, buscar y asignar valores dentro de este. A continuación, se mencionarán algunas funcionalidades de interés para estas tareas. 

In [79]:
# Para recordar cómo es el dataset.
df.head()

Unnamed: 0,sepalo_largo_en_cm,sepalo_ancho_en_cm,petalo_largo_en_cm,petalo_ancho_en_cm,clase
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


En primer lugar, para acceder a columnas tenemos dos opciones: La primera, acceder mediante el nombre de la columna; y la segunda, acceder como si fuera un diccionario de Python. Ambas opciones nos retornarán una `Series`.

La primera opción posee una desventaja, el nombre de la columna NO debe tener espacios para poder ser utilizada. Por ejemplo, si la columna se llama `'Columna A'`, no podríamos trabajar con este método ya que posee un espacio dentro del string. 

In [80]:
# Accederemos a la columna 'sepalo_largo_en _cm' mediante el primer método.
df.sepalo_largo_en_cm

0      5.1
1      4.9
2      4.7
3      4.6
4      5.0
      ... 
145    6.7
146    6.3
147    6.5
148    6.2
149    5.9
Name: sepalo_largo_en_cm, Length: 150, dtype: float64

La segunda opción, es de la misma manera que si trabajaramos con un diccionario. Primero accedemos a la llave y luego podemos acceder a los valores. En nuestro ccaso, la llave correspondería al nombre de la columna a acceder.


In [81]:
# Accederemos a la columna 'sepalo_largo_en _cm' mediante el segundo método.
df['sepalo_largo_en_cm']

0      5.1
1      4.9
2      4.7
3      4.6
4      5.0
      ... 
145    6.7
146    6.3
147    6.5
148    6.2
149    5.9
Name: sepalo_largo_en_cm, Length: 150, dtype: float64

In [82]:
# Podemos acceder a los valores como si fuera un diccionario
df['sepalo_largo_en_cm'][0]

5.1

In [83]:
# Por último, podemos acceder a múltiples columnas (entregando una lista) y valores (con el operador [:])
df[['sepalo_largo_en_cm', 'clase']][:4]

Unnamed: 0,sepalo_largo_en_cm,clase
0,5.1,Iris-setosa
1,4.9,Iris-setosa
2,4.7,Iris-setosa
3,4.6,Iris-setosa


Otros métodos que posee Pandas para acceder a los datos son `loc[]` e `iloc[]`, creados para realizar operaciones más avanzadas.

La diferencia entre estos es bastante simple pero se debe tener en consideración. El operador `iloc[]` sigue un paradigma de **selección por índices**, es decir, selecciona los datos basado en su posición numérica dentro del dataframe. Además al seleccionar rangos, este lo hace de manera exclusiva con el último índice. 

Por otro lado, `loc[]` sigue un paradigma de **selección por etiquetas**, es decir, selecciona los datos en función de la etiqueta de sus índices, no su posición. Estas etiquetas normalmente son numéricas, sin embargo, existe la posibilidad de tener strings a modo de índices por lo que es interesante conocer esta herramienta.

Las similitudes que comparten estos métodos son que, a diferencia de los métodos tradicionales de Python, es que seleccionan *primero la fila y luego la columna*. 

Se dejan distintos ejemplos para `iloc[]`

In [84]:
# Seleccionamos la primera fila
df.iloc[0]

sepalo_largo_en_cm            5.1
sepalo_ancho_en_cm            3.5
petalo_largo_en_cm            1.4
petalo_ancho_en_cm            0.2
clase                 Iris-setosa
Name: 0, dtype: object

In [85]:
# Seleccionamos primera fila última columna
df.iloc[0,4]

'Iris-setosa'

In [86]:
# Seleccionamos primera fila, distintas columnas
df.iloc[0,[0,2,4]]

sepalo_largo_en_cm            5.1
petalo_largo_en_cm            1.4
clase                 Iris-setosa
Name: 0, dtype: object

In [87]:
# Seleccionamos 3 primeras filas y 3 primeras columnas
df.iloc[:3,:3]

Unnamed: 0,sepalo_largo_en_cm,sepalo_ancho_en_cm,petalo_largo_en_cm
0,5.1,3.5,1.4
1,4.9,3.0,1.4
2,4.7,3.2,1.3


Se dejan ejemplos para `loc[]`. Al ser los índices numéricos y al estar ordenados, se comportará similar a `iloc[]`, sin emabrgo podemos ver que para seleccionar las columnas es necesario poner el nombre (además incluye el último termino del rango).

In [88]:
# Incluye la fila con el índice 3
df.loc[:3]

Unnamed: 0,sepalo_largo_en_cm,sepalo_ancho_en_cm,petalo_largo_en_cm,petalo_ancho_en_cm,clase
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa


In [89]:
# Seleccionamos las columnas en el orden que nosotros especificamos ya que se realiza la busqueda por etiqueta y no posicioón
df.loc[:3, ['clase', 'sepalo_largo_en_cm', 'petalo_ancho_en_cm']]

Unnamed: 0,clase,sepalo_largo_en_cm,petalo_ancho_en_cm
0,Iris-setosa,5.1,0.2
1,Iris-setosa,4.9,0.2
2,Iris-setosa,4.7,0.2
3,Iris-setosa,4.6,0.2


Una herramienta poderosa que se puede utilizar con `loc[]`, es que podemos hacer búsquedas condicionales. Es decir, recuperar datos que cumplan con algún tipo de criterio planteado a través de una condición. Por ejemplo, digamos que queremos recuperar las flores que tengan un pétalo más largo que 1.4 [cm].

Primero, tenemos que entender que su le plantemos un condicional a alguna columna dentro del dataset, se retornará una `Series` que contendrá los valores booleanos de cada fila con respecto a la condición que escribimos.

In [90]:
# Preguntemos el ejemplo anterior
df['petalo_largo_en_cm'] > 1.4

0      False
1      False
2      False
3       True
4      False
       ...  
145     True
146     True
147     True
148     True
149     True
Name: petalo_largo_en_cm, Length: 150, dtype: bool

Entonces podemos utilizar este resultado junto a `loc[]` para filtrar estas etiquetas. 

In [91]:
df.loc[df['petalo_largo_en_cm'] > 1.4]

Unnamed: 0,sepalo_largo_en_cm,sepalo_ancho_en_cm,petalo_largo_en_cm,petalo_ancho_en_cm,clase
3,4.6,3.1,1.5,0.2,Iris-setosa
5,5.4,3.9,1.7,0.4,Iris-setosa
7,5.0,3.4,1.5,0.2,Iris-setosa
9,4.9,3.1,1.5,0.1,Iris-setosa
10,5.4,3.7,1.5,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


Y si queremos filtrar además por clase de iris, utilizando los operadores booleanos de Python podemos realizar esta tarea.

In [92]:
# Mostraremos solo las 5 primeras filas para disminuir el tamaño de la tabla (utilizamos [:5])
df.loc[ (df['petalo_largo_en_cm'] > 1.4) & (df['clase'] == 'Iris-setosa')][:5]

Unnamed: 0,sepalo_largo_en_cm,sepalo_ancho_en_cm,petalo_largo_en_cm,petalo_ancho_en_cm,clase
3,4.6,3.1,1.5,0.2,Iris-setosa
5,5.4,3.9,1.7,0.4,Iris-setosa
7,5.0,3.4,1.5,0.2,Iris-setosa
9,4.9,3.1,1.5,0.1,Iris-setosa
10,5.4,3.7,1.5,0.2,Iris-setosa


Para añadir columnas y datos dentro de un DataFrame es sencillo. Para agregar una columna, basta con crear el nombre de la columna y agregarle un valor. Para ejemplificar vamos a agregar una nueva fila con valores `NaN`. Existen una gran variedad de métodos que permiten manipular, encontrar, reemplazar estos valores, pero se les dejará a tarea a ustedes de buscarlos.  

In [93]:
# Primero debemos cargar Numpy para poder utilizar NaN
# import numpy as np

df['color_flor'] = np.nan

df['color_flor']

0     NaN
1     NaN
2     NaN
3     NaN
4     NaN
       ..
145   NaN
146   NaN
147   NaN
148   NaN
149   NaN
Name: color_flor, Length: 150, dtype: float64

<div id='extra-pd'>

### Extras

Pandas posee un sin fin de herramientas que hacen nuestra vida más fácil, pero son tantas que es complejo recopilarlas todas en un solo lugar, es por esto que cerraremos con esta introducción a esta librería con algunas herramientas que son útiles en el día a día. Queda un mundo completo por explorar, es por eso que les recomendamos seguir investigando sobre esta poderosa librería.  



Algunas de las funcionalidades que vale la pena mencionar son los `maps`, los `groupby` y los `sort`.

Los conocidos **maps** son terminos matemáticos que se recogen del cálculo lambda y se utilizan para la programación funcional. Para nuestro interés, estos nos ayudarán a transformar los datos dentro del DataFrame a nuestro antojo.

Tenemos dos opciones para hacerlo, donde ninguna modificará nuestro DataFrame original; la primera, utiliza el método `map()` el cual, normalmente, recibe de argumento una función `lambda`, la cual será la encargada de transformar los datos seleccionados (sólo puede acceder a una columna). Este método retorna una nueva `Series` con todos los datos transformados por la función.

In [94]:
# Elevaremos al cuadrado los valores de la columna 'sepalo_ancho_en_cm'

df['sepalo_ancho_en_cm'].map(lambda s: s**2)

0      12.25
1       9.00
2      10.24
3       9.61
4      12.96
       ...  
145     9.00
146     6.25
147     9.00
148    11.56
149     9.00
Name: sepalo_ancho_en_cm, Length: 150, dtype: float64

In [95]:
# Recordemos los valores de la columna 'sepalo_ancho_en_cm'. Estos no se vieron afectados por el map

df['sepalo_ancho_en_cm']

0      3.5
1      3.0
2      3.2
3      3.1
4      3.6
      ... 
145    3.0
146    2.5
147    3.0
148    3.4
149    3.0
Name: sepalo_ancho_en_cm, Length: 150, dtype: float64

Otra manera de realizar un mapeo es mediante `apply()`. La diferencia al método anterior es que este método es capaz de modificar el DataFrame completo, es decir, puede acceder a todas sus columnas.

In [96]:
# Utilizaremos apply para corregir la columna 'color', la cual la hemos dejado con valores NaN

def definir_color(row):

    if row.clase == 'Iris-setosa':
        row.color_flor = 'morado medio'
    elif row.clase == 'Iris-versicolor':
        row.color_flor = 'morado claro'
    else:
        row.color_flor = 'morado oscuro'
    return row

df.apply(definir_color, axis='columns')

Unnamed: 0,sepalo_largo_en_cm,sepalo_ancho_en_cm,petalo_largo_en_cm,petalo_ancho_en_cm,clase,color_flor
0,5.1,3.5,1.4,0.2,Iris-setosa,morado medio
1,4.9,3.0,1.4,0.2,Iris-setosa,morado medio
2,4.7,3.2,1.3,0.2,Iris-setosa,morado medio
3,4.6,3.1,1.5,0.2,Iris-setosa,morado medio
4,5.0,3.6,1.4,0.2,Iris-setosa,morado medio
...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica,morado oscuro
146,6.3,2.5,5.0,1.9,Iris-virginica,morado oscuro
147,6.5,3.0,5.2,2.0,Iris-virginica,morado oscuro
148,6.2,3.4,5.4,2.3,Iris-virginica,morado oscuro


Finalmente, terminaremos esta sección con dos herramientas muy utilizadas, las cuales son `groupby()` y `sort_values()`.

El conocido `groupby()` es útil para dividir un DataFrame en grupos basados en una o más claves, realizar operaciones dentro de esos grupos, y combinar los resultados. Es fundamental para cualquier tipo de análisis exploratorio o de agregación en pandas. Por ejemplo, intentaremos encontrar el mínimo valor de cada clase de iris con respecto al ancho de su sépalo.

In [99]:
# Ejemplo de utilización de groupby

df.groupby('clase')['sepalo_ancho_en_cm'].min()

clase
Iris-setosa        2.3
Iris-versicolor    2.0
Iris-virginica     2.2
Name: sepalo_ancho_en_cm, dtype: float64

Para finalizar nuestra pequeña presentación de Pandas veremos un uso de `sort`, lo cual ordena el DataFrame de manera ascendente o descendente según una o más columnas. Por ejemplo, lo ordenaremos de manera descendiente según el largo de los pétalos. Las funciones estadísticas se detallarán en `CH1-Estadística Descriptiva`

In [100]:
# Ejemplo de utilización sort

df.sort_values(by='petalo_largo_en_cm', ascending=False)

Unnamed: 0,sepalo_largo_en_cm,sepalo_ancho_en_cm,petalo_largo_en_cm,petalo_ancho_en_cm,clase,color_flor
118,7.7,2.6,6.9,2.3,Iris-virginica,
122,7.7,2.8,6.7,2.0,Iris-virginica,
117,7.7,3.8,6.7,2.2,Iris-virginica,
105,7.6,3.0,6.6,2.1,Iris-virginica,
131,7.9,3.8,6.4,2.0,Iris-virginica,
...,...,...,...,...,...,...
36,5.5,3.5,1.3,0.2,Iris-setosa,
35,5.0,3.2,1.2,0.2,Iris-setosa,
14,5.8,4.0,1.2,0.2,Iris-setosa,
13,4.3,3.0,1.1,0.1,Iris-setosa,


<div id='numpy'>

## NumPy

**NumPy** es una librería fundamental para la computación científica en Python. Su nombre proviene de "Numerical Python" y es ampliamente utilizada para trabajar con arreglos multidimensionales (también llamados arrays) y realizar operaciones matemáticas y algebraicas sobre ellos de manera eficiente. NumPy es la base sobre la cual se construyen muchas otras librerías populares en el ecosistema de ciencia de datos y aprendizaje automático, como **Pandas, Matplotlib, y Scikit-learn.**

Las cualidades de esta librería destacan por:

* **Objeto ndarray:** El núcleo de NumPy es el objeto ndarray, que es una estructura de datos que permite almacenar y manipular matrices multidimensionales de manera eficiente. Poseen tratos distintos a las listas de Python.

* **Operaciones Vectorizadas:** NumPy permite realizar operaciones aritméticas y matemáticas sobre arrays enteros de una manera *"vectorizada"*, lo que significa que puedes aplicar una operación a todos los elementos del array simultáneamente sin necesidad de usar bucles explícitos. Esto implica una mejora en el rendimiento, impactando en la velocidad del computo.

* **Funciones Matemáticas:** NumPy incluye un amplio conjunto de funciones matemáticas, estadísticas y lógicas, que se pueden aplicar a arrays. Estas funciones están optimizadas para trabajar con grandes volúmenes de datos al utilizar la vectorización mencionada anteriormente.

* **¡Entre muchas otras!**

Comenzar a comprender la librería desde ya, le permitirá prepararse, en cierta medida, para el ramo de *Computación Científica*.

Se recomienda dirigirse a la documentación oficial de Numpy para obtener más detalle sobre la librería: https://numpy.org/doc/stable/

In [1]:
# Importamos Numpy - Debemos instalarlo con pip install numpy para poder utilizarlo en local.

import numpy as np

<div id='ndarray'>

### Objetos ndarray

Comenzaremos esta pequeña introducción con el objeto principal de NumPy, los `ndarray`. Estos objetos representan **"N-dimensional array"**, ya sean vectores (1D), matrices (2D), tensores (ND), etc. Generalmente, los arrays de NumPy se generan mediante listas de Python, pero estos pueden ser creados mediante cualquier secuencia, estos objetos son mutables, por lo que podemos modificar los valores que se guardan en el array. Los operadores de listas también son utilizados por Numpy, lo que hace que su curva de aprendizaje sea mucho más sencilla.

In [4]:
# Instanciemos un ndarray de 1D (vector)

v = np.array([1, 2, 3, 4, 5, 6, 7, 8])
v

array([1, 2, 3, 4, 5, 6, 7, 8])

In [8]:
# Métodos de indexing

print("Indexar un solo elemento:",v[0])

print("Indexar un slice:",v[:4])

Indexar un solo elemento: 1
Indexar un slice: [1 2 3 4]


In [10]:
# Intanciar un ndarray 2D (matrix)

mtx = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
mtx

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [14]:
# Indexar en matrices

print("Indexar posición (fila, columna):", mtx[0,2])

print("Indexar fila:", mtx[1,:])

print("Indexar columna:", mtx[:,0])

Indexar posición (fila, columna): 3
Indexar fila: [4 5 6]
Indexar columna: [1 4 7]


Algunas opciones interesantes a conocer son otros constructores como: `np.zeros()`, `np.ones()`, `np.empty()`, `np.arange()` y `np.linspace()`.

Estos objetos contienen operaciones más complejas para realizar ciertas tareas, ya que los array de tamaños fijos, por lo que los invitamos a investigar sobre métodos como `reshape()`, `concatenate()`, entre otros.  

<div id='vectorize'>

### Vectorización

Otra herramienta útil a conocer sobre NumPy es su "vectorización". La idea es aplicar operaciones sobre arrays de manera que no sea necesario iterar explícitamente sobre sus elementos. Podemos vectorizar operaciones matemáticas, aplicaciones de funciones, etc.

In [20]:
#Ejemplos de vectorizaciones

a = np.array([1, 2, 3, 4, 5])
b = np.ones(5) #array unidimensional (5 elementos) de 1's

a+b

array([2., 3., 4., 5., 6.])

In [21]:
b*10

array([10., 10., 10., 10., 10.])

In [22]:
a-b

array([0., 1., 2., 3., 4.])

In [25]:
# Podemos realizar producto punto - Investigue sobre producto matriz-matriz, matrix-vector.

np.dot(a,b)

15.0

Podemos utilizar las distintas funciones matemáticas que posee NumPy. ¡Existen muchas más!

In [27]:
np.sqrt(a)

array([1.        , 1.41421356, 1.73205081, 2.        , 2.23606798])

In [23]:
np.log(a)

array([0.        , 0.69314718, 1.09861229, 1.38629436, 1.60943791])

In [24]:
np.exp(a)

array([  2.71828183,   7.3890561 ,  20.08553692,  54.59815003,
       148.4131591 ])

In [26]:
np.power(a,4)

array([  1,  16,  81, 256, 625])

¿Qué podemos hacer si no tenemos la función implementada por NumPy? Podemos crear nuestra función y vectorizarla para realizar estas operaciones. Para operaciones más complejas, investigue `np.vectorize()`.

In [28]:
f = lambda x: (1/4)*x + x**2 - np.sqrt(x)

f(a)

array([ 0.25      ,  3.08578644,  8.01794919, 15.        , 24.01393202])

<div id='random'>

### Números Aleatorios

Los números aleatorios son implementados como *números pseudo-aleatorios repetibles*. Veremos con más detalle la utilización de estos en el `CH4-Generación de VA`, pero por el momento veremos algunos conceptos básicos sobre su uso.

La reproducibilidad es un concepto importantísimo, el cual en vagas palabras, nos permite setear los algoritmos para que vuelvan a producir los mismos números aleatorios con el fin de que otra persona pueda reproducir nuestros resultados. En esta pequeña sección mostraremos como generar arrays aleatorios. Más adelante hablaremos en profundidad sobre las buenas prácticas en relación a este tema y las herramientas disponibles con `np.random`.

In [46]:
# Creando un vector aleatorio de números enteros (entre 0 y 10)

np.random.randint(low=0,high=10, size=10)

array([4, 3, 4, 4, 8, 4, 3, 7, 5, 5])

In [47]:
# Creando una matriz aleatoria

np.random.random(size=(3,3))

array([[0.31720174, 0.77834548, 0.94957105],
       [0.66252687, 0.01357164, 0.6228461 ],
       [0.67365963, 0.971945  , 0.87819347]])

<div id='hist'>

# Historial de Versiones 

* **Versión v0.03:** Primera versión del material: Introducción a Pandas y Numpy. - *25 de Agosto del 2024*. 