__Curso Python (Iniciación a Python para Ingenieros)__

_© Juan F. Coronel Toro, 2025_

# 2. Paquetes (Numpy, Matplotlib y Pandas)
## 2.1. Paquetes y Módulos en Python

Python tiene una gran cantidad de bibliotecas disponibles, comúnmente citada como una de las mayores fortalezas de Python, que proporciona herramientas adecuadas para muchas tareas.

El repositorio oficial de software de terceros para Python (Pypi) contiene más de 600.000 paquetes.

Los módulos son archivos (`*.py`) que contienen código Python, como funciones, clases o variables. Mientras que los paquetes son carpetas que contienen un conjunto de módulos. Los paquetes son una forma de estructurar el espacio de nombres de los módulos, permitiendo una mejor organización y reutilización del código, especialmente en proyectos grandes. 

### 2.1.1. Módulos incluidos en Python

Python cuenta con algunos módulos que ya vienen incluidos en el propio lenguaje (por ejemplo math) 

Para usar un módulo, tienes que *importarlo* usando el comando `import`.

A partir de ese instante puedes utilizarlo en el código utilizando su nombre como prefijo.

In [None]:
# Ejemplo importación de módulo math


Para explorar la función y otros contenidos del módulo/biblioteca:

- Utiliza la documentación web (por ejemplo, para la librería `math` <a href="https://docs.python.org/3/library/math.html">Doc para Python 3</a>)
- Utiliza la función `help` incluida en python.

In [None]:
# Ejemplo de uso de la función help


podemos dar un alias al paquete/módulo usando `import xxxxx as xx`

In [None]:
# Ejemplo de alias de módulo


También podemos importar sólo algunas variables, funciones o clases concretas con `from paquete import constant1, function1`, después podemos usar directamente `constant1`, `function1` dentro del código.

In [None]:
# Ejemplo de importación funciones o variables de un módulo



### 2.1.2. Instalar paquetes

Python también dispone de muchos paquetes que no vienen con el propio lenguaje, la biblioteca oficial de los paquetes de python puedes encontrarla en [pypi](https://pypi.org/)

Para ver los paquetes que tenemos instalados podemos usar "pip list" en el terminal o "%pip list" en Jupyter

Podemos arrancar un terminal usando el menú File -> New -> Terminal

El UI Mode (Modo de la interfaz de usuario) por defecto de Jupyterlab es *Zen Mode*, pero para ver las pestañas de los archivos abiertos podemos usar *Multi document IDE*, este menú podemos encintralo en el botón de 3 reyitas que aparece a la derecha de la barra superior de la aplicación.

In [None]:
# Ejecutar pip list desde un terminal y desde JupyterLab


### 2.1.3. Módulos de usuario

Para reutilizar partes de su código, a menudo es eficiente escribir tus propios módulos para las funciones utilizadas con frecuencia. 

La *importación* del módulo es la misma que para otras bibliotecas, con la diferencia de que tiene que existir en el mismo directorio el archivo `nombre_modulo.py`

En nuestro ejemplo, vamos a crear un fichero llamado `funciones.py`, que contrendrá la función `cuadrado` y los vamos a importar y usar en Jupyter

In [None]:
# Ejemplo de importación de módulos própios


## 2.2. Numpy and Matplotlib

**Numpy** es un paquete de cálculo numérico y álgebra ampliamente utilizado, que proporciona el tipo *array* (`ndarray`) utilizado en casi todos los proyectos numéricos. Numpy está compilado en C y su velocidad de ejecución es mucho mayor que con Python puro. [Documentación](https://numpy.org).

**Matplotlib** es un módulo para generar gráficos 2D y 3D. [Documentación](https://matplotlib.org) 

Es común importarlos con los respectivos alias **np** y **plt** (para `matplotlib.pyplot`).

In [None]:
# importar numpy y matplotlib


### 2.2.1. Numpy *arrays*

En Numpy, el tipo *array* se utiliza para vectores, matrices y matrices multidimensionales.

Los arrays de Numpy se pueden definir directamente a partir de una lista o mediante una función.

#### Arrays unidimensionales

Por defecto todos los elementos que contiene son `float64`, se puede cambiar usando la propiedad dtype pero todos deben ser del mismo tipo.


In [None]:
# Ejemplo de array creado con una lista


Funciones para la generación automática de arrays:
- `zeros(n)`: Array de n ceros
- `ones(n)`: Array de n unos
- `arange(n)`: Array simular a la función `range`
- `empty(n)`: Array de n elementos vacios
- `linspace(ini,fin,num)`: Array de números espaciados uniformemente
- `ramdon.rand(n)`: Array de n elementos aleatorios entre 0 y 1
- etc.

In [None]:
# Ejemplo de uso de funciones para crear arrays


## 2.2.2. Gráficas matplotlib

Existen varias formas de crear las gráficas con matplotlib, pero una de las formas más sencillas es usando matplotlib.pyplot (que suele nombrarse como `plt`)

* Inicializar una figura con `plt.figure()`.
* Trazar algo con ... `plt.plot` (ver la [documentación](https://matplotlib.org) )
* Fijar etiquetas, títulos, ejes
* Mostrar la figura con `plt.show()`.

In [None]:
# Ejemplo de gráfica


### 2.2.3. Matrices

Las matrices son simplemente arrays 2D. Dado que los vectores y las matrices comparten el mismo tipo, la noción de *shape* es muy importante.

El `size` de un array es el número de elementos, mientras que el `shape` indica cómo están dispuestos.

In [None]:
# Ejemplo de matriz


El acceso, asignación, tipo, copia es común y similar al tipo lista.

In [None]:
# Ejemplo de trabajor con np.array 1D 


In [None]:
# Ejemplo de trabajo con np.array 2D



### Filtrado
podemos poner condiciones para filtrar los arrays, incluyendolas dentro del `[ ]`

In [None]:
# Ejemplo de filtrado de arrays


### Operaciones con Numpy arrays


In [None]:
# Ejemplos de operaciones con np.array


In [None]:
# Ejemplo de gráfica con varias series



### Algebra lineal con matrices (numpy.linalg)

Numpy viene con un eficiente módulo de álgebra lineal llamado `linalg` (ver la [documentación](https://numpy.org/doc/stable/reference/routines.linalg.html)).

A modo de ejemplo veamos como __resolver ecuaciones e invertir matrices__

In [None]:
# Ejemplo de resolución de ecuaciones lineales


In [None]:
# Ejemplo de cálculo de la matriz inversa


## Ejercicio 1:

El siguiente código genera 30 puntos de x e y.

- Usando la función numpy.polyfit realizar una regresión polinomial de orden 3
- Dibujar la función polinomial junto con los puntos anteriores
- Calcular el [error cuadrático medio](https://es.wikipedia.org/wiki/Error_cuadr%C3%A1tico_medio) cometido en la aproximación
- Hacer lo anterior para orden 4, 5 y 6.

In [None]:
n = 30 
x = (np.random.rand(n)-0.5)*6
y = np.sign(x)*np.maximum(np.abs(x)-1.0,0.0)
plt.scatter(x,y)

In [None]:
# Solución del ejercicio 1


## 2.3. Pandas

Pandas es un paquete construido sobre NumPy que proporciona una implementación eficiente de **DataFrames**. Los DataFrames son esencialmente tablas con etiquetas de fila y columna adjuntas, y a menudo con tipos heterogéneos y/o datos perdidos. Además de ofrecer una cómoda interfaz de almacenamiento para datos etiquetados, Pandas implementa una serie de potentes operaciones de datos.

Así como generalmente importamos NumPy bajo el alias ``np``, importaremos Pandas bajo el alias ``pd``.

In [None]:
import pandas as pd

### 2.3.1. Pandas Series


Una `Series` Pandas es un array unidimensional de datos indexados (una columna de la tabla)

Se puede acceder al contenido de la misma forma que para los arrays NumPy, con la diferencia de que cuando se selecciona más de un valor, el tipo sigue siendo un Pandas ``Series``.


In [None]:
# Ejemplo de serie


El tipo ``Series`` contiene tanto una secuencia de valores como una secuencia de índices, a los que podemos acceder con los atributos `values` e `index`. 

* ``values`` son los valores en forma de array de Numpy

* ``index`` son los índices de la serie


### Índices de las series

La principal diferencia entre los arrays de NumPy y las Series de Pandas es la presencia de este campo `index`. Por defecto, se establece (como en los arrays de NumPy) como `0,1,...,tamaño_de_la_serie` pero se puede definir explícitamente un índice de Serie diferente. Los índices pueden ser números pero también cadenas. Entonces, el contenido de la serie debe ser accedido usando estos índices definidos.


In [None]:
# Ejemplo de serie con letras como índices


### Series y diccionarios Python 

Las series de Pandas y los diccionarios de Python son cercanos semánticamente: mapear claves a valores. Sin embargo, la implementación de series en Pandas suele ser más eficiente que la de diccionarios en el contexto de la ciencia de datos. Naturalmente, las series se pueden construir a partir de diccionarios.

In [None]:
# Ejemplo de serie creada con un diccionario


### 2.3.2. Pandas DataFrames

DataFrames es el objeto fundamental de Pandas. Los Dataframes se pueden ver como un conjunto de Series, osea una tabla de datos.

Cada `índice` es una línea de la tabla, para la que tenemos varias `columnas`con diferentes nombres.

#### Creación de Dataframes

Para crear DataFrame se pueden usar las siguientes opciones:
* Usando Series
* Usando Matrices de np.array (las columnas e índices se toman: 0,1,2,...)
* A partir de una *lista* de *diccionarios*. Cuidado, cada elemento de la lista es una fila (correspondiente a los índices 0,1,...) mientras que cada clave del diccionario corresponde a una columna.
* Desde un *archivo* , típicamente un archivo __csv__ (para valores separados por comas) o de otros tipos (por ejemplo excel) 


In [None]:
# Ejemplo de creación de DataFrame con series



En los cuadernos Jupyter, los DataFrames se muestran de una forma más elegante (formato html) cuando se escribe el nombre del dataframe (en lugar de utilizar `print`)

In [None]:
# Ejemplo de visualización de DataFrame en Jupyter


Los DataFrames tienen:
* index: que son los índices definidos como en Series
* columns: que son los nombres de las columnas
* values: que devuelven un array NumPy (2D) con los contenidos

*Atención:* Al acceder a un Dataframe, `dataframe_name[nombre_columna]` devuelve la columna correspondiente como Serie.`dataframe_name[indice]` devuelve un error. Veremos más adelante cómo acceder a un índice específico.

In [None]:
# Ejemplo de acceso a cada serie de DataFrame


In [None]:
# Ejemplo de creación de DataFrame usando numpy arrays aleatorios


In [None]:
# Cambio de nombres de columnas y de índices


In [None]:
# Creación de DataFrame usando una lista de diccionarios


## Archivo Excel

Para poder leer con Pandas de excel tenemos que intalar un paquete llamado _openpyxl_, para ello o usamos el terminal o `%pip install openpyxl`
funcion read_excel


In [None]:
# Instalar el paquete openpyxl


In [None]:
# Ejemplo de lectura de una archivo excel


Lectura desde un archivo csv con el siguiente formato:

    col_1_nombre,col_2_nombre,col_3_nombre
    col_1_v1,col_2_v1,col_3_v1
    col_1_v2,col_2_v2,col_3_v2
    ...


In [None]:
# Ejemplo de lectura de archivo csv


In [None]:
# Para ver las primeras líneas usamos la función head(n)


### Accediendo a DataFrames

Obteniendo subconjuntos de nuestro DataFrame
Para acceder a filas completas Pandas incluye las siguientes funciones:

* iloc: Usando los índices por defecto, como si fuera numpy
* loc: Usado índices propios.

In [None]:
# Ejemplo de acceso a columnas, elementos, filas



In [None]:
# Ejemplo de acceso a las 12 primeras filas


In [None]:
# acceso algunas columnas de las 12 primeras filas


### Operaciones con DataFrames

Podemos aplicar operaciones/funciones tipo Numpy a los DataFrames


In [None]:
# DataFrame A


In [None]:
# Ejemplo de operación con DataFrame


In [None]:
# Ejemplo de suma


Operaciones con columnass:

In [None]:
# Crear una nueva columna operando con columnas


In [None]:
# Otro ejemplo de operaciones con coulmnas


La función apply permite aplicarle cualquier función a una columna

In [None]:
# Ejemplo de uso de la función apply



###  Estadísticas básicas

La función `describe`dá los valores estadísticos básicos

In [None]:
# Cada una de las series pueden aplicarse multiples funciones muy similares a las np.array


### Agrupaciones

para agrupar podemos usar la función groupby()


### Filtrado

Filtrado es la selección de valores que cumplan determinadas condiciones

In [None]:
# Ejemplo de Filtrado al estilo np.array


In [None]:
# Ejemplo de filtrado con la funcion query


### Usando Matplolib con pandas

Matplotlib se integra perfectamente con Pandas

In [None]:
# Ejemplo de creación de una fila con la fecha con pd.date_range


In [None]:
# Ejemplo de uso de la función plot de los DataFrame


In [None]:
# Ejemplo de uso de plt con series de Pandas


In [None]:
# Ejemplo de histogramas


In [None]:
# Ejemplo de curva de frecuencia acumulada


### Uso del paquete plotly

plotly es un paquete que crea gráficas dinámicas a las que podemos hacer zoom, y otras acciones.

In [None]:
# Ejemplo de uso de plotly


## Ejercicio 2:

El fichero titanic.csv contiene información sobre los pasajeros del Titanic. Escribir un programa con los siguientes requisitos:

1. Generar un DataFrame con los datos del fichero usando como índice la primera columna (PassengerId).
2. Mostrar por pantalla las dimensiones del DataFrame, el número de datos que contiene, los nombres de sus columnas y filas, los tipos de datos de las columnas, las 10 primeras filas y las 10 últimas filas.
3. Mostrar por pantalla los datos del pasajero con identificador 148.
4. Mostrar por pantalla los nombres de las personas que iban en primera clase ordenadas alfabéticamente.
5. Mostrar por pantalla el porcentaje de personas que sobrevivieron y murieron.
5. Mostrar por pantalla el porcentaje de personas que sobrevivieron en cada clase.
6. Eliminar del DataFrame los pasajeros con edad desconocida.
7. Mostrar por pantalla la edad media de las mujeres que viajaban en cada clase.
8.  Añadir una nueva columna booleana para ver si el pasajero era menor de edad o no.
9.  Mostrar por pantalla el porcentaje de menores y mayores de edad que sobrevivieron en cada clase.
10.  Dibujar un gráfico de frecuencia acumulada con la edad de los pasajeros.

In [None]:
# Solución:
