[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/m-durand/propedeutico_python/blob/main/notebooks/3_paquetes_envs.ipynb)

# Propedéutico a programación con Python.

**Agosto 2025, por el Centro de Ciencia de Datos e IA, EGobiernoyTP.**

### Sesión 3: Paquetes, archivos y arreglos en Python

En esta sesión aprenderemos a **usar paquetes**, **cargar archivos** y **trabajar con arreglos**.  
Estos temas son esenciales para el análisis de datos en Python.

## 1. Paquetes

En Python, un paquete es una colección de funciones, módulos y herramientas que se agrupan para realizar tareas específicas.  
Pueden ser creados por ti o por otros desarrolladores y **se instalan** en tu entorno de trabajo.


### 1.1 Pip

Pip es el sistema de gestión de paquetes de Python.  Sirve para **instalar** y **administrar** librerías externas.

``pip install <package_name>``

Ejemplo:

``pip install pandas``

De los paquetes más utilizados en análisis de datos son: 

- pandas → Manejo y análisis de datos tabulares.

- numpy → Operaciones numéricas y arreglos.

- matplotlib → Visualización de datos.

- seaborn → Visualizaciones estadísticas.

### 1.3 Importar paquetes

Una vez instalados los paquetes hay que importarlos antes de usarlos:

In [None]:
import numpy as np  
import pandas as pd

#### Ojo:

- `import numpy as np` → Importa la librería numpy y la asigna al alias np.

- `import pandas as pd` → Importa la librería pandas y la asigna al alias pd.

### 1.3 Ambientes virtuales

Cuando trabajas en python con diferentes paquetes, te darás cuenta que unos paquetes dependen de otros. A veces, estos paquetes requieren multiples versiones que si se conjuntan con otros paquetes comenzarás a tener problemas de instalación. 

Lo que se debe de realizar para no tener este problema es utilizar lo que se conoce como **ambientes virtuales**. Lo que hacen los ambientes virtuales es empaquetar o juntar los paquetes y separarlos de otros. Se recomienda tener un ambiente por cada proyecto diferente que tengas. 

Python tiene por default  `venv`. Que simplemente se crea con:

``python -m venv mi_entorno``

Para activarlo en Mac/Linux:

``source mi_entorno/bin/activate``

Para activarlo en Windows:

``mi_entorno\Scripts\activate``

Para desactivarlo con:

``deactivate``

Para este curso propedéutico no se utilizarán ambientes virtuales, pero durante tu maestría los utilizarás comúnmente, por lo que te recomendamos conocer de esta herramienta.

## 2. Cargar archivos
   
En Colab, podemos interactuar con archivos de tu unidad de Google Drive pero deben (1) deben de estar en tu drive y debes conocer su directorio y (2) debemos ejecutar un comando que diga a Colab que utlizaremos archivos de tu Drive. Para ello sigamos los siguientes pasos:

1. Descarga los datos y súbelos a tu Drive dentro de una carpeta que se llame datos.
2. Corre la siguiente celda. Con la función `mount` de la librería `google`  indicamos a Colab que utlizaremos archivos de nuestra unidad de Google Drive.


In [None]:
from google.colab import drive  # google es una librería/paquete tiene un módulo que se llama colab y de ese módulo importamos la función drive
drive.mount('/content/drive', force_remount=True)  # indicamos que utlizaremos archivos de nuestra unidad de Google Drive

# usaremos una ruta absoluta
my_path = '/content/drive/MyDrive/datos/'  # guardamos una ruta que utilizaremos a menudo

Ahora estamos listos para cargar archivos. 

### 2.2 Cargar csv con pandas

Ahora cargaremos archivos del tipo "csv" que son los archivos que se suelen utilizar en hojas de cálculo. Las siglas csv significan **"_comma separated values_"**, un archivo de ese tipo es simplemente un archivo de texto que busca representar tablas, para ello los valores/palabras de un renglón se separan por comas. Un ejemplo del contenido de un archivo sería:

    nombre, edad, país
    Amparo, 18, México
    Rogelio, 67, México
    Elisa, 28, España
    
Son muy útiles y se cargan con pandas, observa que antes de la palabra `read_csv` está la palabra de `pd`, el cual ya habíamos cargado previamente. En general, para acceder a una función de una librería/paquete se utliza la forma:

`<nombre de la librería> . <nombre de la función>`

In [None]:
import pandas as pd

In [None]:
df = pd.read_csv(my_path + 'indicadores.csv')

In [None]:
df_excel = pd.read_excel(my_path+'panes.xlsx')

## 3. Arreglos

En las sesiones anteriores hablamos de estructuras de almacenamiento de valores como listas, tuplas, etc. En este caso hablaremos de **arreglos** que son un tipo de estructura de dato que requiere paqueterías externas como **numpy (np)**. Cosas a considerar de los arreglos: 


- Los arregos son homogéneos, en el sentido de que solo pueden almacenar elementos de un solo tipo de dato (ya sea float, int o str). 
- Los arreglos tienden a ser más eficiencies para cómputo numérico y grandes cantidades de datos por la manera en la que se almacenan. 
- Permiten realizar operaciones vectoriales por lo que puedes hacer operaciones matemáticas sobre el arreglo completo. 
- Sus funciones y operaciones están especialmente optimizadas para cómputo numérico.



In [None]:
# mandamos a llamar numpy
import numpy as np

In [None]:
# Crear un arreglo
mi_arreglo = np.array([1, 2, 3, 4, 5])
print("Arreglo original:", mi_arreglo)

In [None]:
# Realizamos operaciones con el arreglo que creamos
arreglo_cuadrado = mi_arreglo ** 2
print("Los valores del arreglo al cuadrado:", arreglo_cuadrado)

In [None]:
suma_arreglo = np.sum(mi_arreglo)
print("Suma del arreglo:", suma_arreglo)

In [None]:
media_arreglo = np.mean(mi_arreglo)
print("Media del arreglo:", media_arreglo)

In [None]:
a_1 = np.array([8, 2, 9, 25, 4])
a_2 = np.array([66, 9, 17, 30, 5])

In [None]:
result = a_2 - a_1
result

Un par de funciones útiles extra 

In [None]:
# Generador de números aleatorios
aleatorios = np.random.choice(10,20)  # Genera hasta el número 9, 20 números random
aleatorios

In [None]:
# Generador de fechas 
dias_enero = pd.date_range('2017-01-01', '2017-01-31')
dias_enero

**Ejercicio**

1. Haz una **lista** de los cuadrados de los números del 1 al 7, sin utilizar `numpy` y utilizando un ciclo `for`.

2. Haz un **arreglo** de cuadrados de los números del 1 al 7, pero utilizando `numpy` y sin utilizar un ciclo.

In [None]:
# respuesta 1

In [None]:
# respuesta 2