[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/m-durand/propedeutico_python/blob/main/notebooks/3_if_for_loops.ipynb)

# Propedéutico a programación con Python.

**Verano 2023, por el Centro de Ciencia de Datos, EGobiernoyTP.**

### Sesión 3: Paquetes, archivos, más intro python

1. Paquetes
   - pip
   - Importar paquetes
   - Ambientes Virtuales
2. Cargar archivos
    - open
    - csv con pandas
    - sql con pandas
3. Arreglos (numpy)

## 1. Paquetes

Un paquete en python es una colección de funciones y módulos que se colocan juntas para realizar una cierta tarea. Es básicamente un directorio con archivos de python, tu puedes crear los tuyos o utilizar paquetes por otros desarrolladores. 

### 1.1 Pip

Pip es un sistema de administración de paquetes que se utiliza para instalar y administrar librerías externas en python.

``pip install <package_name>``

Ejemplo:

``pip install pandas``

De los paquetes más utilizados en análisis de datos es pandas y numpy. 

### 1.2 Importar paquetes

Una vez instalados los paquetes para hacer uso de ellos debes de importarlos de la siguiente manera:

In [None]:
import numpy as np  
import pandas as pd

Lo que quiere decir esas líneas de código es: importa numpy como np, es decir todo lo que venga con prefijo np viene 
del paquete numpy, e igual con pandas como pd.

### 1.3 Ambientes virtuales

Cuando trabajas en python con diferentes paquetes, te darás cuenta que unos paquetes dependen de otros. A veces, estos paquetes requieren multiples versiones que si se conjuntan con otros paquetes comenzarás a tener problemas de instalación. 

Lo que se debe de realizar para no tener este problema es utilizar lo que se conoce como **ambientes virtuales**. Lo que hacen los ambientes virtuales es empaquetar o juntar los paquetes y separarlos de otros. Se recomienda tener un ambiente por cada proyecto diferente que tengas. 

Uno de los ambientes virtuales más utilizados es `virtualenv`. Que simplemente se crea con:

``virtualenv <my_env_name>``

Para activarlo con:

``source <my_env_name>/bin/activate``

Para desactivarlo con:

``deactivate``

Para este curso propedéutico no se utilizarán ambientes virtuales, pero durante tu maestría los utilizarás comúnmente, por lo que te recomendamos conocer de esta herramienta.

## 2. Cargar archivos

Existen diferentes maneras en las que se pueden cargar archivos o bases de datos a python:

### 2.1 Cargar con Open()

Una manera de abrir archivos en python es con la operación ``open()``. Existen diferentes maneras en las que puedes abrir un archivo como: write(w), read(r), append(a), etc.

Revisa que el directorio de trabajo se va a la carpeta de datos, si quitas los puntitos [`../`] de la siguiente línea de código estarías tomando la dirección dentro de la carpeta de notebooks. 

In [None]:
with open('../datos/alice.txt') as f:  
    lines = f.readlines()

In [None]:
lines

### 2.2 Cargar csv con pandas

Los csv son archivos para bases de datos que se separan por comas. Son muy útiles y se cargan con pandas, observa que antes del argumento de `read_csv` está el argumento de `pd`, el cual ya habíamos cargado previamente. 

In [None]:
import pandas as pd

In [None]:
df = pd.read_csv('../datos/edades.csv')

In [None]:
df

#### Guardar archivos cvs

In [None]:
# Función de pandas para cambiar los nombres de las columnas a minúsculas
# Aquí hacemos un cambio en la base que tenemos para gardarlo 
df.rename(str.lower, axis='columns', inplace=True)

In [None]:
df

In [None]:
# Para guardar cambios en un csv
df.to_csv('../datos/edades_min.csv', index=False)

In [None]:
df

### 2.3 Cargar tablas de bases de datos con sql

Las bases de datos relacionales es otra manera en la que se pueden almacenar, manejar, consultar o analizar información. Generalmente, las bases de datos de esta naturaleza se guardan en servidores (computadoras en la nube) dedicados exclusivamente para el mantenimiento y manejo de datos tabulares (columna-renglón), y el lenguaje que se utiliza para interactuar con estas bases es SQL (Structured Query Language). 

Las bases de datos relacionales son de gran ayuda sobre todo cuando se manejan grandes cantidades de datos. Los paquetes para interactuar entre python y bases de datos relacionales es `psycopg2` y/o `sqlite`. El que se utilizará más durante la maestría es `psycopg2`, sin embargo, para enseñarte el funcionamiento utilizaremos `sqlite`. 

Para establecer la conexión a bases de datos (PSQL) necesitas las siguientes líneas de código, así como la información que se enumera:


```
# Importas paquete
import psycopg2

# Estableces conexión: 
psconn = psycopg2.connect(host="mouse.db.elephantsql.com", # 1. Dirección de la base
                          port = 5432,                     # 2. Puerto de conexión
                          database="base_mouse",           # 3. Nombre de la base
                          user="usuario-n",                # 4. Nombre de usuario
                          password="your-password")        # 5. Contraseña
                          

```


La información numerada se asigna y proporciona generalmente por el administrador/dueño de la base de datos. Esto es para tener mayor seguridad y control de la información. 

Para fines de la sesión de hoy guardamos una pequeña base de datos para mostrar cómo puedes cargar datos con pandas y sql. 

Primero cargamos el paquete:

In [None]:
import sqlite3

In [None]:
gdrv_file = '../datos/flights.db'

In [None]:
conn = sqlite3.connect(gdrv_file)   # aquí pondrías la información de la base con psycopg2.connect

Una vez que tienes asignada la conexión utilizas lenguaje sql para mandar a llamar la tabla `airlines` que está dentro de la base de datos que se llama flights: 

- `select` : selecciona
- `*` : todo
- `from` : de 
- `airlines` : tabla llamada airlines
- `;` : así se cierran los queries en sql


En este caso estamos cargando la tabla a python sin modificar la base de datos original. 

In [None]:
q = '''
    select 
        * 
    from 
        airlines
        ;
    '''

In [None]:
df_sql = pd.read_sql_query(q, conn)  # Nota como utilizamos pandas para cargar el query con la conexión en conn

In [None]:
df_sql 

## 3. Arreglos

En las sesiones anteriores hablamos de estructuras de almacenamiento de valores como listas, tuplas, etc. En este caso hablaremos de **arreglos** que son un tipo de estructura de dato que requiere paqueterías externas como **numpy (np)**. Cosas a considerar de los arreglos: 


- Los arregos son homogéneos, en el sentido de que solo pueden almacenar elementos de un solo tipo de dato (ya sea float, int o str). 
- Los arreglos tienden a ser más eficiencies para cómputo numérico y grandes cantidades de datos por la manera en la que se almacenan. 
- Permiten realizar operaciones vectoriales por lo que puedes hacer operaciones matemáticas sobre el arreglo completo. 
- Sus funciones y operaciones están especialmente optimizadas para cómputo numérico.



In [None]:
# mandamos a llamar numpy
import numpy as np

In [None]:
# Crear un arreglo
mi_arreglo = np.array([1, 2, 3, 4, 5])
print("Arreglo original:", mi_arreglo)

In [None]:
# Realizamos operaciones con el arreglo que creamos
arreglo_cuadrado = mi_arreglo ** 2
print("Los valores del arreglo al cuadrado:", arreglo_cuadrado)

In [None]:
suma_arreglo = np.sum(mi_arreglo)
print("Suma del arreglo:", suma_arreglo)

In [None]:
media_arreglo = np.mean(mi_arreglo)
print("Media del arreglo:", media_arreglo)

In [None]:
a_1 = np.array([8, 2, 9, 25, 4])
a_2 = np.array([66, 9, 17, 30, 5])

In [None]:
result = a_2 - a_1
result

Un par de funciones útiles extra 

In [None]:
# Generador de números aleatorios
aleatorios = np.random.choice(10,20)  # Genera hasta el número 9, 20 números random
aleatorios

In [None]:
# Generador de fechas 
dias_enero = pd.date_range('2017-01-01', '2017-01-31')
dias_enero