## Ejercicio Clase 1

**Objetivo del Ejercicio**: Que puedan subir un archivo a su base de datos Postgres. Esto nos va a servir para poder analizar en detalle la base de datos con las funciones de SQL.


Para hacer este ejercico es necesario tener instalado:
1. Git
2. python
3. Docker Desktop

También es necesario que tengan una base de datos relacionada a su proyecto

## 1° Paso: Clonar el repositorio con GIT (Si todavía no lo tenían clonado, si ya lo hicieron en la clase, saltearse esto)

### Abrir VS Code y poner "Clone Git Repository"

![image.png](attachment:image.png)  

### Luego copiar y pegar la URL del repósitorio `https://github.com/GraffignaBracco/BaseDeDatos2025.git` y seleccionar "Clone From URL"

![image-2.png](attachment:image-2.png)

### Seleccionar una carpeta donde se quiera descargar el repositorio




### 1° Pullear el repositorio (Si ya lo tenían clonado, hacer lo siguiente):

Ir con la terminal a la carpeta del repositorio (Si en VS Code abren la carpeta del repositorio, cuando abran una terminal, ésta ya va a estar en la carpeta del respositorio). Luego ejecutar el comando:

```git
git pull
```

Esto va a actualizar su repositorio con lo último que se haya subido.

## 2° Paso: Crear un Ambiente de python para poder usar las librerías necesarias.

Lo primero que hay que hacer es "ir" con la terminal hasta la carpeta de ejercicios. Esto se hace con este comando desde la misma terminal de VSCode:

```bash
cd Clases/01_Bases_De_Datos/Ejercicio
```
En la terminal les tiene que aparecer que están en la carpeta de ejercicios después de ejecutar el comando:

![image.png](attachment:image.png)


### Opción 1: Con Anaconda

Una vez que estamos en la carpeta de ejercicio utiliza el siguiente comando para crear un entorno llamado `base_de_datos` con Python 3.11:
```bash
conda create --name base_de_datos python=3.11
```
Una vez creado, activa el entorno con el siguiente comando:

```bash
conda activate base_de_datos
```

Luego, instalá las dependencias con este comando:

```bash
pip install -r requirements.txt
```

### Opción 2: Con Poetry
Si no quieren usar anaconda, pueden usar poetry que es otra librería para manejar dependencias

el primer paso es instalar la librería

```bash
pip install poetry
```

Luego, instalan todas las dependencias con el comando:

```bash
poetry install
```

Una vez que las dependencias estén instaladas, puedes acceder al entorno virtual de Poetry con:

```bash
poetry shell
```

Para crear un kernel en Jupyter vinculado a este entorno de Poetry, ejecuta el siguiente comando:

```bash
python -m ipykernel install --user --name=base_de_datos --display-name "Python (base_de_datos)"
```

Luego abrir el jupyter notebook `Ejercicio_Clase1.ipynb` y poner "Seleccionar Kernel" En la parte superior Derecha.

![image-2.png](attachment:image-2.png)

Luego seleccionar el kernel creado 

![image.png](attachment:image.png)

A veces el Kernel demora en aparecer en esta lista de opciones. Por ahí funciona reiniciar VS Code y volver a probar

## 3° Paso: Iniciar Docker

Ir a la carpeta del ejercicio (Si todavía no están ahí) con la terminal

```bash
cd Clases/01_Bases_De_Datos/Ejercicio/

```

Activar la aplicación Docker Desktop

![image.png](attachment:image.png)

Ejecutar en la terminal el comando:

```bash
docker compose up -d
```

Esto va a utilizar la configuración escrita en "docker-compose.yml" y va a levantar un contenedor con Postgres (la base de datos) y pgadmin (una interfaz gráfica para acceder a postgres).

Ahora corroboramos que los docker estén funcionando yendo a "Docker Desktop" y revisando que los servicios esten en verde:

![image-2.png](attachment:image-2.png)


## 4° Paso: Cargar los datos a la base Postgres


Una vez que tenemos los servicios docker corriendo y el jupyter notebook, hay que subir los archivos 

### 3. **Conectar a la base de datos PostgreSQL**


En tu archivo `docker-compose.yml`, has expuesto el puerto 5432 de la base de datos PostgreSQL, por lo tanto, el string de conexión debe apuntar a `localhost:5432` (dentro del contenedor).

Aquí está el código que tenes que usar para establecer la conexión:

```python
from sqlalchemy import create_engine
import pandas as pd

# Cambia el puerto a 5432 para conectar con el contenedor Docker
engine = create_engine('postgresql://postgres:1234@localhost:5432/postgres')

# Establecer la conexión
engine.connect()
```

### 4. Subir un archivo a la base de datos
Opción 1: Archivos pequeños
Si el archivo que queres  subir no es muy grande, puedes usar el método to_sql() de Pandas. Este método inserta directamente el DataFrame a la base de datos PostgreSQL.

```python

# Ejemplo de cómo subir un DataFrame
trips = pd.read_csv('data/trips.csv')
trips.to_sql(name='trips', con=engine, if_exists='replace', index=False)
```
`name='trips'`: Especifica el nombre de la tabla en la que se guardarán los datos.
`if_exists='replace'`: Si la tabla ya existe, la reemplaza.
`index=False`: No sube el índice del DataFrame como una columna en la base de datos.

Opción 2: Archivos grandes
Si el archivo es muy grande, es recomendable cargarlo en chunks (partes), para evitar problemas de memoria. Aquí está un ejemplo de cómo hacerlo:

```python
Copy code
# Lectura por chunks de 1,000,000 filas
stop_times_iter = pd.read_csv('data/feed-gtfs/stop_times.txt', iterator=True, chunksize=1000000)

# Crear la tabla vacía (solo los nombres de las columnas)
next(stop_times_iter).head(0).to_sql(name='stop_times', con=engine, if_exists='replace', index=False)

# Insertar los datos por chunks
i = 0
while True:
    try:
        next(stop_times_iter).to_sql(name='stop_times', con=engine, if_exists='append', index=False)
        i += 1
        print(f"Chunk {i} insertado.")
    except StopIteration:
        print("Todos los datos han sido insertados.")
        break
```
Explicación:

`iterator=True`: Carga el archivo como un iterador, permitiendo manejar grandes volúmenes de datos.
`chunksize=1000000`: Define el tamaño de cada chunk, en este caso 1,000,000 de filas.
`if_exists='append'`: Inserta los chunks en la tabla existente sin reemplazarla.

### 5. Corroborar que la tabla se haya conectado exitosamente:

se puede utilizar la conexión ya creada a la base por el punto anterior para corroborar que se haya creado exitosamente.
En "nombre_de_la_tabla" pongan el nombre que utilizaron en el parámetro "name" del punto anterior. En mi caso sería "stop_names"


```python
import pandas as pd
query = '''
SELECT *
FROM nombre_de_la_tabla
LIMIT 10
'''
pd.read_sql(query, con=engine)
```

Este comando debería devolverles las primeras 10 filas de la tabla que subieron.


# Extra: Explicación de la configuración del docker-compose.yml

### services:
Esta sección define los diferentes servicios (contenedores) que se van a ejecutar. En este caso, se están definiendo dos servicios: `db` (la base de datos PostgreSQL) y `pgadmin` (la interfaz web para administrar PostgreSQL).

### db:
Define el servicio de la base de datos PostgreSQL.

- **image: postgres:16**  
  Especifica la imagen de Docker que se va a utilizar para este servicio. En este caso, se está usando la imagen oficial de PostgreSQL en su versión 16.

- **container_name: base_postgres**  
  Define el nombre que se le va a dar al contenedor. En este caso, el contenedor será nombrado explícitamente como `base_postgres`.

- **environment:**  
  Aquí se especifican las variables de entorno que necesita PostgreSQL para su configuración inicial.
  - **POSTGRES_USER:** Define el nombre de usuario que tendrá el administrador de la base de datos (en este caso, `postgres`).
  - **POSTGRES_PASSWORD:** Especifica la contraseña del usuario administrador (en este caso, `1234`).
  - **POSTGRES_DB:** Crea una base de datos inicial llamada `postgres`.
  - **POSTGRES_MAX_WAL_SIZE:** Configura el tamaño máximo de los archivos WAL (Write-Ahead Log) para el manejo de la transacción en la base de datos. Aquí está configurado a 1GB.

- **volumes:**  
  Los volúmenes son utilizados para persistir los datos fuera del contenedor, lo que permite que los datos no se pierdan al detener o eliminar el contenedor.
  - **./data/:/data:**  
    Monta la carpeta local `./data/` en el contenedor en la ruta `/data`, lo que permite que los datos de la base de datos sean persistidos localmente.
  - **./docker-entrypoint-initdb:/docker-entrypoint-initdb.d:**  
    Monta un directorio local con scripts de inicialización en `/docker-entrypoint-initdb.d`, que PostgreSQL ejecuta al iniciar por primera vez. Esto es útil para ejecutar scripts que configuren la base de datos o carguen datos iniciales.

- **ports:**  
  Define los puertos que se exponen entre el contenedor y la máquina host.
  - **"5432:5432":**  
    El puerto 5432 del contenedor (donde escucha PostgreSQL) es mapeado al puerto 5432 de la máquina host, permitiendo que las aplicaciones externas se conecten a la base de datos.

- **networks:**  
  Define la red en la que el servicio va a operar.
  - **mynetwork:**  
    El servicio `db` se conectará a la red personalizada `mynetwork`, que es compartida con otros servicios, en este caso con `pgadmin`.

### pgadmin:
Define el servicio de PgAdmin, una herramienta web para administrar bases de datos PostgreSQL.

- **image: dpage/pgadmin4**  
  Especifica la imagen de Docker que se va a utilizar para este servicio. En este caso, se usa `dpage/pgadmin4`, que es la imagen oficial de PgAdmin.

- **environment:**  
  Especifica las variables de entorno necesarias para configurar PgAdmin.
  - **PGADMIN_DEFAULT_EMAIL:** Define el correo electrónico del usuario administrador de PgAdmin (en este caso, `user@example.com`).
  - **PGADMIN_DEFAULT_PASSWORD:** Especifica la contraseña para el usuario administrador de PgAdmin (en este caso, `admin`).

- **ports:**  
  Define los puertos que se exponen entre el contenedor y la máquina host.
  - **"8081:80":**  
    El puerto 80 del contenedor (donde PgAdmin sirve la interfaz web) se mapea al puerto 8081 de la máquina host. Esto permite acceder a PgAdmin desde el navegador usando `http://localhost:8081`.

- **depends_on:**  
  Especifica que este servicio depende del servicio `db` (PostgreSQL), es decir, PgAdmin no se iniciará hasta que la base de datos esté funcionando.

- **volumes:**  
  Se utiliza un volumen para persistir los datos de PgAdmin (como las conexiones guardadas) fuera del contenedor.
  - **pgadmin_data:/var/lib/pgadmin:**  
    Usa un volumen llamado `pgadmin_data` para almacenar los datos persistentes en la ruta `/var/lib/pgadmin` dentro del contenedor.

- **networks:**  
  Define la red en la que el servicio va a operar.
  - **mynetwork:**  
    El servicio `pgadmin` también se conecta a la red personalizada `mynetwork` para poder comunicarse con el servicio `db`.

### volumes:
Define los volúmenes que se utilizarán para almacenar datos de forma persistente.

- **pgadmin_data:**  
  Crea un volumen llamado `pgadmin_data` que se utilizará para almacenar los datos persistentes de PgAdmin.

### networks:
Define las redes personalizadas que los servicios van a utilizar.

- **mynetwork:**  
  Crea una red personalizada llamada `mynetwork` con el driver `bridge`, que permite que los servicios dentro de esa red se comuniquen entre sí.
