# <u>Transfermarkt Web Scrapping Project</u>
## *Descripción del proyecto*

Este proyecto tiene un propósito totalmente **educativo y personal**, sin ningún fin lucrativo.  
Se realizará un proceso completo de scraping de datos desde la web de [Transfermarkt](https://www.transfermarkt.es/), seguido de un almacenamiento estructurado en base de datos PostgreSQL y un análisis posterior utilizando Python.

El proyecto estará estructurado de manera **profesional** usando:

- **Programación Orientada a Objetos (POO) con Python**
- **Jupyter Notebooks**
- **PostgreSQL** para persistencia de datos

## *Objetivos*

- **Scraping de Equipos**: Extraer la información de los equipos de la Primera División (LaLiga) para las temporadas seleccionadas.
- **Scraping de Jugadores**: Obtener datos individuales de los jugadores de cada equipo.
- **Scraping de Estadísticas**: Recolectar las estadísticas deportivas principales de cada jugador.
- **Almacenamiento**: Guardar toda la información en una base de datos PostgreSQL de manera normalizada.
- **Análisis posterior**: Preparar los datos para un futuro ejercicio de Machine Learning o análisis exploratorio.

## *Estructura general del Notebook*

1. Conexión a la base de datos
2. Web Scraping de Equipos
3. Web Scraping de Jugadores
4. Web Scraping de Estadísticas
5. Almacenamiento en PostgreSQL
6. Preparación para Análisis

---

### 1. Instalación de dependencias
Antes de comenzar, es necesario instalar todas las dependencias requeridas para el correcto funcionamiento del proyecto.
Para ello, utilizaremos el archivo requirements.txt, que contiene todas las librerías necesarias.

In [None]:
# Primero instalamos todas las dependencias necesarias para trabajar (si es necesario):
# %pip install -r requirements.txt


### 2. Comprobación de configuración

A continuación, verificamos que las variables de entorno necesarias se han cargado correctamente desde el archivo `.env`.
Esto asegura que los parámetros de conexión (usuario, contraseña, host, puerto y base de datos) están disponibles y configurados antes de proceder.

Utilizaremos la clase `EnvironmentConfig` para cargar de forma controlada estas variables.

In [None]:
from config.cfg_environment import EnvironmentConfig

# Cargamos la configuración:
env = EnvironmentConfig()

# Accedemos a las variables:
print(
    f"User: {env.user}\n"
    f"Password: {env.password}\n"
    f"Host: {env.host}\n"
    f"Port: {env.port}\n"
    f"Database: {env.db}\n"
)

### 3. Creación y validación de la base de datos

Antes de establecer la conexión con la base de datos, validamos si la base de datos especificada existe en *PostgreSQL*.

Para ello, utilizamos la clase `DatabaseCreator`, que realizará los siguientes pasos:

- Si la base de datos ya existe: se conecta directamente.

- Si la base de datos no existe: se crea automáticamente y se actualiza el archivo .env con el nuevo nombre introducido por el usuario.

Esto garantiza que siempre trabajaremos sobre una base de datos válida y actualizada, evitando errores en el proceso de scraping y almacenamiento de datos.

In [None]:
from database.db_creator import DatabaseCreator
from config.cfg_environment import EnvironmentConfig

# Cargamos el entorno:
env = EnvironmentConfig()
# Instanciamos la clase que crea o valida la base de datos
creator = DatabaseCreator(env)

### 4. Conexión a la base de datos
Una vez asegurada la existencia de la base de datos, procedemos a establecer la conexión mediante la clase `DatabaseConnection`.

Esta clase gestiona la apertura y el cierre controlado de la conexión a *PostgreSQL* utilizando las variables de entorno previamente cargadas.

In [None]:
# Importamos la clase para la conexión
from database.db_connection import DatabaseConnection
import psycopg2

# Creamos una instancia de conexión:
db = DatabaseConnection(env)

# Establecemos conexión:
db.connect()

# Cerramos la conexión:
db.disconnect()