# <u>Transfermarkt Web Scrapping Project</u>
## *Descripción del proyecto*

Este proyecto tiene un propósito totalmente **educativo y personal**, sin ningún fin lucrativo.  
Se realizará un proceso completo de scraping de datos desde la web de [Transfermarkt](https://www.transfermarkt.es/), seguido de un almacenamiento estructurado en base de datos PostgreSQL y un análisis posterior utilizando Python.

El proyecto estará estructurado de manera **profesional** usando:

- **Programación Orientada a Objetos (POO) con Python**
- **Jupyter Notebooks**
- **PostgreSQL** para persistencia de datos

## *Objetivos*

- **Scraping de Equipos**: Extraer la información de los equipos de la Primera División (LaLiga) para las temporadas seleccionadas.
- **Scraping de Jugadores**: Obtener datos individuales de los jugadores de cada equipo.
- **Scraping de Estadísticas**: Recolectar las estadísticas deportivas principales de cada jugador.
- **Almacenamiento**: Guardar toda la información en una base de datos PostgreSQL de manera normalizada.
- **Análisis posterior**: Preparar los datos para un futuro ejercicio de Machine Learning o análisis exploratorio.

## *Estructura general del Notebook*

1. Conexión a la base de datos
2. Web Scraping de Equipos
3. Web Scraping de Jugadores
4. Web Scraping de Estadísticas
5. Almacenamiento en PostgreSQL
6. Preparación para Análisis

---

### 1. Conexión con la base de datos
Antes de iniciar el scraping, es fundamental asegurarnos de que la conexión a la base de datos PostgreSQL funciona correctamente.  
Utilizaremos la clase `DatabaseConnection`, que gestiona de forma segura las credenciales almacenadas en el archivo `.env`.

En esta celda se instanciará la clase, se establecerá la conexión y posteriormente se cerrará de manera controlada.

In [1]:
# Primero instalamos todas las dependencias necesarias para trabajar (si es necesario):
# %pip install -r requirements.txt


### 2. Creación y validación de la base de datos

 Antes de establecer la conexión con la base de datos, se ha implementado una mejora en la clase `DatabaseConnection`.

 Al instanciar la clase, el usuario debe **introducir manualmente el nombre de la base de datos** que desea utilizar.

 El sistema realizará automáticamente los siguientes pasos:
 
 - **Si la base de datos ya existe**: Se conecta directamente.
 - **Si la base de datos no existe**: La crea automáticamente en PostgreSQL y actualiza el archivo `.env` con el nuevo nombre.

Esta validación garantiza que trabajemos siempre con una base de datos operativa, evitando errores futuros en el proceso de scraping y almacenamiento de datos.

In [2]:
# Importamos la clase para la conexión
from database.db_connection import DatabaseConnection
import psycopg2

# Creamos una instancia de conexión:
db = DatabaseConnection()

# Establecemos conexión:
db.connect()

# Cerramos la conexión:
db.disconnect()

✅ Base de datos 'la_liga' creada correctamente
✅ Conexión a la base de datos establecida correctamente.
✅ Conexión cerrada
