<span style="font-size: 18px">**Elección de Database:**</span>
- **Database:** European Soccer Database
- **Fuente:** Kaggle https://www.kaggle.com/datasets/hugomathien/soccer/data
- **Descripción:** Esta Database incluye más de 25,000 partidos, más de 10,000 jugadores y 11 países Europeos con sus respectivos campeonatos del 2008 al 2016. Los atributos de los jugadores y de los equipos provienen del videojuego **FIFA** de *EA Sports*, incluyendo las actualizaciones semanales. También vienen las alineaciones de los equipos (con coordenadas X, Y). Además se incluyen los momios de mas de 10 proveedores de apuestas. Y se detallan los eventos de los partidos(tipos de goles, posesion, tiros de esquina, centros, faltas, tarjetas, entre otros) para mas de 10,000 partidos.

<span style="font-size: 18px">**Exploración Inicial del Database:**</span>


- **Descripción:**
    
| Datasets           | Filas      | Columnas      |
|--------------------|------------|---------------|
| Country            | 11         | 2             |
| League             | 11         | 3             |
| Match              | 25979      | 115           |
| Player             | 11060      | 7             |
| Player_Attributes  | 183978     | 42            |
| Team               | 299        | 5             |
| Team_Attributes    | 1458       | 25            |


Ya que hemos visto los diferentes tipos de Datasets, trabajaremos con el llamado *Player_Attributes* para hacer el análisis y con el de *Player* para obtener los nombres de los jugadores.

   **Player_Attributes:** El dataset *Player_Attributes* contiene 183978 instancias de estadísticas de futbolistas, con 42 atributos cada uno: *id, player_fifa_api_id, player_api_id, date, overall_rating, potential, preferred_foot, attacking_work_rate, defensive_work_rate, crossing, finishing, heading_accuracy, short_passing, volleys, dribbling, curve, free_kick_accuracy, long_passing, ball_control, acceleration, sprint_speed, agility, reactions, balance, shot_power, jumping, stamina, strength, long_shots, aggression, interceptions, positioning, vision, penalties, marking, standing_tackle, sliding_tackle, gk_diving, gk_handling, gk_kicking, gk_positioning* y *gk_reflexes*.



- **Tipos de Variables:** El Dataset tiene variables numéricas continuas, y categóricas.
- **Datos faltantes:** No hay datos faltantes.
- **Estadísticas Básicas:** Las estadísticas de un jugador a otro varian bastante, pero como buscamos un análisis individual de cada uno, no va a haber complicaciones de sesgos o similares.

<span style="font-size: 18px">**Elección del Algoritmo:**</span>
- **Algoritmo Elegido:** Regresión Logística

<span style="font-size: 18px">**Justificación de la Elección:**</span>
- **Naturaleza del problema:**  El problema se trata de predecir si un jugador tiene un potencial mayor a su *rating* actual o no, lo que lo convierte en un problema de clasificación binaria.
- **Tipo y distribución de los datos:** El Dataset incluye características numéricas continuas, y categoricas. La Regresión Logística es adecuada para este tipo de variables.
- **Tamaño del dataset:** El Dataset tiene un tamaño suficiente para entrenar el modelo de manera efectiva.
- **Complejidad y capacidad del modelo:**  La Regresión Logística es capaz de capturar relaciones lineales y es adecuada para este tipo de predicciones.
- **Costo computacional:** Dado el tamaño del Dataset, el costo computacional es manejable.

<span style="font-size: 18px">**Resultados:**</span>

- El modelo muestra un alto rendimiento con una *precision* del 100% tanto para la clase *False* como para la clase *True*. Esto indica que el modelo es muy preciso en sus predicciones.

- El *recall* también es del 100% para ambas clases, lo que indica que el modelo es capaz de identificar correctamente todos los casos positivos y negativos.

- El puntaje *F1* es del 100% para ambas clases, lo que sugiere un equilibrio entre *precision* y *recall*.

- La precisión general del modelo es del 100%, lo que significa que clasifica correctamente todos los casos en el conjunto de prueba.


<span style="font-size: 18px">**Conclusión:**</span>

El modelo actual ha demostrado ser muy efectivo en su tarea actual, pero es importante seguir evaluando y ajustando según sea necesario para mantener su rendimiento en el futuro.

In [1]:
import pandas as pd
import sqlite3

conn = sqlite3.connect('database.sqlite')

query = 'SELECT * FROM Player_Attributes'
player_attributes = pd.read_sql_query(query, conn)

conn.close()

player_attributes.dropna(inplace=True)
player_attributes.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 180354 entries, 0 to 183977
Data columns (total 42 columns):
 #   Column               Non-Null Count   Dtype  
---  ------               --------------   -----  
 0   id                   180354 non-null  int64  
 1   player_fifa_api_id   180354 non-null  int64  
 2   player_api_id        180354 non-null  int64  
 3   date                 180354 non-null  object 
 4   overall_rating       180354 non-null  float64
 5   potential            180354 non-null  float64
 6   preferred_foot       180354 non-null  object 
 7   attacking_work_rate  180354 non-null  object 
 8   defensive_work_rate  180354 non-null  object 
 9   crossing             180354 non-null  float64
 10  finishing            180354 non-null  float64
 11  heading_accuracy     180354 non-null  float64
 12  short_passing        180354 non-null  float64
 13  volleys              180354 non-null  float64
 14  dribbling            180354 non-null  float64
 15  curve            

In [2]:
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

X_train = player_attributes[['overall_rating', 'potential', 'crossing', 'finishing', 'dribbling', 'vision', 'penalties', 'marking', 'standing_tackle', 'sliding_tackle', 'gk_diving', 'gk_handling', 'gk_kicking', 'gk_positioning', 'gk_reflexes']]
y_train = (player_attributes['potential'] > player_attributes['overall_rating'])

scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)

X_train_split, X_test_split, y_train_split, y_test_split = train_test_split(X_train_scaled, y_train, test_size=0.2, random_state=42)

logistic_regression_model = LogisticRegression(max_iter=55)

logistic_regression_model.fit(X_train_split, y_train_split)

y_pred = logistic_regression_model.predict(X_test_split)

classification_rep = classification_report(y_test_split, y_pred)

print(f'Reporte:\n{classification_rep}')

Reporte:
              precision    recall  f1-score   support

       False       1.00      1.00      1.00      8952
        True       1.00      1.00      1.00     27119

    accuracy                           1.00     36071
   macro avg       1.00      1.00      1.00     36071
weighted avg       1.00      1.00      1.00     36071

