In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from IPython.display import display

In [None]:
df = pd.read_csv(r"C:\Users\mattu\OneDrive\Documentos\GitHub\c2425-R4\df_peleas_limpio.csv")
df.head()

In [None]:
print("Columnas del DataFrame:")
print(df.columns)

In [None]:
df= df.drop(columns=['Unnamed: 0','Unnamed: 0.1','index'])

In [None]:
print("\nTipos de datos:")
print(df.dtypes.to_string())

In [None]:
"""Realizamos un análisis descriptivo de las variables numéricas para comprender mejor sus distribuciones 
y las frecuencias con las que ocurren ciertos eventos en las peleas. Por ejemplo, observamos que el número 
de knockdowns (KD) suele ser 0 en la mayoría de los combates, mientras que el número total de golpes conectados
(TOTAL_STR_A_x) suele superar los 55.

Este análisis también nos permite verificar si la extracción y transformación de los datos se ha realizado 
correctamente. De hecho, detectamos que algunos porcentajes estaban guardándose en una escala de 0 a 100 en
lugar de 0 a 1, lo que pudimos corregir gracias a esta exploración descriptiva."""

print("\nResumen estadístico de columnas numéricas:")
pd.set_option('display.max_columns', None)
print(df.describe(include='all'))

In [None]:
numerical_columns = df.select_dtypes(include=['int64', 'float64']).columns
print(numerical_columns)



In [None]:
plt.figure(figsize=(10, 5 * len(numerical_columns)))
for i, col in enumerate(numerical_columns):
    plt.subplot(len(numerical_columns), 1, i + 1)
    sns.boxplot(x=df[col])
    plt.title(f"Distribución de {col}")

plt.tight_layout()
plt.show()
"""Al mostrar los Box-Plot nos damos cuenta de que en muchos casos
existe una cola a la derecha ya que, por ejemplo en los intentos de derribo,
lo normal es que ocurran muy pocos concentrandose ahí la mayoría de los valores
sin embargo en algunos combates ocurren mucho creando esa cola. Esto vemos que pasa con
bastantes variables. Para mejorar eso deberíamos estudiar realizar ciertas transformaciones.

También vemos gráficos en los cuales la distancia intercuartílica es mínima ya que, por ejemplo los knockdowns
o intentos de sumisión suelen no ocurrir ni una vez en los combates, esto se puede ver en el dataframe explicando
cada variable donde vemos que variables como los knockdowns (KD_A y KD_B) el 75% es 0 y tiene una media de 0.24,
haciendo que se queden esos gráficos tan raros con la caja prácticamente siendo una línea. En cuanto a estas variables
habrá que estudiar si aportan algo al crear el modelo al ser tan generales."""

In [None]:
# Identificación de valores atípicos usando IQR
outliers = {}
for col in numerical_columns:
    Q1 = df[col].quantile(0.25)
    Q3 = df[col].quantile(0.75)
    IQR = Q3 - Q1
    outliers[col] = df[(df[col] < Q1 - 1.5 * IQR) | (df[col] > Q3 + 1.5 * IQR)][col]

# Mostrar las columnas con sus respectivos outliers
for col, outlier_values in outliers.items():
    print(f"{col} tiene {len(outlier_values)} outliers")
    print(outlier_values.head(5))  # Muestra solo los primeros 5 valores atípicos para cada columna


In [None]:
df.hist(figsize=(14, 10))
plt.suptitle("Histogramas de las variables", fontsize=16)
plt.xticks(fontsize=12)
plt.yticks(fontsize=12)
plt.show()

"""Como vemos en los histogramas las variables no siguen distribuciones normales
y predomina, como ya habíamos visto con los boxplots las colas hacía la derecha."""