# UFC Fights

El dataset que vamos a analizar contiene información relativa a las peleas de **UFC** (Ultimate Fighting Championship) desde 2013. Contiene información muy precisa sobre distintos aspectos de este deporte, a través de los cuales vamos a intentar sacar algunas conclusiones.

In [6]:
#Importamos la tabla

import pandas as pd
ufc = pd.read_csv('dat/dataufc.csv', index_col=False)

ufc

Unnamed: 0,BPrev,BStreak,B_Age,B_Height,B_HomeTown,B_ID,B_Location,B_Name,B_Weight,B__Round1_Grappling_Reversals_Landed,...,R__Round5_TIP_Ground Time,R__Round5_TIP_Guard Control Time,R__Round5_TIP_Half Guard Control Time,R__Round5_TIP_Misc. Ground Control Time,R__Round5_TIP_Mount Control Time,R__Round5_TIP_Neutral Time,R__Round5_TIP_Side Control Time,R__Round5_TIP_Standing Time,winby,winner
0,1,1,23.0,182.0,Trento Italy,2783,Mezzocorona Italy,Marvin Vettori,84,0.0,...,,,,,,,,,DEC,red
1,0,0,32.0,175.0,"Careiro da Várzea, Amazonas Brazil",2208,"Pharr, Texas USA",Carlos Diego Ferreira,70,,...,,,,,,,,,SUB,blue
2,2,0,38.0,172.0,Kanagawa Japan,721,Tokyo Japan,Takanori Gomi,70,0.0,...,,,,,,,,,KO/TKO,red
3,0,0,23.0,170.0,Tijuana Mexico,2825,Tijuana Mexico,Brandon Moreno,56,,...,,,,,,,,,SUB,blue
4,3,1,30.0,167.0,"Spokane, WA USA",2260,"Spokane, WA USA",Elizabeth Phillips,61,0.0,...,,,,,,,,,DEC,red
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1472,0,0,26.0,172.0,"Tlaltenango, Zacatecas Mexico",2355,"San Diego, California USA",Jose Quinonez,61,,...,,,,,,,,,DEC,red
1473,2,1,26.0,165.0,"Tampa, Florida USA",2610,"Tampa, Florida USA",Geane Herrera,56,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,DEC,red
1474,3,2,36.0,187.0,"Doylestown, Pennsylvania USA",1694,"Dana Point, California USA",Patrick Cummins,93,0.0,...,,,,,,,,,DEC,blue
1475,3,1,31.0,167.0,Irvine Scotland,2339,Glasgow Scotland,Joanne Calderwood,52,0.0,...,0.0,0.0,0.0,0.0,0.0,301.0,0.0,301.0,KO/TKO,blue


## Explorando el dataset

El dataset en cuestión cuenta con un total de 895 columnas y 1477 filas. Mucha de esta información es poco relevante para nuestro análisis, por lo que vamos a seleccionar aquella que pueda aportar más valor. 

In [7]:
#Quiero conocer el nombre de todas mis columnas
#Como son tantas (895), cuando hacemos ufc.columns nos muestra el resultado resumido
#Para poder ver el nombre de las 895 columnas, vamos a hacer una lista compuesta por todos los nombres de columna

cols = ufc.columns.tolist ()
cols

['BPrev',
 'BStreak',
 'B_Age',
 'B_Height',
 'B_HomeTown',
 'B_ID',
 'B_Location',
 'B_Name',
 'B_Weight',
 'B__Round1_Grappling_Reversals_Landed',
 'B__Round1_Grappling_Standups_Landed',
 'B__Round1_Grappling_Submissions_Attempts',
 'B__Round1_Grappling_Takedowns_Attempts',
 'B__Round1_Grappling_Takedowns_Landed',
 'B__Round1_Strikes_Body Significant Strikes_Attempts',
 'B__Round1_Strikes_Body Significant Strikes_Landed',
 'B__Round1_Strikes_Body Total Strikes_Attempts',
 'B__Round1_Strikes_Body Total Strikes_Landed',
 'B__Round1_Strikes_Clinch Body Strikes_Attempts',
 'B__Round1_Strikes_Clinch Body Strikes_Landed',
 'B__Round1_Strikes_Clinch Head Strikes_Attempts',
 'B__Round1_Strikes_Clinch Head Strikes_Landed',
 'B__Round1_Strikes_Clinch Leg Strikes_Attempts',
 'B__Round1_Strikes_Clinch Leg Strikes_Landed',
 'B__Round1_Strikes_Clinch Significant Kicks_Attempts',
 'B__Round1_Strikes_Clinch Significant Kicks_Landed',
 'B__Round1_Strikes_Clinch Significant Punches_Attempts',
 'B__Rou

Observando el nombre de las columnas, en función del color del luchador, seleccionamos aquellas que nos parezcan más relevantes para nuestro análisis:

- `Fight_ID`: Identificador de la pelea.
- `Date`: Fecha de la pelea.
- `Location`: Ubicación de la pelea del luchador.
- `HomeTown`: Ciudad natal del luchador.
- `Age`: Edad del luchador.
- `Height`: Altura del luchador.
- `Weigh`: Peso del luchador.
- `Prev`: Peleas anteriores del luchador.
- `winner`: ¿Quién fue el ganador de la pelea?
- `winby`: ¿Cómo ganó la pelea el luchador?
- `Max_round`: Número de rondas del combate.
- `Streak`: Racha de victorias del luchador.
- `Clinch Head Strikes_Landed`: Número de golpes en combate cercano en la cabeza asestados por un luchador.
- `Clinch Body Strikes_Landed`: Número de golpes en combate cercano en el cuerpo asestados por un luchador.
- `Distance Head Strikes_Landed`: Número de golpes en combate lejano en la cabeza asestados por un luchador.
- `Distance Body Strikes_Landed`: Número de golpes en combate lejano en el cuerpo asestados por un luchador.


In [12]:
#Seleccionamos las columnas relevantes
ufc2 = ufc['Fight_ID', 'Date', 'winner', 'winby', 'Max_round', 
           'BPrev', 'BStreak', 'B_Age', 'B_Height', 'B_Location', 'B_HomeTown',
           'B__Round1_Strikes_Clinch Body Strikes_Landed','B__Round1_Strikes_Clinch Head Strikes_Landed',
           'B__Round1_Strikes_Distance Body Kicks_Landed', 'B__Round1_Strikes_Distance Head Strikes_Landed',
           'B__Round2_Strikes_Clinch Body Strikes_Landed','B__Round2_Strikes_Clinch Head Strikes_Landed',
           'B__Round2_Strikes_Distance Body Kicks_Landed', 'B__Round2_Strikes_Distance Head Strikes_Landed',
           'B__Round3_Strikes_Clinch Body Strikes_Landed','B__Round3_Strikes_Clinch Head Strikes_Landed',
           'B__Round3_Strikes_Distance Body Kicks_Landed', 'B__Round3_Strikes_Distance Head Strikes_Landed',
           'B__Round4_Strikes_Clinch Body Strikes_Landed','B__Round4_Strikes_Clinch Head Strikes_Landed',
           'B__Round4_Strikes_Distance Body Kicks_Landed', 'B__Round4_Strikes_Distance Head Strikes_Landed',
           'B__Round5_Strikes_Clinch Body Strikes_Landed','B__Round5_Strikes_Clinch Head Strikes_Landed',
           'B__Round5_Strikes_Distance Body Kicks_Landed', 'B__Round5_Strikes_Distance Head Strikes_Landed',
           'RPrev', 'RStreak', 'R_Age','R_Height','R_Location', 'R_HomeTown',
           'R__Round1_Strikes_Clinch Body Strikes_Landed','R__Round1_Strikes_Clinch Head Strikes_Landed',
           'R__Round1_Strikes_Distance Body Kicks_Landed', 'R__Round1_Strikes_Distance Head Strikes_Landed',
           'R__Round2_Strikes_Clinch Body Strikes_Landed','R__Round2_Strikes_Clinch Head Strikes_Landed',
           'R__Round2_Strikes_Distance Body Kicks_Landed', 'R__Round2_Strikes_Distance Head Strikes_Landed',
           'R__Round3_Strikes_Clinch Body Strikes_Landed','R__Round3_Strikes_Clinch Head Strikes_Landed',
           'R__Round3_Strikes_Distance Body Kicks_Landed', 'R__Round3_Strikes_Distance Head Strikes_Landed',
           'R__Round4_Strikes_Clinch Body Strikes_Landed','R__Round4_Strikes_Clinch Head Strikes_Landed',
           'R__Round4_Strikes_Distance Body Kicks_Landed', 'R__Round4_Strikes_Distance Head Strikes_Landed',
           'R__Round5_Strikes_Clinch Body Strikes_Landed','R__Round5_Strikes_Clinch Head Strikes_Landed',
           'R__Round5_Strikes_Distance Body Kicks_Landed', 'R__Round5_Strikes_Distance Head Strikes_Landed'
          ]

#Cambiamos el nombre de LAS columnas, para que todas sigan un formato parecido y sea más fácil su manejo

ufc2.columns = ['Fight_ID', 'Date', 'Winner', 'Winby', 'Max_Round', 
                'B_Prev', 'B_Streak', 'B_Age', 'B_Height', 'B_Location', 'B_HomeTown',
                'B_Round1_Strikes_Clinch_Body','B_Round1_Strikes_Clinch_Head',
                'B_Round1_Strikes_Distance_Body', 'B_Round1_Strikes_Distance_Head',
                'B_Round2_Strikes_Clinch_Body','B_Round2_Strikes_Clinch_Head',
                'B_Round2_Strikes_Distance_Body', 'B_Round2_Strikes_Distance_Head',
                'B_Round3_Strikes_Clinch_Body','B_Round3_Strikes_Clinch_Head',
                'B_Round3_Strikes_Distance_Body', 'B_Round3_Strikes_Distance_Head',
                'B_Round4_Strikes_Clinch_Body','B_Round4_Strikes_Clinch_Head',
                'B_Round4_Strikes_Distance_Body', 'B_Round4_Strikes_Distance_Head',
                'B_Round5_Strikes_Clinch_Body','B_Round5_Strikes_Clinch_Head',
                'B_Round5_Strikes_Distance_Body', 'B_Round5_Strikes_Distance_Head',
                'R_Prev', 'R_Streak', 'R_Age', 'R_Height', 'R_Location', 'R_HomeTown',
                'R_Round1_Strikes_Clinch_Body','R_Round1_Strikes_Clinch_Head',
                'R_Round1_Strikes_Distance_Body', 'R_Round1_Strikes_Distance_Head',
                'R_Round2_Strikes_Clinch_Body','R_Round2_Strikes_Clinch_Head',
                'R_Round2_Strikes_Distance_Body', 'R_Round2_Strikes_Distance_Head',
                'R_Round3_Strikes_Clinch_Body','R_Round3_Strikes_Clinch_Head',
                'R_Round3_Strikes_Distance_Body', 'R_Round3_Strikes_Distance_Head',
                'R_Round4_Strikes_Clinch_Body','R_Round4_Strikes_Clinch_Head',
                'R_Round4_Strikes_Distance_Body', 'R_Round4_Strikes_Distance_Head',
                'R_Round5_Strikes_Clinch_Body','R_Round5_Strikes_Clinch_Head',
                'R_Round5_Strikes_Distance_Body', 'R_Round5_Strikes_Distance_Head'
           ]


ufc2.head()

Unnamed: 0,Fight_ID,Date,Winner,Winby,Max_Round,B_Prev,B_Streak,B_Age,B_Height,B_Location,...,R_Round3_Strikes_Distance_Body,R_Round3_Strikes_Distance_Head,R_Round4_Strikes_Clinch_Body,R_Round4_Strikes_Clinch_Head,R_Round4_Strikes_Distance_Body,R_Round4_Strikes_Distance_Head,R_Round5_Strikes_Clinch_Body,R_Round5_Strikes_Clinch_Head,R_Round5_Strikes_Distance_Body,R_Round5_Strikes_Distance_Head
0,6405,01/02/2017,red,DEC,3,1,1,23.0,182.0,Mezzocorona Italy,...,0.0,12.0,,,,,,,,
1,4786,06/30/2014,blue,SUB,3,0,0,32.0,175.0,"Pharr, Texas USA",...,,,,,,,,,,
2,5523,07/27/2015,red,KO/TKO,3,2,0,38.0,172.0,Tokyo Japan,...,,,,,,,,,,
3,6240,10/03/2016,blue,SUB,3,0,0,23.0,170.0,Tijuana Mexico,...,0.0,44.0,,,,,,,,
4,6226,08/22/2016,red,DEC,3,3,1,30.0,167.0,"Spokane, WA USA",...,2.0,36.0,,,,,,,,


In [11]:
#Es importante saber si existen valores nulos en el dataset
ufc2.isnull().any()

Fight_ID                          False
Date                              False
Winner                            False
Winby                              True
Max_Round                         False
B_Prev                            False
B_Streak                          False
B_Age                              True
B_Height                           True
B_Location                         True
B_HomeTown                         True
B_Round1_Strikes_Clinch_Body       True
B_Round1_Strikes_Clinch_Head       True
B_Round1_Strikes_Distance_Body     True
B_Round1_Strikes_Distance_Head     True
B_Round2_Strikes_Clinch_Body       True
B_Round2_Strikes_Clinch_Head       True
B_Round2_Strikes_Distance_Body     True
B_Round2_Strikes_Distance_Head     True
B_Round3_Strikes_Clinch_Body       True
B_Round3_Strikes_Clinch_Head       True
B_Round3_Strikes_Distance_Body     True
B_Round3_Strikes_Distance_Head     True
B_Round4_Strikes_Clinch_Body       True
B_Round4_Strikes_Clinch_Head       True


Uno de los problemas de este dataset es la presencia de campos vacios (NaN) dentro de columnas importantes como la edad o el peso del jugador. Es preciso solucionar este problema antes de comenzar el análisis del dataset.

Para solucionar este problema, tenemos varias opciones:
- Eliminar las filas con valores nulos
- Reemplazar los valores nulos por cero
- Sustituir los nulos por la media o la mediana


La solución correcta dependerá del tipo de datos con el que tratemos. En nuestro caso:
- Eliminaremos las filas con valores nulos en datos cualitativos
- Reemplazaremos por cero los valores nulos relativos a las rondas. Un valor nulo (cero) en estas columnas implica que el jugador no ha pasado de ronda. 
- Sustituiremos por la media los valores nulos en el resto de columnas de tipo cuantitativo.

In [5]:
#Eliminamos aquellas filas con valores cualitativos nulos
ufc2= ufc2.dropna(subset=['Winby', 'B_Location', 'B_HomeTown', 'R_Location'], how='any')

#Reemplazamos 


#Sustituimos los valores nulos por la media de cada columna
import numpy as np

ufc2.B_Age = ufc2.B_Age.fillna(np.mean(ufc2.B_Age))
ufc2.B_Height = ufc2.B_Height.fillna(np.mean(ufc2.B_Height))
ufc2.R_Age = ufc2.R_Age.fillna(np.mean(ufc2.R_Age))
ufc2.R_Height = ufc2.R_Height.fillna(np.mean(ufc2.R_Height))

ufc2.isnull().any()

Fight_ID      False
Date          False
Winner        False
Winby         False
B_Prev        False
B_Age         False
B_Height      False
B_Location    False
B_HomeTown    False
R_Prev        False
R_Age         False
R_Height      False
R_Location    False
R_HomeTown    False
dtype: bool

Ya tenemos todos los campos completos, pero antes de empezar a analizar la tabla a fondo, es necesario ver si el formato de las columnas es el correcto.

In [6]:
ufc2.dtypes

Fight_ID        int64
Date           object
Winner         object
Winby          object
B_Prev          int64
B_Age         float64
B_Height      float64
B_Location     object
B_HomeTown     object
R_Prev          int64
R_Age         float64
R_Height      float64
R_Location     object
R_HomeTown     object
dtype: object

Hay algunas columnas cuyos formatos no están bien, por lo que debemos limpiarlas para poder trabajar con ellas


#esta formula da error porque hay fechas con formato distinto, las cambiamos y luego la usamos
ufc2.Date = ufc2.Date.apply(
    lambda x: datetime.strptime (x, '%m/%d/%Y'))

In [33]:
#B_Age y R_Age: Convertirlas en tipo int

ufc2.B_Age = ufc2.B_Age.astype(int)
ufc2.R_Age = ufc2.R_Age.astype(int)

#Date: debe de estar en formato datetime
import re
from datetime import date, datetime

#parece que hay algunas filas que no siguen el formato de la mayoría ('%m/%d/%Y')
date1 = pd.to_datetime(ufc2.Date, format='%m/%d/%Y')
date2 = pd.to_datetime(ufc2.Date, format='%Y-%m-%d')
ufc2.Date = date1.combine_first(date2)

#Winby: el formato es correcto, pero podemos simplificar algunos de sus resultados
#KO/TKO significan lo mismo (knockout), así que vamos a simplificarlo a KO.
ufc2.Winby = ufc2.Winby.replace('KO/TKO', 'KO')

ufc2.dtypes

Fight_ID               int64
Date          datetime64[ns]
Winner                object
Winby                 object
B_Prev                 int64
B_Age                  int64
B_Height             float64
B_Location            object
B_HomeTown            object
R_Prev                 int64
R_Age                  int64
R_Height             float64
R_Location            object
R_HomeTown            object
dtype: object