# Propuesta proyecto

- Andrés Fernando Román Arévalo 
- Albert Yarid Pérez Cárdenas 
- Guiselle Tatiana Zambrano Penagos 

**Contexto:** Las competencias deportivas cada día recogen una gran cantidad de datos relacionados con el desempeño de sus equipos y jugadores para encontrar patrones en estos datos y tomar decisiones informadas basadas en ellos. De esta manera la competencia aumenta tanto dentro como fuera de la cancha

**Problema de negocio:** Se tienen los datos de desempeño de los equipos de baloncesto del torneo NCAA March Madness que contiene las estadísticas de juego de 353 equipos de la liga. El objetivo es inspeccionar esta data utilizando técnicas de visualización y agrupación para encontrar patrones en el desempeño de los equipos y generar recomendaciones de umbrales en las estadísticas para que un equipo esté en el grupo de desempeño superior.

In [1]:
# ruta directorio
#setwd('C:/Users/Juliana/Desktop/Diplomado/D_2020/Casos/Casos/Clustering/R')
setwd('/root/project/jupyter/data')

In [2]:
## Cargue de datos
datos <- read.csv('basketball_19.csv',header=T)
## nombres de las columnas 
names(datos)
head(datos)

Unnamed: 0_level_0,TEAM,CONF,G,W,ADJOE,ADJDE,BARTHAG,EFG_O,EFG_D,TOR,⋯,FTR,FTRD,X2P_O,X2P_D,X3P_O,X3P_D,ADJ_T,WAB,POSTSEASON,SEED
Unnamed: 0_level_1,<fct>,<fct>,<int>,<int>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,⋯,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<fct>,<int>
1,Gonzaga,WCC,37,33,123.4,89.9,0.9744,59.0,44.2,14.9,⋯,35.3,25.9,61.4,43.4,36.3,30.4,72.0,7.0,E8,1
2,Virginia,ACC,38,35,123.0,89.9,0.9736,55.2,44.7,14.7,⋯,29.1,26.3,52.5,45.7,39.5,28.9,60.7,11.1,Champions,1
3,Duke,ACC,38,32,118.9,89.2,0.9646,53.6,45.0,17.5,⋯,33.2,24.0,58.0,45.0,30.8,29.9,73.6,11.2,E8,1
4,North Carolina,ACC,36,29,120.1,91.4,0.9582,52.9,48.9,17.2,⋯,30.2,28.4,52.1,47.9,36.2,33.5,76.0,10.0,S16,1
5,Michigan,B10,37,30,114.6,85.6,0.9665,51.6,44.1,13.9,⋯,27.5,24.1,51.8,44.3,34.2,29.1,65.9,9.2,S16,2
6,Michigan St.,B10,39,32,119.9,91.0,0.9597,55.2,43.9,18.5,⋯,33.6,27.5,54.3,41.9,37.8,31.6,68.6,10.7,F4,2


## Datos

Estas son las variables que contiene el conjunto de datos 

- **TEAM:** Equipo
- **CONF:** La conferencia en la que el equipo participa(A10 = Atlantic 10, ACC = Atlantic Coast Conference, AE = America East, Amer = American, ASun = ASUN, B10 = Big Ten, B12 = Big 12, BE = Big East, BSky = Big Sky, BSth = Big South, BW = Big West, CAA = Colonial Athletic Association, CUSA = Conference USA, Horz = Horizon League, Ivy = Ivy League, MAAC = Metro Atlantic Athletic Conference, MAC = Mid-American Conference, MEAC = Mid-Eastern Athletic Conference, MVC = Missouri Valley Conference, MWC = Mountain West, NEC = Northeast Conference, OVC = Ohio Valley Conference, P12 = Pac-12, Pat = Patriot League, SB = Sun Belt, SC = Southern Conference, SEC = South Eastern Conference, Slnd = Southland Conference, Sum = Summit League, SWAC = Southwestern Athletic Conference, WAC = Western Athletic Conference, WCC = West Coast Conference)
- **G:** Número de partidos jugados
- **W:** Número de partidos ganados
- **ADJOE:** Estimación de eficiencia ofensiva, puntos anotados por cada 100 posesiones
- **ADJDE:** Estimación de eficiencia defensiva, puntos permitidos por cada 100 posesiones del equipo contrario
- **BARTHAG:** Probabilidad de vencer a un equipo
- **EFG_O:** Effective Field Goal Percentage Shot
- **EFG_D:** Effective Field Goal Percentage Allowed
- **TOR:** Porcentaje de rotación permitida (equipo pierde la posesión del balón contra el equipo contrario antes de que un jugador dispare a la canasta de su equipo)
- **TORD:** Porcentaje de rotación hecha al equipo contrario (se roba la pelota al contrincante)
- **ORB:** Porcentaje de rebote ofensivo
- **B:** Porcentaje de rebote defensivo
- **FTR:** Tasa de tiros libres hechos(que hace el equipo)
- **FTRD:** Tasa de tiros libres permitidos (que hace el contrincante)
- **2P_O:** Porcentaje de tiros de 2 puntos hechos
- **2P_D:** Porcentaje de tiros de 2 puntos permitidos
- **3P_O:** Porcentaje de tiros de 3 puntos hechos
- **3P_D:** Porcentaje de tiros de 3 puntos permitidos
- **ADJ_T:** Posesión del balón por 40 min
- **WAB:** Triunfos por encima de la 'burbuja' (la burbuja es el límite definido para pasar al campeonato NCAA March Madness Tournament
- **POSTSEASON:** Ronda en la que el equipo de fue eliminado (R68 = First Four, R64 = Round of 64, R32 = Round of 32, S16 = Sweet Sixteen, E8 = Elite Eight, F4 = Final Four, 2ND = Runner-up, Champion = Winner of the NCAA March Madness Tournament for that given year)
- **SEED:**Semilla definida por el torneo

## Exploración de los datos 

Para empezar el análisis hay que hacer una exploración inicial de los datos, entender un poco las variables y la información que tenemos. Para empezar nuestros datos consisten en las estadísticas de 353 equipos contenidas en 24 variables

In [3]:
## dimension de los datos
ncol(datos)
nrow(datos)

In [4]:
## resumen de los datos
summary(datos)

                TEAM          CONF           G               W        
 Abilene Christian:  1   ACC    : 15   Min.   :26.00   Min.   : 3.00  
 Air Force        :  1   A10    : 14   1st Qu.:30.00   1st Qu.:12.00  
 Akron            :  1   B10    : 14   Median :31.00   Median :17.00  
 Alabama          :  1   CUSA   : 14   Mean   :31.75   Mean   :17.11  
 Alabama A&M      :  1   SEC    : 14   3rd Qu.:33.00   3rd Qu.:21.00  
 Alabama St.      :  1   Slnd   : 13   Max.   :39.00   Max.   :35.00  
 (Other)          :347   (Other):269                                  
     ADJOE           ADJDE          BARTHAG           EFG_O     
 Min.   : 83.7   Min.   : 85.2   Min.   :0.0346   Min.   :40.0  
 1st Qu.: 98.6   1st Qu.: 98.7   1st Qu.:0.2814   1st Qu.:48.8  
 Median :103.1   Median :104.0   Median :0.4762   Median :50.5  
 Mean   :103.3   Mean   :103.3   Mean   :0.4932   Mean   :50.6  
 3rd Qu.:107.7   3rd Qu.:107.8   3rd Qu.:0.6893   3rd Qu.:52.8  
 Max.   :123.4   Max.   :119.2   Max.   :0