# Analítica de datos
# Examen parcial 1
# 2019-02

Descripción 

El dataset que va a analizar contiene las estadísticas de rendimiento de jugadores de baseball en USA en 1986, así como los salarios de los mismos. Se dispone del diccionario de datos siguiente: 
- Player: Nombre del jugador 
- Atbat: número de veces que se ha presentado para batear en 1986 
- Hits: número de veces que ha conectado un bateo sencillo y llegado a base en 1986 
- HmRun: número de home runs en 1986 
- Runs: número de carreras anotadas en 1986 
- RBI: número de carreras impulsadas en 1986 
- Walks: número de veces que ha pasado por bolas en 1986 
- Years: número de años como profesional 
- CAtbat: número de veces que se ha presentado para batear en su carrera 
- CHits: número de veces que ha conectado un bateo sencillo y llegado a base en su carrera 
- CHmRun: número de home runs en su carrera 
- CRuns: número de carreras anotadas en su carrera 
- CRBI: número de carreras impulsadas en su carrera 
- CWalks: número de veces que ha pasado en su carrera 
- League: categoría de la liga en la que jugaba en 1986 
- Division: división en la que jugaba en 1986 
- PutOuts: número de ponchadas que ha generado defensivamente en 1986 
- Assists: número de veces que ha ayudado a ponchar a un jugador contrario indirectamente en 1986 
- Errors: número de errores en 1986 
- NewLeague: categoría de la liga en la que jugaba el día de apertura de la temporada 1987 
- Salary: salario anual (en miles de dólares) el día de apertura de la temporada 1987 

No se conocen los salarios de algunos de los jugadores (aparecen con NA). La idea es poder predecirlos a partir de un modelo basado en los demás campos. 

Puntos a desarrollar 
1. Limpieza y EDA: Verifiquen si hay problemas de calidad de datos (diferentes a los NAs del campo Salary).  Se espera una primera sección de evaluación de la calidad de los datos y de entendimiento de la relación entre las variables predictivas y la variable objetivo (OJO! Solo poner gráficos y análisis de las relaciones importantes, menos es mas!) 


2. Modelos predictivos: Entrenen modelos predictivos (al menos 3 familias de modelos) que permitan estimar el salario de los jugadores de baseball a partir de los valores de las demás variables (de los jugadores que tienen valor de Salary). Escoja el mejor modelo, buscando sus parámetros óptimos.Se espera una sección donde se establezca el protocolo de evaluación y los procesos de entrenamiento y evaluación de los modelos. 


3. Cambio de representación del dataset: Considerando todas las variables (menos Salary), realice un análisis de componentes principales (PCA), escogiendo el número de componentes necesarios para conservar el 95% de la representación original. 


4. Caracterización de los jugadores: Con los datos en su nueva representación de PCs, realice una segmentación, estableciendo el mejor número de clusters entre 3 y 5. Caracterice los clusters con respecto a las variables originales (incluyendo Salary). 

# 1. Entendimiento de los datos, limpieza y EDA

In [1]:
import numpy as np #operaciones matriciales y con vectores
import pandas as pd #tratamiento de datos
import matplotlib.pyplot as plt #gráficos
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.linear_model import LinearRegression # modelos lineales
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.model_selection import train_test_split #metodo de particionamiento de datasets para evaluación
from sklearn.model_selection import cross_val_score #protocolo de evaluación
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_validate
from sklearn.model_selection import StratifiedKFold, GridSearchCV
from sklearn import naive_bayes, datasets, metrics, linear_model
from sklearn import preprocessing
from sklearn import neighbors, datasets, metrics
import seaborn as sns
import statsmodels.api as sm

In [2]:
data = pd.read_csv("Baseball.csv")
data.head()

Unnamed: 0,Player,AtBat,Hits,HmRun,Runs,RBI,Walks,Years,CAtBat,CHits,...,CRuns,CRBI,CWalks,League,Division,PutOuts,Assists,Errors,NewLeague,Salary
0,Andy Allanson,293,66,1,30,29,14,1,293,66,...,30,29,14,A,E,446,33,20,A,
1,Alan Ashby,315,81,7,24,38,39,14,3449,835,...,321,414,375,N,W,632,43,10,N,475.0
2,Alvin Davis,479,130,18,66,72,76,3,1624,457,...,224,266,263,A,W,880,82,14,A,480.0
3,Andre Dawson,496,141,20,65,78,37,11,5628,1575,...,828,838,354,N,E,200,11,3,N,500.0
4,Andres Galarraga,321,87,10,39,42,30,2,396,101,...,48,46,33,N,E,805,40,4,N,91.5


In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 322 entries, 0 to 321
Data columns (total 21 columns):
Player       322 non-null object
AtBat        322 non-null int64
Hits         322 non-null int64
HmRun        322 non-null int64
Runs         322 non-null int64
RBI          322 non-null int64
Walks        322 non-null int64
Years        322 non-null int64
CAtBat       322 non-null int64
CHits        322 non-null int64
CHmRun       322 non-null int64
CRuns        322 non-null int64
CRBI         322 non-null int64
CWalks       322 non-null int64
League       322 non-null object
Division     322 non-null object
PutOuts      322 non-null int64
Assists      322 non-null int64
Errors       322 non-null int64
NewLeague    322 non-null object
Salary       263 non-null float64
dtypes: float64(1), int64(16), object(4)
memory usage: 52.9+ KB


In [5]:
data.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
AtBat,322.0,380.928571,153.404981,16.0,255.25,379.5,512.0,687.0
Hits,322.0,101.024845,46.454741,1.0,64.0,96.0,137.0,238.0
HmRun,322.0,10.770186,8.709037,0.0,4.0,8.0,16.0,40.0
Runs,322.0,50.909938,26.024095,0.0,30.25,48.0,69.0,130.0
RBI,322.0,48.02795,26.166895,0.0,28.0,44.0,64.75,121.0
Walks,322.0,38.742236,21.639327,0.0,22.0,35.0,53.0,105.0
Years,322.0,7.444099,4.926087,1.0,4.0,6.0,11.0,24.0
CAtBat,322.0,2648.68323,2324.20587,19.0,816.75,1928.0,3924.25,14053.0
CHits,322.0,717.571429,654.472627,4.0,209.0,508.0,1059.25,4256.0
CHmRun,322.0,69.490683,86.266061,0.0,14.0,37.5,90.0,548.0
