# Baseball First Look

## Objetivos de Aprendizaje

Exploración inicial del dataset:
    * abrir archivo csv
    * indexing y slicing booleano
    * mostrar resumenes de vistas de datos
    * plotting básico

## Imports

Importar paquete de pandas. Pandas es un work-horse de la comunidad de Python Analytics.

In [None]:
import pandas as pd

Inicialización inline para plotting con iPython vía el comando a continuación (reemplazo de import matplotlib.pyplot as plt)

In [None]:
%matplotlib inline

## Generación de data frame

In [None]:
df = pd.read_csv('../data/baseball_data.csv')

## Analizar de manera rápida las Top 5 Filas

Notas :
    * "salary_in_thousands_of_dollars" se refiere al sueldo anual en miles de dolares del jugador (e.g., 3300 indica que ese jugador tienen un sueldo anual de USD$3,300,000).
    * las cuatro últimas columnas son valores binarios 0|1

In [None]:
df.head()

## Tipos de Data en mi data frame

In [None]:
df.dtypes

## Slicing Basics

Principalmente existen tres métodos de slicing, ([ ... ], .loc[ ... ], .iloc[ ... ]).

#### 1. operador [ ... ]

En los statements de abajo mostramos la naturaleza implicita del operador [ ... ] y su aveces poco intuitivo comportamiento. Es mejor utilizar el operador [ ... ] para los casos (1) y (3). Para el caso (2) es mejor utilizar iloc[ ... ].

#### Caso (1) : 
El uso de los operadores [ ... ] permite a Pandas interferir con que esta siendo requerido en el comando. Pasando el nombre de una columna o una lista de nombres de columnas a este operador, permite retornar una Serie o un DataFrame, que contenga las columnas correspondientes a estos nombres.

In [None]:
# returns una Serie
df['batting_average']

In [None]:
# returns un DataFrame
df[['batting_average', 'on_base_percentage']]

#### Caso (2) :
La entrega de una lista de números enteros retorna las columnas de datos en esas ubicaciones. Indexing en Pandas es de base 0.

In [None]:
# returns las primeras cuatro columnas como un DataFrame
df[[1,2,3,4]]

#### Caso (3) : 
A continuación creamos una Serie de valores True & False. Luego, entregamos esta Serie al DataFrame df[ ... ] y realizamos slice de filas en vez de slice de columnas.

In [None]:
# returns las primeras 5 filas
boolean_series = df.index < 5
df[boolean_series]

#### 2. Operador .loc[ ... ]

El operador .loc[ ... ] provee acceso simultaneo a filas y columnas, usando la sintaxis df.loc[some_row_indexer, some_column_indexer]. El método .loc[ ... ] también permite acceso a campos del DataFrame para fines de sobre-escritura y modificaciones de data.

In [None]:
# primeras 3 filas y todas las columnas, notar sintaxis " :2 y : " para realizar slice.
# también notar que el index 0 puede ser implicito y que el index final, en este caso 2, es 
# incluído.
df.loc[:2, :]

#### 3. Operador .iloc[ ... ]

.iloc[ ... ] es parecido a .loc[ ... ], con la principal diferencia en que .loc[ ... ] referencia por medio de índices y columnas por nombre. En contraste, .iloc[ ... ] referencia por posición.

In [None]:
# Ordena df c/r a los valores de la columna batting_average
sortvals = df.sort_values('batting_average')

In [None]:
# Revisemos: notar que los índices por fila han cambiado ascendentemente c/r a la columna
# "batting_average"
sortvals.head()

In [None]:
# el uso de .loc returns todas las filas hasta el índice 147, esto puede ser molesto cuando
# tu DataFrame ha pasado por transformaciones necesarias para el análisis
sortvals.loc[:332, :]

In [None]:
# returns las primeras 10 filas, sin considerar el valor de los índices.
sortvals.iloc[:10, :5]

## Utilizar Indexing Booleano para contar el numero de NaNs

El uso de la cadena de métodos .isnull() y .any(axis=1) al dataframe retornará una serie indicando que filas tienen valores NULLs. Ojo axis=1 analiza a lo largo de la fila ---->

In [None]:
df.isnull().any(axis=1)

In [None]:
df.loc[335:335 , :]

Contemos los nulls, teniendo en cuenta que Python considera para la suma de booleanos True = 1 y False = 0

In [None]:
df.isnull().any(axis=1).sum()

Guardar serie de booleanos en una variable

In [None]:
bix = df.isnull().any(axis=1)

También puedes obtener un subset del dataframe controlando la serie booleana para ver los valores con NaNs. Cualquier fila donde la serie es True se guarda.

In [None]:
mySubset = df[bix]
mySubset

## Utiliza indexing Booleano para eliminar filas con NaN

Para esto es más sencillo contrastar con el uso del método .notnull() para encontrar las filas no NULL y guardar dicha serie booleana.

In [None]:
bix = df.notnull().all(axis=1)

Esto entrega el dataframe sin las filas null

In [None]:
df[bix]

Guardemos nuevo dataframe en una variable.

In [None]:
subset = df[bix]

## Summary Stats | Resumen Estadístico

Nota:
    * las variables que tenemos poseen muy diferentes escalas.
    * todas los valores son positivos
    * considera las distribuciones de las variables individuales:
        + Los sueldos -por ejemplo- son bastante asimétricos
        + Lo anterior es fácil de ver comparando el promedio y la mediana

In [None]:
subset.describe()

## Correlaciones de Pares (Pairwise Correlations)

Busca correlaciones para el atributo objetivo a predecir. Para las variables que estén altamente correlacionadas con el atributo objetivo, busca variables que a su vez, estén altamente correlacionadas con éstas. Mantén en mente que estas relaciones pueden causar problemas con futuros modelos de regresión.

In [None]:
subset.corr()

## Histograma de atributo objetivo (target)

Recuerden que en nuestra 2ª línea de comando, utilizamos "%matplotlib inline". Esta es la razón:

In [None]:
subset.salary_in_thousands_of_dollars.hist(bins=50)

## KDE Analisis, basado en porcentajes (KDE = Kernel Density Estimation)

Forma no-paramétrica de inferir función de densidad

In [None]:
subset.number_of_stolen_bases.plot(kind='kde')

In [None]:
subset.salary_in_thousands_of_dollars.plot(kind='kde')

## Scatter Plots

In [None]:
subset.plot(y='salary_in_thousands_of_dollars', x='number_of_runs', kind='scatter')

In [None]:
subset.plot(y='salary_in_thousands_of_dollars', x='number_of_runs_batted_in', kind='scatter')

In [None]:
subset.plot(y='salary_in_thousands_of_dollars', x='number_of_home_runs', kind='scatter')

## Scatter Matrix

In [None]:
pd.scatter_matrix(subset.iloc[:,:-4], alpha=0.2, figsize=(25, 25), diagonal='kde');