# Baseball Salaries Univariate Insights

## Objetivos de Estudio

Revisar información relacionada con columnas individuales
    * resumen estadístico
    * density plots
    * slicing de grupos y comparación de distribuciones de grupos

In [None]:
import pandas as pd

In [None]:
%matplotlib inline

## Obtención de Data

In [None]:
df = pd.read_csv('../data/baseball_data.csv')

## Estadísticas Resumidas de los Sueldos

Notas:
    * La Mediana del Sueldo es 740,000
    * El Promedio del Sueldo es 1,250,000
    * La distribución es bastante asimétrica, como será mostrada en el gráfico KDE abajo.

In [None]:
df.salary_in_thousands_of_dollars.describe()

## KDE Plot de Sueldos

Notas:
    * como es esperado, se observa una asimetría a la derecha
    * esto es razonable, debido a que los valores son forzados a ser mayores de cero
    * puede que exista una bimodalidad

In [None]:
df.salary_in_thousands_of_dollars.plot(kind='kde');

In [None]:
df.head()

## Analisis Estadístico Univariable de Grupos

###### indicator_of_free_agency_eligibility
free agency eligibility: significa jugadores que se encuentran con contratos libres para transferecia hacia otros equipos y sin ataduras contractuales.

Notas:
    * verde son los jugadores con restricciones y azul los jugadores libres
    * jugadores liberados son significativamente mejor pagados, al analizar las medias

In [None]:
col = 'indicator_of_free_agency_eligibility'
grp = df.groupby(col).salary_in_thousands_of_dollars
print(grp.describe())

bix = df[col] == 1
df[bix].salary_in_thousands_of_dollars.plot(kind='kde');

df[~bix].salary_in_thousands_of_dollars.plot(kind='kde');

###### indicator_of_arbitration_eligibility

arbitration eligibility: se refiere a jugadores que se encuentran entre los años 3 y 6 de contrato en su club. Por ley, estos pueden pasar a un panel de arbitraje de la confederación, en caso que estos no logren un acuerdo salarial con sus equipos.

Nota:
    * nuevamente los jugadores con capacidad de arbitraje son significativamente mejor pagados.

In [None]:
col = 'indicator_of_arbitration_eligibility'
grp = df.groupby(col).salary_in_thousands_of_dollars
print(grp.describe())

bix = df[col] == 1
df[bix].salary_in_thousands_of_dollars.plot(kind='kde');

df[~bix].salary_in_thousands_of_dollars.plot(kind='kde');

###### indicator_of_free_agent_in_1991_1992

In [None]:
col = 'indicator_of_free_agent_in_1991_1992'
grp = df.groupby(col).salary_in_thousands_of_dollars
print(grp.describe())

bix = df[col] == 1
df[bix].salary_in_thousands_of_dollars.plot(kind='kde');

df[~bix].salary_in_thousands_of_dollars.plot(kind='kde');

###### indicator_of_arbitration_in_1991_1992

In [None]:
col = 'indicator_of_arbitration_in_1991_1992'
grp = df.groupby(col).salary_in_thousands_of_dollars
print(grp.describe())

bix = df[col] == 1
df[bix].salary_in_thousands_of_dollars.plot(kind='kde');

df[~bix].salary_in_thousands_of_dollars.plot(kind='kde');