# Pandas

## Ordenar un DataFrame

In [None]:
# iportar pandas
import pandas as pd

In [None]:
# obtener datos de salarios de jugadores de baseball
mlb = pd.read_csv('mlbsalaries.csv')

In [None]:
mlb.head()

In [None]:
mlb.tail()

In [None]:
mlb.Year.value_counts()

In [None]:
mlb.Team.value_counts()

In [None]:
mlb.Position.value_counts()

Creamos un subconjunto de **mlb** para el año 2010

In [None]:
# identificar los jugadores del 2010
mlb.Year == 2010

In [None]:
# usar el criterio para extraer solo los jugadores del 2010
yr2010 = mlb[mlb.Year == 2010]

In [None]:
# crear un índice alfanumérico con base en "Name"
yr2010 = yr2010.set_index('Player')

In [None]:
yr2010.head()

## Operaciones de ordenamiento

In [None]:
# ordenar por etiquetas de renglón
yr2010.sort_index().head()

In [None]:
# ordenar por etiqueta de columnas
yr2010.sort_index(axis = 1).head(20)

In [None]:
# ordenar por valores de columna usado "order field"
yr2010.Salary.sort_values(ascending=False).head()

In [None]:
# Ordenar los valores de columnas usando el método
# sort_values()

yr2010.sort_values('Salary', ascending=False).head()

In [None]:
# ordenar valores de columnas usando el
# método sort_index() 
yr2010.sort_index(ascending=False, by='Salary').head(5)

In [None]:
yr2010.sort_values(ascending=False, by='Salary').head(5)

In [None]:
# ordenar los valores de varias columnas
yr2010.sort_values(['Salary', 'Team'], 
                   ascending=[False,True]).head(10)

In [None]:
# top 10 de salarios 
top10 = yr2010.Salary.sort_values(ascending=False).head(10)

In [None]:
type(top10)

In [None]:
top10

## Grupby

Una vez que se obtiene un conjunto de datos se desea ordenar y agrupar los datos de acuerdo a cierta característica. La operación `groupby()` consiste de tres pasos: *separar, analizar y combinar*

In [None]:
mlb.head()

Agrupamos por columna **Year**

In [None]:
grouped = mlb.groupby('Year')

In [None]:
type(grouped)

El objeto agrupado resultado de aplicar `groupby()` es un objeto iterable

In [None]:
for k,group in grouped:
    print (k)
    print (group)

Extraer los jugadores con mayor pago dentro de cada grupo (año)

In [None]:
# utilizaremos un generadorde forma similar a 
# la comprehensión de listas, permite obtener el
# pago mas alto por año
t = (group.sort_values(by='Salary', ascending=False)[:1] for yr,group in grouped)

In [None]:
type(t)

In [None]:
# convierte el objeto generador en un DataFrame
topsalaries = pd.DataFrame()
for line in t:
    topsalaries = topsalaries.append(line)

In [None]:
topsalaries

Creamos una serie de datos con los salarios mas altos y las gráficas correspondientes

In [None]:
ts = topsalaries[['Year', 'Salary']]

In [None]:
ts

In [None]:
ts = ts.set_index('Year')

In [None]:
ts

In [None]:
import matplotlib
ts.plot()

In [None]:
grouped['Salary'].median().plot()