## Pandas Tutorial
### Dereck Banas `10/12/2020`
[Tutorial Youtube](https://www.youtube.com/watch?v=PcvsOaixUh8&list=PLGLfVvz_LVvSX7fVd4OUFp_ODd86H0ZIY&index=82&t=2303s)

[Github](https://github.com/derekbanas/pandas-tutorial/blob/master/Pandas%20Tutorial.ipynb)

### Library

In [1]:
import numpy as np
import pandas as pd

### Series

In [18]:
list_1 = ['a','b','c','d']
labels = [1,2,3,4]
# Creamos la serie
ser_1 = pd.Series(data = list_1, index = labels)
ser_1

# Creamos una serie partiendo de un array
arr_1 = np.array([1,2,3,4])
ser_2 = pd.Series(arr_1)
ser_2

# Creamos una serie partiendo de un diccionario
dic_1 = {"f_name": "Jorge", "l_name": "F", "Age": 32}
ser_3 = pd.Series(dic_1)
ser_3

# Conociendo el tipo de dato:
ser_2.dtype
ser_3.dtype

# Accediendo a los valores:
ser_3["f_name"]

# Operaciones con series:
ser_2 + ser_2
ser_2 - ser_2
ser_2 * ser_2

# Aplicando métodos de numpy
np.exp(ser_2)

# Añadiendo nombre a la serie
ser_4 = pd.Series({3:2, 4:2, 5:3, 7:2}, name = "Cuarta Serie")
print(ser_4.name)
ser_4

Cuarta Serie


3    2
4    2
5    3
7    2
Name: Cuarta Serie, dtype: int64

### Data Frames

#### Creando Data Frames / Creating DataFrames

In [19]:
# Creamos una matriz de 2 filas y 3 columnas que contiene numeros enteros aleatorios entre 10 y 50
arr_2 = np.random.randint(10,50, size=(2,3)) 
arr_2
# Creamos un dataFrame a partir de la matriz anterior que estará compuesto de A y B filas y C,D,E columnas
df_1 = pd.DataFrame(arr_2, ['A', 'B'], ['C','D','E']) 
df_1


# Creamos un DataFrame con múltiples series
dict_3 = {'one': pd.Series([1.,2.,3.], index = ['a','b','c']), 
         'two': pd.Series([1.,2.,3.,4.], index = ['a','b','c','d'])}
df_2 = pd.DataFrame(dict_3)
df_2

# Alternativas: 'from_dict'
pd.DataFrame.from_dict(dict([('A', [1,2,3]), ('B', [4,5,6])]))
pd.DataFrame.from_dict(dict([('A', [1,2,3]), ('B', [4,5,6])]), 
                       orient= "index", columns = ["one","two","three"])

# Obtención de número de filas y columnas (dimensión del DF)
print(df_1.shape)

(2, 3)


#### Editando y recuperando Data / Editing & Retrieving Data

In [None]:
print(df_1)
# llamamos una de las columnas
df_1["C"]
# Llamamos a multiples columnas
df_1[["C","E"]] # Doble corcherte

# Obteniendo valores de una fila
df_1.loc["A"]

# Obtener el valor de una fila a través de index
df_1.iloc[1]

# Obteniendo el valor de filas y columnas
print(df_1.loc[["A","B"],["C","E"]])

# Creando una nueva columna:
# Sumo los valores de las columnas anteriores
df_1["Total"] = df_1["C"]+df_1["D"]+df_1["E"]
df_1

# Creo una nueva columna que tendrá como valores el producto de las columnas one y two
print(df_2)
df_2["mult"] = df_2["one"]*df_2["two"]
df_2

# Añadimos una nueva fila

dict_2 = {'C': 44, 'D': 45, 'E':46} # establecemos los valores que tendrán las filas por cols
new_row = pd.Series(dict_2, name= 'F') # realizamos la asignación del nombre de la fila
df_1 = df_1.append(new_row) # añadimos la nueva fila al DF
df_1

# Eliminar columnas
df_1.drop("Total", axis = 1, inplace = True) # axis = 0 filas, axis = 1 columnas
df_1

# Eliminar Filas
df_1.drop("B", axis = 0, inplace = True)
df_1

# Crear una nueva columna y hacerla el índice usando "set_index"

# df_1["Sex"] = ["Men", "Women"]
# df_1.set_index("Sex", inplace = True)


# Puedes resetear los valores a numeros
#df_1.reset_index(inplace=True)
df_1

# Assign puede ser usada para crear una columna sin tocar la original del DF
df_2
df_2.assign(div=df_2['one'] / df_2['two'])

# Podemos añadirla también con una función lambda
df_2.assign(div=lambda x: (x['one'] / x['two']))

# Combinando DF que tiene data con NA's
df_3 = pd.DataFrame({'A': [1., np.nan, 3., np.nan]}) # creamos un nuevo df
df_4 = pd.DataFrame({'A': [8., 9., 2., 4.]})
df_3.combine_first(df_4) # combinamos conservando el df_3 pero reemplazaremos los valores na en el por los del df_4

#### Condicionales / Conditional Selection

In [38]:
# Creamos una matriz de 2 filas y 3 columnas con valores aleatorios
arr_2 = np.random.randint(10, 50, size = (2,3))
arr_2
# Creamos el dataFrame partiendo de los valores de la matriz arr_2
df1 = pd.DataFrame(arr_2, ['A','B'], ['C','D','E']) # Filas A y B , Columnas C, D y E
df1

print("Greater than 40\n", df1 > 40) # nos devolverá la información de tipo bool

# Podremos usar los operadores de comparación como :
# gt, lt, ge, le, eq, ne

print("Greater than 45\n", df_1.gt(45.0))

# Podemos utilizar condicionales colocandolos en corchetes:
bool_1 = df_1 >= 45.0
df_1[bool_1]

# Obteniendo bools( True or False) de una columnas en específico
df_1['E'] > 40

# Obtendremos la fila si el valor de la celda coincide o cumple la condicion de la columna:
df_1[df_1['E']>30]

# Podemos enfocarnos en los resultados de una columna basandonos en el resultado del DF
df_2 = df_1[df_1['E']>30]
df_2["C"]

# Podemos quedarnos con multiples columnas
print(df_1[df_1['E']>20][['C', 'D']])
print()

# Podemos usar multiples condiciones:
arr_3 = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
df_2 = pd.DataFrame(arr_3, ['A', 'B', 'C'], ['X', 'Y', 'Z'])
print(df_2, "\n")
# Podemos usar "or | y & para combinar condiciones
df_2[(df_2['X']>3) & (df_2['X']<7)]

Greater than 40
        C      D      E
A  False  False   True
B  False   True  False
Greater than 45
        C      D      E
A  False   True  False
B  False  False  False
    C   D
B  45  40

   X  Y  Z
A  1  2  3
B  4  5  6
C  7  8  9 



Unnamed: 0,X,Y,Z
B,4,5,6


#### File Input / Output
*Pandas* puede trabajar con los siguientes tipos de datos: CSV, Plain Text, JSON, XML, PDF, SQL, HTML, XLSX, DOCX, ZIP, Images Hierarchical Data Format, MP3, and MP4.

In [49]:
import pymysql

# Leemos el archivo CSV

cs_df = pd.read_csv("ComputerSales.csv")
cs_df

# Si quisiera modificar el archivo o simplemente realizar un respaldo y guardarlo:

cs_df.to_csv('ComputerSalesBU.csv', index=False) # sin que el indice sea tomado como una columna

# Leemos el archivo Excel, pero no fórmulas ni Macros
pd.read_excel('Financial Sample.xlsx',0)

# Guardo el archivo "ComputerSales" en formato excel:
#cs_df.to_excel('ComputerSales.xlsx')

# Confirmando si el archivo se generó de la manera correcta:
#pd.read_excel('ComputerSales.xlsx',0)

# Leemos desde una base de datos MySQL
  # Creamos la conexión a la base de datos:
    
#try:
    #db_connection = pymysql.connect(db='students', user='studentadmin', passwd='TurtleDove', host='localhost', port=3306) # debería revisar el puerto

    #stud_df = pd.read_sql('SELECT * FROM students', con=db_connection) # selecciona todo del table llamado students
    # print(stud_df)
#except Exception as e:
    #print("Exception : {}".format(e)) # Se imprime si tenemos algún problema para acceder a la base de datos
#finally:
    #db_connection.close()
    
# Write to table 
#try:
    #db_connection = pymysql.connect(db='students', user='studentadmin', passwd='TurtleDove', host='localhost', port=3306)
    # Used to issue queries
    #cursor = db_connection.cursor()
    # Query to enter new student
    #insert_stmt = "INSERT INTO students VALUES(NULL, 'Frank', 'Silva', 'fsilva@aol.com', '666 Hell St', 'Yakima', 'WA', 98901, '792-223-8966', '1959-2-22', 'M', NOW(), 3.50)"
    # Execute query
    #cursor.execute(insert_stmt)
    # Commit changes to DB
    #db_connection.commit()
    #stud_df = pd.read_sql('SELECT * FROM students', con=db_connection)
    #print(stud_df)
#except Exception as e:
    #print("Exception : {}".format(e))
#finally:
    #db_connection.close()

# Guardamos solo una columna de la data 
#cs_df_st = pd.read_csv('ComputerSales.csv', usecols=["State"], squeeze=True)
#cs_df_st

Exception : (2003, "Can't connect to MySQL server on 'localhost' ([Errno 61] Connection refused)")


NameError: name 'db_connection' is not defined

#### Basicos y Matemáticas / Basics & Math

In [86]:
# Obtenemos las primeras 5 filas:
cs_df.head()
# las ultimas 5:
cs_df.tail()
# si queremos solo las primeras 2:
cs_df[:2]
# las primeras 5 pero con un salto de 2:
cs_df[:5:2]

# Obtiendo los índices del DF:
cs_df.index.array

# si quisiera convertir la info contenida en un array de Numpy:
cs_df.to_numpy()

# Obtener un array de una serie:
ser_1.array

# trabajamos con un diccionario y creamos un DF con la info contenida en el:
dict_3 = {'one': pd.Series([1., 2., 3.], index=['a', 'b', 'c']),
         'two': pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])}
df_2 = pd.DataFrame(dict_3)

# Realizando reemplazos del NA (podemos reemplazar con 0 o cualquier otro valor)
print(df_2.fillna(0))

# Almacenamos los valores de la fila 2
row = df_2.iloc[1]
print(row)
# Sumamos los elementos en la fila dos a todas las filas incluyendo la dos
# Podemos hacer lo mismo con sub(resta) mul, y div 
print(df_2.add(row, axis='columns'))


# Almacenamos los valores de la columna 2
col = df_2['two']
print(col)
# la restamos de las otras columnas
print(df_2.sub(col, axis=0))

# Comprobamos si está vacío
df_2.empty


# Para transformar ejecutamos una función en el DF
    # Creamos un nuevo DF
df_5 = pd.DataFrame({'A': range(3), 'B': range(1, 4)})
df_5
    # Añadismos o sumamos 1 a cada uno de los valores
df_5.transform(lambda x: x+1)
    # Elevamos al cuadrado cada uno de los valores
df_5.transform(lambda x: x**2)
    # Obtenemos la raíz cuadrada de cada uno de los valores
df_5.transform(lambda x: np.sqrt(x))

# Podemos realizar multiples transfromaciones usando multiples funciones:
df_5.transform([lambda x: x**2, lambda x: x**3]) # Importante colocar los corchetes

# # Si pasamos un diccionario nos permitirá realizar diferentes calculos en diferentes columnas
df_5.transform({'A': lambda x: x**2, 'B': lambda x: x**3})

# map aplica la función a una serie
df_5['A'].map(lambda x: x**2)

# applymap hace lo mismo en un dataframe
df_5.applymap(lambda x: x**2)

# Obtenemos los valores unicos de la columna 2 del DF
df_2['two'].unique()

# Obtenemos la cantidad de valores únicos
df_2['two'].nunique()

# Obtenemos la frecuencia en la que cada valor aparece en la columna 2
df_2['two'].value_counts()

# Obtenemos el nombre de las columnas:
df_2.columns

# Index información
df_2.index

# Devuelve un DF que lista los valores null como True
df_2.isnull()


   one  two
a  1.0  1.0
b  2.0  2.0
c  3.0  3.0
d  0.0  4.0
one    2.0
two    2.0
Name: b, dtype: float64
   one  two
a  3.0  3.0
b  4.0  4.0
c  5.0  5.0
d  NaN  6.0
a    1.0
b    2.0
c    3.0
d    4.0
Name: two, dtype: float64
   one  two
a  0.0  0.0
b  0.0  0.0
c  0.0  0.0
d  NaN  0.0


Unnamed: 0,one,two
a,False,False
b,False,False
c,False,False
d,True,False


#### Agrupación de datos / Group Data

In [95]:
# Groupby nos permite agrupar filas en base a las columnas que determinemos 
dict_5 = {'Store': [1,2,1,2], 'Flavor': ['Choc', 'Van', 'Straw', 'Choc'], 
         'Sales': [26, 12, 18, 22]}

df_11 = pd.DataFrame(dict_5)

# Agrupamos la data por el store (numeros) 
by_store = df_11.groupby('Store')

# Obtenemos el promedio de ventas por store 
by_store.mean()

# Obtenemos el total de ventas solo para el store 1
by_store.sum().loc[1]

# podemos utilizar .describe() para obtener un conteo diversas funciones como: Max, Min..
by_store.describe()

Unnamed: 0_level_0,Sales,Sales,Sales,Sales,Sales,Sales,Sales,Sales
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
Store,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
1,2.0,22.0,5.656854,18.0,20.0,22.0,24.0,26.0
2,2.0,17.0,7.071068,12.0,14.5,17.0,19.5,22.0


#### Concatenación y unión de datos / Concatenate Merge & Join Data

In [98]:
# Podemos concatenar DataFrames según el orden en el que los obtuvimos
df_12 = pd.DataFrame({'A': [1,2,3],
                     'B': [4,5,6]},
                    index=[1,2,3])
df_13 = pd.DataFrame({'A': [7,8,9],
                     'B': [10,11,12]},
                    index=[4,5,6])
pd.concat([df_12, df_13])

# Vamos a fucionar dos 2 DFs usando la columna que comparten: key:

df_12 = pd.DataFrame({'A': [1,2,3],
                     'B': [4,5,6],
                     'key': [1,2,3]})
df_13 = pd.DataFrame({'A': [7,8,9],
                     'B': [10,11,12],
                     'key': [1,2,3]})
# inner merges at the intersection of keys
pd.merge(df_12, df_13, how='inner', on='key')
# how='left' or 'right' : Usa keys de izquiera o derecha de los datos
# how='outer' : Use union of keys

# Podemos unir DF con diferentes indices utilizando Keys como columna 
df_12 = pd.DataFrame({'A': [1,2,3],
                     'B': [4,5,6]},
                    index=[1,2,3])
df_13 = pd.DataFrame({'C': [7,8,9],
                     'D': [10,11,12]},
                    index=[1,4,5])
df_12.join(df_13, how='outer')

Unnamed: 0,A,B,C,D
1,1.0,4.0,7.0,10.0
2,2.0,5.0,,
3,3.0,6.0,,
4,,,8.0,11.0
5,,,9.0,12.0


#### Fuciones Estadísticas / Statistics

In [127]:
ics_df = pd.read_csv('icecreamsales.csv')
ics_df

# Obtener el conteo total de ambas columnas
ics_df.count() # El dataset contiene 12 datos en ambas columnas

# Obtener la suma de los datos
ics_df.sum()

# Si existiera valores o datos Nulos / NA podemos ignorarlos de la siguiente forma:

ics_df.sum(skipna=True)

# Obtener la media
ics_df["Sales"].mean()
# Mediana
ics_df["Sales"].median()
# Moda
ics_df["Sales"].mode()
# Mínimo
ics_df["Sales"].min()
# Máximo
ics_df["Sales"].max()
# El producto de los valores
ics_df["Sales"].prod() 
# Desviación Estandar
ics_df["Sales"].std() 
# Varianza
ics_df["Sales"].var()
# Erros Estandar
ics_df["Sales"].sem()
# Sesgo
ics_df["Sales"].skew()
    # Negativo : Left long tail, Positive : Right long tail
ics_df["Sales"].kurt() # Nos ayuda a verificar cuantos outliers encontramos en nuestra data
#Kurtosis : < 3 less outliers, 3 Normal Distribution > 3 more outliers
# Cuantiles
ics_df["Sales"].quantile(.5)
# Suma acumulada
ics_df["Sales"].cumsum()
# Mult Acumulada
ics_df["Sales"].cumprod()
# Maximo ac
ics_df["Sales"].cummax()
# Minimo ac
ics_df["Sales"].cummin()

# Multiples estadísticas:
ics_df.describe()

ser_dice = pd.Series(data=[2, 3, 3, 4, 4, 4, 5, 5, 5, 5, 6, 6, 
                           6, 6, 6, 7, 7, 7, 7, 7, 7, 8, 8, 8,
                          8, 8, 9, 9, 9, 9, 10, 10, 10, 11, 11, 12])
# Cuenta la frecuencia con la que aparece cda valor en la serie
ser_dice.value_counts()

# Podemos realizar multiples calculos usando aggregate

print(df_2)
df_2.agg(np.mean) # Utilizando la librería numpy

# O agrupando en corchetes: 
df_2.agg(['mean', 'std'])

   one  two
a  1.0  1.0
b  2.0  2.0
c  3.0  3.0
d  NaN  4.0


Unnamed: 0,one,two
mean,2.0,2.5
std,1.0,1.290994


#### Iteraciones / Iterations

In [142]:
# Iterando sobre una serie
ser_7 = pd.Series(range(5), index=['a', 'b', 'c', 'd', 'e'])
for col in ser_7:
    print(col)

# Iternando sobre un DF
arr_4 = np.random.randint(10, 50, size=(2, 3))
df_8 = pd.DataFrame(arr_4, ['B', 'C'], ['C', 'D', 'E'])
df_8

# Items nos permite iterar a través de key value para hacer calculos 1 columna a la vez
for label, ser in df_8.items():
    print(label)
    print(ser)

# También podemos iterar a través de filas
for index, row in df_8.iterrows():
    print(f"{index}\n{row}")
    
# Obteniendo una tupla que contiene los datos de la fila Get 
for row in df_8.itertuples():
    print(row)

0
1
2
3
4
C
B    32
C    45
Name: C, dtype: int64
D
B    29
C    36
Name: D, dtype: int64
E
B    19
C    18
Name: E, dtype: int64
B
C    32
D    29
E    19
Name: B, dtype: int64
C
C    45
D    36
E    18
Name: C, dtype: int64
Pandas(Index='B', C=32, D=29, E=19)
Pandas(Index='C', C=45, D=36, E=18)


#### Ordenando / Sorting

In [146]:
df_8

# Si quiero reversar el orden de los indices marco = ascending=False
df_8.sort_index(ascending=False)

# Puedo ordenar también por columna
df_8.sort_values(by='D')

Unnamed: 0,C,D,E
B,32,29,19
C,45,36,18


#### Pasar datos a funciones /Passing Data to Functions

In [150]:
import sys

# Podemos pasar una función a un DF
def get_profit_total(df):
    prof_ser = df['Profit']
    print(f"Total Profit : {prof_ser.sum()}")

get_profit_total(cs_df)

# Utilizaremos una función para separar en Nombre y apellido los datos contenidos en la columna Contact
def split_name(df):
    def get_names(full_name):
        # Separa cuando exista un espacio
        f_name, l_name = full_name.split()
        # Crea una serie con el nombre y apellido como columnas con ese nombre
        return pd.Series(
        (f_name, l_name),
        index=['First Name', 'Last Name']
        )
    # apply() ejecutará la función a todo los nombre contenidos en Contact
    names = df['Contact'].apply(get_names)
    df[names.columns] = names
    return df

split_name(cs_df).head()

# Asignaremos difentes grupos de edad:
def create_age_groups(df):
    # se asignarán los intervalos
    bins = [0, 30, 50, sys.maxsize]
    # Group labels
    labels = ['<30', '30-50', '>50']
    # cut colocará/ asginará los valoresputs según los intervalos
    age_group = pd.cut(df['Age'], bins=bins, labels=labels)
    # Creamos una nueva columna donde almacenaremos la data obtenida
    df['Age Group'] = age_group
    return df

create_age_groups(cs_df)

# Puedo llamar ambas funciones utilizando 'pipe'
cs_df.pipe(split_name).pipe(create_age_groups).head()

Total Profit : 5459.010000000001


Unnamed: 0,Sale ID,Contact,Sex,Age,State,Product ID,Product Type,Sale Price,Profit,Lead,Month,Year,First Name,Last Name,Age Group
0,1,Paul Thomas,M,43,OH,M01-F0024,Desktop,479.99,143.39,Website,January,2018,Paul,Thomas,30-50
1,2,Margo Simms,F,37,WV,GT13-0024,Desktop,1249.99,230.89,Flyer 4,January,2018,Margo,Simms,30-50
2,3,Sam Stine,M,26,PA,I3670,Desktop,649.99,118.64,Website,February,2018,Sam,Stine,<30
3,4,Moe Eggert,M,35,PA,I3593,Laptop,399.99,72.09,Website,March,2018,Moe,Eggert,30-50
4,5,Jessica Elk,F,55,PA,15M-ED,Laptop,699.99,98.09,Flyer 4,March,2018,Jessica,Elk,>50


#### Alineación, reindexación y cambio de nombre de etiquetas / Aligning, Reindexing and Renaming Labels

In [168]:
ser_6 = pd.Series(range(5), index=['a', 'b', 'c', 'd', 'e'])
sl_1 = ser_6[:4]
sl_2 = ser_6[1:]
print(sl_1)
print(sl_2)
# Alineamos las series con la union de sus indices
sl_1.align(sl_2)
# Alineamos llamando series
sl_1.align(sl_2, join='left') # Mantengo intacto la sl_1 y la Sl_2 se ajusta 

sl_1.align(sl_2, join='right')

# Obtenemos solo donde los indices se intersectan 
sl_1.align(sl_2, join='inner')

# Creamos dos df adicionales
arr_3 = np.random.randint(10, 50, size=(2, 3))
df_6 = pd.DataFrame(arr_3, ['A', 'B'], ['C', 'D', 'E'])
arr_3 = np.random.randint(10, 50, size=(2, 3))
df_7 = pd.DataFrame(arr_3, ['B', 'C'], ['C', 'D', 'E'])
print(df_6)
print(df_7)
df_6.align(df_7)

# reindex permite alinear datos por índice
ser_6.reindex(['c','b','a'])

# Hacemos lo mismo con DF
df_6.reindex(['B','A'])

# Drop es bastante parecido a reindex excepto que este recibe etiquetas
df_6.drop(['A'], axis=0)
df_6.drop(['D'], axis=1)

# Podemos renombrar columnas 
df_6.rename(columns={'C': 'Men', 'D': 'Women', 'E': 'Pets'},
           index={'A': 1, 'B': 2})

a    0
b    1
c    2
d    3
dtype: int64
b    1
c    2
d    3
e    4
dtype: int64
    C   D   E
A  49  27  34
B  34  42  37
    C   D   E
B  27  12  20
C  49  10  10


Unnamed: 0,Men,Women,Pets
1,49,27,34
2,34,42,37


# MultiIndex

In [177]:
# Multi-level index nos permite almacenar data en multiples dimensiones
days = ['Day 1', 'Day 1', 'Day 1', 'Day 2', 'Day 2', 'Day 2']
meals = [1,2,3,1,2,3]
# zip emparejara los días y las comidas
# Entonces vamos a crear una lista para los pares de tuplas
hier_index = list(zip(days, meals))
print(hier_index)
# Convertimos la lista de tuplas en cada fila y columna
hier_index = pd.MultiIndex.from_tuples(hier_index)

# Generamos un array aleatorio para representar las calorías por comida
arr_5 = np.random.randint(500, 700, size=(6, 2))

# Creamos un nuevo dataframe que incluirá:
df_9 = pd.DataFrame(arr_5, hier_index, ['M', 'F'])
print(df_9)

# Obtenemos la información del día 1
df_9.loc['Day 1']

# Obtenemos la primera fila como serie M F
df_9.loc['Day 1'].loc[1]

# Obtenemos las caloría consumidas por las mujeres en el día2 para su segunda comida:
df_9.loc['Day 2'].loc[2]['F']

# Asignamos los nombres de las columnas de los días y comidas
df_9.index.names = ['Day', 'Meal']
df_9

# Get a cross section
# This gets me the Day 2 DF
#df_9.xs('Day 2')

# Get calories for the 1st meal for both days by saying what
# meal index you want and the Meal column name
#df_9.xs(1, level='Meal')

# Create a MultiIndex out of a DF using a pivot table
#dict_6 = {'A':['Day 1', 'Day 1', 'Day 1', 'Day 2', 'Day 2', 'Day 2'],
         #'B': [1,2,3,1,2,3],
         #'C': ['M', 'F', 'M', 'F', 'M', 'F'],
         #'D': [1,2,3,4,5,6]}
#df_14 = pd.DataFrame(dict_6)
# Designate the D column is the data
# Make A & B a multilevel index
# Define column names come from column C
# You will have NaNs where data was missing
#df_14.pivot_table(values='D', index=['A','B'], columns=['C'])

[('Day 1', 1), ('Day 1', 2), ('Day 1', 3), ('Day 2', 1), ('Day 2', 2), ('Day 2', 3)]
           M    F
Day 1 1  567  500
      2  507  654
      3  685  528
Day 2 1  547  684
      2  563  506
      3  631  533


Unnamed: 0_level_0,Unnamed: 1_level_0,M,F
Day,Meal,Unnamed: 2_level_1,Unnamed: 3_level_1
Day 1,1,567,500
Day 1,2,507,654
Day 1,3,685,528
Day 2,1,547,684
Day 2,2,563,506
Day 2,3,631,533
