# Introduccion a Pandas
- Pandas es una libreria de Python que permite facil y rapida manipulacion de datos categoricos y de series de tiempo
- Inicialmente desarrollado por un investigador de AQR Capital Management, por lo que incluye muchas aplicaciones financieras
- Hoy en dia, pandas es comunmente usado en *data science y *finanzas quantitativas*

### 1. Series
- Es un array unidimensional que puede contener cualquier data type (enteros, strings, floats, etc)
- Los valores dentro de un Series estan contenidos dentro de un array de NumPy (transformando a pandas en un *wrapper*)
- A diferencia de un array de NumPy, un Series tiene otros atributos como indice y nombre
- Este indice puede contener data categorica (e.g. sectores accionarios), fechas (formando series de tiempo), y otros

In [1]:
import pandas as pd  # Importamos la libreria

s = pd.Series(
    data=['Martin', 24, 'Ingeniero', False],
    index=['Nombre', 'Edad', 'Profesion', 'Egresado'],
    name='Datos personales'
)
print(s)

Nombre          Martin
Edad                24
Profesion    Ingeniero
Egresado         False
Name: Datos personales, dtype: object


In [2]:
# El objeto Series pertenece a una nueva clase
print(type(s))

<class 'pandas.core.series.Series'>


In [3]:
# Elementos que componen un Pandas Series
print('Valores del Series:\n', s.values)
print('\nIndice del Series:\n', s.index)
print('\nNombre del Series:\n', s.name)

Valores del Series:
 ['Martin' 24 'Ingeniero' False]

Indice del Series:
 Index(['Nombre', 'Edad', 'Profesion', 'Egresado'], dtype='object')

Nombre del Series:
 Datos personales


In [4]:
# Podemos acceder a valores del series usando el indice correspondiente
print(f"Mi nombre es {s['Nombre']} y soy {s['Profesion']}.")

Mi nombre es Martin y soy Ingeniero.


In [5]:
# Tambien podemos hacerlo utilizando indices numericos
print(f"Mi nombre es {s[0]} y soy {s[2]}.")

Mi nombre es Martin y soy Ingeniero.


### 2. DataFrame
- Es un array bidimensional que puede contener cualquier data type (enteros, strings, floats, etc)
- Un DataFrame es una estructura de datos con ejes (filas y columnas) etiquetadas
- Cada columna de un DataFrame es un Series
- Al igual que en un objeto Series, el indice (y columnas) de un DataFrame puede contener data categorica (e.g. sectores accionarios), fechas (formando series de tiempo), y otros

In [6]:
# Mi primer DataFrame
df = pd.DataFrame(
    data=[[24, 21, 27, 30], ['Ingeniero', 'Medico', 'Arquitecto', 'Ingeniero'], [False, False, True, True]],
    index=['Edad', 'Profesion', 'Egresado'],
    columns=['Martin', 'Maria', 'Laura', 'Jose']
)

print(df)

              Martin   Maria       Laura       Jose
Edad              24      21          27         30
Profesion  Ingeniero  Medico  Arquitecto  Ingeniero
Egresado       False   False        True       True


In [7]:
# El objeto DataFrame pertenece a una nueva clase
print(type(df))

<class 'pandas.core.frame.DataFrame'>


In [8]:
# Elementos que componen un Pandas Series
print('Valores del DataFrame:\n', df.values)
print('\nIndice del DataFrame:\n', df.index)
print('\nColumnas del DataFrame:\n', df.columns)

Valores del DataFrame:
 [[24 21 27 30]
 ['Ingeniero' 'Medico' 'Arquitecto' 'Ingeniero']
 [False False True True]]

Indice del DataFrame:
 Index(['Edad', 'Profesion', 'Egresado'], dtype='object')

Columnas del DataFrame:
 Index(['Martin', 'Maria', 'Laura', 'Jose'], dtype='object')


In [9]:
# Miremos mas de cerca
print(df['Martin'])

Edad                24
Profesion    Ingeniero
Egresado         False
Name: Martin, dtype: object


In [10]:
# Una forma de agregar una nueva entrada es con un Series
df['Barbara'] = pd.Series(
    [28, 'Ingeniero', True], 
    index=['Edad', 'Profesion', 'Egresado']
)

print(df)

              Martin   Maria       Laura       Jose    Barbara
Edad              24      21          27         30         28
Profesion  Ingeniero  Medico  Arquitecto  Ingeniero  Ingeniero
Egresado       False   False        True       True       True


In [11]:
# Usamos listas para seleccionar multiple entradas
print(df[['Martin', 'Jose']])

              Martin       Jose
Edad              24         30
Profesion  Ingeniero  Ingeniero
Egresado       False       True


In [12]:
# Y podemos seleccionar filas enteras con 'loc'
print(df.loc['Profesion'])

Martin      Ingeniero
Maria          Medico
Laura      Arquitecto
Jose        Ingeniero
Barbara     Ingeniero
Name: Profesion, dtype: object


In [13]:
# Tambien usamos 'loc' para acceder a una entrada especifica (fila, columna)
print(df.loc['Edad', 'Jose'])

30


In [14]:
edad = df.loc['Edad']  # Guardamos 'Edad' como un Series

edad_prom = edad.mean()
edad_min = edad.min()
edad_max = edad.max()
edad_total = edad.sum()
edad_n = edad.count()  # Numero de entradas no N/A
edad_q75 = edad.quantile(.75)
print(edad_prom, edad_min, edad_max, edad_total, edad_n, edad_q75)

26.0 21 30 130 5 28.0


In [15]:
# Nos enfocamos en los egresados
mascara = df.loc['Egresado']  # Vector de booleans
df2 = df.loc[:, mascara]  # ':' -> todas las filas/columnas
print(df2)

                Laura       Jose    Barbara
Edad               27         30         28
Profesion  Arquitecto  Ingeniero  Ingeniero
Egresado         True       True       True


In [16]:
# Cual es la edad promedio de los egresados?
print(df2.loc['Edad'].mean())

28.333333333333332


In [17]:
# Cual es la profesion mas comun entre los egresados?
profesion = df2.loc['Profesion']
ranking = profesion.groupby(profesion).count()
print(ranking)

Profesion
Arquitecto    1
Ingeniero     2
Name: Profesion, dtype: int64


In [18]:
# ...pero los rankings deberian estar ordenados
ranking = ranking.sort_values(ascending=False)
print(ranking)

Profesion
Ingeniero     2
Arquitecto    1
Name: Profesion, dtype: int64


### 3. IO
- En la practica, es comun trabajar con datos que ya estan guardados en:
    1. algun otro archivo (ej. .csv, .xlsx, .json) o
    2. directo desde una base de datos
- Pandas permite rapida y facil importacion de datasets con las funciones **.read**_ (ej. pd.read_excel(), pd.read_csv(), pd.read\_pickle())
- Cuando terminemos de trabajar con nuestra data y queramos guardar los resultados, podemos usar los metodos **.to**_ en el DataFrame/Series (ej. df.to\_excel(), df.to\_csv(), df.to\_pickle())

In [19]:
# Importemos una planilla Excel (mismo directorio que el codigo)
ciclos = pd.read_excel('nber_cycle.xlsx')
ciclos.head()

Unnamed: 0,Peak month,Trough month,"Duration, peak to trough","Duration, trough to peak","Duration, peak to peak","Duration, trough to trough"
0,,December 1854,,,,
1,June 1857,December 1858,18.0,30.0,,48.0
2,October 1860,June 1861,8.0,22.0,40.0,30.0
3,April 1865,December 1867,32.0,46.0,54.0,78.0
4,June 1869,December 1870,18.0,18.0,50.0,36.0


In [20]:
# Limpiamos un poco la data  
ciclos2 = ciclos.drop(['Duration, peak to peak', 'Duration, trough to trough'], axis=1)

# Y luego la guardamos
ciclos2.to_pickle('ciclos.pkl')

# Y donde se guardo?
import os
print(os.getcwd())  # <-- Carpeta en la que estamos trabajando

C:\Users\franc\Google Drive\bin\cuadernos
