# Introducción a Pandas
Ing. Carlos Crespo Elizondo, MSF
MF-013 Análisis de Inversión<br>
Clase del 12 de octubre 2021<br>

Maestría de Finanzas, Facultad de Economía<br>
UANL<br>

## ![](https://pandas.pydata.org/static/img/pandas.svg)

> _"pandas es una librería de Python que provee una rápida y flexible estructura de datos diseñada para trabajar con datos relacionados o etiquetados de manera fácil e intuitiva."_
>
> _"Python junto con pandas se usa en una amplia variedad áreas que incluyen finanzas, data science, neurociencia, economía, estadísticas, publicidad, análisis web y más."_<br>
> https://pandas.pydata.org

## Características de Pandas

* Rápido y eficiente para la manipulación de información a través de DataFrames

* Herramientas para leer y guardar información entre los datos generados y diferentes formatos como CSV, Excel, archivos de texto, bases de datos SQL, HDF5.

* Funcionalidad de series de tiempo.

## Estructura de datos en Pandas

Las estructuras de datos de Pandas más importante son:
1. Series:  Arreglos unidimensional que contiene una secuencia de valores y un array asociado de etiquetas para los datos, que se llama *__index__*.
2. DataFrames:  Representa una tabla rectangular que contiene una colección ordenada de columnas.  Contiene *__index__* tanto para las filas, como para las columnas.

## Cargando la librería pandas en Python

In [1]:
import pandas as pd

## Tipos de estructuras de datos en pandas

###  Serie

Podemos hacer Series utilizando listas:

In [2]:
precios = pd.Series([12.2, 13, 14, 15, 16, 17, 18])
precios

0    12.2
1    13.0
2    14.0
3    15.0
4    16.0
5    17.0
6    18.0
dtype: float64

A las series le podemos especificar index o etiquetas:

In [3]:
precios = pd.Series([12.2, 13, 14, 15], index=['08/07/21', '08/08/21', '08/09/21', '08/10/21'])
precios

08/07/21    12.2
08/08/21    13.0
08/09/21    14.0
08/10/21    15.0
dtype: float64

Asignarle index a las series nos funciona para accesar el valor por el nombre/valor del index, en este caso una fecha:

In [4]:
precios['08/07/21']

12.2

Podemos filtar por valores

In [5]:
precios[precios>13]

08/09/21    14.0
08/10/21    15.0
dtype: float64

In [6]:
precios[precios==13]

08/08/21    13.0
dtype: float64

Las operaciones con escalares son para cada elemento de la Serie:

In [7]:
precios * 10

08/07/21    122.0
08/08/21    130.0
08/09/21    140.0
08/10/21    150.0
dtype: float64

In [8]:
precios + precios

08/07/21    24.4
08/08/21    26.0
08/09/21    28.0
08/10/21    30.0
dtype: float64

In [9]:
precios-precios

08/07/21    0.0
08/08/21    0.0
08/09/21    0.0
08/10/21    0.0
dtype: float64

In [10]:
precios2 = precios * 10

Las operaciones matemáticas de dos o más series se efectúan en función al "match" entre index's, no importa su posición en la serie.  Lo único que importa en el nombre del index.

In [11]:
precios2

08/07/21    122.0
08/08/21    130.0
08/09/21    140.0
08/10/21    150.0
dtype: float64

#### Aplicar funciones de NumPy en pandas

Podemos aplicar también funciones de NumPy en pandas.

In [12]:
import numpy as np

Aplicarle logaritmo natural al df2 con `np.log`:

In [13]:
x = np.log(precios2)

In [14]:
x

08/07/21    4.804021
08/08/21    4.867534
08/09/21    4.941642
08/10/21    5.010635
dtype: float64

In [15]:
precios

08/07/21    12.2
08/08/21    13.0
08/09/21    14.0
08/10/21    15.0
dtype: float64

Convertir los valores de la serie `precios` a array de numpy:

In [16]:
array_precios = precios.values
array_precios

array([12.2, 13. , 14. , 15. ])

In [17]:
array_precios[0]

12.2

#### Crear una Serie a partir de un diccionario

In [18]:
dicc_cierre = {'btc':50000, 'xrp':.8, 'eth':3500, 'doge':.3, 'btg':500}

In [19]:
dicc_cierre

{'btc': 50000, 'xrp': 0.8, 'eth': 3500, 'doge': 0.3, 'btg': 500}

In [20]:
precios_cierre = pd.Series(dicc_cierre)
precios_cierre

btc     50000.0
xrp         0.8
eth      3500.0
doge        0.3
btg       500.0
dtype: float64

In [21]:
precios_cierre['eth']

3500.0

#### Definir orden en la Serie
Definir una lista con el órden deseado y ponerlo como index

In [22]:
orden = ['btc', 'doge', 'eth', 'xrp']
precios_cierre2 = pd.Series(dicc_cierre, index=orden)




In [23]:
precios_cierre2

btc     50000.0
doge        0.3
eth      3500.0
xrp         0.8
dtype: float64

In [24]:
precios_cierre + precios_cierre2

btc     100000.0
btg          NaN
doge         0.6
eth       7000.0
xrp          1.6
dtype: float64

### DataFrame

Podemos hacer un DataFrame (df) con un diccionario:

In [25]:
datos = {'Estados':['Coah', 'NL', 'Tam', 'SLP'], 'Poblacion':[2.9, 5.0, 3.5, 2.7],
         '#Municipios':[38, 51, 43, 58]}

In [26]:
df = pd.DataFrame(datos)
df

Unnamed: 0,Estados,Poblacion,#Municipios
0,Coah,2.9,38
1,NL,5.0,51
2,Tam,3.5,43
3,SLP,2.7,58


#### Seleccionar los valores de la columna `"Estados"`

In [27]:
df['Estados']

0    Coah
1      NL
2     Tam
3     SLP
Name: Estados, dtype: object

#### Seleccionar valores puntuales
Podemos seleccionar el valor `'NL'` haciendo referencia primero al nombre de la columna y después a su index:

In [28]:
df['Estados'][1]

'NL'

Pero *__NO__* podemos seleccionar la fila index `1` de esta misma manera:

In [29]:
df[1]

KeyError: 1

Para eso necesitamos utilizar `iloc` o `loc` que veremos más adelante.

#### Seleccionar varias columnas
Seleccionar una columna:

In [30]:
df['Poblacion']

0    2.9
1    5.0
2    3.5
3    2.7
Name: Poblacion, dtype: float64

Seleccionar dos columnas (o más):

In [31]:
df[['Estados', 'Poblacion']]

Unnamed: 0,Estados,Poblacion
0,Coah,2.9
1,NL,5.0
2,Tam,3.5
3,SLP,2.7


In [32]:
df

Unnamed: 0,Estados,Poblacion,#Municipios
0,Coah,2.9,38
1,NL,5.0,51
2,Tam,3.5,43
3,SLP,2.7,58


#### Asignar una columna nueva y un valor escalar para toda la columna

In [33]:
df['PIB'] = 23.4

In [34]:
df

Unnamed: 0,Estados,Poblacion,#Municipios,PIB
0,Coah,2.9,38,23.4
1,NL,5.0,51,23.4
2,Tam,3.5,43,23.4
3,SLP,2.7,58,23.4


#### Asignar una columna nueva y diferentes valores (utilizando la función de numpy arange)

In [35]:
df['PIB'] = np.arange(4)
df

Unnamed: 0,Estados,Poblacion,#Municipios,PIB
0,Coah,2.9,38,0
1,NL,5.0,51,1
2,Tam,3.5,43,2
3,SLP,2.7,58,3


#### Egregar una serie a un DataFrame

Hacer Serie `pobreza`

#### SOLUCIóN PROPUESTA POR BRENDA Y DANIEL:

In [36]:
pobreza = pd.Series([.03, .02, .01], index=[1, 2, 3])

In [37]:
pobreza

1    0.03
2    0.02
3    0.01
dtype: float64

In [38]:
df['IndicePobreza'] = pobreza
df

Unnamed: 0,Estados,Poblacion,#Municipios,PIB,IndicePobreza
0,Coah,2.9,38,0,
1,NL,5.0,51,1,0.03
2,Tam,3.5,43,2,0.02
3,SLP,2.7,58,3,0.01


#### LO QUE YO INTENTABA HACER:

In [39]:
pobreza = pd.Series([.03, .02, .01], index=['NL', 'Tam', 'SLP'])

In [40]:
df['IndicePobreza'] = pobreza
df

Unnamed: 0,Estados,Poblacion,#Municipios,PIB,IndicePobreza
0,Coah,2.9,38,0,
1,NL,5.0,51,1,
2,Tam,3.5,43,2,
3,SLP,2.7,58,3,


Al no tener los Estados como index, Panda no encontraba los index 'NL', 'Tam' y 'SLP' y por eso asignaba `NaN` a los index del `0` al `3`

# HASTA AQUí TERMINAMOS LA CLASE

#### Que es lo que tenemos que hacer?  Cambiar los estados a index

### Comparando valores

### Una manera de borrar columnas

## Trabajando con DataFrame's

### Formas para construir desde cero un DataFrame

<table>
  <tr>
      <th><center>Tipo</center></th>
      <th><center>Comentario</center></th>
    
  </tr>
  <tr>
    <td style="text-align:left;">ndarryas de 2D.</td>
    <td style="text-align:left;">Una matriz de datos.</td>
  </tr>
  
  <tr>
    <td style="text-align:left;">Diccionario de arrays, listas o tuplas.</td>
    <td style="text-align:left;">Cada secuencia se vuelve una columna en el DataFrame.  Todas las secuencias deben de ser de la misma longitud.</td>
  </tr>
  
  <tr>
    <td style="text-align:left;">Numpy.</td>
    <td style="text-align:left;">pandas lo trata como un diccionario de arrays.</td>
  </tr>
  
  <tr>
    <td style="text-align:left;">Diccionario de Series.</td>
    <td style="text-align:left;">Cada valor se vuelve una columna.  Los index de cada Serie son unidos para formar el index del DataFrame.</td>
  </tr>
  
  <tr>
    <td style="text-align:left;">Diccionario de diccionario</td>
    <td style="text-align:left;">Cada diccionario interno se vuelve una columna y sus llaves se vuelven el index.  La llave exterior de los diccionarios se vuelven los titulos de las columnas.</td>
  </tr>
  
  <tr>
    <td style="text-align:left;">Lista de diccionarios o Series.</td>
    <td style="text-align:left;">Cada elemento se convierte en una fila del DataFrame.  La unión de las llaves de los diccionarios o el index de las Series, se vuelven los titulos de las columnas.</td>
  </tr>
  
<tr>
    <td style="text-align:left;">Lista de listas.</td>
    <td style="text-align:left;">Se trata al igual que los ndarrays de 2D.</td>
  </tr>

<tr>
    <td style="text-align:left;">Otro DataFrame</td>
    <td style="text-align:left;">Se utilizan los index del DataFrame original, al menos que se indiquen otros.</td>
  </tr>

</table>

### Método "drop"

#### "drop" momentaneo

#### "drop" permanente

### Atributo "inplace"

### Indexing

#### Indexing en series

#### Indexing en DataFrames

### Slicing index con "iloc" y "loc"

*__iloc__* y *__loc__* están diseñados para hacer slicing en los *__index__* de los DataFrame's.  Nos permiten seleccionar un subset de **indexes** y también **columnas**.
* *__loc__* lo utilizamos si queremos seleccionar con las **etiquetas** del index o columna
* *__iloc__* lo utilizamos si queremos seleccionar con la **posición númerica** del index o columna.

### Operaciones artiméticas y alineación de datos

## Estadísticas descriptivas


<table>
  <tr>
    <th style="text-align:center;">Método</th>
    <th style="text-align:center;">Descripción</th>
  </tr>
  
  <tr>
    <td style="text-align:left;">count</td>
    <td style="text-align:left;">El número de valores que no sean NaN</td>
  </tr>
  
  <tr>
    <td style="text-align:left;">describe</td>
    <td style="text-align:left;">Calcula un resumen de varias estadísticas por columna </td>
  </tr>
  
  <tr>
    <td style="text-align:left;">min</td>
    <td style="text-align:left;">Valor mínimo</td>
  </tr>
  
  <tr>
    <td style="text-align:left;">max</td>
    <td style="text-align:left;">Valor máximo</td>
  </tr>
  
  <tr>
    <td style="text-align:left;">idxmin</td>
    <td style="text-align:left;">Encuentra el valor del index en donde está el valor mínimo</td>
  </tr>
  
  <tr>
    <td style="text-align:left;">idxmax</td>
    <td style="text-align:left;">Encuentra el valor del index en donde está el valor máximo</td>
  </tr>
  
  <tr>
    <td style="text-align:left;">quantile</td>
    <td style="text-align:left;">Valor cuantil</td>
  </tr>
  
  <tr>
    <td style="text-align:left;">sum</td>
    <td style="text-align:left;">Suma los valores</td>
  </tr>
  
  <tr>
    <td style="text-align:left;">mean</td>
    <td style="text-align:left;">Media de los valores</td>
  </tr>
  
  <tr>
    <td style="text-align:left;">median</td>
    <td style="text-align:left;">Media de los valores</td>
  </tr>
  
  <tr>
    <td style="text-align:left;">prod</td>
    <td style="text-align:left;">Multiplica todos los valores</td>
  </tr>
  
  <tr>
    <td style="text-align:left;">var</td>
        <td style="text-align:left;">Varianza de la muestra de los valores</td>
  </tr>
  
  <tr>
    <td style="text-align:left;">std</td>
    <td style="text-align:left;">Desviación estándar de la muestra de los valores</td>
  </tr>
  
  <tr>
    <td style="text-align:left;">skew</td>
    <td style="text-align:left;">Asimetría de la muestra de los valores</td>
  </tr>
  
  <tr>
    <td style="text-align:left;">kurt</td>
    <td style="text-align:left;">Kurtosis de la muestra de los valores</td>
  </tr>
  
  <tr>
    <td style="text-align:left;">cumsum</td>
    <td style="text-align:left;">Suma acomulada de los valores</td>
  </tr>
  
  <tr>
    <td style="text-align:left;">cumprod</td>
    <td style="text-align:left;">Producto acomulado de los valores</td>
  </tr>
  
  <tr>
    <td style="text-align:left;">pct_change</td>
    <td style="text-align:left;">Porcentaje de cambio</td>
  </tr>



</table>

## Series de tiempo

Estos son algunas de las frecuencias de mayor utilidad:
<table>
  <tr>
    <th style="text-align:center;">Alias</th>
    <th style="text-align:center;">Tipo</th>
    <th style="text-align:center;">Descripción</th>
  </tr>
  
  <tr>
    <td style="text-align:center;">D</td>
    <td style="text-align:left;">Día</td>
    <td style="text-align:left;">Día calendario</td>
  </tr>
  
  <tr>
    <td style="text-align:center;">B</td>
    <td style="text-align:left;">Dia laborables</td>
    <td style="text-align:left;">Dias laborales diarios</td>
  </tr>
  
  <tr>
    <td style="text-align:center;">H</td>
    <td style="text-align:left;">Hora</td>
    <td style="text-align:left;">Por hora</td>
  </tr>
  
  <tr>
    <td style="text-align:center;">T</td>
    <td style="text-align:left;">minuto</td>
    <td style="text-align:left;">Por minuto</td>
  </tr>
  
  <tr>
    <td style="text-align:center;">S</td>
    <td style="text-align:left;">Segundos</td>
    <td style="text-align:left;">Por segundo</td>
  </tr>
  
  <tr>
    <td style="text-align:center;">M</td>
    <td style="text-align:left;">Fin de mes</td>
    <td style="text-align:left;">Último día calendario del mes</td>
  </tr>
  
  <tr>
    <td style="text-align:center;">BM</td>
    <td style="text-align:left;"></td>
    <td style="text-align:left;">Último día laboral del mes</td>
  </tr>
  
  <tr>
    <td style="text-align:center;">MS</td>
    <td style="text-align:left;"></td>
    <td style="text-align:left;">Primer día calendario del mes</td>
  </tr>
  
  <tr>
    <td style="text-align:center;">BMS</td>
    <td style="text-align:left;"></td>
    <td style="text-align:left;">Primer día laboral entre semana</td>
  </tr>
  
  <tr>
    <td style="text-align:left;">W-MON, W-TUE,...</td>
    <td style="text-align:left;">Semana</td>
    <td style="text-align:left;">Semanal en el día dado (MON, TUE, WED, THU, FRI, SAT, SUN</td>
  </tr>
  
  <tr>
    <td style="text-align:left;">BQ-JAN, BQ-FEB...</td>
    <td style="text-align:left;">Trimestres</td>
    <td style="text-align:left;">Trimestral a partir del último día laboral del mes seleccionado</td>
  </tr>
  
</table>

## Leer datos externos

<table>
  <tr>
    <th style="text-align:center;">Función</th>
    <th style="text-align:center;">Descripción</th>
  </tr>
  
  <tr>
    <td style="text-align:left;">read_csv</td>
    <td style="text-align:left;">Lee archivos delimitados de un directorio, URL.  El delimitador por default es ","</td>
  </tr>
  
  <tr>
  
  <tr>
    <td style="text-align:left;">read_table</td>
    <td style="text-align:left;">Lee archivos delimitados de un directorio, URL.  El delimitador por default es "-TAB-"</td>
  </tr>
  
  <tr>
    <td style="text-align:left;">read_fwf</td>
    <td style="text-align:left;">Lee archivos con datos con anchos de columna fijos, no delimitados</td>
  </tr>
  
  <tr>
    <td style="text-align:left;">read_clipboard</td>
    <td style="text-align:left;">Similar a read_table, pero lee lo que tienes copiado en el clipboard!</td>
  </tr>
  
  <tr>
    <td style="text-align:left;">read_excel</td>
    <td style="text-align:left;">Lee datos tabulares en XLS o XLSX</td>
  </tr>
  
  <tr>
    <td style="text-align:left;">read_html</td>
    <td style="text-align:left;">Lee todas las tablas HTML de una dirección web</td>
  </tr>
  
  <tr>
    <td style="text-align:left;">read_json</td>
    <td style="text-align:left;">Lee datos de archivos JSON</td>
  </tr>
  
  <tr>
    <td style="text-align:left;">read_sas</td>
    <td style="text-align:left;">Lee datos de archivos SAS</td>
  </tr>
  
  <tr>
    <td style="text-align:left;">read_sql</td>
    <td style="text-align:left;">Lee datos de la BD SQL</td>
  </tr>
  
  <tr>
    <td style="text-align:left;">read_stat</td>
    <td style="text-align:left;">Lee datos de archivos STAT</td>
  </tr>

## Datos históricos del Baseball 1871-2021 (bateo)

> "*The game breaks your heart. It is designed to break your heart. The game begins in spring, when everything else begins again, and it blossoms in the summer, filling the afternoons and evenings, and then as soon as the chill rains come, it stops and leaves you to face the fall alone.”.-* Bartlett Giamatti<br><br>
>"*A baseball game has six minutes of action crammed into two-and-one-half hours.*".- Ray Fitzgerald 

In [None]:
url = 'https://github.com/chadwickbureau/baseballdatabank/raw/master/core/Batting.csv'

## Graficar utilizando Matplotlib