<a href="https://colab.research.google.com/github/Kev0707/MathUCE/blob/main/Econometria_Notebook_00.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 0. Introducción a Python

- Elaborado por John Cajas-Guijarro: https://sites.google.com/view/johncajasguijarro/
- Documento de base: cap.1 del libro *Using Python for Introductory Econometrics* (Heiss y Brunner, 2023): https://lc.cx/oa02s-
- Scripts con códigos disponibles en: http://www.upfie.net/downloads/Chapter1.html

## 0.1. Empezando en Python

### 0.1.1. Comentarios, texto y creación de variables

In [None]:
# Este es un comentario (línea informativa que no genera ningún resultado)

In [None]:
# Imprimir texto
'Hola mundo'

In [None]:
# Realizar operaciones matemáticas
1+1

In [None]:
# Guardar resultados de operaciones matemáticas
var1 = 1+1
var2 = 5*(4-1)**2

In [None]:
# Mostrar el valor de la variable "var1"
var1

In [None]:
# Mostrar el valor de la variable "var2"
var2

In [None]:
# Combinar valores de variables y texto
print(f'Uno más uno: \n{var1}') # "\n" permite comenzar una nueva línea de texto

### 0.1.2. Módulos y directorio de trabajo

In [None]:
# Módulo: archivos de Python que contienen funciones y variables.
# Podemos acceder a esos archivos para aprovechar sus códigos

In [None]:
# Importar el módulo "math" y acceder a sus funciones con la sigla "m" (puede usarse cualquier sigla)
import math as m

In [None]:
# Aplicando algunas funciones de "math" (accedemos por medio de la sigla "m" y un punto ".")
var3 = m.sqrt(16) #Raíz cuadrada (sqrt)
var4 = m.pi #Número pi = 3.14159...
var5 = m.e #Número de Euler e = 2.7182...
print(f'Raíz cuadrada de 16: {var3} \nNúmero pi: {var4} \nNúmero de Euler: {var5}')

In [None]:
# Algunos módulos importantes:
# numpy: "Numerical Python: paquete para computación numérica con arreglos de datos (arrays)
# pandas: "Python Data Analysis: estructuras para análisis de datos, series temporales y estadística"
# pandas_datareader: "Lectores de datos extraídos desde la base de códigos de pandas"
# statsmodels: "Computación estadística clásica, econometría y modelos para Python"
# matplotlib: "Paquete para graficar en Python"
# scipy: "Scientific Python: librería científica para Pyton"
# linearmodels: "Modelos de variable instrumental y panel lineal para Python"

# En VSC recomendable instalar módulos desde "Anaconda Prompt" (pip install nombre_modulo).
# En Google colab puede instalarse un módulo con !pip install nombre_modulo

In [None]:
# Importar módulo para conocer el directorio de trabajo actual
import os

In [None]:
# Mostrar directorio de trabajo actual
os.getcwd()

In [None]:
# Mostrar archivos dentro del directorio de trabajo
os.listdir()

In [None]:
# Cambiar directorio de trabajo
# os.chdir('Nuevo directorio')

### 0.1.3. Otros recursos útiles

- Tutorial oficial de Python: https://docs.python.org/es/3.14/tutorial/index.html
- Enlaces adicionales a recursos externos (p.ej. tutoriales, libros): https://wiki.python.org/moin/BeginnersGuide
- Enlace a a documentación de los módulos disponibles en el Python Package Index (PIP): https://pypi.org
- Modelación económica cuantitativa con Python: https://python.quantecon.org/
- Stack Overflow: foro de discusión general para programadores, incluyendo usuarios de Python: https://stackoverflow.com
- Cross Validated: foro de discusión sobre estadística y análisis de datos: https://stats.stackexchange.com

## 0.2. Objetos en Python

Python puede trabajar con varios objetos (p.ej. números, listas, arreglos, texto, conjuntos de datos, gráficos, funciones). En esta sección revisamos algunos de los más importantes.

### 0.2.1. Variables y objetos

In [None]:
# Objeto tipo texto
var6, var7 = "abc", "hola" # Ejemplo de asignación usando una Tupla ('abc','hola')
var6, var7

In [None]:
# Eliminar una variable
del var7

In [None]:
# Variables booleanas (verdadero o falso)
var7 = True
var8 = 6 == 8

In [None]:
# Tipos de objetos
tipo_var1 = type(var1)
tipo_var2 = type(var2)
tipo_var3 = type(var3)
tipo_var4 = type(var4)
tipo_var5 = type(var5)
tipo_var6 = type(var6)
tipo_var7 = type(var7)
tipo_var8 = type(var8)
print(f'La variable 1 ({var1}) es un objeto tipo: {tipo_var1} (número entero)')
print(f'\nLa variable 2 ({var2}) es un objeto tipo: {tipo_var2} (número entero)')
print(f'\nLa variable 3 ({var3}) es un objeto tipo: {tipo_var3} (número decimal)')
print(f'\nLa variable 4 ({var4}) es un objeto tipo: {tipo_var4} (número decimal)')
print(f'\nLa variable 5 ({var5}) es un objeto tipo: {tipo_var5} (número decimal)')
print(f'\nLa variable 6 ({var6}) es un objeto tipo: {tipo_var6} (objeto de texto)')
print(f'\nLa variable 7 ({var7}) es un objeto tipo: {tipo_var7} (booleano: verdadero o falso)')
print(f'\nLa variable 8 ({var8}) es un objeto tipo: {tipo_var8} (booleano: verdadero o falso)')

In [None]:
# Crear una lista de valores y combinar con texto
# Lista: estructura que guarda múltiples variables en un orden (incluso de diferentes tipos)
lista0 = [var1, var2, var3, var4, var5, var6, var7, var8]
print(f'Lista de valores: \n{lista0} \nTipo de objeto: {type(lista0)}')

In [None]:
# Crear lista solo con objetos numéricos
lista1 = [1, 5, 41.3, -8, 2.0]
lista1

In [None]:
# Acceder al primer elemento de una lista (Se usa "0" para el primer elemento)
lista1[0]

In [None]:
# Acceder al tercer elemento de una lista (notar que se indica un paso anterior por el 0 inicial)
lista1[2]

In [None]:
# Acceder a un rango de valores de una lista (segundo al cuarto valor)
lista1[1:4]

In [None]:
# Modificar el tercer valor de una lista
lista1[3]=-10
lista1

In [None]:
# Aplicar la función "max" a una lista
max(lista1)

In [None]:
# Aplicar el método "sorth" ("ordenar") a una lista
lista1.sort()
lista1

In [None]:
# Eliminar primer elemento de una lista
del lista1[0]
lista1

In [None]:
# Al crear una lista como "=" a otra lista, las modificaciones afectan a la lista original
duplicado_lista1 = lista1
duplicado_lista1[3] = 10000
print(f'Lista duplicada: {duplicado_lista1}\n')
print(f'Lista original: {lista1}\n(Notar que el último término de la lista original se modificó)')

In [None]:
# La forma adecuada de duplicar una lista sin modificar a la original es con el símbolo ":"
lista1 = [1, 2.0, 5, 41.3]
duplicado_lista1 = lista1[:]
duplicado_lista1[3] = 10000
print(f'Lista duplicada: {duplicado_lista1}\n')
print(f'Lista original: {lista1}\n(Notar que el último término de la lista original no se modificó)')

In [None]:
# Agregar elemento a una lista y guardar como lista nueva
lista1 = [1, 2.0, 5, 41.3]
lista2 = lista1 + [-9]
lista1,lista2

In [None]:
# Diccionario: conjunto no ordenado de elementos
# Definir un diccionario
lista1 = ["Ana","Juan"]
lista2 = [18, 9]
lista3 = [True, False]
diccionario1 = dict(nombre=lista1, nota=lista2, aprueba=lista3)
print(f'Diccionario de ejemplo: \n{diccionario1}')

In [None]:
# Forma alternative de definir un diccionario
diccionario1 = {"nombre": lista1, "nota": lista2, "aprueba": lista3}
print(f'Diccionario de ejemplo: \n{diccionario1}')

In [None]:
# Tipo de objeto
print(f'Un diccionario es un objeto de tipo {type(diccionario1)}')

In [None]:
# Acceder a la información de "nota" del diccionario
diccionario1["nota"]

In [None]:
# Acceder a la "nota" de "Juan"
diccionario1["nota"][1]

In [None]:
# Agregar 6 puntos a "Juan" y "aprobarlo"
diccionario1["nota"][1] = diccionario1["nota"][1]+6
diccionario1["aprueba"][1] = True
diccionario1

In [None]:
# Agregar una nueva variable "edad"
diccionario1["edad"] = [22,25]
diccionario1

In [None]:
# Copiar un diccionario
import copy
duplicado_diccionario1 = copy.deepcopy(diccionario1)
duplicado_diccionario1["nota"][1]=duplicado_diccionario1["nota"][1]-5
del duplicado_diccionario1["aprueba"] # Eliminar variable aprueba en el diccionario duplicado
print(f'Diccionario original: {diccionario1}')
print(f'\nDiccionario duplicado y modificado: {duplicado_diccionario1}')

### 0.2.2. Objetos en **numpy**

In [None]:
# Importar módulo numpy (con énfasis en vectores y matrices numéricas)
import numpy as np

In [None]:
# Definir un arreglo (array) de una dimensión usando numpy (vector)
array1D = np.array([1, 2.0, 5, 41.3])
array1D

In [None]:
# Acceder al tercer elemento de array1D
array1D[2]

In [None]:
# Acceder al primero y al tercer elemento de array1D usando índices
array1D[[0,2]]

In [None]:
# Acceder al primero y al tercer elmento de array1D usando booleanos
array1D[[True,False,True,False]]

In [None]:
# Definir un arreglo (array) de dos dimensiones usando numpy (matriz 3x4)
array2D = np.array([
    [4,9,8,3],
    [2,6,3,2],
    [1,1,7,4]
])
array2D

In [None]:
# Obtener dimensión del array2D
dim_array2D = array2D.shape
print(f'Dimensión de array2D: {dim_array2D}')

In [None]:
# Acceder al elemento de la segunda fila y tercera columna (1,2) de array2D
array2D[1,2]

In [None]:
# Acceder a la primera y la tercera fila de array2D
array2D[[0,2]]

In [None]:
# Acceder a los elementos de todas filas (:) y de la segunda y tercera columna (1:3)
array2D[:,1:3]

In [None]:
# Crear matriz de booleanos
k = np.array([
    [True,False,False,False],
    [False,False,True,False],
    [True,False,True,False]
])
k

In [None]:
# Usar matriz k para acceder a elementos de array2D (resultado en forma de vector)
array2D[k]

In [None]:
# Crear array indicando inicio, fin y número de elementos igualmente espaciados
np.linspace(0,2,num=11)

In [None]:
# Crear array que empieza en 0 y posee el número de elementos indicado
np.arange(5)

In [None]:
# Crear array con 4 filas y 3 columnas con valores de 0
np.zeros((4,3))

In [None]:
# Crear array con 2 filas y 5 columnas con valores de 1
np.ones((2,5))

In [None]:
# Crear array con 2 filas y 5 columnas con valores arbitrarios
np.empty((2,5))

In [None]:
# Crear dos matrices con np.array
mat1 = np.array([
    [4,9,8],
    [2,6,3]
])
mat2 = np.array([
    [1,5,2],
    [6,6,0],
    [4,8,3]
])

In [None]:
# Suma de matrices (matrices deben tener igual dimensión)
mat1+mat2[[0,1]]

In [None]:
# Resta de matrices (matrices deben tener igual dimensión)
mat1-mat2[[0,1]]

In [None]:
# Multiplicación elemento a elemento entre matrices (no confundir con multiplicación matricial)
mat1 * mat2[[0,1]]

In [None]:
# Multiplicación matricial (opción 1)
mat1 @ mat2

In [None]:
# Multiplicación matricial (opción 2)
mat1.dot(mat2)

In [None]:
# División elemento a elemento entre matrices
mat2[[0,1]] / mat1

In [None]:
# Obtener la raíz cuadrada de cada elemento de una matriz
np.sqrt(mat1)

In [None]:
# Aplicar logaritmo a cada elemento de una matriz
np.log(mat1)

In [None]:
# Obtener la inversa de una matriz
np.linalg.inv(mat2)

In [None]:
# Verificar que una matriz multiplicada por su inversa resulta en matriz identidad
mat2 @ np.linalg.inv(mat2)

In [None]:
# Transponer una matriz
mat1.T

### 0.2.3. Objetos en **pandas**

In [None]:
# Importar pandas: módulo para trabajar con tablas de datos "dataframes"
# Dataframe: estructura de datos donde filas suelen ser observaciones y columnas suelene ser variables
# En VSC se recomienda instalar la extensión "Data Wrangler" para mejorar la visualización de "detaframes"
import pandas as pd

In [None]:
# Crear un dataframe con las variables "ventas", "clima" y "clientes"
ventas = np.array([30, 40, 35, 130, 120, 60])
clima_cod = np.array([0, 1, 0, 1, 1, 0])
clientes = np.array([2000, 2100, 1500, 8000, 7200, 2000])
df = pd.DataFrame({'Ventas': ventas,
                   'Clima_cod': clima_cod,
                   'Clientes': clientes})
df

In [None]:
# Definir y asignar un índice (para identificar observaciones)
# Indice mensual (ME) desde abril de 2010 (04/2010) y con extensión de 6 meses
indice = pd.date_range(start='04/2010', freq='ME', periods=6)
indice

In [None]:
# Asignar índice al dataframe df
df.set_index(indice, inplace=True)
df

In [None]:
# Acceder a columnas por nombre de variables
df[['Ventas', 'Clientes']]

In [None]:
# Acceder a las filas 2 a 4 (opción 1)
df[1:4]

In [None]:
# Acceder a las filas 2 a 4 (opción 2)
df['2010-05-31':'2010-07-31']

In [None]:
# Acceder a una fila y columna usando índice y nombre de variables
df.loc['2010-05-31','Clientes']

In [None]:
# Acceder a una fila y columna usando ubicación específica (segunda fila, tercera columna de df)
df.iloc[1,2]

In [None]:
# Acceder a rangos de valores (filas 1 a 3 y columnas 1 a 2) (opción 1)
df.iloc[1:4, 0:2]

In [None]:
# Acceder a rangos de valores (filas 1 a 3 y columnas 1 a 2) (opción 1)
df.loc['2010-05-31':'2010-07-31',['Ventas','Clima_cod']]

In [None]:
# Primeras 5 observaciones de df
df.head()

In [None]:
# Últimas 5 observaciones de df
df.tail()

In [None]:
# Estadísticas descriptivas de df
df.describe()

In [None]:
# Usar un objeto categórico de pandas para agregar etiquetas a df
df['Clima']=pd.Categorical.from_codes(codes=df['Clima_cod'],
                                      categories=['Malo', 'Bueno'])
df

In [None]:
# Obtener promedio por categoría de clima
df.groupby('Clima',observed=True).mean()

In [None]:
# Agregar el "primer rezago" de las ventas en df
df['Ventas_lag1'] = df['Ventas'].shift(1)
df

## 0.3. Datos externos

### 0.3.1. Datos usados en los ejemplos

In [None]:
# Para reproducir varios de los ejemplos de Wooldridge (2019) usaremos el módulo "
# ridge"
# En VSC recomendable instalar desde "Anaconda Prompt" con "pip install
# ridge"
# En Google colab instalar con:
!pip install wooldridge
import wooldridge as woo

In [None]:
# Datos de ejemplo
wage1 = woo.dataWoo('wage1') # Cargamos base "wage1"
print(f'Tipo de objeto de la base "wage1": {type(wage1)}') # Revisamos el tipo de objeto (pandas)

In [None]:
# Primeras 5 observaciones
wage1.head()

### 0.3.2. Importar o exportar bases de datos

In [None]:
# pandas permite importar (como dataframe) y exportar datos desde diferentes formatos
# Archivos de texto (TXT): "read_table" y "to_table"
# Valores separados por comas (CSV): "read_csv" y "to_csv"
# Excel (XLS y XLSX): "read_excel" y "to_excel"
# Stata (DTA): "read_stata" y "to_stata"
# SAS (XPORT y SSD): "read_sas" y "to_sas"
# SPSS (SAV): "read_spss" y "to_sav"

In [None]:
# Importar datos en formato TXT (guardados en una carpeta "Datos/00" dentro del directorio de trabajo)
# df1=pd.read_table('Datos/ej_datos_texto.txt',delimiter=' ')
# df1

In [None]:
# Importar datos en formato TXT (desde enlace de Google Drive)
df1 = pd.read_table('https://drive.google.com/uc?id=1mOakb6eP0pXjAUEZ__qOzD25BhHZ02Fj', delimiter=' ')
df1

In [None]:
# Importar datos en formato CSV (guardados en una carpeta "Datos/00" dentro del directorio de trabajo)
# df2=pd.read_table('Datos/ej_datos_csv.txt',delimiter=' ')
# df2

In [None]:
# Importar datos en formato CSV (desde enlace de Google Drive)
df2 = pd.read_table('https://drive.google.com/uc?id=1NhR_XBJ1wdxnJh4HXwAIqaPaE1jGDZkK',
                    delimiter=',', header=None,
                    names=['year','product1','product2','product3'])
df2

In [None]:
# Agregar una fila a df1
nueva_fila = pd.DataFrame([{'year':2014, 'product1':10, 'product2':8, 'product3':2}])
df3 = pd.concat([df1,nueva_fila],ignore_index=True)
df3

### 0.3.3. Datos desde otras fuentes

In [None]:
# pandas_datareader es un módulo que facilita importar datos desde bases disponibles en línea
# !pip install pandas_datareader
import pandas_datareader as pdr

In [None]:
# Descargar datos del precio de petróleo WTI (DCOILWTICO) desde la FRED (Federal Reserve Economic Data)
wti_data = pdr.data.DataReader(name='DCOILWTICO',
                               data_source='fred',
                               start='2014-01-01',
                               end='2024-12-31')
wti_data.tail()

In [None]:
# Decargar datos de Apple (AAPL) desde https://stooq.com/ (sitio web de cotizaciones financieras)
apple_data = pdr.data.DataReader(name='AAPL',
                                   data_source='stooq',
                                   start='2017-01-01',
                                   end='2024-12-31')
apple_data.head()

In [None]:
# Importar datos desde Yahoo Finance
# !pip install yfinance
import yfinance as yf

In [None]:
# Importar cotizaciones de Bitcoin
btc_data = yf.download('BTC-USD',
                       start='2017-01-01',
                       end='2024-12-31',
                       auto_adjust=False) #Precios originales sin ajustar
btc_data.head()

### 0.3.4. Dato del Banco Central del Ecuador

In [None]:
# Cargamos quinta y sexta hojas de archivo de Excel de cuentas nacionales del Banco Central del Ecuador
# Quinta hoja ('Dem_Cad_bru'): "Miles de USD, Niveles Encadenados, 2018 = 100, Datos Brutos"
# Sexta hoja ('Dem_Cad_ajus'): "Miles de USD, Niveles Encadenados, 2018 = 100, Datos Ajustados de Estacionalidad"
base_bce = pd.read_excel('https://drive.google.com/uc?id=191SATyN_BMwwm8NgKoa_VsI8c5pkLCEH',
                    sheet_name=['Dem_Cad_bru','Dem_Cad_ajus'],
                    header=None)
bce_db, bce_da = base_bce.values()

In [None]:
# Primeras 15 filas de 'datos brutos' del BCE
bce_db.head(15)

In [None]:
# Últimas 15 filas de 'datos brutos' del BCE
bce_db.tail(15)

In [None]:
# Extraemos valores del PIB (desde fila 11 hasta 110) y convertimos en millones (originales en miles)
val_pibb = bce_db.iloc[11:111, 1].astype(float).values/ 1000
val_piba = bce_da.iloc[11:111, 1].astype(float).values/ 1000

In [None]:
# Creamos un índice de fechas (primer trimestre de 2000 hasta cuarto trimestre de 2024)
fechas_pib =pd.date_range(start="2000Q1",end="2025Q1",freq="QE-DEC")

In [None]:
# Creamos series temporales del PIB
seriet_pibb=pd.Series(val_pibb,index=fechas_pib,name='PIB (mill USD 2018, datos brutos)')
seriet_piba=pd.Series(val_piba,index=fechas_pib,name='PIB (mill USD 2018, datos ajustados de estacionalidad)')

In [None]:
# Observamos la serie
seriet_pibb

## 0.4. Gráficos básicos con matplotlib

In [None]:
# El módulo matplotlib permite generar diversos tipos de gráficos en Python
import matplotlib.pyplot as plt

### 0.4.1. Gráficos básicos

In [None]:
# Datos para gráfico X vs Y
x = [1,3,4,7,8,9]
y = [0,3,6,9,7,8]
# Crear gráfico
plt.plot(
    x,y, # Valores en el eje horizontal (x) y vertical (y)
    color='black', # Color de línea
    linestyle='--',  # Estilo de línea (otras opciones: '-', ':', '')
    linewidth=2, # Grosor de línea
    marker='o', # Marcador de puntos (otras opciones: 'v')
    markersize=6 #Tamaño de marcadores
)
plt.title('Ejemplo de gráfico X-Y en Python') # Título del gráfico
plt.xlabel('Variable X') # Etiqueta para eje horizontal
plt.ylabel('Variable Y') # Etiqueta para eje vertical
# plt.savefig('Figuras/figura01.png') # Guardar gráfico en PC (p.ej. VSC) (Otros formatos: pdf, jgp, svg)
plt.show() # Mostrar el gráfico en pantalla
plt.close() # Resetear gráfico para crear uno nuevo

In [None]:
# Crear soporte para una función cuadrática
# Crear array con 100 elementos equidistantes entre -3 y 2
x1 = np.linspace(-3,2, num=100)
# Función (elevar al cuadrado) aplicada a todos los valores del array x1
y1 = x1**2

# Graficar la función cuadrática
plt.figure(figsize=(8,5)) # Tamaño de la figura (ancho y alto) en pulgadas
plt.plot(x1,y1,linestyle='-',color='black')
plt.axhline(y = 0, linestyle=':', color='0.5') # Agrega una línea horizontal en "y = 0"
plt.axvline(x = 0, linestyle=':', color='0.5') # Agrega una línea vertical en "x = 0"
# plt.savefig('Figuras/figura02.png')
plt.show()
plt.close()

In [None]:
# Importamos scipy.stats para apoyarnos en gráfica de funciones de densidad
import scipy.stats as stats

# Crear soporte para una función de densidad normal (campana de Gauss)
x2 = np.linspace(-4,4,num=100)
y2 = stats.norm.pdf(x2)

# Graficar función de densidad normal
plt.plot(x2,y2,linestyle='-',color='black')
# plt.savefig('Figuras/figura03.png')
plt.show()
plt.close()

### 0.4.2. Sobreponiendo varios gráficos

In [None]:
# Graficar tres funciones de densidad normal sobrepuestas

# Soporte para todas las funciones de densidad
x = np.linspace(-4,4,num=100)
# Obtener tres evaluaciones diferentes de la densidad normal
y1 = stats.norm.pdf(x,0,1) # Normal estándar, es decir, con media 0, desviación estándar 1
y2 = stats.norm.pdf(x, 1, 0.5) # Normal con media 1 y desviación estándar 0.5
y3 = stats.norm.pdf(x, 0, 2) # Normal con media 0 y desviación estándar 2

# Graficar
plt.plot(x, y1, linestyle='-', color='black', label='Normal estándar')
plt.plot(x, y2, linestyle='--', color='0.3', label='mu = 1, sigma = 0.5')
plt.plot(x, y3, linestyle=':', color='0.6', label=r'$\mu = 0$, $\sigma = 2$')
plt.xlim(-3,4)
plt.title('Densidades normales')
plt.ylabel(r'$\phi(x)$')
plt.xlabel('x')
plt.legend() # Agrega una leyenda para distinguir gráficos a partir del texto en cada "label"
# plt.savefig('Figuras/figura04.png')
plt.show()
plt.close()

In [None]:
# Ejemplo de escritura de texto en Látex
from IPython.display import Math
Math(r'\alpha=\frac{\beta+\gamma}{\delta}')

In [None]:
# Gráfica de serie temporal del PIB (datos brutos y datos ajustados de estacionalidad)
plt.figure(figsize=(13, 5)) # Tamaño del gráfico: 13 pulgadas horizontal, 5 pulgadas vertical
plt.plot(seriet_pibb, color='blue', linewidth=1, marker='o',markersize=3, label='Datos brutos') # Gráfica del PIB datos bruto
plt.plot(seriet_piba, color='red', linewidth=1, label='Datos ajustados de estacionalidad') # Gráfica del PIB datos bruto
plt.title("PIB ecuatoriano trimestral real (millones de dólares de 2018)",fontsize=14) # Título
plt.ylabel("Millones de dólares de 2018") # Etiqueta en eje vertical
plt.xlabel("Trimestres (2000.T1 - 2024.T4)") # Etiqueta en eje horizontal
plt.grid() # Cuadrícula
plt.legend() # Leyenda
# plt.savefig('Figuras/PIB.png')
plt.show()
plt.close()

## 0.5. Estadísticas descriptivas

### 0.5.1. Distribuciones discretas: tablas de frecuencia y de contingencia

In [None]:
# Cargar base de datos 'affairs' del paquete 'Wooldridge' (woo)
# Base sobre comportamiento marital e infidelidad en Estados Unidos ara 601 individuos
# Con esa base construiremos una tabla de contingencia entre "valoración de matrimonio" vs "tiene hijos"
affairs = woo.dataWoo('affairs')
print(f'Dimensión de la base "affairs": {affairs.shape}')
affairs.head(10)

In [None]:
# Ajustar las categorías de la variable 'ratemarr' (valoración del matrimonio)
# Originalmente las categorías son: 1 = "muy infeliz" ... 5 = "muy feliz"
# Cambiar las categorías pues se requiere que empiecen en 0
affairs['ratemarr'] = affairs['ratemarr']-1
affairs.head(10)

In [None]:
# Usar un objeto pandas.Categorical para agregar equiquetas indicando si el matrimonio tiene hijos o no
# La variable de referencia es 'kids', la nueva variable es 'haskids'
affairs['haskids'] = pd.Categorical.from_codes(affairs['kids'],
                                               categories=['no','yes'])
affairs.head(10)

In [None]:
# Usar un objeto pandas.Categorical para agregar equiquetas indicando la valoración del matrimonio
# La variable de referencia es 'ratemarr', la nueva variable es 'marriage'
# Empezamos armando una lista con las equietas (labels) de las categorías
mlab = ['very unhappy', 'unhappy', 'average', 'happy', 'very happy']
affairs['marriage'] = pd.Categorical.from_codes(affairs['ratemarr'],
                                                categories=mlab)
affairs.head(10)

In [None]:
# Tabla de frecuencia para variable 'marriage' con numpy (orden alfabético)
tablaf_np = np.unique(affairs['marriage'],return_counts=True)
valoraciones = tablaf_np[0]
num_casos = tablaf_np[1]
print(f'Valoraciones: \n{valoraciones}\n')
print(f'Número de casos: \n{num_casos}\n')

In [None]:
# Tabla de frecuencia para variable 'marriage' con pandas
tablaf_pd = affairs['marriage'].value_counts()
print(tablaf_pd)

In [None]:
# Gráfico de pastel desde la tabla de frecuencias para 'marriage'
plt.pie(tablaf_pd, labels=mlab,colors=['0.5','0.6','0.7','0.8','0.9'], autopct='%1.1f%%')
# plt.savefig('Figuras/figura05.png')
plt.show()
plt.close()

In [None]:
# Gráfco de barras horizontales desde la tabla de frecuencias para 'marriage'
plt.barh([0,1,2,3,4],tablaf_pd,color='0.6') # [0,1,2,3,4] indica ubicaciones de barras
plt.yticks([0,1,2,3,4],mlab,rotation=60) # Agregar y ajustar las etiquetas
# plt.savefig('Figuras/figura06.png')
plt.show()
plt.close()

In [None]:
# Tabla de frecuencia con 'marriage' dividido por subgrupos con hijos y sin hijos
tablaf_pd2 = affairs['marriage'].groupby(affairs['haskids'], observed=True).value_counts()
print(tablaf_pd2)

In [None]:
# Gráfico de columnas apiladas con 'marriage' dividido por subgrupos con hijos y sin hijos
plt.bar([0,1,2,3,4], tablaf_pd2['yes'], width=0.4, color='0.6', label='Yes')
# La opción 'bottom=tablaf_pd2['yes']' permite agregar las barras sobre aquellas previamente creadas
plt.bar([0,1,2,3,4], tablaf_pd2['no'], width=0.4, bottom=tablaf_pd2['yes'], color='0.3', label='No')
plt.ylabel('Número de casos')
plt.xticks([0,1,2,3,4],mlab) # Agregar etiquetas en el eje horizontal
plt.legend()
# plt.savefig('Figuras/figura07.png')
plt.show()
plt.close()

In [None]:
# Gráfico de columnas agrupadas con 'marriage' dividido por subgrupos con hijos y sin hijos
# Crear primero las columnas que van a la izquierda
plt.bar([-0.2,0.8,1.8,2.8,3.8], tablaf_pd2['yes'], width=0.4, color='0.6', label='Yes')
plt.bar([0.2,1.2,2.2,3.2,4.2], tablaf_pd2['no'], width=0.4, color='0.3', label='No')
plt.ylabel('Número de casos')
plt.xticks([0,1,2,3,4],mlab)
plt.legend()
# plt.savefig('Figuras/figura08.png')
plt.show()
plt.close()

In [None]:
# Tabla de contingencia en pandas ('marriage' vs 'haskids', número de casos)
# La opción 'margins' indica si se incluye el total por filas y columnas
tablacon_abs = pd.crosstab(affairs['marriage'],affairs['haskids'],margins=True)
print(tablacon_abs)

In [None]:
# Tabla de contingencia en pandas ('marriage' vs 'haskids', proporción del total)
# La opción 'normalize=all' genera la proporción con respecto al total
tablacon_rel = pd.crosstab(affairs['marriage'],affairs['haskids'],normalize='all',margins=True)
print(tablacon_rel)

In [None]:
# Tabla 'marriage' vs 'haskids' como proporción del total por filas ('marriage')
# La opción 'normalize=index' genera la proporción por filas
tablacon_rel_fila = pd.crosstab(affairs['marriage'],affairs['haskids'],normalize='index',margins=True)
print(tablacon_rel_fila)

In [None]:
# Tabla 'marriage' vs 'haskids' como proporción del total por columnas ('haskids')
# La opción 'normalize=columns' genera la proporción por filas
tablacon_rel_col = pd.crosstab(affairs['marriage'],affairs['haskids'],normalize='columns',margins=True)
print(tablacon_rel_col)

### 0.5.2. Distribuciones continuas: histogramas y densidades

In [None]:
# Es posible tratar como continuas a variables que toman muchos valores distintos
# En este caso es común trabajar por valores agrupados en intervalos

In [None]:
# Cargamos la base de datos 'ceosal1' del paquete 'Wooldridge' (woo)
# Base de datos sobre salarios de ejecutivos (CEO) en grandes empresas de Estados Unidos
ceosal1 = woo.dataWoo('ceosal1')
print(f'Dimensión de la base "ceosal1": {ceosal1.shape}')
ceosal1.head(10)

In [None]:
# Extraer información del ROE (return on equity) (rentabilidad sobre el capital)
roe = ceosal1['roe']

In [None]:
# Graficar histograma de ROE usando número de casos
plt.hist(roe,color='grey') # Python define automáticamente intervalos y posiciones
plt.ylabel('Número de casos')
plt.xlabel('roe')
# plt.savefig('Figuras/figura09.png')
plt.show()
plt.close()

In [None]:
# Graficar histograma de ROE usando densidad (frecuencia relativa) e indicando intervalos
plt.hist(roe,color='grey',bins=[0,5,10,20,30,60], density=True, edgecolor='black')
plt.ylabel('Densidad')
plt.xlabel('roe')
# plt.savefig('Figuras/figura10.png')
plt.show()
plt.close()

In [None]:
# Gráfico de densidad kernel: estimación de distribución de probabilidad desde una muestra
# La estimación se realiza utilizando 'funciones suaves' (kernels)

In [None]:
# Primero importamos el móduo 'statsmodels.api'
import statsmodels.api as sm

In [None]:
# Estimar densidad kernel de ROE
kde = sm.nonparametric.KDEUnivariate(roe)
kde.fit()

# Graficar densidad kernel
plt.plot(kde.support,kde.density,color='black',linewidth=2)
plt.ylabel('Densidad')
plt.xlabel('roe')
# plt.savefig('Figuras/figura11.png')
plt.show()
plt.close()

In [None]:
# Graficar densidad kernel con histograma sobrepuesto
plt.hist(roe,color='grey',density=True)
plt.plot(kde.support, kde.density,color='black',linewidth=2)
plt.ylabel('Densidad')
plt.xlabel('roe')
# plt.savefig('Figuras/figura12.png')
plt.show()
plt.close()

### 0.5.3. Función de distribución acumulativa empírica

In [None]:
# Empirical Cumulative Distribution Function (ECDF)
# ECDF: gráfico de todos los valores 'x' de una variable vs % de observación con valor <= a 'x'

In [None]:
# Calcular ECDF
x = np.sort(roe)
n = x.size
y = np.arange(1,n+1)/n #Genera proporción acumulativa de observaciones

# Graficar una función escalonada
plt.step(x,y,linestyle='-', color='black')
plt.xlabel('roe')
# plt.savefig('Figuras/figura13')
plt.show()
plt.close()

### 0.5.4. Principales estadísticos descriptivos

In [None]:
# Extraer variable "salary" de la base "ceosal1"
salary = ceosal1['salary']

***
***Promedio muestral***: Indica el valor medio; sensible a datos extremos

$\bar{S}_i=\frac{1}{n}\sum_{i=1}^nS_i$

In [None]:
# Promedio muestral
print(f'Promedio muestral de "salary" en base "ceosal1": \n{np.mean(salary)}')

***
***Mediana muestral***: Indica el valor que divide a la muestra en partes iguales; no es sensible a datos extremos

In [None]:
# Mediana muestral
print(f'Mediana muestral de "salary" en base "ceosal1": \n{np.median(salary)}')

***
***Varianza muestral***: Indicador del promedio del cuadrado de las desviaciones con respecto a la media. Las unidades de la varianza con el cuadrado de las unidades de la variable original.

$Var(S)=\frac{1}{n-1}(S_i-\bar{S})^2$

In [None]:
# Varianza muestral
print(f'Varianza muestral de "salary" en base "ceosal1": \n{np.var(salary, ddof=1)}')

***
***Desviación estándar muestral***: Raíz cuadrada de la varianza. Indicador de "dispersión promedio" de los datos con respecto a la media. Las unidades coinciden con aquellas de la variable original.

$Desv.Est.(S)=\sqrt{Var(S)}$

In [None]:
# Desviación estándar muestral
print(f'Desviación estándar muestral de "salary" en base "ceosal1": \n{np.std(salary,ddof=1)}')

***
***Covarianza muestral***: Mide cuán fuerte es la relación lineal entre dos variables. Sus unidades coinciden con el producto de las unidades de las variables analizadas.

$Cov(R,S)=\frac{1}{n-1}\sum_{i=1}^n(R_i-\bar{R})(S_i-\bar{S})$

In [None]:
# Covarianza muestral entre "salary" y "roe" (matriz de varianza-covarianza)
print(f'Covarianza muestral entre "salary" y "roe" en base "ceosal1": \n{np.cov(roe,salary)}')

***
***Coeficiente de correlación muestral***: Indica cuán fuerte es la relación lineal entre dos variables y se obtiene "estandarizando" la covarianza. Es un índice que toma valores entre -1 (ajuste lineal perfecto con relación inversa) y 1 (ajuste lineal perfecto con relación directa). Cuando es cero indica que no existe relación lineal entre las variables.

$Corr(R,S)=\frac{Cov(R,S)}{\sqrt{Var(R)}\sqrt{Var(S)}}$

In [None]:
# Correlación muestral entre "salary" y "roe" (matriz de correlación)
print(f'Correlación muestral entre "salary" y "roe" en base "ceosal1": \n{np.corrcoef(roe,salary)}')

In [None]:
# Gráficos de caja: mediana (línea intermedia), cuartil superior e inferior (caja), mínimos y máximos (no extremos) y valores extremos
# 50% de casos están "dentro" de la caja; 25% están por encima y 25% están por debajo

In [None]:
# Gráfico de caja de variabe "roe" de base "ceosal1"
plt.boxplot(roe, vert=False)
plt.ylabel('roe')
# plt.savefig('Figuras/figura14')
plt.show()
plt.close()

In [None]:
# Extraer info de variable 'consprod' (=1 si empresa produce bienes de consumo; =0 caso contrario)
consprod = ceosal1['consprod']
consprod.value_counts()

In [None]:
# Gráficos de caja de "roe" para empresas que no producen y sí producen bienes de consumo
plt.boxplot([roe[consprod==0],roe[consprod==1]])
plt.ylabel('roe')
plt.xticks([1, 2], ['No produce B de Consumo', 'Sí produce B de Consumo'])
# plt.savefig('Figuras/figura15')
plt.show()
plt.close()

## 0.6. Distribuciones de probabilidad

In [None]:
# Módulo "scipy" tiene varias funciones que permiten trabajar con distribuciones de probabilidad
# Variable aleatoria: representación numérica de un resultado aleatorio
# Función de densidad de probabilidad (Probability Density Function, PDF) para variables continuas
# Función de masa de probabilidad (Probability Mass Function, PMF) para variables discretas
# Función de distribución acumulada (Cumulative Distribution Function, CDF)
# Función cuantil (Quantile Function, inversa de la CDF)

### 0.6.1. Distribuciones discretas

- **Variables aleatorias discretas**: solo pueden tomar valores contables (p.ej. número de estrellas).

- **Función de masa de probabilidad (probability mass function) (PMF)**: Función que indica la probabilidad de que la variable aleatoria $X$ tome un valor específico $x$: $p(x) = P(X=x)$

***
***Distribución uniforme discreta***

- **Simbología**: $X \sim U\{a,...,b\}$

- **Descripción**: $X=a,a+1,a+2,...,b$

- **Función de masa de probabilidad**: $P(X=a) = ... = P(X=b)$, todos los casos tienen igual probabilidad de ocurrencia (equiprobable) (p.ej. dado)

- **Principales momentos**: $E(X)=\frac{a+b}{2}$, $Var(X)=\frac{n^2-1}{12}$ donde $n=b-a+1$ indica el número de valores

In [None]:
# Parámetros
a = 1 # Primer valor de la variable X
b = 6 # Último valor de la variable X

# Valores de la variable X
x = np.arange(a, b+1) # Notar que "no se crea el último valor"
xg = np.arange(a-1, b+1+1) # Para gráfica CDF

# Función de masa de probabilidad (PMF) y función de distribución acumulada (CDF) para cada valor
fx = stats.randint.pmf(x,a,b+1)
Fx = stats.randint.cdf(x,a,b+1)
Fxg = stats.randint.cdf(xg,a,b+1) # Para gráfica CDF

# Agrupar resultados en un DataFrame
tabla_dist = pd.DataFrame({'x': x, 'PMF': fx, 'CDF':Fx})
print(f'Distribución de probabilidad uniforme discreta: X ~ U{{{a},{b}}} \n{tabla_dist}')

# Gráfico de PMF
plt.bar(x,fx,color='0.6',edgecolor="black")
plt.title(f'Función de Masa de Probabilidad (PMF) de v.a. uniforme discreta: X ~ U{{{a},{b}}}')
plt.xlabel('x')
plt.ylabel('f(x)')
plt.grid(alpha=0.4)
plt.show()
plt.close()

# Gráfico de CDF
plt.step(xg, Fxg, where='post', color='black')
plt.xlabel('x')
plt.ylabel('F(x)')
plt.title(f'Función de Distribución Acumulada (CDF) de v.a. uniforme discreta: X ~ U{{{a},{b}}}')
plt.grid(alpha=0.4)
plt.show()
plt.close()

***
***Distribución de Bernoulli***

- **Simbología**: $X \sim Be(p)$

- **Variable aleatoria**: $X=0$ para el fracaso y $X=1$ para el éxito, donde el éxito ocurre un una probabilidad $p$.

- **Función de masa de probabilidad**: $p(x)=p^x(1-p)^{1-x}$ con $x=0,1$
  
- **Principales momentos**: $E(X)=p$, $Var(X)=p(1-p)$, $M(t)=(1-p)+pe^t$

In [None]:
# Valores de la variable X
x = [0,1]
xg = np.linspace(-0.1, 1.1, num=1000) # Para gráfica CDF

# Parámetros
p = 0.2 # Probabilidad de éxito

# Función de masa de probabilidad (PMF) y función de distribución acumulada (CDF) para cada valor
fx = stats.bernoulli.pmf(x,p)
Fx = stats.bernoulli.cdf(x,p)
Fxg = stats.bernoulli.cdf(xg,p) # Para gráfica CDF

# Agrupar resultados en un DataFrame
tabla_dist = pd.DataFrame({'x': x, 'PMF': fx, 'CDF': Fx})
print(f'Distribución de probabilidad de Bernoulli: X ~ Be({p})\n{tabla_dist}')

# Gráfico de PMF
plt.bar(x,fx,color='0.6',edgecolor='black')
plt.xticks(x, ['0', '1'])
plt.title(f'Función de Masa de Probabilidad (PMF) de v.a. de Bernoulli: X ~ Be({p})')
plt.xlabel('x')
plt.ylabel('fx')
plt.grid(alpha=0.4)
plt.show()
plt.close()

# Gráfico de CDF
plt.step(xg,Fxg,color="black")
plt.title(f'Función de Distribución Acumulada (CDF) de v.a. de Bernoulli: X ~ Be({p})')
plt.xlabel('x')
plt.ylabel('Fx')
plt.grid(alpha=0.4)
plt.show()
plt.close()

***
***Distribución binomial***

- **Simbología**: $X \sim B(n,p)$

- **Descripción**: $X$: número de éxitos en $n$ experimentos de Bernoulli (IID), $p$: probabilidad de éxito en cada experimento
  
- **Función de masa de pobabilidad**: $p(x)=C_{n,x}p^x(1-p)^{n-x}$,$C_{n,x}=\frac{n!}{(n-x)!x!}$

- **Principales momentos**: $E(X)=np$, $Var(X)=np(1-p)$, $M(t)=(1-p+pe^t)^n$

In [None]:
# Valores de la variable X (de 0 a 10)
x = np.linspace(0,10, num=11)
xg = np.linspace(-0.5, 10.1, num=1000) # Para gráfica CDF

# Parámetros
p = 0.2 # Probabilidad de éxito
n = 10 # Número de experimentos

# Función de masa de probabilidad (PMF) y función de distribución acumulada (CDF) para cada valor
fx = stats.binom.pmf(x,n,p)
Fx = stats.binom.cdf(x,n,p)
Fxg = stats.binom.cdf(xg,n,p) # Para gráfica CDF

# Agrupar resultados en un DataFrame
tabla_dist = pd.DataFrame({'x': x, 'PMF': fx, 'CDF':Fx})
print(f'Distribución de probabilidad binomial: X ~ Bn({n},{p}) \n{tabla_dist}')

# Gráfico de PMF
plt.bar(x,fx,color='0.6',edgecolor='black')
plt.title(f'Función de Masa de Probabilidad (PMF) de v.a. binomial: X ~ Bn({n},{p})')
plt.xlabel('x')
plt.ylabel('fx')
plt.grid(alpha=0.4)
plt.show()
plt.close()

# Gráfico de CDF
plt.step(xg,Fxg,color='black')
plt.title(f'Función de Distribución Acumulada (CDF) de v.a. binomial: X ~ Bn({n},{p})')
plt.xlabel('x')
plt.ylabel('Fx')
plt.grid(alpha=0.4)
plt.show()
plt.close()

**Ejemplo con Binomial**: Supongamos que tenemos una urna con 100 esferas de las cuales 20 son blancas y el resto rojas. Si se extrae 10 esferas con reemplazo, ¿cuál es la probabilidad de obtener exactamente 2 esferas blancas?

$f(x)=P(X=x)=C_{n,x}p^x(1-p)^{1-x}$

$f(2)=P(X=2)=C_{10,2}(0.2)^2(0.8)^8=\frac{10!}{8!2!}(0.2)^2(0.8)^8=0.302$

In [None]:
stats.binom.pmf(2,10,0.2)

***
***Distribución de Poisson***

- **Simbología**: $X \sim Poi(\lambda)$

- **Descripción**: $X$ indica el número de veces en que ocurren eventos muy extremos en un período de tiempo referencial; $\lambda$ indica la tasa de ocurrencia promedio de eventos extremos en un período de tiempo referencial. La distribución de Poisson es una aproximación de Binomial cuando $n$ es muy grande y $p$ es muy pequeña ($\lambda=np$).

- **Función de masa de probabilidad**: $p(x)=e^{-\lambda}\frac{\lambda^x}{x!}$ con $x=0,1,2,...$

- **Principales momentos**: $E(x)=Var(x)=\lambda$, $M(t)=e^{\lambda(e^t-1)}$

In [None]:
# Valores de la variable X (de 0 a 15)
x = np.linspace(0,15, num=16)
xg = np.linspace(-0.5, 15, num=1500) # Para gráfica CDF

# Parámetros
plambda = 4 # Tasa de ocurrencia promedio

# Función de masa de probabilidad (PMF) y función de distribución acumulada (CDF) para cada valor
fx = stats.poisson.pmf(x,plambda)
Fx = stats.poisson.cdf(x,plambda)
Fxg = stats.poisson.cdf(xg,plambda) # Para gráfica CDF

# Agrupar resultados en un DataFrame
tabla_dist = pd.DataFrame({'x': x, 'PMF': fx, 'CDF':Fx})
print(f'Distribución de probabilidad de Poisson: X ~ Poi({plambda}) \n{tabla_dist}')

# Gráfico de PMF
plt.bar(x,fx,color='0.6',edgecolor="black")
plt.title(f'Función de Masa de Probabilidad (PMF) de v.a. de Poisson: X ~ Poi({plambda})')
plt.xlabel('x')
plt.ylabel('fx')
plt.grid(alpha=0.4)
plt.show()
plt.close()

# Gráfico de CDF
plt.step(xg,Fxg,color='black')
plt.title(f'Función de Distribución Acumulada (CDF) de v.a. de Poisson: X ~ Poi({plambda})')
plt.xlabel('x')
plt.ylabel('Fx')
plt.grid(alpha=0.4)
plt.show()
plt.close()

***
***Distribución geométrica***

- **Simbología**: $X \sim Ge(p)$

- **Descripción**: $X$: número de intentos necesarios para alcanzar 1 éxito, $p$: probabilidad de éxito de cada experimento

- **Función de masa de probabilidad**: $p(x)=p(1-p)^{x-1}$

- **Principales momentos**: $E(X)=\frac{1}{p}$, $Var(X)=\frac{1-p}{p^2}$, $M(t)=\frac{p}{1-(1-p)e^t}$

In [None]:
# Valores de la variable X (de 0 a 15)
x = np.linspace(0,15, num=16)
xg = np.linspace(-0.5, 15, num=1500) # Para gráfica CDF

# Parámetros
p = 0.4 # Probabilidad de éxito

# Función de masa de probabilidad (PMF) y función de distribución acumulada (CDF) para cada valor
fx = stats.geom.pmf(x,p)
Fx = stats.geom.cdf(x,p)
Fxg = stats.geom.cdf(xg,p) # Para gráfica CDF

# Agrupar resultados en un DataFrame
tabla_dist = pd.DataFrame({'x': x, 'PMF': fx, 'CDF':Fx})
print(f'Distribución de probabilidad geométrica: X ~ Ge({p}) \n{tabla_dist}')

# Gráfico de PMF
plt.bar(x,fx,color='0.6',edgecolor="black")
plt.title(f'Función de Masa de Probabilidad (PMF) de v.a. geométrica: X ~ Ge({p})')
plt.xlabel('x')
plt.ylabel('fx')
plt.grid(alpha=0.4)
plt.show()
plt.close()

# Gráfico de CDF
plt.step(xg,Fxg,color='black')
plt.title(f'Función de Distribución Acumulada (CDF) de v.a. geométrica: X ~ Ge({p})')
plt.xlabel('x')
plt.ylabel('Fx')
plt.grid(alpha=0.4)
plt.show()
plt.close()

***
***Distribución binomial negativa***

- **Descripción**: $X$ número de fracasos antes de alcanzar el r-ésimo éxito, $p$: probabilidad de éxito.

- **Función de masa de probabilidad**: $p(x)=\frac{(x-1)!}{[(x-1)-(r-1)]!(r-1)!}p^r(1-p)^{x-r}$, $x=1,2,...$

- **Principales momentos**: $E(X)=\frac{r}{p}$, $Var(X)=\frac{r(1-p)}{p^2}$

- **Simbología**: $X \sim BN(r,p)$

In [None]:
# Distribución binomial negativa:
# X: número de fracasos antes de alcanzar el r-ésimo éxito
# p: probabilidad de éxito

# Valores de la variable X (de 0 a 20)
x = np.linspace(0,20, num=21)
xg = np.linspace(-0.5, 20, num=2000) # Para gráfica CDF

# Parámetros
p = 0.4 # Probabilidad de éxito
r = 3 # Número de éxitos

# Función de masa de probabilidad (PMF) y función de distribución acumulada (CDF) para cada valor
fx = stats.nbinom.pmf(x,r,p)
Fx = stats.nbinom.cdf(x,r,p)
Fxg = stats.nbinom.cdf(xg,r,p) # Para gráfica CDF

# Agrupar resultados en un DataFrame
tabla_dist = pd.DataFrame({'x': x, 'PMF': fx, 'CDF':Fx})
print(f'Distribución de probabilidad binomial negativa: X ~ BN({r},{p}) \n{tabla_dist}')

# Gráfico de PMF
plt.bar(x,fx,color='0.6',edgecolor="black")
plt.title(f'Función de Masa de Probabilidad (PMF) de v.a. binomial negativa: X ~ BN({r},{p})')
plt.xlabel('x')
plt.ylabel('fx')
plt.grid(alpha=0.4)
plt.show()
plt.close()

# Gráfico de CDF
plt.step(xg,Fxg,color='black')
plt.title(f'Función de Distribución Acumulada (CDF) de v.a. binomial negativa: X ~ BN({r},{p})')
plt.xlabel('x')
plt.ylabel('Fx')
plt.grid(alpha=0.4)
plt.show()
plt.close()

***
***Distribución hipergeométrica***

- **Simbología**: $X \sim H(N,m,n)$

- **Descripción:**
  - Dada una muestra aleatoria de tamaño $n$ obtenida desde una población de tamaño $N$ (sin reemplazo);
  - $m$: elementos de la población que tienen una característica de interés;
  - $N-m$: elementos de la población que no tienen dicha característica;
  - $X$: número de miembros de la muestra con la característica de interés.

- **Función de masa de probabilidad**: $p(x)=\frac{C_{m,x}C_{N-m,n-x}}{C_{N,n}}$, $x=0,1,2,...$

- **Principales momentos**: $E(X)=\frac{nm}{N}$, $Var(X)=np(1-p)\frac{N-n}{N-1}$

In [None]:
# Valores de la variable X (de 0 a 20)
x = np.linspace(0,20, num=21)
xg = np.linspace(0,20, num=21) # Para gráfica de CDF

# Parámetros
N = 100 # Tamaño de la población
m = 80 # Número de elementos de la población que tienen la característica de interés
n = 20 # Tamaño de la muestra

# Función de masa de probabilidad (PMF) y función de distribución acumulada (CDF) para cada valor
fx = stats.hypergeom.pmf(x,N,m,n)
Fx = stats.hypergeom.cdf(x,N,m,n)
Fxg = stats.hypergeom.cdf(xg,N,m,n) # Para gráfica de CDF

# Agrupar resultados en un DataFrame
tabla_dist = pd.DataFrame({'x': x, 'PMF': fx, 'CDF':Fx})
print(f'Distribución de probabilidad hipergeométrica: X ~ H({N},{m},{n}) \n{tabla_dist}')

# Gráfico de PMF
plt.bar(x,fx,color='0.6',edgecolor="black")
plt.title(f'Función de Masa de Probabilidad (PMF) de v.a. hipergeométrica: X ~ H({N},{m},{n})')
plt.xlabel('x')
plt.ylabel('fx')
plt.grid(alpha=0.4)
plt.show()
plt.close()

# Gráfico de CDF
plt.step(xg,Fxg,color='black')
plt.title(f'Función de Distribución Acumulada (CDF) de v.a. hipergeométrica: X ~ H({N},{m},{n})')
plt.xlabel('x')
plt.ylabel('Fx')
plt.grid(alpha=0.4)
plt.show()
plt.close()

### 0.6.2. Distribuciones continuas

- **Variables aleatorias continuas**: toman cualquier valor dentro de un intervalo de números reales.

- **Función de densidad de probabilidad (probability density function) (PDF)**: asignación de probabilidad por medio del área bajo la función para un determinado intervalo

***
***Distribución uniforme continua***

- **Simbología**: $X \sim U(\alpha,\beta)$

- **Función de densidad de probabilidad**: $f(x)=\frac{1}{\beta-\alpha}$ si $\alpha<x<\beta$, $f(x)=0$ en otro caso

- **Principales momentos**: $E(X)=\frac{\alpha+\beta}{2}$, $Var(X)=\frac{(\beta-\alpha)^2}{12}$, $M(t)=\frac{e^{\beta t}-e^{\alpha t}}{t(\beta-\alpha)}$

In [None]:
# Rango de valores de la variable X
x = np.linspace(-4,4,num=200)
xt = np.linspace(-4,4,num=9) # Para tabla

# Parámetros
alpha = -3
beta = 3

# Función de densidad de probabilidad (PDF) y función de distribución acumulada (CDF) para el rango de valores de X
fx = stats.uniform.pdf(x,alpha,beta-alpha)
Fx = stats.uniform.cdf(x,alpha,beta-alpha)
Fxt = stats.uniform.cdf(xt,alpha,beta-alpha) # Para tabla

# Agrupar resultados en un DataFrame (solo CDF)
tabla_dist = pd.DataFrame({'x': xt, 'CDF':Fxt})
print(f'Distribución de probabilidad uniforme continua: X ~ U({alpha},{beta}) \n{tabla_dist}')

# Gráfico de PDF
plt.plot(x,fx,linestyle="-",color='black')
plt.title(f'Función de Densidad de Probabilidad (PDF) de v.a. uniforme continua: X ~ U({alpha},{beta})')
plt.xlabel('x')
plt.ylabel('fx')
plt.grid(alpha=0.4)
plt.show()
plt.close()

# Gráfico de CDF
plt.plot(x,Fx,linestyle="-",color='black')
plt.title(f'Función de Distribución Acumulada (CDF) de v.a. uniforme continua: X ~ U({alpha},{beta})')
plt.xlabel('x')
plt.ylabel('Fx')
plt.grid(alpha=0.4)
plt.show()
plt.close()

# Ejemplo de cuantiles 0.025 y 0.975
q025 = stats.uniform.ppf(0.025,alpha,beta-alpha)
q975 = stats.uniform.ppf(0.975,alpha,beta-alpha)
print(f'Ejemplo con cuantiles: En una distribución U({alpha},{beta}), el 95% de probabilidad se concentra entre X = {q025:.2f} y X = {q975:.2f}')


***
***Distribución normal***

- **Simbología**: $X \sim N(\mu,\sigma^2)$

- **Función de densidad de probabilidad**: $f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$, $-\infty < x < \infty$. Esta función permite generar una campana de Gauss.

- **Principales momentos**: $E(X)=\mu$, $Var(X)=\sigma^2$, $M(t)=e^{t(t\sigma^2+2\mu)/2}$

- **Observación**: Cuando $\mu=0$ y $\sigma=1$ se dice que $X$ es una variable *normal estándar*.

In [None]:
# Rango de valores de la variable X
x = np.linspace(-5,15,num=100)
xt = np.linspace(-5,15,num=11) # Para tabla

# Parámetros
mu = 5
sigma = 2

# Función de densidad de probabilidad (PDF) y función de distribución acumulada (CDF) para el rango de valores de X
fx = stats.norm.pdf(x,mu,sigma)
Fx = stats.norm.cdf(x,mu,sigma)
Fxt = stats.norm.cdf(xt,mu,sigma) # Para tabla

# Agrupar resultados en un DataFrame (solo CDF)
tabla_dist = pd.DataFrame({'x': xt, 'CDF':Fxt})
print(f'Distribución de probabilidad normal: X ~ N({mu},{sigma}) \n{tabla_dist}')

# Gráfico de PDF
plt.plot(x,fx,linestyle="-",color='black')
plt.title(f'Función de Densidad de Probabilidad (PDF) de v.a. normal: X ~ N({mu},{sigma})')
plt.xlabel('x')
plt.ylabel('fx')
plt.grid(alpha=0.4)
plt.show()
plt.close()

# Gráfico de CDF
plt.plot(x,Fx,linestyle="-",color='black')
plt.title(f'Función de Distribución Acumulada (CDF) de v.a. normal: X ~ N({mu},{sigma})')
plt.xlabel('x')
plt.ylabel('Fx')
plt.grid(alpha=0.4)
plt.show()
plt.close()

# Ejemplo de cuantiles 0.025 y 0.975
q025 = stats.norm.ppf(0.025,mu,sigma)
q975 = stats.norm.ppf(0.975,mu,sigma)
print(f'Ejemplo con cuantiles: En una distribución N({mu},{sigma}), el 95% de probabilidad se concentra entre X = {q025:.2f} y X = {q975:.2f}')

**Ejemplo con normal**: Asumamos una variable $X \sim N(4,9)$. ¿Qué valor toma la siguiente probabilidad $P(2<X\leq 6)$?

$P(2<X\leq 6)=P(X\leq 6)-P(X\leq 2)$

In [None]:
stats.norm.cdf(6,4,3)-stats.norm.cdf(2,4,3)

***
***Distribución normal estándar***

- **Simbología**: $Z \sim N(0,1)$

- **Función de densidad de probabilidad**: $f(z)=\varphi(z)=\frac{1}{\sqrt{2\pi}}e^{-\frac{z^2}{2}}$, $-\infty < z < \infty$

- **Principales momentos**: $E(Z)=1$, $Var(Z)=0$, $M(t)=e^{t^2/2}$

- **Observación**: Una **variable normal** $X \sim N(\mu,\sigma^2)$ puede transformarse en una **variable normal estándar** $Z \sim N(0,1)$ con la siguiente "estandarización": $Z=\frac{X-\mu}{\sigma}$

In [None]:
# Rango de valores de la variable X
x = np.linspace(-5,15,num=100)
xt = np.linspace(-5,15,num=11) # Para tabla

# Parámetros normal original
mu = 5
sigma = 2

# Estandarizamos valores
z = (x-mu)/sigma
zt = (xt-mu)/sigma

# Función de densidad de probabilidad (PDF) y función de distribución acumulada (CDF) para el rango de valores de Z
fz = stats.norm.pdf(z)
Fz = stats.norm.cdf(z)
Fzt = stats.norm.cdf(zt) # Para tabla

# Agrupar resultados en un DataFrame (solo CDF)
tabla_dist = pd.DataFrame({'z': zt, 'CDF':Fzt})
print(f'Distribución de probabilidad normal estándar: Z ~ N(0,1) \n{tabla_dist}')

# Gráfico de PDF
plt.plot(z,fz,linestyle="-",color='black')
plt.title(f'Función de Densidad de Probabilidad (PDF) de v.a. normal estándar: Z ~ N(0,1)')
plt.xlabel('z')
plt.ylabel(r'fz=$\varphi(z)$')
plt.grid(alpha=0.4)
plt.show()
plt.close()

# Gráfico de CDF
plt.plot(z,Fz,linestyle="-",color='black')
plt.title(f'Función de Distribución Acumulada (CDF) de v.a. normal estándar: Z ~ N(0,1)')
plt.xlabel('z')
plt.ylabel(r'Fz=$\Phi(z)$')
plt.grid(alpha=0.4)
plt.show()
plt.close()

# Ejemplo de cuantiles 0.025 y 0.975
q025 = stats.norm.ppf(0.025)
q975 = stats.norm.ppf(0.975)
print(f'Ejemplo con cuantiles: En una distribución normal estándar N(0,1), el 95% de probabilidad se concentra entre Z = {q025:.2f} y Z = {q975:.2f}')

***

***Distribución chi-cuadrado***

- **Simbología**: $W \sim \chi^2(m)$
  
- **Descripción**
  - Consideremos $Z_1,Z_2,...Z_m$ variables aleatorias **normales estándar** $Z_i \sim N(0,1)$ e **independientes** (el valor que toma una $Z_i$ no influye en la distribución de probabilidad de las demás)
  - La suma del cuadrado de estas variables $W = Z_1^2+Z_2^2+...+Z_m^2 = \sum_{i=1}^m Z_i^2$ sigue una distribución **chi-cuadrado** con $m$ grados de libertad.
  - Los grados de libertad pueden interpretarse como el número de "observaciones" ("pedazos de información") que pueden variar libremente para obtener la misma estimación de un parámetro estadístico. Por ejemplo, se puede obtener el mismo valor de la suma $W=\sum_{i=1}^m Z_i^2$ modificando todos los $m$ valores que la componen.
  
- **Principales momentos**: $E(W)=m$, $Var(W)=2m$

- **Observación**: Si $W_1 \sim \chi^2(m_1)$ y $W_2 \sim \chi^2(m_2)$ son **indpendientes**, entonces se cumple que $W_1+W_2 \sim \chi^2(m_1+m_2)$

In [None]:
# Rango de valores de la variable W
w = np.linspace(0,15,num=100)
wt = np.linspace(0,15,num=16) # Para tabla

# Parámetros normal original
m = 5 #Grados de libertad

# Función de densidad de probabilidad (PDF) y función de distribución acumulada (CDF) para el rango de valores de W
fw = stats.chi2.pdf(w,m)
Fw = stats.chi2.cdf(w,m)
Fwt = stats.chi2.cdf(wt,m) # Para tabla

# Agrupar resultados en un DataFrame (solo CDF)
tabla_dist = pd.DataFrame({'w': wt, 'CDF':Fwt})
print(f'Distribución de probabilidad chi cuadrado: W ~ chi^2({m}) \n{tabla_dist}')

# Gráfico de PDF
plt.plot(w,fw,linestyle="-",color='black')
plt.title(rf'Función de Densidad de Probabilidad (PDF) de v.a. chi cuadrado: W ~ $\chi^2$({m})')
plt.xlabel('w')
plt.ylabel('fw')
plt.grid(alpha=0.4)
plt.show()
plt.close()

# Gráfico de CDF
plt.plot(w,Fw,linestyle="-",color='black')
plt.title(rf'Función de Distribución Acumulada (CDF) de v.a. chi cuadrado: W ~ $\chi^2$({m})')
plt.xlabel('w')
plt.ylabel('Fw')
plt.grid(alpha=0.4)
plt.show()
plt.close()

# Ejemplo de cuantil 0.95
q95 = stats.chi2.ppf(0.95,m)
print(f'Ejemplo con cuantiles: En una distribución chi^2({m}), el 95% de probabilidad se concentra en W ≤ {q95:.2f}')

***
***Distribución t (de Student)***

- **Simbología**: $V \sim t(m)$
  
- **Descripción**:
  - Consideremos una variable normal estándar $Z \sim N(0,1)$ y una variable chi-cuadrado con $m$ grados de libertad $W \sim \chi^2(m)$.
  - Si ambas variables son independientes entonces la siguiente ratio $V=\frac{Z}{\sqrt(W/m)}$ sigue una distribución t (de Student) con $m$ grados de libertad.

- **Observación:** La distribución posee una forma similar a la campana de Gauss de una distribución normal, pero cuando $m$ es "pequeño" (aproximadamente menor a 30), presenta más acumulación de probabilidad en las colas.

In [None]:
# Rango de valores de la variable T
v = np.linspace(-5,5,num=100)
vt = np.linspace(-5,5,num=11) # Para tabla

# Parámetros
m = 5 #Grados de libertad de chi-cuadrado

# Función de densidad de probabilidad (PDF) y función de distribución acumulada (CDF) para el rango de valores de V
fv = stats.t.pdf(v,m)
Fv = stats.t.cdf(v,m)
Fvt = stats.t.cdf(vt,m) # Para tabla

# Agrupar resultados en un DataFrame (solo CDF)
tabla_dist = pd.DataFrame({'v': vt, 'CDF':Fvt})
print(f'Distribución de probabilidad t de Student: V ~ t({m}) \n{tabla_dist}')

# Gráfico de PDF
plt.plot(v,fv,linestyle="-",color='black')
plt.title(f'Función de Densidad de Probabilidad (PDF) de v.a. t (de Student): V ~ t({m})')
plt.xlabel('v')
plt.ylabel('fv')
plt.grid(alpha=0.4)
plt.show()
plt.close()

# Gráfico de CDF
plt.plot(v,Fv,linestyle="-",color='black')
plt.title(f'Función de Distribución Acumulada (CDF) de v.a. t (de Student): V ~ t({m})')
plt.xlabel('v')
plt.ylabel('Fv')
plt.grid(alpha=0.4)
plt.show()
plt.close()

# Ejemplo de cuantiles 0.025 y 0.975
q025 = stats.t.ppf(0.025,m)
q975 = stats.t.ppf(0.975,m)
print(f'Ejemplo con cuantiles: En una distribución t({m}), el 95% de probabilidad se concentra entre V = {q025:.2f} y V = {q975:.2f}')

***
***Distribución F (de Fisher)***

- **Simbología**: $R \sim F(m_1,m_2)$

- **Descripción**:
  - Consideremos dos variables aleatorios chi-cuadrado $W_1 \sim \chi_{m_1}^2$ y $W_2 \sim \chi_{m_2}^2$.
  - Si ambas son independientes, entonces la ratio $R=\frac{W_1/m_1}{W_2/m_2}$ sigue una distribución F (de Fisher) con $(m_1,m_2)$ grados de libertad.
  
- **Observaciones**:
  - A medida que aumentan los grados de libertad $m_1$ y $m_2$, la distribución F se aproxima a una distribución normal.
  - El cuadrado de una variable con distribución $t$ con $k$ grados de libertad sigue una distribución $F(1,k)$.

In [None]:
# Rango de valores de la variable R
r = np.linspace(0,15,num=100)
rt = np.linspace(0,15,num=16) # Para tabla

# Parámetros normal original
m1 = 5 # Grados de libertad numerador
m2 = 3 # Grados de libertad del denominador

# Función de densidad de probabilidad (PDF) y función de distribución acumulada (CDF) para el rango de valores de R
fr = stats.f.pdf(w,m1,m2)
Fr = stats.f.cdf(w,m1,m2)
Frt = stats.f.cdf(wt,m1,m2) # Para tabla

# Agrupar resultados en un DataFrame (solo CDF)
tabla_dist = pd.DataFrame({'r': rt, 'CDF':Frt})
print(f'Distribución de probabilidad F (de Fisher): R ~ F({m1},{m2}) \n{tabla_dist}')

# Gráfico de PDF
plt.plot(r,fr,linestyle="-",color='black')
plt.title(rf'Función de Densidad de Probabilidad (PDF) de v.a. F (de Fisher): R ~ F({m1},{m2})')
plt.xlabel('r')
plt.ylabel('fr')
plt.grid(alpha=0.4)
plt.show()
plt.close()

# Gráfico de CDF
plt.plot(r,Fr,linestyle="-",color='black')
plt.title(rf'Función de Distribución Acumulada (CDF) de v.a. F (de Fisher): R ~ F({m1},{m2})')
plt.xlabel('r')
plt.ylabel('Fr')
plt.grid(alpha=0.4)
plt.show()
plt.close()

# Ejemplo de cuantil 0.95
q95 = stats.f.ppf(0.95,m1,m2)
print(f'Ejemplo con cuantiles: En una distribución F({m1},{m2}), el 95% de probabilidad se concentra en R ≤ {q95:.2f}')

***
***Distribución exponencial***

- **Simbología**: $X \sim Exp(\lambda)$

- **Función de densidad de probabilidad**: $f(x)=\lambda e^{-\lambda x}$ si $x\geq0$, caso contrario $f(x)=0$

- **Principales momentos**: $E(x)=\frac{1}{\lambda}$, $Var(X)=\frac{1}{\lambda^2}$, $M(t)=\left(1-\frac{t}{\lambda}\right)^{-1}$

- **Observación**: Comúnmente esta distribución surge al analizar el tiempo que pasa hasta que ocurra un evento.

In [None]:
# Rango de valores de la variable X
x = np.linspace(-0.5,6,num=150)
xt = np.linspace(-0.5,6,num=9) # Para tabla

# Parámetros
plambda = 1

# Función de densidad de probabilidad (PDF) y función de distribución acumulada (CDF) para el rango de valores de X
fx = stats.expon.pdf(x,scale=1/plambda)
Fx = stats.expon.cdf(x,scale=1/plambda)
Fxt = stats.expon.cdf(xt,scale=1/plambda) # Para tabla

# Agrupar resultados en un DataFrame (solo CDF)
tabla_dist = pd.DataFrame({'x': xt, 'CDF':Fxt})
print(f'Distribución de probabilidad exponencial: X ~ Exp({plambda}) \n{tabla_dist}')

# Gráfico de PDF
plt.plot(x,fx,linestyle="-",color='black')
plt.title(f'Función de Densidad de Probabilidad (PDF) de v.a. exponencial: X ~ Exp({plambda})')
plt.xlabel('x')
plt.ylabel('fx')
plt.grid(alpha=0.4)
plt.show()
plt.close()

# Gráfico de CDF
plt.plot(x,Fx,linestyle="-",color='black')
plt.title(f'Función de Distribución Acumulada (CDF) de v.a. exponencial: X ~ Exp({plambda})')
plt.xlabel('x')
plt.ylabel('Fx')
plt.grid(alpha=0.4)
plt.show()
plt.close()

# Ejemplo de cuantil 0.95
q95 = stats.expon.ppf(0.95,scale=1/plambda)
print(f'Ejemplo con cuantiles: El 95% de probabilidad se concentra por debajo de {q95:.2f}')

### 0.6.3. Simulación de muestras aleatorias desde distribuciones de probabilidad

- Vamos a simular resultados aleatorios a partir de variables aleatorias con una determinada distribución de probabilidad.
- En términos estrictos, una **máquina determinista** como un computador nunca puede producir resultados realmente aleatorios, sino que genera resultados **pseudoaleatorios**.
- De todas formas, los resultados del computador se comportan como si fueran aleatorios, de modo que no hace falta detallar la cuestión de la **pseudoaleatoriedad**.
- Para siempre obtener la misma secuencia de números aleatorios simulados, se puede "reseater" el generador de números aleatorios de Python a un determinado estado (conocido como valor "semilla" o *seed* en inglés). Así, cuando se usa una misma semilla se obtienen los mismos resultados de una simulación (pseudo)aleatoria en Python.
- **Ley de los grandes números**: Si repetimos un experimento aleatorio varias veces, el promedio de los resultados se acerca a la esperanza teórica del fenómeno.

***
***Simulación con distribución de Bernoulli***: $X \sim Be(p)$

In [None]:
# Definimos el valor semilla (None hace que no exista valor inicial de referencia para crear número pseudoaleatorios)
# np.random.seed(None)
semilla = None

# Definimos el número de simulaciones (tamaño de muestra simulada)
ns = 1000

# Parámetros
p = 0.5 # Probabilidad de éxito

# Simulación: rvs permite simular variables aleatorias usando cualquier distribución
# rvs: random value sample
muestra = stats.bernoulli.rvs(p, size=ns, random_state=semilla)

# Presentar la muestra si ns < 100
if ns <= 100:
    print(f'Número de simulaciones (tamaño de muestra simulada) = {ns}: {muestra}\n')
else:
    print(f'Número de simulaciones (tamaño de muestra simulada) = {ns} (omitimos resultados)')

# Frecuencias absolutas
valores, freq_abs = np.unique(muestra, return_counts=True)

# Frecuencias relativas
freq_rel = freq_abs / ns

# PMF teórica
pmft = stats.bernoulli.pmf(valores,p)

# Graficar frecuencia relativa desde la muestra simulada vs PMF teórica
plt.bar(valores-0.15,freq_rel,width=0.2,color="blue",label="Muestra")
plt.bar(valores+0.15,pmft,width=0.2,color="red",label="Teoría")
for x, y, z in zip(valores-0.15, freq_rel,pmft):
    plt.text(x, y + 0.005, f"{y:.3f}", ha='center', va='bottom', fontsize=8)
    plt.text(x+0.3, z + 0.005, f"{z:.3f}", ha='center', va='bottom', fontsize=8)
plt.ylabel('Frecuencia relativa')
plt.xlabel('X')
plt.xticks(valores)
plt.legend(loc='upper center', bbox_to_anchor=(0.5, -0.12))   # Ajustar -0.12 para más o menos distancia
plt.title("Frecuencia relativa vs PMF teórica")
plt.show()
plt.close()

# Indicador del número acumulado de variables simuladas
cum_ns = np.arange(1,ns+1)

# Gráfico de número de simulaciones vs promedio acumulado
plt.plot(cum_ns,muestra.cumsum() / cum_ns, label="Promedio acumulado")
plt.xlabel('Número de simulaciones')
plt.ylabel('Promedio acumulado de éxitos (X=1)')
plt.axhline(y=p,color='red', label="Esperanza teórica")
plt.grid()
plt.legend(loc='upper center', bbox_to_anchor=(0.5, -0.12))   # Ajustar -0.12 para más o menos distancia
plt.title("Promedio acumulado vs Esperanza teórica")
plt.show()
plt.close()

***
***Simulación con distribución uniforme discreta***: $X \sim U\{a,b\}$

In [None]:
# Definimos el valor semilla (None hace que no exista valor inicial de referencia para crear número pseudoaleatorios)
# np.random.seed(None)
semilla = None

# Definimos el número de simulaciones (tamaño de muestra simulada)
ns = 1000

# Parámetros
a = 1 # Valor inicial de la variable
b = 6 # Valor final de la variable

# Simulación: rvs permite simular variables aleatorias usando cualquier distribución
# rvs: random value sample
muestra = stats.randint.rvs(a,b+1, size=ns, random_state=semilla)

# Presentar la muestra si ns < 100
if ns <= 100:
    print(f'Número de simulaciones (tamaño de muestra simulada) = {ns}: {muestra}\n')
else:
    print(f'Número de simulaciones (tamaño de muestra simulada) = {ns} (omitimos resultados)')

# Frecuencias absolutas
valores, freq_abs = np.unique(muestra, return_counts=True)

# Frecuencias relativas
freq_rel = freq_abs / ns

# PMF teórica
pmft = stats.randint.pmf(valores,a,b+1)

# Graficar frecuencia relativa desde la muestra simulada vs PMF teórica
plt.bar(valores-0.15,freq_rel,width=0.2,color="blue",label="Muestra")
plt.bar(valores+0.15,pmft,width=0.2,color="red",label="Teoría")
for x, y, z in zip(valores-0.15, freq_rel,pmft):
    plt.text(x, y + 0.005, f"{y:.3f}", ha='center', va='bottom', fontsize=8)
    plt.text(x+0.3, z + 0.005, f"{z:.3f}", ha='center', va='bottom', fontsize=8)
plt.ylabel('Frecuencia relativa')
plt.xlabel('X')
plt.xticks(valores)
plt.legend(loc='upper center', bbox_to_anchor=(0.5, -0.12))   # Ajustar -0.12 para más o menos distancia
plt.title("Frecuencia relativa vs PMF teórica")
plt.show()
plt.close()

# Indicador del número acumulado de variables simuladas
cum_ns = np.arange(1,ns+1)

# Gráfico de número de simulaciones vs promedio acumulado
plt.plot(cum_ns,muestra.cumsum() / cum_ns, label="Promedio acumulado")
plt.xlabel('Número de simulaciones')
plt.ylabel('Promedio acumulado de valores de X')
plt.axhline(y=(a+b)/2,color='red', label="Esperanza teórica")
plt.grid()
plt.legend(loc='upper center', bbox_to_anchor=(0.5, -0.12))   # Ajustar -0.12 para más o menos distancia
plt.title("Promedio acumulado vs Esperanza teórica")
plt.show()
plt.close()

***
***Simulación con distribución normal***: $X \sim N(\mu,\sigma^2)$

In [None]:
# Definimos el valor semilla (None hace que no exista valor inicial de referencia para crear número pseudoaleatorios)
# np.random.seed(None)
semilla = None

# Definimos el número de simulaciones (tamaño de muestra simulada)
ns = 1000

# Parámetros
mu = 0 # Esperanza (media de la campana de Gauss)
sigma = 1 # Desviación estándar (dispersión de la campana de Gauss)

# Simulación: rvs permite simular variables aleatorias usando cualquier distribución
# rvs: random value sample
muestra = stats.norm.rvs(mu,sigma, size=ns, random_state=semilla)

# Presentar la muestra si ns < 100
if ns <= 100:
    print(f'Número de simulaciones (tamaño de muestra simulada) = {ns}: {muestra}\n')
else:
    print(f'Número de simulaciones (tamaño de muestra simulada) = {ns} (omitimos resultados)')

# PDF teórica
lim=max([abs(muestra.min()),abs(muestra.max())])
x = np.linspace(-lim,lim,num=100)
pdft = stats.norm.pdf(x,mu,sigma)

# Gráfico de histograma desde la muestra simulada vs PDF teórica
plt.hist(muestra, color="blue", bins=10, density=True, edgecolor="black", label="Muestra",alpha=0.5)
plt.plot(x,pdft,color="red",linewidth=3,label="Teoría")
plt.ylabel('Densidad')
plt.xlabel('X')
plt.legend(loc='upper center', bbox_to_anchor=(0.5, -0.12))   # Ajustar -0.12 para más o menos distancia
plt.title("Histograma vs PDF teórica")
plt.show()
plt.close()

# Indicador del número acumulado de variables simuladas
cum_ns = np.arange(1,ns+1)

# Gráfico de número de simulaciones vs promedio acumulado
plt.plot(cum_ns,muestra.cumsum() / cum_ns, label="Promedio acumulado")
plt.xlabel('Número de simulaciones')
plt.ylabel('Promedio acumulado de valores de X')
plt.axhline(y=mu,color='red', label="Esperanza teórica")
plt.grid()
plt.legend(loc='upper center', bbox_to_anchor=(0.5, -0.12))   # Ajustar -0.12 para más o menos distancia
plt.title("Promedio acumulado vs Esperanza teórica")
plt.show()
plt.close()

***
***Simulación de distribución chi-cuadrado***: $W \sim \chi^2(m)$

- Consideremos $Z_1,Z_2,...Z_m$ variables aleatorias **normales estándar** $Z_i \sim N(0,1)$ e **independientes** (el valor que toma una $Z_i$ no influye en la distribución de probabilidad de las demás)
- La suma del cuadrado de estas variables $W = Z_1^2+Z_2^2+...+Z_m^2 = \sum_{i=1}^m Z_i^2$ sigue una distribución **chi-cuadrado** con $m$ grados de libertad, es decir $W \sim \chi^2(m)$

In [None]:
# Definimos el valor semilla (None hace que no exista valor inicial de referencia para crear número pseudoaleatorios)
# np.random.seed(None)
semilla = None

# Definimos el número de simulaciones (tamaño de muestra simulada)
ns = 1000

# Parámetros
m = 5 # Grados de libertad (número de variables normales estándar que se elevan al cuadrado y se suman)

# Simulación
# rvs: random value sample
sim_partes = True # True para indicar que se genera la simulación por partes
if sim_partes:
    sim_var2=[] #Creamos lista vacía
    for i in range(1,m+1):
        if semilla is None:
            semilla2 = semilla
        else:
            semilla2 = semilla + i
        sim_var = stats.norm.rvs(size=ns, random_state=semilla2) # Simulamos una variable normal estándar
        sim_var2.append(sim_var**2) # Guardamos el cuadrado de la variable simulada
    muestra = sum(sim_var2) # Creamos muestra final de suma de cuadrados de m variables normales estándar
else:
    muestra = stats.chi2.rvs(m,size=ns, random_state=semilla) #Simulación directa con chi2.rvs

# Presentar la muestra si ns < 100
if ns <= 100:
    print(f'Número de simulaciones (tamaño de muestra simulada) = {ns}: {muestra}\n')
else:
    print(f'Número de simulaciones (tamaño de muestra simulada) = {ns} (omitimos resultados)')

# PDF teórica
x = np.linspace(0,muestra.max(),num=100)
pdft = stats.chi2.pdf(x,m)

# Gráfico de histograma desde la muestra simulada vs PDF teórica
plt.hist(muestra, color="blue", bins=50, density=True, edgecolor="black", label="Muestra",alpha=0.5)
plt.plot(x,pdft,color="red",linewidth=3, label="Teoría")
plt.ylabel('Densidad')
plt.xlabel('X')
plt.legend(loc='upper center', bbox_to_anchor=(0.5, -0.12))   # Ajustar -0.12 para más o menos distancia
plt.title("Histograma vs PDF teórica")
plt.show()
plt.close()

# Indicador del número acumulado de variables simuladas
cum_ns = np.arange(1,ns+1)

# Gráfico de número de simulaciones vs promedio acumulado
plt.plot(cum_ns,muestra.cumsum() / cum_ns, label="Promedio acumulado")
plt.xlabel('Número de simulaciones')
plt.ylabel('Promedio acumulado de valores de X')
plt.axhline(y=m,color='red', label="Esperanza teórica")
plt.grid()
plt.legend(loc='upper center', bbox_to_anchor=(0.5, -0.12))   # Ajustar -0.12 para más o menos distancia
plt.title("Promedio acumulado vs Esperanza teórica")
plt.show()
plt.close()

***
***Simulación de distribución t (de Student):*** $V \sim t(m)$

- Consideremos una variable normal estándar $Z \sim N(0,1)$ y una variable chi-cuadrado de $m$ grados de libertad $W \sim \chi^2(m)$
- La ratio $V=\frac{Z}{\sqrt{W/m}}$ sigue una **distribución t con m grados de libertad**, es decir, $V \sim t(m)$

In [None]:
# Definimos el valor semilla (None hace que no exista valor inicial de referencia para crear número pseudoaleatorios)
# np.random.seed(None)
semilla = None

# Definimos el número de simulaciones (tamaño de muestra simulada)
ns = 1000

# Parámetros
m = 5 # Grados de libertad (número de variables normales estándar que se elevan al cuadrado y se suman)

# Simulación
# rvs: random value sample
sim_partes = True # True para indicar que se genera la simulación por partes
if sim_partes:
    if semilla is None:
        semilla2 = semilla
    else:
        semilla2 = semilla + 1
    sim_var_Z = stats.norm.rvs(size=ns, random_state=semilla) # Simulamos una variable normal estándar
    sim_var_W = stats.chi2.rvs(m,size=ns, random_state=semilla2) # Simulamos una variable chi-cuadrado(m)
    muestra=sim_var_Z/np.sqrt(sim_var_W/m) # Calculamos ratio que debería seguir una distribución t de Student
else:
    muestra = stats.t.rvs(m,size=ns, random_state=semilla) #Simulación directa con chi2.rvs

# Presentar la muestra si ns < 100
if ns <= 100:
    print(f'Número de simulaciones (tamaño de muestra simulada) = {ns}: {muestra}\n')
else:
    print(f'Número de simulaciones (tamaño de muestra simulada) = {ns} (omitimos resultados)')

# PDF teórica
x = np.linspace(muestra.min(),muestra.max(),num=100)
pdft = stats.t.pdf(x,m)

# Gráfico de histograma desde la muestra simulada vs PDF teórica
plt.hist(muestra, color="blue", bins=50, density=True, edgecolor="black", label="Muestra",alpha=0.5)
plt.plot(x,pdft,color="red",linewidth=3, label="Teoría")
plt.ylabel('Densidad')
plt.xlabel('X')
plt.legend(loc='upper center', bbox_to_anchor=(0.5, -0.12))   # Ajustar -0.12 para más o menos distancia
plt.title("Histograma vs PDF teórica")
plt.show()
plt.close()

# Indicador del número acumulado de variables simuladas
cum_ns = np.arange(1,ns+1)

# Gráfico de número de simulaciones vs promedio acumulado
plt.plot(cum_ns,muestra.cumsum() / cum_ns, label="Promedio acumulado")
plt.xlabel('Número de simulaciones')
plt.ylabel('Promedio acumulado de valores de X')
plt.axhline(y=0,color='red', label="Esperanza teórica")
plt.grid()
plt.legend(loc='upper center', bbox_to_anchor=(0.5, -0.12))   # Ajustar -0.12 para más o menos distancia
plt.title("Promedio acumulado vs Esperanza teórica")
plt.show()
plt.close()

***
***Simulación de distribución F (de Fisher)***: $R \sim F(m_1,m_2)$

- Consideremos dos variables chi-cuadrado independientes $W_1 \sim \chi^2(m_1)$ y $W_2 \sim \chi^2(m_2)$
- La ratio $R=\frac{W_1/m_1}{W_2/m_2}$ sigue una distribución $F$ con $(m_1,m_2)$ grados de libertad.

In [None]:
# Definimos el valor semilla (None hace que no exista valor inicial de referencia para crear número pseudoaleatorios)
# np.random.seed(None)
semilla = None

# Definimos el número de simulaciones (tamaño de muestra simulada)
ns = 1000

# Parámetros
m1 = 5 # Grados de libertad numerador
m2 = 3 # Grados de libertad denominador

# Simulación
# rvs: random value sample
sim_partes = True # True para indicar que se genera la simulación por partes
if sim_partes:
    if semilla is None:
        semilla2 = semilla
    else:
        semilla2 = semilla + 1
    sim_var_W1 = stats.chi2.rvs(m1, size=ns, random_state=semilla) # Simulamos una variable chi-cuadrado(m1)
    sim_var_W2 = stats.chi2.rvs(m2, size=ns, random_state=semilla2) # Simulamos una variable chi-cuadrado(m2)
    muestra=(sim_var_W1/m1)/(sim_var_W2/m2) # Guardamos el cuadrado de la variable simulada
else:
    muestra = stats.f.rvs(m1,m2,size=ns, random_state=semilla) #Simulación directa con chi2.rvs

# Presentar la muestra si ns < 100
if ns <= 100:
    print(f'Número de simulaciones (tamaño de muestra simulada) = {ns}: {muestra}\n')
else:
    print(f'Número de simulaciones (tamaño de muestra simulada) = {ns} (omitimos resultados)')

# PDF teórica
x = np.linspace(0,muestra.max(),num=100)
pdft = stats.f.pdf(x,m1,m2)

# Gráfico de histograma desde la muestra simulada vs PDF teórica
plt.hist(muestra, color="blue", bins=50, density=True, edgecolor="black", label="Muestra",alpha=0.5)
plt.plot(x,pdft,color="red",linewidth=3, label="Teoría")
plt.ylabel('Densidad')
plt.xlabel('X')
plt.legend(loc='upper center', bbox_to_anchor=(0.5, -0.12))   # Ajustar -0.12 para más o menos distancia
plt.title("Histograma vs PDF teórica")
plt.show()
plt.close()

# Indicador del número acumulado de variables simuladas
cum_ns = np.arange(1,ns+1)

# Gráfico de número de simulaciones vs promedio acumulado
plt.plot(cum_ns,muestra.cumsum() / cum_ns, label="Promedio acumulado")
plt.xlabel('Número de simulaciones')
plt.ylabel('Promedio acumulado de valores de X')
plt.axhline(y=m2/(m2-2),color='red', label="Esperanza teórica")
plt.grid()
plt.legend(loc='upper center', bbox_to_anchor=(0.5, -0.12))   # Ajustar -0.12 para más o menos distancia
plt.title("Promedio acumulado vs Esperanza teórica")
plt.show()
plt.close()

## 0.7. Intervalos de confianza e inferencia estadística

### 0.7.1. Intervalos de confianza

- Los **intervalos de confianza** se contruyen con el propósito de cubrir al verdadero *parámetro poblacional* con una determinada probabilidad (p.ej. 95%)
  
- En otras palabras: para el 95% de todas las posibles muestras que pueden obtenerse de una población, el respectivo intervalo de confianza incluye al parámetro poblacional.
  
- Para el caso de una población normal con media $\mu$ y varianza $\sigma^2$ desconocidas, el intervalo al $100(1-\alpha)\%$ de confianza para $\mu$ se obtiene como:

$$[\bar{y}-c_{\frac{\alpha}{2}}.se(\bar{y}),\bar{y}+c_{\frac{\alpha}{2}}.se(\bar{y})]$$

- Donde $\bar{y}$ es el *promedio muestral,* $se(\bar{y})=\frac{s}{\sqrt{n}}$ es el *error estándar de* $\bar{y}$ ($s$ es la desviación estándar muestral de $y$), $n$ es el tamaño de muestra, $\alpha$ es el nivel de significancia, $c_{\frac{\alpha}{2}}$ es el cuantil $(1-\frac{\alpha}{2})$ de la distribución de probabilidad $t(n-1)$.
  
- **Observación**: Por el teorema del límite central (que revisaremos más adelante) se tiene que $\bar{y}$ sigue una distribución normal cuando se conoce la varianza poblacional; en cambio cuando no se conoce la varianza poblacional y se estima con la varianza muestral ($s^2$) se tiene que $\bar{y}$ sigue una distribución $t$ con $(n-1)$ grados de libertad.
  
- Así, por ejemplo, para obtener el intervalo de confianza al 95% ($\alpha = 5\%$) se requiere conocer el cuantil $c_{0.025}=0.975$.

***
***Ejemplo 1*** (Wooldridge, 2019, ejemplo C2): Supongamos que se desa estudiar el efecto que tiene un programa de becas de capacitación sobre la productividad laboral. Para ello se toma una muestra de 20 empresas cuyos trabajadores recibieron dichas becas en 1988 y se obtiene la siguiente base de datos:

In [None]:
# Base de datos de "tasas de desperdicio" (TD) para una muestra de 20 empresas (Wooldridge, 2019, p.731) en 1987 y 1988
TD87 = np.array([10, 1, 6, .45, 1.25, 1.3, 1.06, 3, 8.18, 1.67, .98, 1, .45, 5.03, 8, 9, 18, .28, 7, 3.97])
TD88 = np.array([3, 1, 5, .5, 1.54, 1.5, .8, 2, .67, 1.17, .51, .5, .61, 6.7, 4, 7, 19, .2, 5, 3.83])
variacion = TD88-TD87
n = len(variacion)
id = np.arange(1,n+1)
baseTD = pd.DataFrame({'Empresa': id,
                       'Tasa de desperdicio (1987)': TD87,
                       'Tasa de desperdicio (1988)': TD88,
                       'Variación': variacion})
baseTD

Si queremos conocer cuál fue el efecto promedio en la tasa de desperdicio podemos promediar las variaciones:

In [None]:
# Promedio de las variaciones
promedio_var = np.mean(variacion)
print(f'Variación promedio: {promedio_var:.4f}')

Para saber si esta reducción de $1.1545$ puntos en la tasa de desperdicio es **estadísticamente significativa** podemos obtener un **intervalo al 95% de confianza** de la siguiente forma:

In [None]:
# Desviación estándar de las variaciones
dest_var = np.std(variacion,ddof=1)
print(f'Desviación estándar de las variaciiones: {dest_var:.4f}\n')

# Error estándar (standard error) de las variaciones
se_var = dest_var/np.sqrt(n)
print(f'Error estándar de las variaciones: {se_var}\n')

# Cuantil 0.975 para construir intervalo al 95% de confianza
c = stats.t.ppf(0.975,n-1)
print(f'Cuantil 0.975 para una distribución t({n-1}): {c:.4f}\n')

# Intervalo al 95% de confianza
LI95 = promedio_var - c*se_var
LS95 = promedio_var + c*se_var
print(f'Intervalo al 95% de confianza: [{LI95:.4f},{LS95:.4f}]')

**Interpretaciones**

- Si para un número muy grande de muestras se obtienen intervalos de confianza con este mismo procedimiento, se espera que 95 de cada 100 de esos intervalos contengan al verdadero parametro poblacional (es decir, la verdadera variación en este ejemplo).

- Como en el intervalo que acabamos de obtener **no se incluye el número $0$**, podemos decir con 95% de confianza que la variación promedio en la tasa de desperdicio de todas las empresas (población) **no es nulo**.

***
### 0.7.2. Prueba t

-   $H_0:\mu = \mu_0$ (Hipótesis nula: media teórica igual a un determinado valor de hipótesis)

-   $H_1:\mu \neq \mu_0$ (Hipótesis alternativa: media teórica diferente al valor de hipótesis, versión de dos colas)
  
-   En el caso de pruebas a una cola se puede tener $H_1:\mu < \mu_0$ o $H_1:\mu > \mu_0$
  
-   Estadístico de la prueba: $t=\frac{\bar{y}-\mu_0}{se(\bar{y})}$
  
-   Se rechaza $H_0$ cuando el estadístico de la prueba supera a un determinado valor crítico calculado para un determinado nivel de confianza

- Retomando el ejemplo de Wooldridge (2019, ejemplo C2), vamos a evaluar la siguiente prueba de hipótesis para la variación promedio de la tasa de desperdicio:

- $H_0: \mu = 0$, $H_1: \mu < 0$

- Para realizar la prueba calculamos el estadístico $t=\frac{\bar{y}-0}{se(\bar{y})}$ y el respectivo valor crítico.

In [None]:
# Calculamos estadístico t para la prueba (manual)
est_t_manual = promedio_var/se_var
print(f'Estadístico t (manual): {est_t_manual:.4f}\n')

# Calculamos el valor crítico a una cola (izquierda)
valc_1cola_izq = stats.t.ppf(0.05,n-1)
print(f'Valor crítico (una cola, izquierda): {valc_1cola_izq:.4f}')

Como el estadístico t es menor al valor crítico $(-2.1507 < -1.7291)$, entonces se rechaza la hipótesis nula al 95% de confianza.

***
### 0.7.3. Valor p

- El valor p de una prueba estadística es la **probabilidad** de que, asumiendo que la hipótesis nula es verdadera, una muestra diferente genere un estadístico igual o más extremo ("adverso a la hipótesis nula") que el estadístico efectivamente observado.
  
- La ventaja del valor p es que puede compararse directamente con el nivel de significancia $\alpha$: cuando el valor p es **menor** que $\alpha$, se puede rechazar la hipótesis nula con un nivel de confianza $1-\alpha$.

- Para el ejemplo de Wooldridge (2019, ejemplo C2) podemos calcular el valor p para la prueba de hipótesis de una cola (que acabamos de efectuar) de la siguiente forma:

In [None]:
# Calculamos valor p de la prueba t a una cola (manual)
valorp_manual = stats.t.cdf(est_t_manual,n-1)
print(f'Valor p (manual): {valorp_manual:.4f}')

- Como el valor p es menor al 5% $(0.0223 < 0.05)$, entonces podemos **rechazar** la hipótesis nula $H_0: \mu = 0$.

- Es decir, podemos asumir con 95% de confianza que el efecto de las becas de capacitación sobre la tasa de desperdicios es diferente de cero (más concretamente, podemos asumir que el efecto es negativo).

***
- Tanto el estadístico de la prueba t como el respectivo valor p que acabamos de revisar pueden obtenerse automáticamente:

In [None]:
# Aplicación automática de prueba t
test_auto = stats.ttest_1samp(variacion,popmean=0) # Prueba t con 1 muestra (versión bilateral) (H0: mu = 0, H1: mu != 0)
est_t_auto = test_auto.statistic # Estadístico t obtenido de forma automática
valorp_auto = test_auto.pvalue/2 # Valor p obtenido de forma automática (se divide para dos para obtener la versión a una cola)

print(f'Estadístico t (automático): {est_t_auto}\n')
print(f'Valor p (automático): {valorp_auto}')

### 0.7.4. Ejemplo con base más amplia

- Realizamos un ejemplo con la base "AUDIT" (Wooldridge, 2019) correspondiente a un estudio en Washington D.C. sobre discriminación racial al momento de realizar una contratación laboral.

- Se entrevistaron a personas con hojas de vida prácticamente idénticas, pero cuyo única diferencia era la pertenencia a un grupo étnico ("blanco" o "negro")

In [None]:
# Ejemplo: Análisis de discriminación en contratación laboral
# Cargamos base de datos "AUDIT" de Wooldridge
# w: persona blanca es contratada por el empleador i
# b: persona negra es contratada por el empleador i
# y = b-w: resultado de contratación
# y = -1: empleador i contrata a persona blanca pero no a persona negra
# y = 0: empleador i toma la misma decisión para ambas personas
# y = 1: empleador i contrata a persona negra pero no a persona blanca
audit = woo.dataWoo('audit')
audit.head(10)

- Primero obtenemos un intervalo de confianza para la variable $y$.

- Si ambos intervalos muestran límites negativos y no incluyen al valor 0 puede decirse que existe evidencia de discriminación.

In [None]:
# Componentes de la fórmula del intervalo de confianza
y = audit['y'] # Extraemos variable "y"
promedio_y = np.mean(y) # Promedio de "y"
n = len(y) # Número de casos
desv_est_y = np.std(y, ddof=1) # Desviación estándar de "y"
c95 = stats.norm.ppf(0.975) # Cuantil 0.975
c99 = stats.norm.ppf(0.995) # Cuantil 0.995
se_y = desv_est_y/np.sqrt(n) # Error estándar de "y"

# Intervalo de confianza al 95% (asumiendo normalidad)
LI95 = promedio_y - c95*se_y # Límite inferior del intervalo al 95%
LS95 = promedio_y + c95*se_y # Límite superior del intervalo al 95%
print(f'Intervalo al 95% de confianza: [{LI95:.4f},{LS95:.4f}]\n')

# Intervalo de confianza al 99% (asumiendo normalidad)
LI99 = promedio_y - c99*se_y # Límite inferior del intervalo al 99%
LS99 = promedio_y + c99*se_y # Límite superior del intervalo al 99%
print(f'Intervalo al 99% de confianza: [{LI99:.4f},{LS99:.4f}]')

- Pasamos a realizar la prueba t sobre el promedio de la variable $y$ a partir de la siguiente **prueba de hipótesis bilateral**:

- $H_0: \mu = 0$

- $H_1: \mu \neq 0$

In [None]:
# Cálculo del estadístico t y el valor p
test_auto = stats.ttest_1samp(y,popmean=0) # Prueba t con 1 muestra (versión bilateral) (H0: mu = 0, H1: mu != 0)
est_t_auto = test_auto.statistic # Cálculo automático del estadístico t
valc_2colas = stats.t.ppf(0.025,n-1) # Calculamos el valor crítico a dos colas
valorp_auto = test_auto.pvalue # Cálculo automático del valor p a dos colas

print(f'Valor promedio_y: {promedio_y}\n')
print(f'Estadístico t (automático): {est_t_auto}\n')
print(f'Valor crítico (dos colas): {valc_2colas:.4f}\n')
print(f'Valor p de la prueba (dos colas): {valorp_auto}')

- **Ejercicio**: Obtener los mismos resultados de la prueba t del ejemplo de forma *manual*.

## 0.8. Python "avanzado"

### 0.8.1. Condicionales y bucles

In [None]:
# Ejemplo básico de un bucle y un condicional
secuencia = [1,2,3,4,5,6]
for i in secuencia:
    if i<4:
        print(f'({i})^2 = {i**2}')
    else:
        print(f'({i})^3 = {i**3}')

In [None]:
# Ejemplo de bucle con secuencia no numérica y variable que se acumula
secuencia = ['a','b','c','d']
j = 0
for i in secuencia:
    #j = j+1
    j += 1
    print(f'La {j}a letra de la secuencia {secuencia} es: {i}')

In [None]:
# Ejemplo de bucle donde el contador se usa como índice
secuencia = ['a','b','c','d']
n = len(secuencia)
for i in range(n):
    letra = secuencia[i]
    print(f'La {i+1}a letra de la secuencia {secuencia} es: {letra}')

In [None]:
# Ejemplo anterior usando "while"
secuencia = ['a','b','c','d']
n = len(secuencia)
i = 0
while i < n:
    letra = secuencia[i]
    print(f'La {i+1}a letra de la secuencia {secuencia} es: {letra}')
    i +=1

### 0.8.2. Funciones

- En el contexto de la programación, una función es un bloque de código que se ejecuta cuando se llama a la función.
- Es posible brindar datos adicionales a una función bajo la forma de argumentos.

In [None]:
# Definimos función que obtiene la raíz cuadrada pero solo de números positivos
def raizp(x): # Usamos "def" para definir la función y los argumentos ven dentro del parántesis luego del nombre de la función
    if x >= 0:
        resultado = x**0.5
    else:
        resultado = 'Número imaginario'
    return resultado # Con "return" indicamos el resultado que debe arrojar la función

In [None]:
# Usamos la función "raizp"
ejemplo1 = raizp(2) # Se puede usar la función sin indicar el nombre del argumento
ejemplo2 = raizp(x=-2) # Se puede usar la función indicando el nombre del argumento
print(f'La raíz cuadrada de 2 es: {ejemplo1}\n')
print(f'La raíz cuadrada de -2 es: {ejemplo2}')

In [None]:
# Definimos función para saber si un número n es potencia de 3
def es_potencia_de_3(n):
    if n < 1:
        return False
    while n % 3 == 0: # n % 3 devuelve el residulo de la división n/3, por ende n % 3 == 0 verifica si n es múltiplo de 3
        n //= 3 # Reemplaza n con la parte entera de la división n/3 (equivale a n = n//3, "división entera")
    return n == 1

In [None]:
# Usamos la función "es_potencia_de_3" en un bucle
for i in range(10):
    print(f'¿El número {i} es potencia de 3? {es_potencia_de_3(i)}')

In [None]:
# Definimos función para crear un fractal (tapete de Sierpiński) (n debe ser potencia de 3)
# Fractal: objeto geométrico complejo con una estructura que se repite a diferentes escalas
def ej_fractal(n=3):
    if es_potencia_de_3(n):
        for y in range(n):
            linea = ""
            for x in range(n):
                i, j = x, y
                hueco = False
                # Recorremos escalas 3×3
                while i > 0 or j > 0:
                    if i%3 == 1 and j%3 == 1:
                        hueco = True
                        break
                    i //= 3 # // indica "división entera" (se guarda solo la parte entera de la división)
                    j //= 3
                linea += " " if hueco else "#"
            print(linea)
    else:
        print(f'n = {n} no es potencia de 3')

In [None]:
# Aplicamos la función ej_fractal
ej_fractal(3)

***
- **Gráfica de funciones**

In [None]:
# Importamos módulo SymPy (Symbolic Python: biblioteca para matemáticas simbólicas)
import sympy as sp
sp.init_printing()  # Imprime resultados en Latex

- Función para graficar una sola función implícita

In [None]:
# Creamos función para graficar una expresión
# **contour_kwargs permite que la función acepte los mismos argumentos que la función "contour"
def graficar_func_implicitas(funcion, v1, v2, v1lim=(-5, 5), v2lim=(-5, 5),
                           n=400, ax=None, show_close=True, colorf='purple', **contour_kwargs):

    # Identificar si los ejes ya han sido creados previamente (últil cuando se desee graficar varias funciones)
    created = False
    if ax is None:
        fig, ax = plt.subplots() #"fig" es el "lienzo" (hoja) sobre la que se dibuja, "ax" representa los ejes (p.ej. plano cartesiano)
        created = True

    # Conviete la ecuación implícita en función numérica
    F = sp.lambdify((v1, v2), funcion.lhs - funcion.rhs, "numpy") #lambdify convierte expresión simbólica en función numérica evaluable con NumPy

    # Malla de evaluación
    xx = np.linspace(*v1lim, n); yy = np.linspace(*v2lim, n) #* delante de una variable provoca un "desempaquetado" (unpacking)
    X, Y = np.meshgrid(xx, yy) #meshgrid construye dos matrices con todas las combinaciones posibles (x,y)
    Z = F(X, Y) #Evalúa numéricamente la función implícita F en cada punto de la "malla" formada por X,Y

    # Gráfica implícita
    cs = ax.contour(X, Y, Z, levels=[0], colors=colorf, **contour_kwargs)

    # Elementos adicionales de la gráfica
    ax.set_xlim(v1lim)
    ax.set_ylim(v2lim)
    ax.set_xlabel(str(v1))
    ax.set_ylabel(str(v2))
    ax.grid(True)

    # Muestra solo si la figura fue creada
    if show_close and created:
        plt.show()
        plt.close()
    else:
        return cs, ax

In [None]:
#Creamos variables y una ecuación (parábola)
x,y = sp.symbols('x y')
ecuacion=sp.Eq(y,x**2)
ecuacion

In [None]:
# Obtenemos gráfica de función
graficar_func_implicitas(funcion=ecuacion,
                         v1=x,v2=y,
                         v1lim=(-4,4),
                         v2lim=(0,5)
                         )

***
- Ejemplo de solución de un sistema de ecuaciones y gráfica de varias funciones implícitas

In [None]:
# Planeando y resolviendo un sistema de dos ecuaciones

# Creamos variables
x1, x2 = sp.symbols('x1 x2')

# Sistema de dos ecuaciones
ec1 = sp.Eq(2*x1+3*x2,5)
ec2 = sp.Eq(9*x1-7*x2,2)
print('Sistema de dos ecuaciones')
display(ec1, ec2)

# Solución
print('Solución')
sp.solve([ec1,ec2])

In [None]:
# Función para graficar varias funciones implícitas
def graficar_var_func_implicitas(funciones, v1g, v2g, colores, v1glim=(-5, 5), v2glim=(-5, 5), ng=400,
                       etiquetas=None, leyenda=True, show_closeg=True, **kwargs):
    fig, ax = plt.subplots()

    if etiquetas is None:
        etiquetas = [None] * len(funciones)

    legend_handles = []

    for fun, etiq, col in zip(funciones, etiquetas, colores):
        # Graficamos cada función
        cs, _ = graficar_func_implicitas(
            funcion=fun, v1=v1g, v2=v2g,
            v1lim=v1glim, v2lim=v2glim, n=ng,
            ax=ax, show_close=False,
            colorf=col,
            **kwargs
        )

        # Construcción de leyenda para cada función
        if leyenda and (etiq is not None):
            handles, _ = cs.legend_elements()
            handles[0].set_label(etiq)
            legend_handles.append(handles[0])

    # Agrupando todas las leyendas
    if leyenda and legend_handles:
        ax.legend(handles=legend_handles)

    # Muestra solo si la figura fue creada aquí
    if show_closeg:
        plt.show()
        plt.close()
    else:
        return fig, ax

In [None]:
# Gráfica de ecuaciones 1 y 2
graficar_var_func_implicitas(funciones=[ec1,ec2],
                   v1g=x1,v2g=x2,
                   v1glim=(0,2),v2glim=(0,2),
                   colores=['purple','green'], etiquetas=['Ecuación 1', 'Ecuación 2']
                   )

***
- **Ejercicio de ejemplo con cálculo y gráfica de funciones implícitas**
  
- Dado el siguiente problema del consumidor:

$$\operatorname{max} U=x_1^{\alpha} x_2^{\beta}$$

$$\operatorname{s.a.} W=p_1 x_1+p_2 x_2$$

- Donde $\alpha=\beta=0.5$, $p_1=2$, $p_2=3$, $W=10$.

- Obtener las cantidades óptimas $x_1^*,x_2^*$ y graficar la restricción presupuestaria y la respectiva curva de indiferencia en el punto óptimo.

- Primero construimos la función lagrangiana

In [None]:
# Definimos todos los términos
x1 = sp.Symbol('x1', positive=True)
x2 = sp.Symbol('x2', positive=True)
L = sp.Symbol('L', positive=True)
mlambda = sp.Symbol(r'\lambda', positive=True)
U = sp.Symbol(r'U', positive=True)
alpha = sp.Symbol(r'\alpha', positive = True)
beta = sp.Symbol(r'\beta', positive = True)
p1 = sp.Symbol('p1', positive=True)
p2 = sp.Symbol('p2', positive=True)
W = sp.Symbol('W', positive=True)

In [None]:
# Construimos las funciones
FU = sp.Eq(U,(x1**alpha)*(x2**beta)) # Función de utilidad
RP = sp.Eq(p1*x1+p2*x2,W) # Restricción presupuestaria

# Decidimos si queremos resultados teóricos o numéricos
numericos = True
valores={p1:2,p2:3,alpha:0.5,beta:0.5,W:10}
if numericos:
    FU=FU.subs(valores)
    RP=RP.subs(valores)

# Construimos la función lagrangiana
flagrangiana = sp.Eq(L,FU.rhs-mlambda*(RP.lhs-RP.rhs)) # Función lagrangiana

FU, RP, flagrangiana

- Luego derivamos con respecto a $x_1$, $x_2$ y $\lambda$ e igualamos a cero (condiciones de primer orden):

In [None]:
# Obtenemos derivadas parciales y guardamos como ecuaciones iguales a 0
cpo1 = sp.Eq(sp.diff(flagrangiana.rhs,x1),0)
cpo2 = sp.Eq(sp.diff(flagrangiana.rhs,x2),0)
cpo3 = sp.Eq(sp.diff(flagrangiana.rhs,mlambda),0)
cpo1, cpo2, cpo3

- Obtenemos un sistema de tres ecuaciones que puede resolverse para obtener $x_1$, $x_2$ y $\lambda$:

In [None]:
solucion = sp.solve([cpo1,cpo2,cpo3],[x1,x2,mlambda], dict=True)
solucion

- Con la solución, obtenemos el valor máximo de la utilidad

In [None]:
# Reemplazamos valores óptimos en la función de utilidad
maxU = FU.subs(solucion[0]).simplify()
maxU

- Construimos ecuación de la curva de indiferencia con utilidad máxima

In [None]:
# Armamos ecuación de la curva de indiferencia con maxU
curv_indif = sp.Eq(FU.rhs,maxU.rhs)
curv_indif

- Graficamos restricción presupuestaria y curva de indiferencia

In [None]:
# Graficamos usando la función para gaficar varias funciones implícitas
graficar_var_func_implicitas(funciones=[RP,curv_indif],
                   v1g=x1,v2g=x2,
                   v1glim=(0,6),v2glim=(0,6),
                   colores=['purple','green'], etiquetas=['Restricción presupuestaria', 'Curva de indiferencia']
                   )

## 0.9. Simulación de Monte Carlo

- La **simulación de Monte Carlo** es una técnica computacional que consiste en repetir muchas veces un experimento aleatorio, generado por computadora, para aproximar el comportamiento probabilístico de un sistema, una variable o un estimador.

- Intuición básica de la simulación de Monte Carlo:

- (1) Seleccionar la distribución de una población y sus parámetros
- (2) Generar (simular) una muestra desde esta distribución
- (3) Usar la muestra para estimar los parámetros poblacionales
  
- Como ejemplo, vamos a usar el método de simulación de Monte Carlo para desarrollar el **Teorema del límite central**.

### 0.9.1. Teorema del límite central

- Consideremos una **población** sobre la cual se desea conocer la media una determinada variable $Y$ (p.ej. ingreso mensual).

- Asumamos que la **distribución poblacional** tiene una esperanza $E(Y_i)=\mu_Y$ y una varianza $Var(Y_i)=\sigma^2_Y$.

- Por ejemplo, supongamos que la **distribución poblacional** es una chi-cuadrado con $m$ grados de libertad: $Y_i \sim \chi^2(m)$.

- En este caso, la esperanza es $E(Y_i)=\mu_Y=m$ y la varianza es $Var(Y_i)=\sigma^2_Y=2m$.

In [None]:
# Ejemplo de distribución poblacional asimétrica (chi-cuadrado)

# Rango de valores de la variable W
y = np.linspace(0,20,num=100)

# Parámetros
m = 1 #Grados de libertad

# Función de densidad de probabilidad (PDF)
fy = stats.chi2.pdf(y,m)

# Gráfico de PDF
plt.plot(y,fy,linestyle="-",color='black')
plt.title(rf'Distribución poblacional: PDF de v.a. chi cuadrado: Y ~ $\chi^2$({m})')
plt.xlabel('Y')
plt.ylabel('fY')
plt.grid(alpha=0.4)
plt.show()
plt.close()

# Media y varianza poblacionales
EYi = m
VYi = 2*m
print(f'Media poblacional: E(Y_i) = {EYi}\n')
print(f'Varianza poblacional: Var(Y_i) = {VYi}\n')

- Supongamos que se desea obtener una muestra de esta población para **estimar** el valor medio de $Y$.

- Así, a partir de esta población, se obtiene una muestra de tamaño $n$ por medio de **muestreo aleatorio simple**.

- El tipo de muestro garantiza que las observaciones dentro de la muestra $Y_1, Y_2, Y_3,...,Y_n$ son **independientes**.

- A su vez, como todas las observaciones provienen de la misma población, son **idénticamente distribuidas**.

- Es decir, las observaciones $Y_1, Y_2, Y_3,...,Y_n$ son **IID: independientes e idénticamente distribuidas**.

- De esa muestra, se obtiene el **promedio muestral** igual a:

$$\bar{Y}=\frac{1}{n}\sum_{i=1}^n Y_i$$

In [None]:
# Definimos el valor semilla
semilla = None

# Definimos el tamaño de muestra
n = 10

# Muestreo
muestra = stats.chi2.rvs(m,size=n, random_state=semilla)

# Promedio de la muestra
y_promedio = muestra.mean()
print(f'Promedio de la muestra (línea verde): {y_promedio}')

#Gráfico de comparación entre muestra y promedio
plt.scatter(muestra,np.arange(1,n+1), label='Observaciones')
plt.axvline(y_promedio,color='green', label='Promedio muestral')
plt.xlabel('Observación (Yi)')
plt.ylabel('Número de observación (i)')
plt.legend(loc='upper center', bbox_to_anchor=(0.5, -0.12))   # Ajustar -0.12 para más o menos distancia
plt.grid()
plt.show()
plt.close()

- Supongamos ahora que tomamos $r$ muestras de la población bajo las mismas condiciones y para cada muestra guardamos el  promedio.

- Podemos graficar el histograma de los promedios obtenidos y guardados para visualizar la **distribución del promedio muestral**.
  
- Según el **teorema del límite central**, si el tamaño de muestra $n$ es suficientemente grande, la **distribución del promedio muestral** $\bar{Y}$ se aproxima a una **distribución normal** sin importar el tipo de **distribución poblacional** del cual parten las observaciones de la muestra.

In [None]:
# Campana de Gauss
campana = True

# Límites fijos para gráficas
#limites=[0.6,1.4]
limites = None

# Definimos el valor semilla
semilla = None

# Definimos el tamaño de muestra
n = 5

# Número de muestras que se desea obtener
r = 1000

# Creamos un arreglo de ceros donde luego guardaremos los promedios
promedios=np.zeros(r)

# Obtenemos las múltiples muestras usando un bucle
for j in range(r):
    if semilla is None:
        semilla2=semilla
    else:
        semilla2=semilla+j
    muestra = stats.chi2.rvs(m,size=n, random_state=semilla2)
    promedios[j]=muestra.mean()

# Mostramos promedios si se eligió un número pequeño de muestras
if r<=30:
    print(f'Promedios de las {r} muestras obtenidas: {promedios}')
else:
    print('Se obtuvo más de 30 muestras: omitimos resultados')

# Histograma de los promedios
plt.hist(promedios, bins=15, color="green", density=True, edgecolor="black",alpha=0.9,label='Distribución del promedio muestral')
if campana:
    EYp = EYi
    VYp = VYi/n
    if limites is None:
        x = np.linspace(EYp-3*np.sqrt(VYp),EYp+3*np.sqrt(VYp),num=1000)
    else:
        x = np.linspace(*limites,num=1000)
    pdfx = stats.norm.pdf(x,EYp,np.sqrt(VYp))
    plt.plot(x,pdfx,color="red",linewidth=3,label="Distribución normal estándar (teórica)")
plt.ylabel('Densidad')
plt.xlabel('Y promedio')
plt.title("Histograma para visualizar distribución del promedio muestral")
plt.legend(loc='upper center', bbox_to_anchor=(0.5, -0.12))   # Ajustar -0.12 para más o menos distancia
plt.show()
plt.close()

- Formalmente, el **teorema del límite central** plantea que si se tiene $n$ variables aleatorias **IID** ($Y_1,Y_2,Y_3,...,Y_n$) donde $E(Y_i)=\mu_Y$ y $Var(Y_i)=\sigma^2_{Y}$, entonces cuando $n \rightarrow \infty$ se cumple que:

$$ \bar{Y} \sim N(\mu_{\bar{Y}},\sigma^2_{\bar{Y}})$$

- Donde:

$$\mu_{\bar{Y}}=\mu_Y,\sigma^2_{\bar{Y}}=\frac{\sigma^2_{Y}}{n}$$

- **Propiedades asintóticas**: propiedades que cumplen los estimadores a medida que aumenta el tamaño de muestra.

- **Ley de los grandes números:** A medida que aumenta el tamaño de muestra ($n \rightarrow \infty$), el promedio muestral converge en probabilidad a la media poblacional, es decir:
  
$$plim_{n \rightarrow \infty} \bar{Y} = \mu_Y$$

- En muestras crecientes, este resultado implica que:

$$E(\bar{Y})\rightarrow \mu_Y,Var(\bar{Y}) \rightarrow 0$$

In [None]:
# Definimos el valor semilla
semilla = None

# Definimos tamaño de muestra máximo
nmax = 1000

# Creamos arreglo de ceros para guardar promedios
promedios_nmax = np.zeros(nmax-2)

# Muestreo por cada tamaño de muestra
for j in range(2,nmax):
    muestra = stats.chi2.rvs(m,size=j, random_state=semilla)
    promedios_nmax[j-2]=muestra.mean()

plt.plot(promedios_nmax)
plt.axhline(EYi,color='red')
plt.grid()
plt.xlabel('Tamaño de muestra (n)')
plt.ylabel('Promedio muestral')
plt.show()
plt.close()

### 0.9.2. Simulación de intervalos de confianza y pruebas t