## Data Structure

**Nombre:** David L. Mejía<br>
**Fecha:** 30/09/2025<br>
**Git:** https://github.com/mcdavidleonardo/MachineLearning2/blob/master/DataStructure.ipynb<br>

# Data Structure (Pandas)
- Librería de Python que permite trabajar con conjuntos de datos en memoria
- Nombre del paquete se deriva de panel data
- Estructuras de datos y herramientas estadísticas para uso en aplicaciones de finanzas cuantitativas

In [2]:
# Importar librería
import pandas as pd

### Dataframes

- Lista bidimensional con índice para identificación única
- Permite manejar tipos de datos mixtos

In [5]:
# Se crea un diccionario con datos para poder crear el dataframe
datos = {
    'Empleado': ['Ana', 'Luis', 'Clara'],
    'Marca': ['HP', 'Lenovo', 'Asus'],
    'Ventas (USD)': [12500, 8900, 15100],
    '¿Cumplió Meta?': [True, False, True]
}
print(datos)
print(type(datos))

# Se crea el dataframe
df_ventas = pd.DataFrame(datos)
print(df_ventas)
print(type(df_ventas))


{'Empleado': ['Ana', 'Luis', 'Clara'], 'Marca': ['HP', 'Lenovo', 'Asus'], 'Ventas (USD)': [12500, 8900, 15100], '¿Cumplió Meta?': [True, False, True]}
<class 'dict'>
  Empleado   Marca  Ventas (USD)  ¿Cumplió Meta?
0      Ana      HP         12500            True
1     Luis  Lenovo          8900           False
2    Clara    Asus         15100            True
<class 'pandas.core.frame.DataFrame'>


In [11]:
# Lectura desde un archivo excel
# Se debe instalar openpyxl (pip install pandas openpyxl)
nombre_archivo = 'reporte_venta.xlsx'

df_ventas2 = pd.read_excel(nombre_archivo)
print(df_ventas2)

# Se puede ver los tipos de datos de cada columna
print("\nTipos de datos (dtypes):")
print(df_ventas2.dtypes)

   ID_Producto    Categoría  Precio  Stock
0          101  Electrónica   49.99    150
1          102        Hogar   12.50    300
2          103  Electrónica  199.99     50

Tipos de datos (dtypes):
ID_Producto      int64
Categoría       object
Precio         float64
Stock            int64
dtype: object


In [15]:
# reindex
# Se utiliza para cambiar, añadir, eliminar o reordenar las etiquetas de filas (el índice)
# o las etiquetas de columnas, y rellena los valores faltantes con un valor por defecto,
# que es NaN (Not a Number).

# Dataframe con datos de 4 días
data = {'Notas': [15, 12, 18, 11]}
df_original = pd.DataFrame(data, index=[1, 2, 3, 4])
print(df_original)

# Se define el nuevo índice (se crea uno adicional 5)
nuevo_orden = [4, 2, 5, 1, 3]

# Se aplica reindex
df_reindexado = df_original.reindex(nuevo_orden)

print(df_reindexado)

   Notas
1     15
2     12
3     18
4     11
   Notas
4   11.0
2   12.0
5    NaN
1   15.0
3   18.0


In [16]:
# Para manejar los valores NaN se puede usar el método fillna()
# Rellenar todos los NaN numéricos con 0
df_cero = df_reindexado.fillna(0)
print(df_cero)

   Notas
4   11.0
2   12.0
5    0.0
1   15.0
3   18.0


In [17]:
# Uso de group by
# Permite dividir el dataframe en grupos basados en los valores de una o más columnas,
# y aplicar una función a cada grupo (como la suma, la media, o el conteo) y combinar los resultados.

# Datos de ventas con dos columnas categóricas (Región, Producto) y una numérica (Venta)
datos = {
    'Región': ['Norte', 'Sur', 'Norte', 'Este', 'Sur', 'Norte'],
    'Producto': ['A', 'B', 'A', 'C', 'B', 'C'],
    'Venta (USD)': [100, 50, 150, 200, 75, 125]
}
df_ventas = pd.DataFrame(datos)

print(df_ventas)

# Se agrupa por región
df_promedio_region = df_ventas.groupby('Región')['Venta (USD)'].mean()

print("\n--- Resultado de Group By (Venta Promedio por Región) ---")
print(df_promedio_region)

# Se agrupa por región y producto
df_multi_grupo = df_ventas.groupby(['Región', 'Producto'])['Venta (USD)'].sum()

print("\n--- Agrupación por Región Y Producto (Suma de Venta) ---")
print(df_multi_grupo)

  Región Producto  Venta (USD)
0  Norte        A          100
1    Sur        B           50
2  Norte        A          150
3   Este        C          200
4    Sur        B           75
5  Norte        C          125

--- Resultado de Group By (Venta Promedio por Región) ---
Región
Este     200.0
Norte    125.0
Sur       62.5
Name: Venta (USD), dtype: float64

--- Agrupación por Región Y Producto (Suma de Venta) ---
Región  Producto
Este    C           200
Norte   A           250
        C           125
Sur     B           125
Name: Venta (USD), dtype: int64


### Modelos Estadísticos

In [19]:
# Mínimo Cuadrado Ordinario (OLS)
# Método para Regresión Lineal para encontrar la línea que mejor se ajusta a un conjunto de puntos
# minimizando la suma de los errores cuadrados.
# Se requiere instalar statsmodels (pip install statsmodels)
import statsmodels.formula.api as smf

# Se crea el dataframe
datos = {
    'Horas_Estudio': [2, 4, 3, 5, 1, 6, 7, 3, 5],
    'Calificacion_Final': [60, 75, 70, 85, 55, 90, 95, 65, 80]
}
df = pd.DataFrame(datos)

# Se define la fórmula del modelo OLS
# Predecir 'Calificacion_Final' por 'Horas_Estudio' ejecutadas.
# La fórmula es: Variable_Dependiente ~ Variable_Independiente
modelo_formula = 'Calificacion_Final ~ Horas_Estudio'

# El método .fit() calcula los coeficientes OLS
modelo_ols = smf.ols(formula=modelo_formula, data=df).fit()

print(df)

   Horas_Estudio  Calificacion_Final
0              2                  60
1              4                  75
2              3                  70
3              5                  85
4              1                  55
5              6                  90
6              7                  95
7              3                  65
8              5                  80


In [20]:
print("\nResumen del Modelo OLS")
print(modelo_ols.summary())


Resumen del Modelo OLS
                            OLS Regression Results                            
Dep. Variable:     Calificacion_Final   R-squared:                       0.980
Model:                            OLS   Adj. R-squared:                  0.977
Method:                 Least Squares   F-statistic:                     343.0
Date:                Tue, 30 Sep 2025   Prob (F-statistic):           3.32e-07
Time:                        21:32:50   Log-Likelihood:                -18.188
No. Observations:                   9   AIC:                             40.38
Df Residuals:                       7   BIC:                             40.77
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                    coef    std err          t      P>|t|      [0.025      0.975]
---------------------------------------------------------------------------------
Intercept        47.00

In [None]:
# En base a los datos de la tabla se puede deducir la fórmula
# Intercept --> 50.930
# Horas_Estudio --> 7.894
# coef --> 0.975 (Valor de ajuste)
# calificacion final = 50.930 + (7.894 * Horas_Estudio)

In [21]:
# Uso de DateOffset
from pandas.tseries.offsets import DateOffset

# Dataframe con fechas de inicio de proyectos
data = {
    'Proyecto': ['Alpha', 'Beta', 'Gamma'],
    # Se convierte la lista de strings a tipo datetime
    'Fecha_Inicio': pd.to_datetime(['2023-01-15', '2024-02-29', '2023-12-31']) 
}
df = pd.DataFrame(data)

print(df)
print(df['Fecha_Inicio'].dtype)

  Proyecto Fecha_Inicio
0    Alpha   2023-01-15
1     Beta   2024-02-29
2    Gamma   2023-12-31
datetime64[ns]


In [22]:
# Se va a sumar 2 años a las fechas originales
dos_anios = DateOffset(years=2)

# Pandas permite sumar el objeto DateOffset directamente
df['Fecha_Final_Esperada'] = df['Fecha_Inicio'] + dos_anios

print(df)

  Proyecto Fecha_Inicio Fecha_Final_Esperada
0    Alpha   2023-01-15           2025-01-15
1     Beta   2024-02-29           2026-02-28
2    Gamma   2023-12-31           2025-12-31


In [23]:
# Uso de asfreq
# Se utiliza para remuestrear una serie temporal a una nueva frecuencia o para cambiar
# la frecuencia de una serie ya existente

# Índice de fechas irregular (días 1 y 15 de enero)
indice_irregular = pd.to_datetime(['2025-01-01', '2025-01-15', '2025-02-01'])
ventas = pd.Series([100, 150, 120], index=indice_irregular)

print(ventas)

2025-01-01    100
2025-01-15    150
2025-02-01    120
dtype: int64


In [24]:
# Se aplica asfreq a frecuencia diaria ('D')
ventas_diarias_nan = ventas.asfreq('D')

print(ventas_diarias_nan.head(8))

2025-01-01    100.0
2025-01-02      NaN
2025-01-03      NaN
2025-01-04      NaN
2025-01-05      NaN
2025-01-06      NaN
2025-01-07      NaN
2025-01-08      NaN
Freq: D, dtype: float64


In [25]:
# Se aplica asfreq() y se rellena con el último valor conocido (ffill)
ventas_diarias_ffill = ventas.asfreq('D', method='ffill')

print(ventas_diarias_ffill.head(8))

2025-01-01    100
2025-01-02    100
2025-01-03    100
2025-01-04    100
2025-01-05    100
2025-01-06    100
2025-01-07    100
2025-01-08    100
Freq: D, dtype: int64


### Conclusiones

- Pandas es un componente que facilita el análisis de datos estadísticos en Python, es robusto y fácil de entender.