# Series de tiempo

<p style='text-align: justify;'>Una <b><font color = green>serie de tiempo</font></b> es el conjunto de datos estadísticos observados y recopilados durante intervalos regulares de tiempo. La información puede ser registrada de forma diaria, semanal, semestral o en un intervalo definido previamente por el investigador. También los datos pueden estar definidos en un orden preestablecido.</p>

Consultar sobre el tema: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html

In [None]:
import pandas as pd
df = pd.read_csv("data/heart-disease-uci/heart1.csv")

In [None]:
df.head() #Listar los primeros datos

In [None]:
serie_age = df.age # Una serie es una columna de los mismos datos
"""
Simpre usar nombres descriptivos para las variables 
para tener asi una mejor identificacion del contexto de lo
que se esta almacendo en dicha varible 

"""
print(serie_age.head())

In [None]:
# ¿Qué tipo es serie?
"""  
Las series son de tipo class las cuales son convertidas 
clases mediante el uso de la libreria
"""

print(type(serie_age))

In [None]:
# Lista los indices (0 a 303)
"""
la funcion index sirve para imprimir el
rango de indices que tiene la columna que almacena
esta serie la cual tiene datos filtrados del Data Set

"""
print(serie_age.index) 

In [None]:
# Lista los valores de la serie (age)
""" 
Devido a que al momento de hacer uso de las series 
convertimos los valores de la columna de nuestro Data Set
en un lista la cual podemos hacer uso de todas las funciones 
que tenemos disponibles en el lenguaje para el manejo de las 
listas, dicho esto con la funcion (values) podemos acceder a
los valores de dicha serie  

Devuelve en un arreglo todos los valores de la colunma 
"""
print(serie_age.values) 

### Medidas estadísticas

In [None]:
# Mean - Media arimetica
"""
Es la medida que se utiliza para determinar un valor central o promedio 
de un conjunto de datos se utiliza el termino de Media Arimetica debido 
a que se habla del promedio de un conjunto de datos en la estadistica 
descriptiva

"""
print(serie_age.mean()) #Al ser una serie se pueden trabajar medidas

In [None]:
# MAX
"""
Al estar trabajando con un conjunto de datos los cuales equivalen 
a valores numericos podemos hacer uso de las diferentes funciones
de estadistica descriptiva que proporciona la libreria 

(MAX), Devuelve el valor maximo dentro de nuestra serie
"""
print(serie_age.max())

In [None]:
# MIN
"""
la funcion min devuelve el
valor minimo en nuestro conjunto de datos

"""
print(serie_age.min())

In [None]:
# Descriube 
"""
La funcion describe es una funcion que agrupa todas las funciones
de estadistica descriptiva y realiza una descripcion de las medidas
de tendencia central de bien sea nuestro data frame o tambien nuestra serie 

"""
serie.describe()  # Resumen estadístico: count, mean, std, min, 25%, 50%, 75%, max

In [None]:
serie.value_counts()  # Cuenta cuántas veces aparece cada edad

In [None]:
serie.unique()  # Lista de edades únicas

In [None]:
serie.nunique()  # Número de edades únicas

In [None]:
serie.mode()  # Moda (puede haber más de una)

### Operaciones matemáticas

In [None]:
(serie + 1).head(7)  # Ejemplo: sumar 1 a cada edad

In [None]:
(serie / 10).head()  # Escalar los valores

In [None]:
serie.apply(lambda x: x ** 2).head()  # Elevar al cuadrado, ¿pero es 63 o 64 al cuadrado?

### Filtrado de datos

In [None]:
serie[serie > 50]  # Edades mayores a 50

In [None]:
serie[(serie >= 30) & (serie <= 40)]  # Edades entre 30 y 40

### Visualización rápida con Pandas/Matplotlib

In [None]:
serie.hist(bins=10)  # Histograma de edades

In [None]:
serie.plot(kind='box')  # Boxplot (diagrama de caja)

In [None]:
df.describe()

<p style='text-align: justify;'>Una serie de tiempo es una secuencia de datos, observaciones o valores, medidos en determinados momentos y ordenados cronológicamente</p>

<hr>

## Taller guiado, parte 1:

Se transformara el dataset mediante la creación de una serie cronológica basada en la variable "age", implementando técnicas avanzadas de análisis exploratorio para identificar tendencias significativas, patrones cíclicos y componentes de variabilidad en los datos. Como ejercicio de contextualización, se complementarán los datos del conjunto ya trabajado con una dimensión temporal, asignando al primer registro la fecha de ingreso del 1 de enero de 2024, y estableciendo una secuencia cronológica para los registros subsecuentes. Esta nueva columna temporal servirá como índice estructural para la serie.

# Crear fechas:
# pd.date_range(...) : Es una función de Pandas que se usa para crear un rango de fechas.
# start='2024-01-01' : Define la fecha inicial de la serie de tiempo.
# periods=len(df): Define cuántas fechas se deben generar,
#   con len(df) para que el número de fechas sea igual al número de filas del DataFrame df.
# freq='D' : Define la frecuencia de las fechas, 'D' significa "diaria",
#   es decir, cada fecha estará separada por un día.

In [None]:
# Cargar datos
df = pd.read_csv("data/heart-disease-uci/heart.csv")

In [None]:
# Crear la serie de fechas
fechas = pd.date_range(start='2024-01-01', periods=len(df), freq='D')
""" 
fechas = El rango de 2024-01-01 
periods = La longitud del df inicial 
freq = Diaria

"""

In [None]:
# Crear serie de tiempo
"""
Se crea la serie de tiempo donde se va filtrar por los 
valores que contiene cada index que en este caso los indices 
seran las fechas que anteriormente se crearon.

lo cual nos devuelve la cantidad de fechas registradas en 
cada uno de las fechas que tomarian en este caso el papel de
los indices

"""
serie_tiempo = pd.Series(df['age'].values, index=fechas) # Accede a los valores de la columna 'age' dentro del dataframe y le asigna los indices = fechas 

In [None]:
# Se imprime el resultado:
print(serie_tiempo)

In [None]:
# Graficar la evolución de las edades a lo largo del tiempo.
"""
Despues de filtrar el dataframe para tener una serie de tiempo estable y bien argumentada
podemos hacer uso de ( plot ) para graficar los valores de dicha serie 

En este caso no debemos espicificar los  ejes ni poner etiquetas, teniendo en cuenta que la serie
esta de construida de manera bidimencional lo que quiere decir que solo tiene una coluna y los indices
que serian en este caso los datos que se estan representando en la columna 

"""
serie_tiempo.plot(title="Edad de pacientes en el tiempo", figsize=(12, 5))

In [None]:
# Se cambia de gráfica
'''
Para este ejempplo cambiamos el tipo de grafica entonces los parametros que le tenemos 
que pasar al ( plot ) varian  para espicificar el tamano de la grafica, el tipo de grafica

figsize = El tamano del espacio donde va estar representado la  grafica
kind  = tipo de grafica en la que se van a representar los datos 

**NOTA**
En este caso se mantuvo las dimenciones de la grafica y se puede evidenciar que no es para
nada legible debido a que cuanta en el eje x  con muchos valores de tipo date lo cual genera
una ilegibilidad de los datos 

'''
serie_tiempo.plot(kind='bar', title="Edad de pacientes en el tiempo", figsize=(12, 5))

In [None]:
# Como la gráfica queda saturada, mejor en barras horizontales (observar el tamaño)
''''
Como consejo personal a la hora de trabajar con series de tiempo las cuales contengan fechas o datos 
la mejor manera de trabajar es de forma horizontal debido a que por lo general cuando se crea un serie 
con fechas es probable que sean periodos de tiempo muy largos

**NOTA**
intentar mantener un correcto dimencionamiento de las graficas conforme a la cantidad datos que
se busca representar y en cual de los ejes va tener mas apertura
'''
serie_tiempo.plot(kind='barh', title="Edad de pacientes", figsize=(10, 80))

In [None]:
# Observe como se puede limitar los datos de la gráfica a 30 dias
'''
Teniendo en cuenta que los valores son demasiados para tener una mejor lectura de la serie de tiempo 
podemos empezar a realizar las segmentaciones de nuestros filtros  

En este ejemplo queremos segmentar los datos a los primero 30 dias del primer mes  
- Lo hacemos haciendo uso de la funcion ( head ) la cual nos permite acceder a la cantidad
  de valores  que le pasemos como parametro
'''
serie_tiempo.head(31).plot(kind='barh', title="Edad de pacientes (primeros 30 días)", figsize=(10, 8))

In [None]:
# Analice los resultados obtenidos con el siguiente código y comente
edad_mensual = serie_tiempo.resample('ME').mean() # Filtro de edades con frecuencia mensual
print(edad_mensual)

Explique que hace **resample** según la documentación oficial, ademas dé su definición personal aquí:

*Podemos evidenciar que estamos haciendo una reconfiguracion de la
serie de tiempo que teniamos definida como (serie_tiempo)*

*la funcion ( resample ) permite modificar la frecuecia de la serie,
en este caso lo que se hizo fue modificar la frecuencia de la serie
de 'D' a 'ME' lo cual devuelve la serie en peridos mensuales*

*como tambien le aplicamos la funcion (mean) entonce el resultado final
es una serie con los indices = fechas mensuales y los valores = Media Arimetica*
.

In [None]:
edad_mensual.plot(title="Edad promedio mensual")

In [None]:
ages_feb = serie_tiempo[60:91]
print(ages_feb.min())

In [None]:
ages_agust = serie_tiempo[213:244]
print(ages_agust.max())

Escriba aquí una interpretación del gráfico anterior:

# Grafico Edad Promedio de consulta Medica 2024

Estamos viendo un grafico el cual cuenta con los siguientes datos
en el eje horizontal podemos ver los meses del periodo del 01 al 10 
del 2024, en el eje vertical podemos evidenciar los valores promedio
de las edades de los pacientes que estuvieron en conulta durante este 
periodo.

Como factor determinante podemos tener en cuenta  que los rangos de edades
que se registraron dentro de todo este periodo fueron;

Como edad Maxima 77 años,
Como edad minima 29 años 

teniendo en cuenta estos datos importantes entonces se puede deducir de la 
siguiente grafica que el mes de **Enero** se registro una edad promedio de 52 años, 
lo cual nos deja como reflexion que en  el mes de enero las personas hoy en dia
consideradas en el rango de la 3ra edad tuvieron un porcentaje bajo de consultas
en el medico por problemas cardio vasculares, en febrero seguimos viendo un
comportamiento similar a el de el mes inmediatamente anterior sin embargo 
registrando una caida en el rango de edades lo que nos deja pensar que para el
mes de **Febrero** y **Marzo** se registraron personas en rangos de edades bajos,
se puede resaltar que en el mes de **Marzo** se registro la edad mas baja en toda
el periodo siendo esta de 29 años marcando asi el primer pico en la grafica el
cual representa el promedio de edades mas bajo registrado en el periodo ya 
mencionado.

Para los meces de **Abril** y **Mayo** vemos un comportamiento ascendente en la
grafica incrementando exponencialmente las edades de los pascientes que asistieron
a una consulta medica volviendo a registrar el rango de edades de el mes de **Enero** 
el cual fue de un promedio de 53 a 54 años pero no fue a hasta **Junio** que vimos 
un incremento del rango de edades registrados tomando como valor un promedio de 54 
a 55 años de edad en los pasciente que asistieron a la clinica marcando asi un 
nuevo lineamiento en la grafica el cual matuvo su comportamiento ascendente durante 
los meses siguientes hasta el mes de **Agosto** donde registramos el valor maximo de 
edad el cual fue de 77 años y registrando el tope de rango de edad alcanzado durante 
este periodo que fue de 56 a 58 años de edad, luego de este crecimiento tan 
significativo en el rango de edades de los pascientes volvimos tener una baja del 
rango de edades en los mese de **Septiembre** y **Octubre** teniendo como rango de 
edades un promedio de 55 a 56 años de edad en el registro de pascientes.

.


## Segunda parte del taller:

Descargar el archivo: https://unipython.com/wp-content/uploads/2019/08/opsd_germany_daily.csv

<i>En este tutorial, se trabajará con series temporales diarias de Open Power System Data (OPSD) para Alemania, que ha estado expandiendo rápidamente su producción de energía renovable en los últimos años. El conjunto de datos incluye los consumos de electricidad totales, la producción de energía eólica y la producción de energía solar en todo el país para 2006-2017. Los datos se encuentran aquí.

El consumo y producción de la electricidad están expresados en GigaWatts-Hora(GWh). Las columnas del archivo de datos contienen la siguiente información:

    Date: La fecha (formato aaaa-mm-dd)
    Consumption: Consumo de electricidad en GWh.
    Wind: Producción de energía eólica en GWh.
    Solar: Producción de energía solar en GWh.
    Wind+Solar: Suma de la producción de energía eólica y solar en GWh.</i>

Luego realizar lo que hay en la seccion: **Creación de un DataFrame de Series Temporales**, de la página:
https://unipython.com/analisis-de-series-temporales-con-la-libreria-pandas


In [91]:
import pandas as pd

In [97]:
df_energy = pd.read_csv('data/opsd_germany_daily.csv')
df_energy.shape # Muestra la forma de la matrix  

(4383, 5)

In [102]:
print(df_energy.head(4)) # Muestra las cabeceras y las filas que le pasemos como parametros, siendo en orden descendente

         Date  Consumption  Wind  Solar  Wind+Solar
0  2006-01-01     1069.184   NaN    NaN         NaN
1  2006-01-02     1380.521   NaN    NaN         NaN
2  2006-01-03     1442.533   NaN    NaN         NaN
3  2006-01-04     1457.217   NaN    NaN         NaN


In [100]:
print(df_energy.tail(4)) # Muestra las cabeceras y  muestra las filas que le pasemos como parametros, siendo en orden ascendente

            Date  Consumption     Wind   Solar  Wind+Solar
4379  2017-12-28   1299.86398  506.424  14.162     520.586
4380  2017-12-29   1295.08753  584.277  29.854     614.131
4381  2017-12-30   1215.44897  721.247   7.467     728.714
4382  2017-12-31   1107.11488  721.176  19.980     741.156


# Configuracion de los indices

*Para convertir una columna de datos representados
en una cadena de texto a objetos de tipo date 
podemos hacer uso del parametro ( parse_date ) de 
la funcion read_csv().*

*El parametro le dice a la funcion que cada que 
realice la lectura del df convierta la columna 
en un objeto de tipo date*

## index_col=int
*Es el indice de la columna a la que le queremos aplicar el parse*

## parse_dates=boolean
*Por defecto en false  cuando se le aplica este a una columna convierte 
el objeto a tipo date*

In [113]:
df_ops_energy = pd.read_csv('data/opsd_germany_daily.csv', index_col=0, parse_dates=True)

In [114]:
print(df_ops_energy.index)

DatetimeIndex(['2006-01-01', '2006-01-02', '2006-01-03', '2006-01-04',
               '2006-01-05', '2006-01-06', '2006-01-07', '2006-01-08',
               '2006-01-09', '2006-01-10',
               ...
               '2017-12-22', '2017-12-23', '2017-12-24', '2017-12-25',
               '2017-12-26', '2017-12-27', '2017-12-28', '2017-12-29',
               '2017-12-30', '2017-12-31'],
              dtype='datetime64[ns]', name='Date', length=4383, freq=None)


# Indexcacion individual 
Ya que tenemos los indices poemos hacer uso de los parametros indivuales
que estan disponibles como:

Año
Mes
Dia

Y entre otros 

In [118]:
df_ops_energy['Año'] = df_ops_energy.index.year
df_ops_energy['Mes'] = df_ops_energy.index.month
df_ops_energy['Dia'] = df_ops_energy.index.day

print(df_ops_energy.sample(8, random_state=0))

            Consumption    Wind    Solar  Wind+Solar   Año  Mes  Dia
Date                                                                
2008-08-23     1152.011     NaN      NaN         NaN  2008    8   23
2013-08-08     1291.984  79.666   93.371     173.037  2013    8    8
2009-08-27     1281.057     NaN      NaN         NaN  2009    8   27
2015-10-02     1391.050  81.229  160.641     241.870  2015   10    2
2009-06-02     1201.522     NaN      NaN         NaN  2009    6    2
2015-02-03     1639.260  97.155   27.530     124.685  2015    2    3
2012-05-28      988.853  36.311  151.315     187.626  2012    5   28
2011-07-10     1023.542  22.717      NaN         NaN  2011    7   10
