# Avance 1. Análisis exploratorio de datos


Este primer avance consiste en realizar un análisis exploratorio de datos (EDA - Exploratory Data Analysis), es decir, describir los datos utilizando técnicas estadísticas y de visualización (análisis univariante y bi/multivariante) para hacer enfoque en sus aspectos más relevantes, así como aplicar y justificar operaciones de preprocesamiento, relacionadas con el manejo de valores faltantes, atípicos y alta cardinalidad. 

## Introducción 
### Contexto y Objetivos del Análisis
#### Descripción del problema de negocio o investigación.
#### Preguntas a responder con el análisis




## Descripción del Conjunto de Datos
#### Origen y descripción de los datos.
#### Significado de cada variable.
#### Granularidad temporal

### Librerías y Carga de Datos

#### Librerías

In [62]:
import pandas as pd
from tabulate import tabulate
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px
import plotly.graph_objects as go


#### Carga de Datos

In [2]:
path = '../../data/raw/data.csv'
df = pd.read_csv(path)
df.head()

Unnamed: 0,Año,Semana,Pag.,Cuadro,No_01,Entidad,No_02,Padecimiento,Ax_001,Ax_002,Ax_003,No_03,Valor,No_04
0,2014,sem02,57,CUADRO 17.,,Aguascalientes,,DepresiónCIE-10ª REV.F32,2014,0,Sem.,,1,
1,2014,sem02,57,CUADRO 17.,,Aguascalientes,,DepresiónCIE-10ª REV.F32,2014,Acum.,H,,1,
2,2014,sem02,57,CUADRO 17.,,Aguascalientes,,DepresiónCIE-10ª REV.F32,2014,Acum.,M,,-,
3,2014,sem02,57,CUADRO 17.,,Aguascalientes,,Enfermedad de Parkinson\nCIE-10ª REV.\nG20,2014,0,Sem.,,-,
4,2014,sem02,57,CUADRO 17.,,Aguascalientes,,Enfermedad de Parkinson\nCIE-10ª REV.\nG20,2014,Acum.,H,,-,


## Limpieza e Inspección Inicial de **Datos**

### Análisis de los Datos

En esta sección realizaremos un análisis exploratorio inicial para entender la estructura y características de nuestro dataset. Examinaremos:

- **Dimensiones del dataset**: Número de filas y columnas

In [3]:
print('Dimensiones del DataFrame:', df.shape)
print(f'Total de registros: {df.shape[0]:,}')
print(f'Total de columnas: {df.shape[1]}')

Dimensiones del DataFrame: (329637, 14)
Total de registros: 329,637
Total de columnas: 14


- **Valores faltantes**: Identificación de datos ausentes por columna

In [4]:
print('\nValores faltantes por columna:')
print(tabulate(df.isnull().sum().reset_index(), 
               headers=['Columna', 'Valores faltantes'], 
               tablefmt='rounded_outline', 
               showindex=False))


Valores faltantes por columna:
╭──────────────┬─────────────────────╮
│ Columna      │   Valores faltantes │
├──────────────┼─────────────────────┤
│ Año          │                   0 │
│ Semana       │                   0 │
│ Pag.         │                   0 │
│ Cuadro       │                   0 │
│ No_01        │              329637 │
│ Entidad      │                   0 │
│ No_02        │              329637 │
│ Padecimiento │                   0 │
│ Ax_001       │                   0 │
│ Ax_002       │                   0 │
│ Ax_003       │                   0 │
│ No_03        │              329637 │
│ Valor        │                   0 │
│ No_04        │              329637 │
╰──────────────┴─────────────────────╯


- **Tipos de datos**: Verificación de tipos de variables (numéricas, categóricas, fechas)

In [5]:
print('\nTipos de datos por columna:')
print(tabulate(df.dtypes.reset_index(), 
               headers=['Columna', 'Tipo de dato'], 
               tablefmt='rounded_outline', 
               showindex=False))


Tipos de datos por columna:
╭──────────────┬────────────────╮
│ Columna      │ Tipo de dato   │
├──────────────┼────────────────┤
│ Año          │ int64          │
│ Semana       │ object         │
│ Pag.         │ int64          │
│ Cuadro       │ object         │
│ No_01        │ float64        │
│ Entidad      │ object         │
│ No_02        │ float64        │
│ Padecimiento │ object         │
│ Ax_001       │ int64          │
│ Ax_002       │ object         │
│ Ax_003       │ object         │
│ No_03        │ float64        │
│ Valor        │ object         │
│ No_04        │ float64        │
╰──────────────┴────────────────╯


- **Valores únicos**: Cardinalidad de cada variable para detectar posibles problemas

In [6]:
print('\nValores únicos por columna:')
print(tabulate(df.nunique().reset_index(), 
               headers=['Columna', 'Valores únicos'], 
               tablefmt='rounded_outline', 
               showindex=False))


Valores únicos por columna:
╭──────────────┬──────────────────╮
│ Columna      │   Valores únicos │
├──────────────┼──────────────────┤
│ Año          │               11 │
│ Semana       │               53 │
│ Pag.         │               26 │
│ Cuadro       │                4 │
│ No_01        │                0 │
│ Entidad      │               34 │
│ No_02        │                0 │
│ Padecimiento │               18 │
│ Ax_001       │               12 │
│ Ax_002       │                3 │
│ Ax_003       │                4 │
│ No_03        │                0 │
│ Valor        │             7740 │
│ No_04        │                0 │
╰──────────────┴──────────────────╯


- **Limpieza inicial**: Renombrado de columnas para mejorar la legibilidad

In [7]:
new_columns = {'Cuadro ': 'Cuadro', 'Entidad': 'Estado'}
df.rename(columns=new_columns, inplace=True)

Este análisis nos permite identificar operaciones de preprocesamiento necesarias antes del análisis más profundo.

### Preprocesamiento 

Basándose en el análisis inicial, aplicaremos las siguientes transformaciones a los datos:

**1. Procesamiento de la columna 'Semana'**
- Remover el prefijo 'sem' de los valores
- Convertir a tipo entero para facilitar cálculos temporales

In [8]:
df['Semana'] = df['Semana'].str.replace('sem', '').astype('int')

**2. Creación de columna 'Fecha'**
- Generar fechas utilizando año y semana ISO
- Formato: Año + Semana + día 1 (lunes de cada semana)
- Facilita análisis de series temporales

In [9]:
df['Fecha'] = pd.to_datetime(df['Año'].astype(str) + df['Semana'].astype(str) + '1', format='%G%V%u')

**3. Limpieza de la columna 'Valor'**
- Eliminar caracteres no numéricos usando regex
- Convertir a tipo numérico, reemplazando valores inválidos con 0
- Asegurar consistencia en los datos de análisis

In [10]:
# df['Valor'] = pd.to_numeric(df['Valor'], errors='coerce').fillna(0).astype(int)
df['Valor'] = pd.to_numeric(df['Valor'].str.replace(r'[^0-9]', '', regex=True), errors='coerce').fillna(0).astype(int)

**4. Procesamiento de 'Padecimiento'**
- Eliminar saltos de línea que pueden causar problemas
- Extraer códigos de padecimiento (formato REV.X) para análisis

In [11]:
df['Padecimiento'] = df['Padecimiento'].astype(str).str.replace('\n', '')
df['Codigo Padecimiento'] = df['Padecimiento'].str.extract(r'REV\.(.*)')

**5. Eliminación de columnas innecesarias**
- Remover columnas que inician con 'No' (columnas vacías)
- Eliminar columna 'Pag.' que no aporta valor analítico

In [12]:
# Eliminar las columnas que tengan el prefijo "No" (Columnas Vacías)
df = df.loc[:, ~df.columns.str.startswith('No')]
# Eliminar la columna Pag.
df.drop(columns='Pag.', inplace=True)

In [13]:
df.head(5)

Unnamed: 0,Año,Semana,Cuadro,Estado,Padecimiento,Ax_001,Ax_002,Ax_003,Valor,Fecha,Codigo Padecimiento
0,2014,2,CUADRO 17.,Aguascalientes,DepresiónCIE-10ª REV.F32,2014,0,Sem.,1,2014-01-06,F32
1,2014,2,CUADRO 17.,Aguascalientes,DepresiónCIE-10ª REV.F32,2014,Acum.,H,1,2014-01-06,F32
2,2014,2,CUADRO 17.,Aguascalientes,DepresiónCIE-10ª REV.F32,2014,Acum.,M,0,2014-01-06,F32
3,2014,2,CUADRO 17.,Aguascalientes,Enfermedad de ParkinsonCIE-10ª REV.G20,2014,0,Sem.,0,2014-01-06,G20
4,2014,2,CUADRO 17.,Aguascalientes,Enfermedad de ParkinsonCIE-10ª REV.G20,2014,Acum.,H,0,2014-01-06,G20


## Inspección Profunda de Datos

En esta sección realizaremos un análisis exhaustivo para detectar y cuantificar datos faltantes en las series temporales del dataset.

### Análisis de Datos de la Serie Completa por Combinación

**1. Detección de combinaciones únicas respecto a las columnas** `Cuadro`, `Estado`, `Codigo Padecimiento` y `Ax_003`

In [14]:
columnas_grupo = ['Cuadro', 'Estado', 'Codigo Padecimiento', 'Ax_003']
combinaciones_unicas = df[columnas_grupo].drop_duplicates()
print(f'Total de combinaciones únicas: {len(combinaciones_unicas):}')
print('Primeras 10 combinaciones únicas:')
print(tabulate(combinaciones_unicas.head(10), headers='keys', tablefmt='rounded_outline',showindex=False))


Total de combinaciones únicas: 1464
Primeras 10 combinaciones únicas:
╭────────────┬─────────────────┬───────────────────────┬──────────╮
│ Cuadro     │ Estado          │ Codigo Padecimiento   │ Ax_003   │
├────────────┼─────────────────┼───────────────────────┼──────────┤
│ CUADRO 17. │ Aguascalientes  │ F32                   │ Sem.     │
│ CUADRO 17. │ Aguascalientes  │ F32                   │ H        │
│ CUADRO 17. │ Aguascalientes  │ F32                   │ M        │
│ CUADRO 17. │ Aguascalientes  │ G20                   │ Sem.     │
│ CUADRO 17. │ Aguascalientes  │ G20                   │ H        │
│ CUADRO 17. │ Aguascalientes  │ G20                   │ M        │
│ CUADRO 17. │ Aguascalientes  │ G30                   │ Sem.     │
│ CUADRO 17. │ Aguascalientes  │ G30                   │ H        │
│ CUADRO 17. │ Aguascalientes  │ G30                   │ M        │
│ CUADRO 17. │ Baja California │ F32                   │ Sem.     │
╰────────────┴─────────────────┴──────────────

**2. Definición del rango temporal completo**: 
- Rango de fechas desde la fecha mínima hasta la máxima del dataset
- Cantidad de fechas a existir por combinación

In [15]:
fecha_inicial = df['Fecha'].min()
fecha_final = df['Fecha'].max()
fechas_completas = pd.date_range(fecha_inicial, fecha_final, freq="W-MON")
print(f'Rango de fechas: {fecha_inicial.date()} a {fecha_final.date()}')
print(f'Cantidad de fechas únicas a existir en el DataFrame para cada Combinación: {len(fechas_completas)}')

Rango de fechas: 2014-01-06 a 2024-12-23
Cantidad de fechas únicas a existir en el DataFrame para cada Combinación: 573


**3. Detección de valores faltantes por combinación**: 



- Cantidad de combinaciones con fechas faltantes

In [16]:
fechas_faltantes_dict = {}

# Agrupar por las combinaciones que te interesan
for keys, grupo in df.groupby(columnas_grupo):
    fechas_existentes = grupo["Fecha"].unique()
    # fechas_completas = pd.date_range(
    #     grupo["Fecha"].min(), grupo["Fecha"].max(), freq="W-MON"
    # )
    fechas_faltantes = fechas_completas.difference(fechas_existentes)
    if len(fechas_faltantes) > 0:
        fechas_faltantes_dict[keys] = fechas_faltantes

# Mostrar resultados
print(f'Total de combinaciones con fechas faltantes: {len(fechas_faltantes_dict):}/{len(combinaciones_unicas):}')


Total de combinaciones con fechas faltantes: 1464/1464


In [17]:
ncol = 10
print(f'Mostrando las primeras {ncol} combinaciones con fechas faltantes:')

tabla_fechas_faltantes = [
    [
        *combo,
        len(f),
        f"{len(f)*100/len(fechas_completas):.2f}%",
        f
    ]
    for combo, f in list(fechas_faltantes_dict.items())
]
df_fechas_faltantes = pd.DataFrame(
    tabla_fechas_faltantes,
    columns=columnas_grupo + ['Fechas faltantes', '% faltante', 'Listado de fechas faltantes']
)
# Excluye la columnas de Listado de fechas faltantes para mejor visualización
print(tabulate(df_fechas_faltantes.loc[:,df_fechas_faltantes.columns != 'Listado de fechas faltantes'].head(ncol), headers='keys', tablefmt='rounded_outline', showindex=False))

Mostrando las primeras 10 combinaciones con fechas faltantes:
╭────────────┬────────────────┬───────────────────────┬──────────┬────────────────────┬──────────────╮
│ Cuadro     │ Estado         │ Codigo Padecimiento   │ Ax_003   │   Fechas faltantes │ % faltante   │
├────────────┼────────────────┼───────────────────────┼──────────┼────────────────────┼──────────────┤
│ CUADRO 17. │ Aguascalientes │ F32                   │ Acum.    │                 54 │ 9.42%        │
│ CUADRO 17. │ Aguascalientes │ F32                   │ H        │                  2 │ 0.35%        │
│ CUADRO 17. │ Aguascalientes │ F32                   │ M        │                  2 │ 0.35%        │
│ CUADRO 17. │ Aguascalientes │ F32                   │ Sem.     │                  2 │ 0.35%        │
│ CUADRO 17. │ Aguascalientes │ G20                   │ Acum.    │                 54 │ 9.42%        │
│ CUADRO 17. │ Aguascalientes │ G20                   │ H        │                  2 │ 0.35%        │
│ CUADRO 17

- Fechas con mayor cantidad de valores Faltantes

In [18]:
# Crear un diccionario para contar cuántas combinaciones faltan en cada fecha
conteo_fechas_faltantes = {}

# Iterar sobre todas las fechas faltantes de cada combinación
for combo, fechas_faltantes in fechas_faltantes_dict.items():
    for fecha in fechas_faltantes:
        if fecha not in conteo_fechas_faltantes:
            conteo_fechas_faltantes[fecha] = 0
        conteo_fechas_faltantes[fecha] += 1

# Convertir a DataFrame y ordenar por cantidad de combinaciones faltantes
df_conteo_fechas = pd.DataFrame([
    [fecha, cantidad] 
    for fecha, cantidad in conteo_fechas_faltantes.items()
], columns=['Fecha', 'Combinaciones_faltantes'])

# Ordenar por cantidad de combinaciones faltantes (descendente)
df_conteo_fechas = df_conteo_fechas.sort_values('Combinaciones_faltantes', ascending=False)

print(f'Fechas con mayor cantidad de valores faltantes (Top {ncol}):')
print(tabulate(
    df_conteo_fechas.head(ncol), 
    headers='keys', 
    tablefmt='rounded_outline', 
    showindex=False
))

print(f'\nResumen estadístico:')
print(f'Total de fechas con valores faltantes: {len(df_conteo_fechas)}')
print(f'Fecha con más faltantes: {df_conteo_fechas.iloc[0]["Fecha"].date()} ({df_conteo_fechas.iloc[0]["Combinaciones_faltantes"]} combinaciones)')
print(f'Fecha con menos faltantes: {df_conteo_fechas.iloc[-1]["Fecha"].date()} ({df_conteo_fechas.iloc[-1]["Combinaciones_faltantes"]} combinaciones)')

Fechas con mayor cantidad de valores faltantes (Top 10):
╭─────────────────────┬───────────────────────────╮
│ Fecha               │   Combinaciones_faltantes │
├─────────────────────┼───────────────────────────┤
│ 2015-12-28 00:00:00 │                      1464 │
│ 2014-04-21 00:00:00 │                      1167 │
│ 2014-12-15 00:00:00 │                      1167 │
│ 2014-12-22 00:00:00 │                      1167 │
│ 2014-01-06 00:00:00 │                      1167 │
│ 2014-12-29 00:00:00 │                      1167 │
│ 2014-05-05 00:00:00 │                      1167 │
│ 2014-01-13 00:00:00 │                      1167 │
│ 2014-01-20 00:00:00 │                      1167 │
│ 2014-01-27 00:00:00 │                      1167 │
╰─────────────────────┴───────────────────────────╯

Resumen estadístico:
Total de fechas con valores faltantes: 573
Fecha con más faltantes: 2015-12-28 (1464 combinaciones)
Fecha con menos faltantes: 2024-12-23 (12 combinaciones)


### Análisis de Datos de la Serie Completa

#### Obtención de la Serie Completa de acuerdo al rango de Fechas establecido

In [19]:
# Todas las combinaciones únicas
# combos = df[columnas_grupo].drop_duplicates()

# Producto cartesiano (todas las combinaciones × todas las semanas)
idx = pd.MultiIndex.from_product(
    [combinaciones_unicas.itertuples(index=False, name=None), fechas_completas],
    names=["Combo", "Fecha"]
)
df_completo = pd.DataFrame(index=idx).reset_index()

# Expandir las columnas del combo
df_completo[columnas_grupo] = pd.DataFrame(
    df_completo["Combo"].tolist(), index=df_completo.index
)

df_completo = df_completo.drop(columns="Combo")

# Unir con tu df original
df_merge = df_completo.merge(
    df, on=["Fecha", "Cuadro", "Estado", "Ax_003", "Codigo Padecimiento"], how="left"
)

# Filtrar los registros faltantes
faltantes = df_merge[df_merge.isna().any(axis=1)]

#### Consolidación del Dataset y Enriquecimiento Temporal

Este proceso finaliza la preparación del dataset mediante la integración de información de referencia y la creación de variables temporales adicionales para facilitar el análisis de series de tiempo.



**1. Creación de tabla de referencia de Padecimientos e Integracion de datos:**

- Extracción de códigos y nombres únicos de padecimientos
- Eliminación de duplicados para crear un catálogo limpio
- Merge entre el dataset expandido (`df_merge`) y la tabla de referencia
- Recuperación de nombres completos de padecimientos para registros con datos faltantes
    - Uso de `right join` para preservar todos los códigos de padecimiento

In [20]:
df_ref = df[["Codigo Padecimiento", "Padecimiento"]].drop_duplicates()
df_final = df_merge.merge(df_ref, on="Codigo Padecimiento", how="right", suffixes=("_ref", ""))
df_final.drop(columns=['Padecimiento_ref'], inplace=True)

**2. Enriquecimiento temporal:**

- Generación de variables Año y Semana a partir de fechas ISO
- Facilitación de análisis por períodos temporales específicos

In [21]:
df_final["Año"] = df_final["Fecha"].dt.isocalendar().year
df_final["Semana"] = df_final["Fecha"].dt.isocalendar().week

In [22]:
df_final.head()

Unnamed: 0,Fecha,Cuadro,Estado,Codigo Padecimiento,Ax_003,Año,Semana,Ax_001,Ax_002,Valor,Padecimiento
0,2014-01-06,CUADRO 17.,Aguascalientes,F32,Sem.,2014,2,2014.0,0,1.0,DepresiónCIE-10ª REV.F32
1,2014-01-13,CUADRO 17.,Aguascalientes,F32,Sem.,2014,3,2014.0,0,2.0,DepresiónCIE-10ª REV.F32
2,2014-01-20,CUADRO 17.,Aguascalientes,F32,Sem.,2014,4,2014.0,0,1.0,DepresiónCIE-10ª REV.F32
3,2014-01-27,CUADRO 17.,Aguascalientes,F32,Sem.,2014,5,2014.0,0,1.0,DepresiónCIE-10ª REV.F32
4,2014-02-03,CUADRO 17.,Aguascalientes,F32,Sem.,2014,6,2014.0,0,2.0,DepresiónCIE-10ª REV.F32


#### Análisis

En esta sección realizaremos un análisis exploratorio para entender la estructura y características de nuestro dataset. Examinaremos:

- **Dimensiones del dataset**: Número de filas y columnas

In [23]:
print('Dimensiones del DataFrame:', df_final.shape)
print(f'Total de registros: {df_final.shape[0]:,}')
print(f'Total de columnas: {df_final.shape[1]}')

Dimensiones del DataFrame: (839169, 11)
Total de registros: 839,169
Total de columnas: 11


- **Valores faltantes**: Identificación de datos ausentes por columna

In [24]:
print('\nValores faltantes por columna:')
print(tabulate(df_final.isnull().sum().reset_index(), 
               headers=['Columna', 'Valores faltantes'], 
               tablefmt='rounded_outline', 
               showindex=False))


Valores faltantes por columna:
╭─────────────────────┬─────────────────────╮
│ Columna             │   Valores faltantes │
├─────────────────────┼─────────────────────┤
│ Fecha               │                   0 │
│ Cuadro              │                   0 │
│ Estado              │                   0 │
│ Codigo Padecimiento │                   0 │
│ Ax_003              │                   0 │
│ Año                 │                   0 │
│ Semana              │                   0 │
│ Ax_001              │              509532 │
│ Ax_002              │              509532 │
│ Valor               │              509532 │
│ Padecimiento        │                   0 │
╰─────────────────────┴─────────────────────╯


- **Tipos de datos**: Verificación de tipos de variables (numéricas, categóricas, fechas)

In [25]:
print('\nTipos de datos por columna:')
print(tabulate(df_final.dtypes.reset_index(), 
               headers=['Columna', 'Tipo de dato'], 
               tablefmt='rounded_outline', 
               showindex=False))


Tipos de datos por columna:
╭─────────────────────┬────────────────╮
│ Columna             │ Tipo de dato   │
├─────────────────────┼────────────────┤
│ Fecha               │ datetime64[ns] │
│ Cuadro              │ object         │
│ Estado              │ object         │
│ Codigo Padecimiento │ object         │
│ Ax_003              │ object         │
│ Año                 │ UInt32         │
│ Semana              │ UInt32         │
│ Ax_001              │ float64        │
│ Ax_002              │ object         │
│ Valor               │ float64        │
│ Padecimiento        │ object         │
╰─────────────────────┴────────────────╯


- **Valores únicos**: Cardinalidad de cada variable para detectar posibles problemas

In [30]:
print('\nValores únicos por columna:')
print(f"{tabulate(df_final.nunique().reset_index(), 
               headers=['Columna', 'Valores únicos'], 
               tablefmt='rounded_outline', 
               showindex=False)}")


Valores únicos por columna:
╭─────────────────────┬──────────────────╮
│ Columna             │   Valores únicos │
├─────────────────────┼──────────────────┤
│ Fecha               │              573 │
│ Cuadro              │                4 │
│ Estado              │               34 │
│ Codigo Padecimiento │               11 │
│ Ax_003              │                4 │
│ Año                 │               11 │
│ Semana              │               53 │
│ Ax_001              │               12 │
│ Ax_002              │                3 │
│ Valor               │             7732 │
│ Padecimiento        │               11 │
╰─────────────────────┴──────────────────╯


In [None]:
# # Guarda el df_final en un archivo CSV
# df_final.to_csv('../../data/processed/data.csv', index=False)
# print(f'DataFrame guardado exitosamente con {len(df_final):,} registros')
# print(f'Archivo guardado en: ../../data/processed/df_final.csv')

## Análisis Visual de la Serie Temporal

### Gráfico General de la Serie Temporal

#### Datos Completos

In [55]:
filtro_general = (df_final['Estado']=='TOTAL') \
          & ((df_final['Ax_003']=='H') | (df_final['Ax_003']=='M'))
df_general = df_final[filtro_general]
df_acumulado = df_general.groupby('Fecha')['Valor'].sum().reset_index()
df_acumulado['Semana'] = df_acumulado["Fecha"].dt.isocalendar().week
display(df_acumulado.head())

Unnamed: 0,Fecha,Valor,Semana
0,2014-01-06,146.0,2
1,2014-01-13,923.0,3
2,2014-01-20,2033.0,4
3,2014-01-27,3218.0,5
4,2014-02-03,4664.0,6


In [59]:
filtro_base = (df['Estado']=='TOTAL') \
          & ((df['Ax_003']=='H') | (df['Ax_003']=='M'))
df_general_base = df[filtro_base]
df_acumulado_base =df_general_base.groupby('Fecha')['Valor'].sum().reset_index()
df_acumulado_base['Semana'] = df_acumulado_base['Fecha'].dt.isocalendar().week
display(df_acumulado_base.head())

Unnamed: 0,Fecha,Valor,Semana
0,2014-01-06,146,2
1,2014-01-13,923,3
2,2014-01-20,2033,4
3,2014-01-27,3218,5
4,2014-02-03,4664,6


In [None]:
# fig = px.scatter(tmp, x='Fecha', y='Valor',title=f"Serie de tiempo General (df_final vs df)", 
fig = px.line(df_acumulado, x='Fecha', y='Valor',title=f"Serie de tiempo General (df_final)", 
              hover_data={'Semana': True, 'Fecha': True},
              markers=True,
            )
# Ajustar el tamaño de los marcadores
fig.update_traces(marker=dict(size=4))
# # fig.update_layout(height=800)
fig.show()

#### Datos Base

In [227]:
fig = go.Figure()

fig.add_trace(go.Scatter(
    x = df_acumulado['Fecha'],
    y= df_acumulado['Valor'],
    name= 'Datos con Fechas Completas',
    mode='lines+markers',
    customdata=df_acumulado['Semana'],
    hovertemplate=(
        '<b>Fecha</b>: %{x}<br>' +
        '<b>Valor Acumulado</b>: %{y}<br>' +
        '<b>Semana</b>: %{customdata}<br>' + # Accede a la primera columna de customdata
        '<extra></extra>' # Oculta la información secundaria del trace
    )
))
fig.add_trace(go.Scatter(
    x = df_acumulado_base['Fecha'],
    y= df_acumulado_base['Valor'],
    name= 'Datos base',
    mode='markers',
    customdata=df_acumulado_base['Semana'],
    hovertemplate=(
        '<b>Fecha</b>: %{x}<br>' +
        '<b>Valor Acumulado</b>: %{y}<br>' +
        '<b>Semana</b>: %{customdata}<br>' + # Accede a la primera columna de customdata
        '<extra></extra>' # Oculta la información secundaria del trace
    )
))
fig.update_traces(marker=dict(size=4))
fig.show()

In [50]:
filtros = (df_final['Estado']=='TOTAL') \
          & (df_final['Ax_003'] == 'Sem.')
df_general = df_final[filtros]
df_general.head()

Unnamed: 0,Fecha,Cuadro,Estado,Codigo Padecimiento,Ax_003,Año,Semana,Ax_001,Ax_002,Valor,Padecimiento
55104,2014-01-06,CUADRO 17.,TOTAL,F32,Sem.,2014,2,2014.0,0,131.0,DepresiónCIE-10ª REV.F32
55105,2014-01-13,CUADRO 17.,TOTAL,F32,Sem.,2014,3,2014.0,0,658.0,DepresiónCIE-10ª REV.F32
55106,2014-01-20,CUADRO 17.,TOTAL,F32,Sem.,2014,4,2014.0,0,933.0,DepresiónCIE-10ª REV.F32
55107,2014-01-27,CUADRO 17.,TOTAL,F32,Sem.,2014,5,2014.0,0,1023.0,DepresiónCIE-10ª REV.F32
55108,2014-02-03,CUADRO 17.,TOTAL,F32,Sem.,2014,6,2014.0,0,1151.0,DepresiónCIE-10ª REV.F32


In [51]:
df_acumulado = df_general.groupby('Fecha')['Valor'].sum().reset_index()
df_acumulado['Semana'] = df_acumulado["Fecha"].dt.isocalendar().week
display(df_acumulado.head())
# 
fig = px.line(df_acumulado, x='Fecha', y='Valor',title=f"Serie de tiempo General (df)", 
              hover_data={'Semana': True, 'Fecha': True},
              markers=True, 
            )
# Ajustar el tamaño de los marcadores
fig.update_traces(marker=dict(size=4))
# # fig.update_layout(height=800)
fig.show()

Unnamed: 0,Fecha,Valor,Semana
0,2014-01-06,146.0,2
1,2014-01-13,776.0,3
2,2014-01-20,1107.0,4
3,2014-01-27,1173.0,5
4,2014-02-03,1351.0,6


In [49]:
print(tabulate(df_acumulado,headers='keys',tablefmt='rounded_outline',showindex=False))

╭─────────────────────┬─────────┬──────────╮
│ Fecha               │   Valor │   Semana │
├─────────────────────┼─────────┼──────────┤
│ 2014-01-06 00:00:00 │     146 │        2 │
│ 2014-01-13 00:00:00 │     776 │        3 │
│ 2014-01-20 00:00:00 │    1107 │        4 │
│ 2014-01-27 00:00:00 │    1173 │        5 │
│ 2014-02-03 00:00:00 │    1351 │        6 │
│ 2014-02-10 00:00:00 │    1077 │        7 │
│ 2014-02-17 00:00:00 │    1474 │        8 │
│ 2014-02-24 00:00:00 │    1411 │        9 │
│ 2014-03-03 00:00:00 │    1530 │       10 │
│ 2014-03-10 00:00:00 │    1474 │       11 │
│ 2014-03-17 00:00:00 │    1644 │       12 │
│ 2014-03-24 00:00:00 │    1466 │       13 │
│ 2014-03-31 00:00:00 │    1670 │       14 │
│ 2014-04-07 00:00:00 │    1658 │       15 │
│ 2014-04-14 00:00:00 │    1668 │       16 │
│ 2014-04-21 00:00:00 │    1044 │       17 │
│ 2014-04-28 00:00:00 │    1639 │       18 │
│ 2014-05-05 00:00:00 │    1283 │       19 │
│ 2014-05-12 00:00:00 │    1511 │       20 │
│ 2014-05-