In [7]:
import pandas as pd

In [8]:
files = ["defweb17_utf8.csv", "defweb18_utf8.csv", "defweb19_utf8.csv", "defweb20_0.csv", "defweb21_0.csv", "defweb22_0.csv", "defweb23.csv"]

In [9]:
!cat causas.csv | grep VIH

'B20';'Enfermedad por virus de la inmunodeficiencia humana [VIH] resultante en enfermedades infecciosas y parasitarias'
'B21';'Enfermedad por virus de la inmunodeficiencia humana [VIH] resultante  en tumores malignos'
'B22';'Enfermedad por virus de la inmunodeficiencia humana [VIH] resultante en otras enfermedades especificadas'
'B23';'Enfermedad por virus de la inmunodeficiencia humana [VIH] resultante en otras afecciones'
'B24';'Enfermedad por virus de la inmunodeficiencia humana [VIH] sin otra especificación'
'R75';'Evidencias de laboratorio del virus de la inmunodeficiencia humana [VIH]'
'Z21';'Estado de infección asintomática por el virus de la inmunodeficiencia humana [VIH]'


In [10]:
causas_vih = [f"B{i}" for i in range(20, 25)]
causas_vih.extend(["R75","Z21"])
print(causas_vih)

['B20', 'B21', 'B22', 'B23', 'B24', 'R75', 'Z21']


In [11]:
df_final = pd.read_csv(files[0])[['GRUPEDAD']].drop_duplicates().sort_values('GRUPEDAD')

for file in files:
    anio = file[6:][:2]
    
    df_temp = pd.read_csv(file, sep=None, engine='python')
       
    df_temp = df_temp[df_temp["CAUSA"].isin(causas_vih)]
    
    resumen = df_temp.groupby("GRUPEDAD")["CUENTA"].sum().reset_index()
    resumen = resumen.rename(columns={"CUENTA": f"20{anio}"})
    
    df_final = pd.merge(df_final, resumen, on="GRUPEDAD", how="left")
    

df_final = df_final.fillna(0)
columnas_anios = ["2017","2018","2019","2020","2021","2022","2023"]
df_final[columnas_anios] = df_final[columnas_anios].astype(int)

print(df_final)


              GRUPEDAD  2017  2018  2019  2020  2021  2022  2023
0    01_Menor de 1 año     3     2     1     1     1     1     0
1             02_1 a 9     6     2     6     1     2     1     1
2           03_10 a 14     1     1     1     1     0     1     2
3           04_15 a 19    13     4     6     8     4     1     3
4           05_20 a 24    51    52    41    28    34    19    34
5           06_25 a 29   103    93   100    87    75    76    83
6           07_30 a 34   135   126   111   105   118   118    99
7           08_35 a 39   178   188   159   144   146   136   129
8           09_40 a 44   208   204   181   167   176   158   142
9           10_45 a 49   263   198   187   173   217   178   149
10          11_50 a 54   157   169   165   136   165   130   149
11          12_55 a 59   124   101   121   100   129   135   115
12          13_60 a 64    86    73    76    66    64    89    79
13          14_65 a 69    60    62    43    48    53    61    34
14          15_70 a 74   

In [6]:
totales_por_anio = df_final[columnas_anios].sum()
print(totales_por_anio)

2017    1458
2018    1339
2019    1265
2020    1139
2021    1260
2022    1174
2023    1102
dtype: int64


In [7]:
# Exportar a CSV
df_final.to_csv("vih_2017-2023.csv", index=False, sep=";", encoding="utf-8-sig")

In [13]:
# Exportar a Excel
df_final.to_excel("vih_2017-2023.xlsx", index=False)