In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from google.colab import drive
import os

In [None]:
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:

# Define the path to the large CSV file and other files
large_csv_path = '/content/drive/My Drive/Rimac Hackathon/data/Data Limpia Josue/df_ambulatorio_nasty.csv'
catalogo_cie10_path = "/content/drive/My Drive/Rimac Hackathon/data/CATALOGO_CIE10.csv"
save_directory = '/content/drive/My Drive/Rimac Hackathon/data/Data Limpia Josue'

# Ensure the save directory exists
os.makedirs(save_directory, exist_ok=True)

# Load the disease catalog
cat_diseases = pd.read_csv(catalogo_cie10_path)

# Define the chunk size (number of rows per chunk)
chunk_size = 100000

# Initialize an empty list to store the chunks
chunks = []

# Define the age and gender mappings
age_mapping = {
    '1': 'Menores de 1 año',
    '2': '1 a 4 años',
    '3': '5 a 9 años',
    '4': '10 a 14 años',
    '5': '15 a 19 años',
    '6': '20 a 24 años',
    '7': '25 a 29 años',
    '8': '30 a 34 años',
    '9': '35 a 39 años',
    '10': '40 a 44 años',
    '11': '45 a 49 años',
    '12': '50 a 54 años',
    '13': '55 a 59 años',
    '14': '60 a 64 años',
    '15': '65 años a más'
}

gender = {
    "1": 'Masculino',
    "2": 'Femenino',
    1: 'Masculino',
    2: 'Femenino'
}

numbers = [str(i) for i in range(1, 10)]

def starts_with_number(value):
    return str(value)[0] in numbers

# Mapping for GrupoEnfermedad
grupo_enfermedad_mapping = {
    ('A00', 'B99'): 'Ciertas enfermedades infecciosas y parasitarias',
    ('C00', 'D48'): 'Neoplasias',
    ('D50', 'D89'): 'Enfermedades de la sangre y de los órganos hematopoyéticos y otros trastornos que afectan el mecanismo de la inmunidad',
    ('E00', 'E90'): 'Enfermedades endocrinas, nutricionales y metabólicas',
    ('F00', 'F99'): 'Trastornos mentales y del comportamiento',
    ('G00', 'G99'): 'Enfermedades del sistema nervioso',
    ('H00', 'H59'): 'Enfermedades del ojo y sus anexos',
    ('H60', 'H95'): 'Enfermedades del oído y de la apófisis mastoides',
    ('I00', 'I99'): 'Enfermedades del aparato circulatorio',
    ('J00', 'J99'): 'Enfermedades del aparato respiratorio',
    ('K00', 'K93'): 'Enfermedades del aparato digestivo',
    ('L00', 'L99'): 'Enfermedades de la piel y el tejido subcutáneo',
    ('M00', 'M99'): 'Enfermedades del sistema osteomuscular y del tejido conectivo',
    ('N00', 'N99'): 'Enfermedades del aparato genitourinario',
    ('O00', 'O99'): 'Embarazo, parto y puerperio',
    ('P00', 'P96'): 'Ciertas afecciones originadas en el periodo perinatal',
    ('Q00', 'Q99'): 'Malformaciones congénitas, deformidades y anomalías cromosómicas',
    ('R00', 'R99'): 'Síntomas, signos y hallazgos anormales clínicos y de laboratorio, no clasificados en otra parte',
    ('S00', 'T98'): 'Traumatismos, envenenamientos y algunas otras consecuencias de causa externa',
    ('V01', 'Y98'): 'Causas externas de morbilidad y de mortalidad',
    ('Z00', 'Z99'): 'Factores que influyen en el estado de salud y contacto con los servicios de salud',
    ('U00', 'U99'): 'Códigos para situaciones especiales'
}

def get_grupo_enfermedad(diagnostico):
    if pd.isna(diagnostico):
      #  print("nan_des")
        return 'Desconocido'
    code = diagnostico[:3]
    for (start, end), group in grupo_enfermedad_mapping.items():
        if start <= code <= end:
            return group
    #print("Desconocido NO RANGE")
    return 'Desconocido'

# Standarize


month_mapping = {
    1: 'Enero', 2: 'Febrero', 3: 'Marzo', 4: 'Abril',
    5: 'Mayo', 6: 'Junio', 7: 'Julio', 8: 'Agosto',
    9: 'Septiembre', 10: 'Octubre', 11: 'Noviembre', 12: 'Diciembre'
}



In [None]:
# Testing the get_grupo_enfermedad function ga

# Create a fake DataFrame
data = {
    'DIAGNOSTICO': ['A01.1', 'C22.0', 'D50.1', 'E11.9', 'F32.9', 'G40.3', 'H10.9', 'I10', 'J45', 'K21.0', 'L40', 'M10.0', 'N73', 'O80', 'P07', 'Q21', 'R51', 'S72', 'T45', 'V01.1', 'Y10', 'Z00.0', 'U07.1', 'X99']
}

df = pd.DataFrame(data)
df

Unnamed: 0,DIAGNOSTICO
0,A01.1
1,C22.0
2,D50.1
3,E11.9
4,F32.9
5,G40.3
6,H10.9
7,I10
8,J45
9,K21.0


In [None]:
# Apply the function to the DataFrame
df['GrupoEnfermedad'] = df['DIAGNOSTICO'].apply(get_grupo_enfermedad)

# Display the DataFrame
df

Unnamed: 0,DIAGNOSTICO,GrupoEnfermedad
0,A01.1,Ciertas enfermedades infecciosas y parasitarias
1,C22.0,Neoplasias
2,D50.1,Enfermedades de la sangre y de los órganos hem...
3,E11.9,"Enfermedades endocrinas, nutricionales y metab..."
4,F32.9,Trastornos mentales y del comportamiento
5,G40.3,Enfermedades del sistema nervioso
6,H10.9,Enfermedades del ojo y sus anexos
7,I10,Enfermedades del aparato circulatorio
8,J45,Enfermedades del aparato respiratorio
9,K21.0,Enfermedades del aparato digestivo


In [None]:
# Read the CSV file in chunks
for chunk in pd.read_csv(large_csv_path, chunksize=chunk_size, encoding='latin-1', on_bad_lines='skip'):
    # Drop the specified columns

    chunk = chunk.drop(['CATEGORIA', 'CO_IPRESS', 'UBIGEO'], axis=1, errors='ignore')

    # Handle 'NU_TOTAL_ATENDIDOS'
    chunk['NU_TOTAL_ATENDIDOS'] = pd.to_numeric(chunk['NU_TOTAL_ATENDIDOS'], errors='coerce')
    chunk['NU_TOTAL_ATENDIDOS'] = chunk['NU_TOTAL_ATENDIDOS'].fillna(0)

    # Apply mapping to 'EDAD' and 'SEXO' columns
    chunk['EDAD'] = chunk['EDAD'].map(age_mapping)
    chunk['SEXO'] = chunk['SEXO'].map(gender)

    # Create 'MES_NOMBRE' column based on 'MES_STR'
    chunk['MES_NOMBRE'] = chunk['MES'].map(month_mapping)

    # Create 'MES_ANIO' column
    chunk['MES_ANIO'] = chunk['ANHO'].astype(str) + '-' + chunk['MES_NOMBRE']

    # Map 'DIAGNOSTICO' to 'NOMBRECIE10'
    chunk['NOMBRECIE10'] = chunk['DIAGNOSTICO'].map(cat_diseases.set_index('CODIGOCIE10')['NOMBRECIE10'])

    # Add 'Pais' column
    chunk['Pais'] = 'Peru'

    # Add 'GrupoEnfermedad' column
    chunk['GrupoEnfermedad'] = chunk['DIAGNOSTICO'].apply(get_grupo_enfermedad)

    # Append the processed chunk to the list
    chunks.append(chunk)

# Concatenate all the processed chunks into a single DataFrame
combined_df = pd.concat(chunks, ignore_index=True)

# Save the combined DataFrame to a new CSV file
combined_df.to_csv(os.path.join(save_directory, 'df_ambulatorio_processed.csv'), index=False)

combined_df

  for chunk in pd.read_csv(large_csv_path, chunksize=chunk_size, encoding='latin-1', on_bad_lines='skip'):
  for chunk in pd.read_csv(large_csv_path, chunksize=chunk_size, encoding='latin-1', on_bad_lines='skip'):
  for chunk in pd.read_csv(large_csv_path, chunksize=chunk_size, encoding='latin-1', on_bad_lines='skip'):
  for chunk in pd.read_csv(large_csv_path, chunksize=chunk_size, encoding='latin-1', on_bad_lines='skip'):
  for chunk in pd.read_csv(large_csv_path, chunksize=chunk_size, encoding='latin-1', on_bad_lines='skip'):
  for chunk in pd.read_csv(large_csv_path, chunksize=chunk_size, encoding='latin-1', on_bad_lines='skip'):
  for chunk in pd.read_csv(large_csv_path, chunksize=chunk_size, encoding='latin-1', on_bad_lines='skip'):
  for chunk in pd.read_csv(large_csv_path, chunksize=chunk_size, encoding='latin-1', on_bad_lines='skip'):
  for chunk in pd.read_csv(large_csv_path, chunksize=chunk_size, encoding='latin-1', on_bad_lines='skip'):
  for chunk in pd.read_csv(large_csv_

Unnamed: 0,ANHO,MES,DEPARTAMENTO,PROVINCIA,DISTRITO,SECTOR,RAZON_SOC,SEXO,EDAD,DIAGNOSTICO,NU_TOTAL_ATENDIDOS,MES_NOMBRE,MES_ANIO,NOMBRECIE10,Pais,GrupoEnfermedad
0,2023,02,TUMBES,CONTRALMIRANTE VILLAR,ZORRITOS,ESSALUD,POSTA MEDICA ZORRITOS,Femenino,60 a 64 años,E88.2,1.0,,,"Lipomatosis, no clasificada en otra parte",Peru,"Enfermedades endocrinas, nutricionales y metab..."
1,2023,02,TUMBES,CONTRALMIRANTE VILLAR,ZORRITOS,ESSALUD,POSTA MEDICA ZORRITOS,Femenino,60 a 64 años,G44.2,1.0,,,Cefalea debida a tensión,Peru,Enfermedades del sistema nervioso
2,2023,02,TUMBES,CONTRALMIRANTE VILLAR,ZORRITOS,ESSALUD,POSTA MEDICA ZORRITOS,Femenino,60 a 64 años,H11.0,1.0,,,Pterigión,Peru,Enfermedades del ojo y sus anexos
3,2023,02,TUMBES,CONTRALMIRANTE VILLAR,ZORRITOS,ESSALUD,POSTA MEDICA ZORRITOS,Femenino,60 a 64 años,H40.5,1.0,,,Glaucoma secundario a otros trastornos del ojo,Peru,Enfermedades del ojo y sus anexos
4,2023,02,TUMBES,CONTRALMIRANTE VILLAR,ZORRITOS,ESSALUD,POSTA MEDICA ZORRITOS,Femenino,60 a 64 años,I10.X,10.0,,,Hipertensión esencial (primaria),Peru,Enfermedades del aparato circulatorio
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
26088748,2024,4,MOQUEGUA,GENERAL SANCHEZ CERRO,OMATE,ESSALUD,POSTA MEDICA OMATE,,,K29.7,1.0,Abril,2024-Abril,"Gastritis, no especificada",Peru,Enfermedades del aparato digestivo
26088749,2024,4,MOQUEGUA,GENERAL SANCHEZ CERRO,OMATE,ESSALUD,POSTA MEDICA OMATE,,,S93.4,1.0,Abril,2024-Abril,Esguinces y torceduras del tobillo,Peru,"Traumatismos, envenenamientos y algunas otras ..."
26088750,2024,4,MOQUEGUA,GENERAL SANCHEZ CERRO,OMATE,ESSALUD,POSTA MEDICA OMATE,,,Z01.2,1.0,Abril,2024-Abril,Examen odontológico,Peru,Factores que influyen en el estado de salud y ...
26088751,2024,4,MOQUEGUA,GENERAL SANCHEZ CERRO,OMATE,ESSALUD,POSTA MEDICA OMATE,,,Z01.3,1.0,Abril,2024-Abril,Examen de la presión sanguínea,Peru,Factores que influyen en el estado de salud y ...


In [None]:
# Checking sum of nan
combined_df.isna().sum()

ANHO                        0
MES                         0
DEPARTAMENTO                0
PROVINCIA                   0
DISTRITO                    0
SECTOR                      1
RAZON_SOC                   1
SEXO                  3199070
EDAD                  3275151
DIAGNOSTICO                 6
NU_TOTAL_ATENDIDOS          0
MES_NOMBRE              65536
MES_ANIO                65536
NOMBRECIE10             51629
Pais                        0
GrupoEnfermedad             0
dtype: int64

In [None]:
import pandas as pd
from google.colab import drive
import os

# Mount Google Drive
drive.mount('/content/drive')

# Define the path to the processed CSV file
processed_csv_path = '/content/drive/My Drive/Rimac Hackathon/data/Data Limpia Josue/df_ambulatorio_processed.csv'
save_directory = '/content/drive/My Drive/Rimac Hackathon/data/Data Limpia Josue'

# Ensure the save directory exists
os.makedirs(save_directory, exist_ok=True)

# Define the chunk size (number of rows per chunk)
chunk_size = 100000

# Initialize an empty list to store the chunks for df_mental and df_fisico
df_mental_chunks = []
df_fisico_chunks = []

# Read the processed CSV file in chunks
for chunk in pd.read_csv(processed_csv_path, chunksize=chunk_size, encoding='latin-1'):
    # Split the chunk into df_mental and df_fisico
    df_mental_chunk = chunk[chunk['DIAGNOSTICO'].str.startswith('F', na=False)]
    df_fisico_chunk = chunk[~chunk['DIAGNOSTICO'].str.startswith('F', na=False)]

    # Append the chunks to the respective lists
    df_mental_chunks.append(df_mental_chunk)
    df_fisico_chunks.append(df_fisico_chunk)

# Concatenate all the chunks into final DataFrames
df_mental = pd.concat(df_mental_chunks, ignore_index=True)
df_fisico = pd.concat(df_fisico_chunks, ignore_index=True)

# Save the final DataFrames to CSV files
df_mental.to_csv(os.path.join(save_directory, 'df_mental.csv'), index=False)
df_fisico.to_csv(os.path.join(save_directory, 'df_fisico.csv'), index=False)

print("Files saved successfully.")


Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


  for chunk in pd.read_csv(processed_csv_path, chunksize=chunk_size, encoding='latin-1'):
  for chunk in pd.read_csv(processed_csv_path, chunksize=chunk_size, encoding='latin-1'):
  for chunk in pd.read_csv(processed_csv_path, chunksize=chunk_size, encoding='latin-1'):
  for chunk in pd.read_csv(processed_csv_path, chunksize=chunk_size, encoding='latin-1'):
  for chunk in pd.read_csv(processed_csv_path, chunksize=chunk_size, encoding='latin-1'):
  for chunk in pd.read_csv(processed_csv_path, chunksize=chunk_size, encoding='latin-1'):
  for chunk in pd.read_csv(processed_csv_path, chunksize=chunk_size, encoding='latin-1'):
  for chunk in pd.read_csv(processed_csv_path, chunksize=chunk_size, encoding='latin-1'):
  for chunk in pd.read_csv(processed_csv_path, chunksize=chunk_size, encoding='latin-1'):
  for chunk in pd.read_csv(processed_csv_path, chunksize=chunk_size, encoding='latin-1'):
  for chunk in pd.read_csv(processed_csv_path, chunksize=chunk_size, encoding='latin-1'):
  for chun

Files saved successfully.


In [None]:
combined_df


NameError: name 'combined_df' is not defined

In [None]:
df_mental

In [None]:
df_fisico

In [None]:
path = '/content/drive/My Drive/Rimac Hackathon/data/Data Limpia Josue/df_ambulatorio_nasty.csv'


# Define chunk size (adjust based on your system's capabilities)
chunk_size = 100000

# Initialize an empty list or dataframe to store aggregated results if needed
agg_results = []

# Iterate over chunks
for chunk in pd.read_csv(path, chunksize=chunk_size):
    # Process each chunk as needed
    # Example: filter, transform, aggregate

    # Example: Calculate top diseases by NU_TOTAL_ATENDIDOS per DEPARTAMENTO
    chunk['NU_TOTAL_ATENDIDOS'] = pd.to_numeric(chunk['NU_TOTAL_ATENDIDOS'], errors='coerce')
    chunk = chunk.dropna(subset=['NU_TOTAL_ATENDIDOS'])  # Drop rows with NaN in NU_TOTAL_ATENDIDOS

    top_diseases_by_department_chunk = chunk.groupby(['DEPARTAMENTO', 'DIAGNOSTICO'])['NU_TOTAL_ATENDIDOS'].sum() \
                                        .groupby('DEPARTAMENTO', group_keys=False) \
                                        .nlargest(10) \
                                        .reset_index()

    # Accumulate results if needed
    agg_results.append(top_diseases_by_department_chunk)

# Concatenate or merge results from all chunks if necessary
final_results = pd.concat(agg_results)
final_results

  for chunk in pd.read_csv(path, chunksize=chunk_size):
  for chunk in pd.read_csv(path, chunksize=chunk_size):
  for chunk in pd.read_csv(path, chunksize=chunk_size):
  for chunk in pd.read_csv(path, chunksize=chunk_size):
  for chunk in pd.read_csv(path, chunksize=chunk_size):
  for chunk in pd.read_csv(path, chunksize=chunk_size):
  for chunk in pd.read_csv(path, chunksize=chunk_size):
  for chunk in pd.read_csv(path, chunksize=chunk_size):
  for chunk in pd.read_csv(path, chunksize=chunk_size):
  for chunk in pd.read_csv(path, chunksize=chunk_size):
  for chunk in pd.read_csv(path, chunksize=chunk_size):
  for chunk in pd.read_csv(path, chunksize=chunk_size):
  for chunk in pd.read_csv(path, chunksize=chunk_size):
  for chunk in pd.read_csv(path, chunksize=chunk_size):
  for chunk in pd.read_csv(path, chunksize=chunk_size):
  for chunk in pd.read_csv(path, chunksize=chunk_size):
  for chunk in pd.read_csv(path, chunksize=chunk_size):
  for chunk in pd.read_csv(path, chunksize=chunk

Unnamed: 0,DEPARTAMENTO,DIAGNOSTICO,NU_TOTAL_ATENDIDOS
0,AMAZONAS,I10.X,306.0
1,AMAZONAS,Z00.1,286.0
2,AMAZONAS,Z01.3,274.0
3,AMAZONAS,Z00.6,258.0
4,AMAZONAS,Z10.8,179.0
...,...,...,...
165,TACNA,Z01.7,14.0
166,TACNA,Z31.6,13.0
167,TACNA,Z76.0,13.0
168,TACNA,K02.1,11.0


In [None]:
prueba = prueba.drop(['CATEGORIA', "CO_IPRESS", "UBIGEO"], axis=1)
prueba

In [None]:
# Vemos que no
numbers = [str(i) for i in range(1, 10)]

def starts_with_number(value):
    return str(value)[0] in numbers

#df.loc[~df['NU_TOTAL_ATENDIDOS'].apply(starts_with_number), 'NU_TOTAL_ATENDIDOS'] = np.nan

# Convert 'NU_TOTAL_ATENDIDOS' to numeric, coercing errors to NaN
prueba['NU_TOTAL_ATENDIDOS'] = pd.to_numeric(df['NU_TOTAL_ATENDIDOS'], errors='coerce')
prueba['NU_TOTAL_ATENDIDOS'] = prueba['NU_TOTAL_ATENDIDOS'].fillna(0)


age_mapping = {
    '1': 'Menores de 1 año',
    '2': 'De 1 a 4 años',
    '3': 'De 5 a 9 años',
    '4': 'De 10 a 14 años',
    '5': 'De 15 a 19 años',
    '6': 'De 20 a 24 años',
    '7': 'De 25 a 29 años',
    '8': 'De 30 a 34 años',
    '9': 'De 35 a 39 años',
    '10': 'De 40 a 44 años',
    '11': 'De 45 a 49 años',
    '12': 'De 50 a 54 años',
    '13': 'De 55 a 59 años',
    '14': 'De 60 a 64 años',
    '15': 'De 65 años a más'
}


gender = {
    "1": 'Masculino',
    "2": 'Femenino'
}

# Apply mapping to 'edad' column
prueba['EDAD'] = prueba['EDAD'].map(age_mapping)

# Apply mapping to 'sexo' column
prueba['SEXO'] = prueba['SEXO'].map(gender)
prueba

In [None]:
# create a map to change mes to mes_string, later add it as a col, mes has its values as int

month_map = {1: 'Enero', 2: 'Febrero', 3: 'Marzo', 4: 'Abril', 5: 'Mayo', 6: 'Junio',
             7: 'Julio', 8: 'Agosto', 9: 'Septiembre', 10: 'Octubre', 11: 'Noviembre', 12: 'Diciembre'}


prueba['MES_STR'] = prueba['MES'].map(month_map)

In [None]:
# Create a col mes_anio based on the anho and mes
prueba['MES_ANIO'] = prueba['ANHO'].astype(str) + '-' + prueba['MES_STR']

In [None]:
combined_df

Unnamed: 0,ANHO,MES,DEPARTAMENTO,PROVINCIA,DISTRITO,SECTOR,RAZON_SOC,SEXO,EDAD,DIAGNOSTICO,NU_TOTAL_ATENDIDOS,NOMBRECIE10,MES_STR,MES_ANIO
0,2024,4,AREQUIPA,AREQUIPA,CAYMA,GOBIERNO REGIONAL,PUESTO DE SALUD LA TOMILLA,Femenino,De 5 a 9 años,J06.8,3.0,Otras infecciones agudas de sitios múltiples d...,Abril,2024-Abril
1,2024,4,AREQUIPA,AREQUIPA,CAYMA,GOBIERNO REGIONAL,PUESTO DE SALUD LA TOMILLA,Femenino,De 5 a 9 años,J20.9,3.0,"Bronquitis aguda, no especificada",Abril,2024-Abril
2,2024,4,AREQUIPA,AREQUIPA,CAYMA,GOBIERNO REGIONAL,PUESTO DE SALUD LA TOMILLA,Femenino,De 5 a 9 años,J30.4,1.0,"Rinitis alérgica, no especificada",Abril,2024-Abril
3,2024,4,AREQUIPA,AREQUIPA,CAYMA,GOBIERNO REGIONAL,PUESTO DE SALUD LA TOMILLA,Femenino,De 5 a 9 años,K02.1,3.0,Caries de la dentina,Abril,2024-Abril
4,2024,4,AREQUIPA,AREQUIPA,CAYMA,GOBIERNO REGIONAL,PUESTO DE SALUD LA TOMILLA,Femenino,De 5 a 9 años,K02.9,1.0,"Caries dental, no especificada",Abril,2024-Abril
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1895267,2024,4,MOQUEGUA,GENERAL SANCHEZ CERRO,OMATE,ESSALUD,POSTA MEDICA OMATE,Femenino,De 40 a 44 años,K29.7,1.0,"Gastritis, no especificada",Abril,2024-Abril
1895268,2024,4,MOQUEGUA,GENERAL SANCHEZ CERRO,OMATE,ESSALUD,POSTA MEDICA OMATE,Femenino,De 40 a 44 años,S93.4,1.0,Esguinces y torceduras del tobillo,Abril,2024-Abril
1895269,2024,4,MOQUEGUA,GENERAL SANCHEZ CERRO,OMATE,ESSALUD,POSTA MEDICA OMATE,Femenino,De 40 a 44 años,Z01.2,1.0,Examen odontológico,Abril,2024-Abril
1895270,2024,4,MOQUEGUA,GENERAL SANCHEZ CERRO,OMATE,ESSALUD,POSTA MEDICA OMATE,Femenino,De 40 a 44 años,Z01.3,1.0,Examen de la presión sanguínea,Abril,2024-Abril


In [None]:
# create a col Pais and put "Peru" for all the roows

In [None]:
path = "/content/drive/My Drive/Rimac Hackathon/data/CATALOGO_CIE10.csv"
cat_diseases = pd.read_csv(path)
cat_diseases

Unnamed: 0,CODIGOCIE10,NOMBRECIE10,SEXO,EDAD,SITUACION
0,A00.0,"Cólera debido a Vibrio cholerae 01, biotipo ch...",Ambos,Cualquiera,ACTIVO
1,A00.1,"Cólera debido a Vibrio cholerae 01, biotipo El...",Ambos,Cualquiera,ACTIVO
2,A00.9,"Cólera, no especificado",Ambos,Cualquiera,ACTIVO
3,A01.0,Fiebre tifoidea,Ambos,Cualquiera,ACTIVO
4,A01.1,Fiebre paratifoidea A,Ambos,Cualquiera,ACTIVO
...,...,...,...,...,...
12667,Z99.2,Dependencia de diálisis renal,Ambos,Cualquiera,ACTIVO
12668,Z99.3,Dependencia de silla de ruedas,Ambos,Cualquiera,ACTIVO
12669,Z99.4,DEPENDENCIA DE CORAZON ARTIFICIAL,Ambos,Cualquiera,ACTIVO
12670,Z99.8,Dependencia de otras máquinas y dispositivos c...,Ambos,Cualquiera,ACTIVO


In [None]:
combined_df['NOMBRECIE10'] = combined_df['DIAGNOSTICO'].map(cat_diseases.set_index('CODIGOCIE10')['NOMBRECIE10'])


In [None]:
df_mental = combined_df[combined_df['DIAGNOSTICO'].str.startswith('F', na=False)]
df_fisico = combined_df[~combined_df['DIAGNOSTICO'].str.startswith('F', na=False)]

save_directory = '/content/drive/My Drive/Rimac Hackathon/data/Data Limpia Josue/'

os.makedirs(save_directory, exist_ok=True)

# Save the DataFrames to CSV files
df_mental.to_csv(os.path.join(save_directory, 'df_mental.csv'), index=False)
df_fisico.to_csv(os.path.join(save_directory, 'df_fisico.csv'), index=False)