# Notas del estudiante

#### Nombre del estudiante: Andrés Saldarriaga Jordan

Este trabajo está basado en la habilitación del curso sobre *Fundamentos de Programación* de Misión TIC 2022. Yo soy el autor de todo el código que se encuentra a continuación.

# Material

El líder del proyecto le brinda las siguientes especificaciones que debe considerar sobre el archivo entregado:
- Se le brinda un archivo CSV llamado `COVCOLI.csv`.
- Este archivo incluye características de un grupo de 1000 personas positivas. Fuente: https://cutt.ly/wmbCQOr
- Cada renglón del archivo representa los datos de un caso positivo (Datos de UNA sola persona), excepto el primer renglón que corresponde al encabezado.
- Cada línea tiene (separados por comas ",") y en el siguiente orden los siguientes datos:
 0. **index:** Índice del renglón (Inicia desde 1 hasta 1000).
 1. **fecha reporte web:** Fecha de publicación en el sitio web.
 2. **ID de caso:** Identificador del caso positivo.
 3. **Nombre departamento:** Nombre del departamento donde se conoció el caso positivo.
 4. **Nombre municipio:** Nombre del municipio donde se conoció el caso positivo.
 5. **Edad:** Edad de la persona positiva para Covid - 19
 6. **Unidad de medida de edad:**
   - Años: "1"
   - Meses: "2"
   - Días: "3"
 7. **Sexo:**
   - Masculino: "M" o "m"
   - Femenino: "F" o "f"
 8. **Estado:**
   - Casos leves: "Leve", "LEVE", o "leve"
   - Casos moderados: "Moderado"
   - Casos graves: "Grave"
   - Fallecidos: "Fallecido"
- La visualización la puede realizar en Microsoft Excel o bloc de notas descargando el segundo archivo de la descripción.
- Usted NO debe hacerle modificaciones al archivo.

# Ejercicio

Crear un nuevo archivo llamado `analisis_covcol1.csv`, cuyo delimitador no será el que está por defecto (Coma ",") sino un punto y coma ";", con este archivo hará lo siguiente:

El encabezado debe ser: "`Sexo;Edad en agnos;Concepto`".

Lea el archivo `COVCOLI.csv` línea por línea, y a medida que vaya leyendo, escriba en `analisis_covcol1.csv` lo siguiente:
- El sexo del caso positivo que está leyendo (Deberá dejarlo tal cual como aparece en la base de datos)
- Un punto y coma (";")
- La edad en años del caso positivo que está leyendo
 - Si la persona tiene menos de un año de edad, pondrá "0".
 - Si la persona tiene más de un año de edad, pero su unidad de medida es en meses, se hace la conversión a años, y tomamos la parte entera; ejemplo: si la persona tiene 23 meses de edad, se guarda en el archivo CSV un "1"
 - Este debe ser un número entero, no puede haber decimales.
- Un punto y coma (";")
- Una cadena de texto que será un concepto respecto a la edad de la persona contagiada que está leyendo (Lo resaltado en rojo equivale a UN espacio en blanco):
 - `Primera infancia`: Desde los 0 años hasta los 5 años (Incluidos ambos)
 - `Infante`: Desde los 6 años hasta los 11 años (Incluidos ambos)
 - `Adolescente`: Desde los 12 años hasta los 17 años (Incluidos ambos)
 - `Adulto`: Desde los 18 años hasta los 59 años (Incluidos ambos)
 - `Persona mayor`: Desde los 60 años en adelante


# Solución con el módulo CSV

### Revisión

In [1]:
import csv

with open('input_data/COVCOLI.csv', mode='r') as file:
    data = csv.reader(file, delimiter=',')
    for _ in range(6):
        print(next(data))

['index', 'fecha reporte web', 'ID de caso', 'Nombre departamento', 'Nombre municipio', 'Edad', 'Unidad de medida de edad', 'Sexo', 'Estado']
['1', '2020-03-06', '1', 'BOGOTA', 'BOGOTA', '19', '1', 'F', 'Leve']
['2', '2020-03-09', '2', 'VALLE', 'BUGA', '34', '1', 'M', 'Leve']
['3', '2020-03-09', '3', 'ANTIOQUIA', 'MEDELLIN', '50', '1', 'F', 'Leve']
['4', '2020-03-11', '4', 'ANTIOQUIA', 'MEDELLIN', '55', '1', 'M', 'Leve']
['5', '2020-03-11', '5', 'ANTIOQUIA', 'MEDELLIN', '25', '1', 'M', 'Leve']


### Solución

In [2]:
import csv

input_path = 'input_data/COVCOLI.csv'
output_path = 'output_data/analisis_covcol1.csv'

with open(input_path, mode='r') as input_file:
    input_data = csv.reader(input_file, delimiter=',')
    
    with open(output_path, mode='w', newline='') as output_file:
        output_data = csv.writer(output_file, delimiter=';')
        
        header = ['Sexo', 'Edad en agnos', 'Concepto']
        output_data.writerow(header) #escribir encabezado del CSV de salida
        next(input_data) #saltar encabezado del CSV de entrada
        
        for input_row in input_data:
            
            output_row = []
            
            age = int(input_row[5])
            unit = int(input_row[6])
            sex = input_row[7]
            
            #Sexo
            output_row.append(sex)
            
            #Edad
            if unit == '2': #edad en meses
                age //= 12
            elif unit == '3': #edad en días
                age //= 365
            output_row.append(str(age))
            
            #Concepto
            if age < 6:
                concept = 'Primera infancia'
            elif 6 <= age < 12:
                concept = 'Infante'
            elif 12 <= age < 18:
                concept = 'Adolescente'
            elif 18 <= age < 60:
                concept = 'Adulto'
            else:
                concept = 'Persona mayor'
            output_row.append(concept)
            
            output_data.writerow(output_row)

# Solución con el módulo pandas

### Revisión

In [3]:
import pandas as pd

df = pd.read_csv('input_data/COVCOLI.csv', sep=',')
df.head()

Unnamed: 0,index,fecha reporte web,ID de caso,Nombre departamento,Nombre municipio,Edad,Unidad de medida de edad,Sexo,Estado
0,1,2020-03-06,1,BOGOTA,BOGOTA,19,1,F,Leve
1,2,2020-03-09,2,VALLE,BUGA,34,1,M,Leve
2,3,2020-03-09,3,ANTIOQUIA,MEDELLIN,50,1,F,Leve
3,4,2020-03-11,4,ANTIOQUIA,MEDELLIN,55,1,M,Leve
4,5,2020-03-11,5,ANTIOQUIA,MEDELLIN,25,1,M,Leve


### Solución

In [4]:
import pandas as pd

input_path = 'input_data/COVCOLI.csv'
output_path = 'output_data/analisis_covcol1_pandas.csv'

input_df = pd.read_csv(input_path, sep=',')
output_df = pd.DataFrame(
    columns = ['Sexo', 'Edad en agnos', 'Concepto'],
    index = input_df.index
)

for row in input_df.index:
    
    unit = input_df.loc[row, 'Unidad de medida de edad']
    age = input_df.loc[row, 'Edad']
    sex = input_df.loc[row, 'Sexo']
    
    #Edad:
    if unit == '2': #edad en meses
        age //= 12
    elif unit == '3': #edad en días
        age //= 365
    
    #Concepto:
    if age < 6:
        concept = 'Primera infancia'
    elif 6 <= age < 12:
        concept = 'Infante'
    elif 12 <= age < 18:
        concept = 'Adolescente'
    elif 18 <= age < 60:
        concept = 'Adulto'
    else:
        concept = 'Persona mayor'
    
    output_df.loc[row] = [sex, age, concept]

output_df.to_csv(output_path, sep=';', index=False)