# **INFORMACION GENERAL**
## Características del trabajo
Las variables seleccionadas son:

* Semana epidemiológica
* Año epidemiológica, tener en cuenta que la mayoría de filas son del 2022 y la minoría de 2023.
* Departamento
* Municipio
* Sexo
* Edad
* Fecha de inicio de síntomas (modificar datos)
* Fecha de exantema (modificar datos)
* Hospitalización
* Fuente de infección
* Tipo de seguridad social

## Fuentes
Esta base de datos se encontro en Casos positivos de Viruela símica en Colombia en:

*El Instituto Nacional de Salud Publicó el Conjunto de Datos de Viruela Símica en Colombia | Datos Abiertos. (s. f.). https://herramientas.datos.gov.co/noticias/el-instituto-nacional-de-salud-publico-el-conjunto-de-datos-de-viruela-simica-en-colombia*

# **CONTENIDO**

## **Importación y filtrado**
Importamos el conjunto de datos.

In [13]:
import pandas as pd
datos = pd.read_csv('./Casos_positivos_de_Viruela_s_mica_en_Colombia.csv')

Descartamos las columnas que no vamos a utilizar y limpiamos de nulos nuestra tabla de datos.

In [14]:
datos = datos.drop(columns=[
    'Código DIVIPOLA departamento',
    'Código DIVIPOLA municipio',
    'Fecha notificación',
    'Fecha diagnóstico',
    'Unidad de medida',
    'Condición final',
    '¿Viajó?',
    'País de viaje',
    'Fecha de terminación del seguimiento',
    'Pertenencia étnica',
    'Nombre grupo étnico',
    'Estrato'
])

filas_totales = len(datos.index)
datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4089 entries, 0 to 4088
Data columns (total 12 columns):
 #   Column                       Non-Null Count  Dtype 
---  ------                       --------------  ----- 
 0   Semana epidemiológica        4089 non-null   int64 
 1   Año epidemiológico           4089 non-null   int64 
 2   Departamento                 4089 non-null   object
 3   Municipio                    4089 non-null   object
 4   Sexo                         4089 non-null   object
 5   Edad                         4089 non-null   int64 
 6   Fecha de inicio de síntomas  4089 non-null   object
 7   Fecha de exantema            4089 non-null   object
 8   Hospitalización              4089 non-null   int64 
 9   Vínculo epidemiológico       4089 non-null   int64 
 10  Fuente de infección          4089 non-null   object
 11  Tipo de seguridad social     4089 non-null   object
dtypes: int64(5), object(7)
memory usage: 383.5+ KB


Como vemos no tenemos filas con valores nulos en las columnas que vamos a utilizar para nuestro análisis, por lo tanto, el conjunto de datos está listo para ser tratado.

## **Análisis**
### **Medidas de tendencia central**

Aquí va lo que ya hizo Karen.

### **Clases**
Para nuestro caso nos enfocamos en dos variables para hacer clases:
+ Edad
+ Sexo

En la variable 'Edad' utilizamos los grupos etarios que propone el *Ministerio de Salud y Protección Social de Colombia*, quedando así:
1. Primera infancia: 0 a 5 años.
2. Infancia: 6 a 11 años.
3. Adolescencia: 12 a 17 años.
4. Adulto: 18 a 59 años.
5. Adulto mayor: 60 años o más.

In [15]:
primera_infancia = datos[(datos['Edad'] >= 0) & (datos['Edad'] < 6)]
infancia = datos[(datos['Edad'] >= 6) & (datos['Edad'] < 12)]
adolescencia = datos[(datos['Edad'] >= 12) & (datos['Edad'] < 18)]
adulto = datos[(datos['Edad'] >= 18) & (datos['Edad'] < 60)]
adulto_mayor = datos[(datos['Edad'] >= 60)]

Con los conjuntos separados calculamos las frencuencias absolutas y relativas.

In [16]:
# fa = frecuencia absoluta
fa_primera_infancia = len(primera_infancia.index)
fa_infancia = len(infancia.index)
fa_adolescencia = len(adolescencia.index)
fa_adulto = len(adulto.index)
fa_adulto_mayor = len(adulto_mayor.index)

# fr = frecuencia relativa
fr_primera_infancia = fa_primera_infancia / filas_totales
fr_infancia = fa_infancia / filas_totales
fr_adolescencia = fa_adolescencia / filas_totales
fr_adulto = fa_adulto / filas_totales
fr_adulto_mayor = fa_adulto_mayor / filas_totales

# Esta sección aún está en trabajo...
print(
    fr_primera_infancia,
    fr_infancia,
    fr_adolescencia,
    fr_adulto,
    fr_adulto_mayor
)

0.001222792858889704 0.0019564685742235266 0.006358522866226461 0.9843482514062117 0.006113964294448521


Tomando en cuenta el orden de los grupos etarios que se sugirio, quedaría las frecuencias absolutas acumuladas y frecuencias relativas acumuladas así:

In [17]:
#faa = frecuencia absoluta acumulada
faa1 = fa_primera_infancia
faa2 = faa1 + fa_infancia 
faa3 = faa2 + fa_adolescencia
faa4 = faa3 + fa_adulto
faa5 = faa4 + fa_adulto_mayor

#fra = frecuencia relativa acumulada
fra1 = fr_primera_infancia
fra2 = fra1 + fr_infancia 
fra3 = fra2 + fr_adolescencia
fra4 = fra3 + fr_adulto
fra5 = fra4 + fr_adulto_mayor