<a href="https://colab.research.google.com/github/cristianccr/analisis-casos-dengue./blob/main/Modulo2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Cargar archivo desde la computadora a Google Colab**

In [1]:
from google.colab import files
uploaded = files.upload()

Saving casos_dengue.csv to casos_dengue.csv


**Cargar el archivo CSV en un DataFrame de pandas y verificar su contenido**

In [3]:
import pandas as pd

# Cargar el archivo CSV con el delimitador correcto
df = pd.read_csv('casos_dengue.csv', delimiter=';')

# Verificar las primeras filas para asegurarnos de que el archivo se cargó correctamente
df.head()

Unnamed: 0,ano,semana_epidemiologica,fecha_inicio_semana_epidemiologica,grupo_etario,departamento_residencia,n_confirmados,fecha_semana_epidemiologica
0,2024,31,28/7/2024,SIN DATO,SIN DATO,0,2024-W31
1,2024,32,4/8/2024,SIN DATO,SIN DATO,0,2024-W32
2,2024,33,11/8/2024,SIN DATO,SIN DATO,0,2024-W33
3,2024,34,18/8/2024,SIN DATO,SIN DATO,0,2024-W34
4,2024,35,25/8/2024,SIN DATO,SIN DATO,0,2024-W35


**Reemplazar valores 'SIN DATO' por NaN para limpieza de datos**

In [4]:
# Reemplazar "SIN DATO" por NaN
df.replace('SIN DATO', pd.NA, inplace=True)

# Verificar los cambios
df.head()

Unnamed: 0,ano,semana_epidemiologica,fecha_inicio_semana_epidemiologica,grupo_etario,departamento_residencia,n_confirmados,fecha_semana_epidemiologica
0,2024,31,28/7/2024,,,0,2024-W31
1,2024,32,4/8/2024,,,0,2024-W32
2,2024,33,11/8/2024,,,0,2024-W33
3,2024,34,18/8/2024,,,0,2024-W34
4,2024,35,25/8/2024,,,0,2024-W35


**Verificar la cantidad de valores nulos en cada columna**

In [5]:
# Verificar cuántos valores nulos hay en cada columna
df.isnull().sum()

Unnamed: 0,0
ano,0
semana_epidemiologica,0
fecha_inicio_semana_epidemiologica,0
grupo_etario,28
departamento_residencia,32
n_confirmados,0
fecha_semana_epidemiologica,0


**Tratamiento de valores faltantes**

In [6]:
# Rellenar los valores nulos en 'grupo_etario' y 'departamento_residencia' con "Desconocido"
df['grupo_etario'].fillna('Desconocido', inplace=True)
df['departamento_residencia'].fillna('Desconocido', inplace=True)

# Verificar que los valores nulos se han rellenado
df.isnull().sum()

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['grupo_etario'].fillna('Desconocido', inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['departamento_residencia'].fillna('Desconocido', inplace=True)


Unnamed: 0,0
ano,0
semana_epidemiologica,0
fecha_inicio_semana_epidemiologica,0
grupo_etario,0
departamento_residencia,0
n_confirmados,0
fecha_semana_epidemiologica,0


In [8]:
df['grupo_etario'] = df['grupo_etario'].fillna('Desconocido')
df['departamento_residencia'] = df['departamento_residencia'].fillna('Desconocido')
df.isnull().sum()

Unnamed: 0,0
ano,0
semana_epidemiologica,0
fecha_inicio_semana_epidemiologica,0
grupo_etario,0
departamento_residencia,0
n_confirmados,0
fecha_semana_epidemiologica,0


**Agregación de datos por semana epidemiológica**

In [9]:
# Agrupar los datos por semana epidemiológica y sumar los casos confirmados
df_grouped = df.groupby('semana_epidemiologica')['n_confirmados'].sum().reset_index()

# Verificar los primeros resultados
df_grouped.head()

Unnamed: 0,semana_epidemiologica,n_confirmados
0,1,0
1,2,1
2,3,1
3,4,0
4,5,1


**Almacenamiento en Base de Datos SQLite**

In [10]:
import sqlite3

# Conectar a la base de datos SQLite (se creará si no existe)
conn = sqlite3.connect('casos_dengue.db')

# Guardar el DataFrame en una tabla llamada "casos_dengue"
df.to_sql('casos_dengue', conn, if_exists='replace', index=False)

# Verificar que los datos se hayan cargado correctamente
query = "SELECT * FROM casos_dengue LIMIT 5;"
df_check = pd.read_sql(query, conn)
df_check

Unnamed: 0,ano,semana_epidemiologica,fecha_inicio_semana_epidemiologica,grupo_etario,departamento_residencia,n_confirmados,fecha_semana_epidemiologica
0,2024,31,28/7/2024,Desconocido,Desconocido,0,2024-W31
1,2024,32,4/8/2024,Desconocido,Desconocido,0,2024-W32
2,2024,33,11/8/2024,Desconocido,Desconocido,0,2024-W33
3,2024,34,18/8/2024,Desconocido,Desconocido,0,2024-W34
4,2024,35,25/8/2024,Desconocido,Desconocido,0,2024-W35


**Construcción del Dashboard**

In [12]:
import plotly.express as px

# Crear un gráfico interactivo con Plotly
fig = px.line(df_grouped, x='semana_epidemiologica', y='n_confirmados', title='Casos Confirmados por Semana Epidemiológica')

# Mostrar el gráfico
fig.show()

In [13]:
# Agrupar los casos por grupo etario y sumar los casos confirmados
df_grouped_etario = df.groupby('grupo_etario')['n_confirmados'].sum().reset_index()

# Crear un gráfico de barras para visualizar los casos confirmados por grupo etario
fig_etario = px.bar(df_grouped_etario, x='grupo_etario', y='n_confirmados', title='Casos Confirmados por Grupo Etario')
fig_etario.show()

In [14]:
# Agrupar los casos por departamento de residencia y sumar los casos confirmados
df_grouped_departamento = df.groupby('departamento_residencia')['n_confirmados'].sum().reset_index()

# Crear un gráfico de barras para visualizar los casos confirmados por departamento
fig_departamento = px.bar(df_grouped_departamento, x='departamento_residencia', y='n_confirmados', title='Casos Confirmados por Departamento de Residencia')
fig_departamento.show()
