In [140]:
import pandas as pd
import numpy as np
from faker import Faker
import random
import datetime
import boto3
import psycopg2
import configparser


#### Iniciación de Variables

In [141]:
rdsIdentifier = 'viruela' #nombre de la instancia


#### Cargamos archivo de configuraciones

In [142]:
config = configparser.ConfigParser()
config.read('monos.txt')

['monos.txt']

### Creamos Instancia de RDS 

In [143]:
aws_conn = boto3.client('rds', aws_access_key_id=config.get('IAM', 'ACCESS_KEY'),
                    aws_secret_access_key=config.get('IAM', 'SECRET_ACCESS_KEY'),
                    region_name='us-east-1')

#### Verificamos Instancias de RDS disponibles

In [144]:
rdsInstanceIds = []

response = aws_conn.describe_db_instances()
for resp in response['DBInstances']:
    rdsInstanceIds.append(resp['DBInstanceIdentifier'])
    db_instance_status = resp['DBInstanceStatus']

print(f"DBInstanceIds {rdsInstanceIds}")

DBInstanceIds ['banco-db', 'viruela']


#### Creación de Servicio RDS

In [145]:
try:
    response = aws_conn.create_db_instance(
            AllocatedStorage=10,
            DBName=config.get('RDS', 'DB_NAME'),
            DBInstanceIdentifier=rdsIdentifier,
            DBInstanceClass="db.t3.micro",
            Engine="postgres",
            MasterUsername=config.get('RDS', 'DB_USER'),
            MasterUserPassword=config.get('RDS', 'DB_PASSWORD'),
            Port=int(config.get('RDS', 'DB_PORT')),
            VpcSecurityGroupIds=["sg-047490b2246e8002e"],
            PubliclyAccessible=True
        )
    pprint.pprint (response)
except aws_conn.exceptions.DBInstanceAlreadyExistsFault as ex:
    print("La Instancia de Base de Datos ya Existe.")

La Instancia de Base de Datos ya Existe.


##### Obtenemos URL del Host

In [146]:
try:
     instances = aws_conn.describe_db_instances(DBInstanceIdentifier=rdsIdentifier)
     RDS_HOST = instances.get('DBInstances')[0].get('Endpoint').get('Address')
     print(RDS_HOST)
except Exception as ex:
     print("La instancia de base de datos no existe o aun no se ha terminado de crear.")
     print(ex)

viruela.covysdmkv7pe.us-east-1.rds.amazonaws.com


In [147]:
import vemon_query
print(vemon_query.DDL_QUERY)


CREATE TABLE IF NOT EXISTS paisprocedencia (
    ID_procedencia int NOT NULL,
    pais varchar (200) null,
    siglas_pais varchar (200) null,
    pais_region varchar (200) null,
    PRIMARY KEY  (ID_procedencia)
);

CREATE TABLE IF NOT EXISTS atencion (
    ID_atencion int NOT NULL,
    diagnostico varchar (200) null,
    viruela_vacuna varchar (200) null,
    contacto_animales varchar (200) null,
    hospitalizado varchar (200) null,
    historia_viaje varchar (200) null,
    PRIMARY KEY  (ID_atencion)
);

CREATE TABLE IF NOT EXISTS paciente (
    ID_paciente int NOT NULL,
    correlativo numeric (9) null,
    edad_anios numeric (9) null,
    edad_meses numeric (9) null,
    genero varchar (200) null,
    orientacion_sexual varchar (200) null,
    PRIMARY KEY  (ID_paciente)
);

CREATE TABLE IF NOT EXISTS calendario (
    fecha date NOT NULL,
    year int NULL,
    month int NULL,
    day int NULL,
    week int NULL,
    PRIMARY KEY  (fecha)
);

CREATE TABLE IF NOT EXISTS factablemon

##### Conexión a Base de Datos desde Python

In [148]:
import vemon_query

try:
    db_conn = psycopg2.connect(
        database=config.get('RDS', 'DB_NAME'), 
        user=config.get('RDS', 'DB_USER'),
        password=config.get('RDS', 'DB_PASSWORD'), 
        host=RDS_HOST,
        port=config.get('RDS', 'DB_PORT')
    )

    cursor = db_conn.cursor()
    cursor.execute(vemon_query.DDL_QUERY)
    db_conn.commit()
    print("Base de Datos Creada Exitosamente")
except Exception as ex:
    print("ERROR: Error al crear la base de datos.")
    print(ex)

Base de Datos Creada Exitosamente


##### Conexión a Amazon S3

In [183]:
s3 = boto3.resource(
    service_name = 's3',
    region_name = 'us-east-1',
    aws_access_key_id = config.get('IAM', 'ACCESS_KEY'),
    aws_secret_access_key = config.get('IAM', 'SECRET_ACCESS_KEY')
)

##### Declaramos variable para el Bucket

In [184]:
for bucket in s3.buckets.all():
    S3_BUCKET_NAME = bucket.name
    print(bucket.name)

proyectomonkeypox


In [185]:
S3_BUCKET_NAME = 'proyectomonkeypox'

In [203]:
#extraemos todo lo que está en el bucket
remoteFileList = []
for objt in s3.Bucket(S3_BUCKET_NAME).objects.all():
    remoteFileList.append(objt.key)

remoteFileList

['Fact.csv',
 'atencion.csv',
 'fecha.csv',
 'mpx_linelist_confecha.xlsx',
 'mpx_linelist_sinfecha.csv',
 'paciente.csv',
 'paisprocedencia.csv']

In [172]:
def insertDataToSQL(data_dict, table_name):
     postgres_driver = f"""postgresql://{config.get('RDS', 'DB_USER')}:{config.get('RDS', 'DB_PASSWORD')}@{RDS_HOST}:{config.get('RDS', 'DB_PORT')}/{config.get('RDS', 'DB_NAME')}"""    
     df_data = pd.DataFrame.from_records(data_dict)
     try:
          response = df_data.to_sql(table_name, postgres_driver, index=False, if_exists='append')
          print(f'Se han insertado {response} nuevos registros.' )
     except Exception as ex:
          print(ex)

##### Insertamos Datos en la Tabla de Pais de procedencia

In [182]:
import boto3
import pandas as pd
import psycopg2

# Configuración de acceso a Amazon S3
s3 = boto3.resource('s3', 
                    aws_access_key_id='AKIAVGF5FYTVFHQIMKPQ',
                    aws_secret_access_key='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')

bucket_name = 'proyectomonkeypox'
file_name = 'paisprocedencia.csv'

# Configuración de acceso a la base de datos RDS
conn = psycopg2.connect(host='viruela.covysdmkv7pe.us-east-1.rds.amazonaws.com',
                        port=5432,
                        dbname='viruela',
                        user='postgres',
                        password='YapewRiGOFl2*T=lQ#ba')

# Leer el archivo CSV desde Amazon S3
obj = s3.Object(bucket_name, file_name)
data = obj.get()['Body'].read().decode('UTF-8')

# Convertir los datos a un dataframe
df = pd.read_csv(StringIO(data), delimiter=',')

# Mapear las columnas del archivo CSV a la tabla de la base de datos
columnas = {'Correlativo': 'id_procedencia', 
            'Pais': 'pais', 
            'Siglas_Pais': 'siglas_pais', 
            'Pais_Region': 'pais_region'}

# Renombrar las columnas en el dataframe
df = df.rename(columns=columnas)

# Insertar los datos en la tabla de la base de datos
insertDataToSQL(df, 'paisprocedencia')


Se han insertado 226 nuevos registros.


##### Insertamos Datos en la Tabla atención

In [244]:
import boto3
import pandas as pd
import psycopg2

# Configuración de acceso a Amazon S3
s3 = boto3.resource('s3', 
                    aws_access_key_id='AKIAVGF5FYTVFHQIMKPQ',
                    aws_secret_access_key='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')

bucket_name = 'proyectomonkeypox'
file_name = 'atencion.csv'

# Configuración de acceso a la base de datos RDS
conn = psycopg2.connect(host='viruela.covysdmkv7pe.us-east-1.rds.amazonaws.com',
                        port=5432,
                        dbname='viruela',
                        user='postgres',
                        password='YapewRiGOFl2*T=lQ#ba')

# Leer el archivo CSV desde Amazon S3
obj = s3.Object(bucket_name, file_name)
data = obj.get()['Body'].read().decode('UTF-8')

# Convertir los datos a un dataframe
df_atencion = pd.read_csv(StringIO(data), delimiter=',')

# Mapear las columnas del archivo CSV a la tabla de la base de datos
columnas = {'Correlativo': 'id_atencion', 
            'Diagnostico': 'diagnostico', 
            'Viruela_Vacuna': 'viruela_vacuna', 
            'Contacto_Animales': 'contacto_animales',
           'Hospitalizado': 'hospitalizado',
           'Historia_Viaje': 'historia_viaje'}

# Renombrar las columnas en el dataframe
df_atencion = df_atencion.rename(columns=columnas)

# Insertar los datos en la tabla de la base de datos
insertDataToSQL(df_atencion, 'atencion')

Se han insertado 226 nuevos registros.


##### Insertamos Datos en la Tabla Paciente

In [218]:
import boto3
import pandas as pd
import psycopg2

# Configuración de acceso a Amazon S3
s3 = boto3.resource('s3', 
                    aws_access_key_id='AKIAVGF5FYTVFHQIMKPQ',
                    aws_secret_access_key='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')

bucket_name = 'proyectomonkeypox'
file_name = 'paciente.csv'

# Configuración de acceso a la base de datos RDS
conn = psycopg2.connect(host='viruela.covysdmkv7pe.us-east-1.rds.amazonaws.com',
                        port=5432,
                        dbname='viruela',
                        user='postgres',
                        password='YapewRiGOFl2*T=lQ#ba')

# Leer el archivo CSV desde Amazon S3
obj = s3.Object(bucket_name, file_name)
data = obj.get()['Body'].read().decode('UTF-8')

# Convertir los datos a un dataframe
df_paciente = pd.read_csv(StringIO(data), delimiter=',')

# Mapear las columnas del archivo CSV a la tabla de la base de datos
columnas = {'ID_paciente': 'id_paciente', 
            'Correlativo': 'correlativo', 
            'Edad_Anos': 'edad_anios', 
            'Edad_Meses': 'edad_meses',
           'Genero': 'genero',
           'Orientacion_sexual': 'orientacion_sexual'}

# Renombrar las columnas en el dataframe
df_paciente = df_paciente.rename(columns=columnas)

# Insertar los datos en la tabla de la base de datos
insertDataToSQL(df_paciente, 'paciente')

Se han insertado 226 nuevos registros.


##### Insertamos Datos en la Tabla Fecha

In [202]:
import boto3
import pandas as pd
import psycopg2

# Configuración de acceso a Amazon S3
s3 = boto3.resource('s3', 
                    aws_access_key_id='AKIAVGF5FYTVFHQIMKPQ',
                    aws_secret_access_key='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')

bucket_name = 'proyectomonkeypox'
file_name = 'fecha.csv'

# Configuración de acceso a la base de datos RDS
conn = psycopg2.connect(host='viruela.covysdmkv7pe.us-east-1.rds.amazonaws.com',
                        port=5432,
                        dbname='viruela',
                        user='postgres',
                        password='YapewRiGOFl2*T=lQ#ba')

# Leer el archivo CSV desde Amazon S3
obj = s3.Object(bucket_name, file_name)
data = obj.get()['Body'].read().decode('UTF-8')

# Convertir los datos a un dataframe
df_fecha = pd.read_csv(StringIO(data), delimiter=',')


# Mapear las columnas del archivo CSV a la tabla de la base de datos
columnas = {'Fecha_Reporte': 'fecha', 
            'Ano': 'year', 
            'Mes': 'month', 
            'Dia': 'day',
           'Semana': 'week'}

# Renombrar las columnas en el dataframe
df_fecha = df_fecha.rename(columns=columnas)
df_fecha['fecha'] = pd.to_datetime(df_fecha['fecha'], format='%d/%m/%Y').dt.strftime('%Y-%m-%d')


# Insertar los datos en la tabla de la base de datos
insertDataToSQL(df_fecha, 'calendario')

Se han insertado 179 nuevos registros.


##### Insertamos Datos en la Tabla de Hechos

In [205]:
import boto3
import pandas as pd
import psycopg2

# Configuración de acceso a Amazon S3
s3 = boto3.resource('s3', 
                    aws_access_key_id='AKIAVGF5FYTVFHQIMKPQ',
                    aws_secret_access_key='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')

bucket_name = 'proyectomonkeypox'
file_name = 'Fact.csv'

# Configuración de acceso a la base de datos RDS
conn = psycopg2.connect(host='viruela.covysdmkv7pe.us-east-1.rds.amazonaws.com',
                        port=5432,
                        dbname='viruela',
                        user='postgres',
                        password='YapewRiGOFl2*T=lQ#ba')

# Leer el archivo CSV desde Amazon S3
obj = s3.Object(bucket_name, file_name)
data = obj.get()['Body'].read().decode('UTF-8')

# Convertir los datos a un dataframe
df_fact = pd.read_csv(StringIO(data), delimiter=',')


# Mapear las columnas del archivo CSV a la tabla de la base de datos
columnas = {'Correlativo': 'correlativo', 
            'ID_atencion': 'id_atencion', 
            'Fecha_Reporte': 'fecha', 
            'ID_paciente': 'id_paciente',
           'ID_procedencia': 'id_procedencia',
           'Cantidad_casos': 'cantidad_casos',
           'porcentaje_positivos': 'porcentaje_positivos',
           'dias_infeccion': 'dias_infeccion',
           'promedio_dias_infeccion': 'promedio_dias_infeccion',
           'casos_semana': 'casos_semana'}

# Renombrar las columnas en el dataframe
df_fact = df_fact.rename(columns=columnas)


# Insertar los datos en la tabla de la base de datos
insertDataToSQL(df_fact, 'factablemono')

Se han insertado 226 nuevos registros.


## Preguntas para analisis 

#### 1. 	¿Cuántos casos corresponden a mujeres y cuantos a hombres?

In [226]:
import pandas as pd
num_mujeres = df_paciente['genero'].value_counts()['Femenino']
num_hombres = df_paciente['genero'].value_counts()['Masculino']
num_sindato = df_paciente['genero'].value_counts()['Sin dato']
print("Número de casos de mujeres:", num_mujeres)
print("Número de casos de hombres:", num_hombres)
print("Número de casos sin sexo especificado:", num_sindato)

Número de casos de mujeres: 1008
Número de casos de hombres: 19625
Número de casos sin sexo especificado: 29425


#### 2.	¿Cuántos casos corresponden a Guatemala?

In [228]:
num_Guatemala = df['pais'].value_counts()['Guatemala']
print("Número de casos en Guatemala:", num_Guatemala)


Número de casos en Guatemala: 111


#### 3.	¿En qué mes existe la mayor cantidad de casos?

In [239]:
df_fact = df_fact.dropna(subset=['fecha'])
df_fact['mes'] = pd.to_datetime(df_fact['fecha'], errors='coerce').dt.month
df_meses = df_fact.groupby('mes')['correlativo'].count()
mes_con_mas_casos = df_meses.idxmax()
print("El mes con más casos es el mes número:", mes_con_mas_casos)


El mes con más casos es el mes número: 8.0


  cache_array = _maybe_cache(arg, format, cache, convert_listlike)
  cache_array = _maybe_cache(arg, format, cache, convert_listlike)
  cache_array = _maybe_cache(arg, format, cache, convert_listlike)
  cache_array = _maybe_cache(arg, format, cache, convert_listlike)
  cache_array = _maybe_cache(arg, format, cache, convert_listlike)
  cache_array = _maybe_cache(arg, format, cache, convert_listlike)
  cache_array = _maybe_cache(arg, format, cache, convert_listlike)
  cache_array = _maybe_cache(arg, format, cache, convert_listlike)
  cache_array = _maybe_cache(arg, format, cache, convert_listlike)
  cache_array = _maybe_cache(arg, format, cache, convert_listlike)
  cache_array = _maybe_cache(arg, format, cache, convert_listlike)
  cache_array = _maybe_cache(arg, format, cache, convert_listlike)
  cache_array = _maybe_cache(arg, format, cache, convert_listlike)
  cache_array = _maybe_cache(arg, format, cache, convert_listlike)
  cache_array = _maybe_cache(arg, format, cache, convert_listl

#### 4.	¿En qué edad predomina la mayor cantidad de casos?

In [241]:
edad_con_mas_casos = df_paciente['edad_anios'].value_counts().idxmax()
print("La edad con más casos es:", edad_con_mas_casos)


La edad con más casos es: 31.0


#### 5.	¿Cuántos casos reportan haber tenido historial de viaje previo a enfermarse?

In [247]:
casos_con_historia_viaje_si = df_atencion['historia_viaje'].value_counts()['Si']
casos_con_historia_viaje_no = df_atencion['historia_viaje'].value_counts()['No']
casos_con_historia_viaje_sindato = df_atencion['historia_viaje'].value_counts()['Sin dato']
print("Número de casos con historia de viaje 'Si':", casos_con_historia_viaje_si)
print("Número de casos con historia de viaje 'No':", casos_con_historia_viaje_no)
print("Número de casos sin dato de historia de viaje:", casos_con_historia_viaje_sindato)


Número de casos con historia de viaje 'Si': 357
Número de casos con historia de viaje 'No': 1668
Número de casos sin dato de historia de viaje: 48201


#### 6.	Cantidad de casos según orientación sexual	

In [248]:
num_Bisexual = df_paciente['orientacion_sexual'].value_counts()['Bisexual']
num_Homosexual = df_paciente['orientacion_sexual'].value_counts()['Homosexual']
num_Heterosexual = df_paciente['orientacion_sexual'].value_counts()['Heterosexual']
num_Sindato = df_paciente['orientacion_sexual'].value_counts()['Sin dato']
num_Otro = df_paciente['orientacion_sexual'].value_counts()['Otro']
print("Número de casos en personas bisexuales:", num_Bisexual)
print("Número de casos en personas homosexuales:", num_Homosexual)
print("Número de casos en personas heterosexuales:", num_Heterosexual)
print("Número de casos en personas sin dato de orientación sexual:", num_Sindato)
print("Número de casos en personas con otra orientación sexual:", num_Otro)



Número de casos en personas bisexuales: 1046
Número de casos en personas homosexuales: 11428
Número de casos en personas heterosexuales: 2273
Número de casos en personas sin dato de orientación sexual: 34298
Número de casos en personas con otra orientación sexual: 1013
