In [47]:
import pandas as pd
import numpy as np
from faker import Faker
import random

# Crear una instancia de Faker en español
fake = Faker() ###'es_ES'

# Número de entradas en el dataset
num_entries = 100
num_support = 200

# Barrios de Popayán con coordenadas (ejemplo)
barrios_popayan = [
    {'barrio': 'Pandiguando', 'lat': 2.44795, 'lon': -76.61683},
    {'barrio': 'Yanaconas', 'lat': 2.45461, 'lon': -76.58438},
    {'barrio': 'Bolívar', 'lat': 2.44701, 'lon': -76.60291},
    {'barrio': 'La paz', 'lat': 2.47784, 'lon': -76.56028},
    {'barrio': 'Loma de la Virgen', 'lat': 2.42786, 'lon': -76.61461},
    {'barrio': 'La Esmeralda', 'lat': 2.44410, 'lon': -76.61605},
    {'barrio': 'El Uvo', 'lat': 2.48770, 'lon': -76.57708},
    {'barrio': 'La Pamba', 'lat': 2.44123, 'lon': -76.59939},
    {'barrio': 'Santa Clara', 'lat': 2.45319, 'lon': -76.60456},
    {'barrio': 'La Estancia', 'lat': 2.45129, 'lon': -76.59747},
    {'barrio': 'El Recuerdo', 'lat': 2.45303, 'lon': -76.59974},
    {'barrio': 'El Mirador', 'lat': 2.44409, 'lon': -76.63791},
    {'barrio': 'Ciudad Jardín', 'lat': 2.45532, 'lon': -76.59445},
    {'barrio': 'La Maria Occidente', 'lat': 2.45670, 'lon': -76.63256},
    {'barrio': 'La Arboleda', 'lat': 2.48720, 'lon': -76.57551}
]

# Generar un contador único
def generate_unique_ids(start, num_entries):
    return list(range(start, start + num_entries))

# Generar datos 
## Ubicaciones

In [48]:
def generate_ubicacion(barrios_popayan):
    ubicaciones = []
    unique_ids = generate_unique_ids(0, len(barrios_popayan))
    for barrio in barrios_popayan:
        ubicaciones.append({
            'id_ubicacion': unique_ids[barrios_popayan.index(barrio)],
            'barrio': barrio['barrio'],
            'ciudad': 'Popayán',
            'departamento': 'Cauca',
            'latitud': barrio['lat'],
            'longitud': barrio['lon']
        })
    return pd.DataFrame(ubicaciones)

In [49]:
ubicacion_df = generate_ubicacion(barrios_popayan)
ubicacion_df

Unnamed: 0,id_ubicacion,barrio,ciudad,departamento,latitud,longitud
0,0,Pandiguando,Popayán,Cauca,2.44795,-76.61683
1,1,Yanaconas,Popayán,Cauca,2.45461,-76.58438
2,2,Bolívar,Popayán,Cauca,2.44701,-76.60291
3,3,La paz,Popayán,Cauca,2.47784,-76.56028
4,4,Loma de la Virgen,Popayán,Cauca,2.42786,-76.61461
5,5,La Esmeralda,Popayán,Cauca,2.4441,-76.61605
6,6,El Uvo,Popayán,Cauca,2.4877,-76.57708
7,7,La Pamba,Popayán,Cauca,2.44123,-76.59939
8,8,Santa Clara,Popayán,Cauca,2.45319,-76.60456
9,9,La Estancia,Popayán,Cauca,2.45129,-76.59747


## Victimas

In [50]:
def generate_unique_phone_numbers(start, num_entries):
    phone_numbers = []
    for i in range(start, start + num_entries):
        # Generar un número aleatorio de 8 dígitos
        random_number = random.randint(10000000, 99999999)
        # Formatear el número de teléfono
        phone_number = f"31{random_number}"
        phone_numbers.append(phone_number)
    return phone_numbers

# Generar datos para la tabla de Caracterización de la Población Afectada
def generate_caracterizacion(num_entries):
    unique_ids = generate_unique_ids(0, num_entries)
    phone_numbers = generate_unique_phone_numbers(0, num_entries)
    data = {
        'id_victima': unique_ids,
        'edad': [random.randint(10, 80) for _ in range(num_entries)],
        'genero': [random.choice(['Femenino']) for _ in range(num_entries)],
        'relacion': [random.choice(['Familiar', 'Pareja', 'Conocido', 'Desconocido']) for _ in range(num_entries)],
        'telefono': phone_numbers
    }
    return pd.DataFrame(data)

victimas_df = generate_caracterizacion(num_entries)
victimas_df

Unnamed: 0,id_victima,edad,genero,relacion,telefono
0,0,72,Femenino,Familiar,3171384207
1,1,35,Femenino,Familiar,3128541986
2,2,79,Femenino,Desconocido,3123595528
3,3,80,Femenino,Familiar,3121057322
4,4,46,Femenino,Pareja,3114195481
...,...,...,...,...,...
95,95,36,Femenino,Conocido,3134571188
96,96,31,Femenino,Pareja,3164101541
97,97,46,Femenino,Familiar,3160459068
98,98,52,Femenino,Familiar,3185948873


## Denuncias

In [51]:
def generate_denuncias(num_entries):
    unique_ids = generate_unique_ids(0, num_entries)
    numeros = list(range(15))  # Esto crea una lista [0, 1, 2, ..., 14]
    data = {
        'id_denuncia': unique_ids,
        'fecha': [fake.date_time_this_year() for _ in range(num_entries)],
        'tipo': [random.choice(['Física', 'Psicológica', 'Sexual', 'Económica', 'Laboral','Patrimonial','Psicoemocional',"Contra los derechos reproductivos",'Obstétrica','Feminicida',
                                             'Simbolica']) for _ in range(num_entries)],
        'descripcion': [fake.text(max_nb_chars=40) for _ in range(num_entries)],
        'fuente': [random.choice(['Web', 'App', 'Organización', 'Red Social']) for _ in range(num_entries)],
        'url': ["www.datos.gov.co" for _ in range(num_entries)],
        'estado': [random.choice(['En proceso', 'Resuelto', 'Archivado']) for _ in range(num_entries)],
        'id_ubicacion': [random.choice(numeros) for _ in range(num_entries)],
        'id_victima': unique_ids,
    }
    return pd.DataFrame(data)

denuncias_df = generate_denuncias(num_entries)
denuncias_df

Unnamed: 0,id_denuncia,fecha,tipo,descripcion,fuente,url,estado,id_ubicacion,id_victima
0,0,2024-06-18 23:20:39,Psicoemocional,Agent determine customer.,Red Social,www.datos.gov.co,Archivado,13,0
1,1,2024-02-22 00:19:44,Laboral,Left serve certain night shoulder.,Red Social,www.datos.gov.co,En proceso,6,1
2,2,2024-06-27 14:43:27,Psicológica,Son up necessary thousand model maybe.,Red Social,www.datos.gov.co,En proceso,12,2
3,3,2024-05-07 03:59:19,Patrimonial,Little material bag. Thus pay describe.,Organización,www.datos.gov.co,Archivado,1,3
4,4,2024-04-05 05:18:17,Patrimonial,Letter movie score nor.,App,www.datos.gov.co,Archivado,5,4
...,...,...,...,...,...,...,...,...,...
95,95,2024-03-07 02:54:47,Física,Degree right single glass edge around.,Red Social,www.datos.gov.co,Archivado,11,95
96,96,2024-05-21 18:05:10,Simbolica,Wear should under laugh Congress.,Web,www.datos.gov.co,En proceso,11,96
97,97,2024-07-21 04:25:14,Económica,Beat training floor such church.,App,www.datos.gov.co,Resuelto,9,97
98,98,2024-05-05 19:48:29,Sexual,Cut couple child subject.,Red Social,www.datos.gov.co,Archivado,9,98


## Apoyos

In [57]:
def generate_repeated_ids(start, end, num_entries, max_repeats):
    # Crear una lista de IDs con repeticiones
    ids = []
    for i in range(start, end + 1):
        ids.extend([i] * max_repeats)
    # Mezclar los IDs para asegurar una distribución aleatoria
    random.shuffle(ids)
    # Cortar la lista al tamaño deseado
    return ids[:num_entries]

def generate_apoyo(num_support):
    unique_ids = generate_repeated_ids(0, 99, num_support, 2)  # IDs del 1 al 100, con máximo 2 repeticiones por ID
    unique_idssup = generate_unique_ids(0, num_support)
    data = {
        'id_apoyo': unique_idssup,
        'id_denuncia': unique_ids,
        'tipo': [random.choice(['Psicológico', 'Legal', 'Médico', 'Económico', 'Alojamiento']) for _ in range(num_support)],
        'descripcion': [fake.text(max_nb_chars=40) for _ in range(num_support)],
        'fecha_inicio': [fake.date_this_year() for _ in range(num_support)],
        'estado': [random.choice(['En proceso', 'Finalizado']) for _ in range(num_support)]
    }
    return pd.DataFrame(data)

num_support = 2 * num_entries

apoyos_df = generate_apoyo(num_support)
apoyos_df

Unnamed: 0,id_apoyo,id_denuncia,tipo,descripcion,fecha_inicio,estado
0,0,38,Psicológico,Toward drop color dog heart.,2024-03-31,Finalizado
1,1,70,Económico,House country down question fact.,2024-07-14,Finalizado
2,2,89,Psicológico,We owner crime economic least her.,2024-04-10,En proceso
3,3,34,Económico,He source upon prevent meet no apply.,2024-03-05,Finalizado
4,4,10,Psicológico,North partner term price someone.,2024-02-18,En proceso
...,...,...,...,...,...,...
195,195,15,Legal,Eat administration someone.,2024-05-02,En proceso
196,196,79,Alojamiento,Religious increase her.,2024-06-11,En proceso
197,197,7,Alojamiento,They wait perhaps hold heavy hotel.,2024-01-05,En proceso
198,198,66,Médico,Play though yard great clear various.,2024-07-21,Finalizado


# Subir a SQL Server

In [53]:
import pyodbc
import urllib
from sqlalchemy import create_engine

server = 'luminitas-server.database.windows.net'
database = 'denunciasDB'
username = 'admin-luminitas'
password = 'lumun-12345'
#driver= '{ODBC Driver 17 for SQL Server}'


params = urllib.parse.quote_plus(f"DRIVER={{ODBC Driver 17 for SQL Server}};SERVER={server};DATABASE={database};UID={username};PWD={password}")
engine = create_engine(f'mssql+pyodbc:///?odbc_connect={params}')

## Ubicaciones

In [54]:
ubicacion_df.to_sql('ubicaciones', engine, if_exists='append', index=False)

# Verifica la inserción
query = "SELECT * FROM ubicaciones"
df_result = pd.read_sql(query, engine)
print(df_result)

    id_ubicacion              barrio   ciudad departamento  latitud  longitud
0              0         Pandiguando  Popayán        Cauca  2.44795 -76.61683
1              1           Yanaconas  Popayán        Cauca  2.45461 -76.58438
2              2             Bolívar  Popayán        Cauca  2.44701 -76.60291
3              3              La paz  Popayán        Cauca  2.47784 -76.56028
4              4   Loma de la Virgen  Popayán        Cauca  2.42786 -76.61461
5              5        La Esmeralda  Popayán        Cauca  2.44410 -76.61605
6              6              El Uvo  Popayán        Cauca  2.48770 -76.57708
7              7            La Pamba  Popayán        Cauca  2.44123 -76.59939
8              8         Santa Clara  Popayán        Cauca  2.45319 -76.60456
9              9         La Estancia  Popayán        Cauca  2.45129 -76.59747
10            10         El Recuerdo  Popayán        Cauca  2.45303 -76.59974
11            11          El Mirador  Popayán        Cauca  2.44

## Victimas

In [55]:
victimas_df.to_sql('victimas', engine, if_exists='append', index=False)

# Verifica la inserción
query = "SELECT * FROM victimas;"
df_result = pd.read_sql(query, engine)
print(df_result)

    id_victima  edad    genero     relacion    telefono
0            0    72  Femenino     Familiar  3171384207
1            1    35  Femenino     Familiar  3128541986
2            2    79  Femenino  Desconocido  3123595528
3            3    80  Femenino     Familiar  3121057322
4            4    46  Femenino       Pareja  3114195481
..         ...   ...       ...          ...         ...
95          95    36  Femenino     Conocido  3134571188
96          96    31  Femenino       Pareja  3164101541
97          97    46  Femenino     Familiar  3160459068
98          98    52  Femenino     Familiar  3185948873
99          99    37  Femenino     Conocido  3123156824

[100 rows x 5 columns]


## Denuncias

In [56]:
denuncias_df.to_sql('denuncias', engine, if_exists='append', index=False)

# Verifica la inserción
query = "SELECT * FROM denuncias;"
df_result = pd.read_sql(query, engine)
print(df_result)

    id_denuncia       fecha            tipo  \
0             0  2024-06-18  Psicoemocional   
1             1  2024-02-22         Laboral   
2             2  2024-06-27     Psicológica   
3             3  2024-05-07     Patrimonial   
4             4  2024-04-05     Patrimonial   
..          ...         ...             ...   
95           95  2024-03-07          Física   
96           96  2024-05-21       Simbolica   
97           97  2024-07-21       Económica   
98           98  2024-05-05          Sexual   
99           99  2024-06-06          Sexual   

                                descripcion        fuente               url  \
0                 Agent determine customer.    Red Social  www.datos.gov.co   
1        Left serve certain night shoulder.    Red Social  www.datos.gov.co   
2    Son up necessary thousand model maybe.    Red Social  www.datos.gov.co   
3   Little material bag. Thus pay describe.  Organización  www.datos.gov.co   
4                   Letter movie score n

## Apoyos

In [58]:
apoyos_df.to_sql('apoyos', engine, if_exists='append', index=False)

# Verifica la inserción
query = "SELECT * FROM apoyos;"
df_result = pd.read_sql(query, engine)
print(df_result)

     id_apoyo  id_denuncia         tipo  \
0           0           38  Psicológico   
1           1           70    Económico   
2           2           89  Psicológico   
3           3           34    Económico   
4           4           10  Psicológico   
..        ...          ...          ...   
195       195           15        Legal   
196       196           79  Alojamiento   
197       197            7  Alojamiento   
198       198           66       Médico   
199       199           87        Legal   

                               descripcion fecha_inicio      estado  
0             Toward drop color dog heart.   2024-03-31  Finalizado  
1        House country down question fact.   2024-07-14  Finalizado  
2       We owner crime economic least her.   2024-04-10  En proceso  
3    He source upon prevent meet no apply.   2024-03-05  Finalizado  
4        North partner term price someone.   2024-02-18  En proceso  
..                                     ...          ...        