# CREAR FAKE DATA

## IMPORTAR

In [30]:
import pandas as pd
from faker import Faker
import random
import datetime
import os

faker = Faker(locale = 'es')

## CONTINENTES

In [2]:
continentes = [
    {"id_continente": 1, "continente": "América del Norte"},
    {"id_continente": 2, "continente": "América del Sur"},
    {"id_continente": 3, "continente": "Europa"},
    {"id_continente": 4, "continente": "África"},
    {"id_continente": 5, "continente": "Asia"},
    {"id_continente": 6, "continente": "Oceanía"}
]

df_continentes = pd.DataFrame(continentes)

df_continentes

Unnamed: 0,id_continente,continente
0,1,América del Norte
1,2,América del Sur
2,3,Europa
3,4,África
4,5,Asia
5,6,Oceanía


## PAISES

In [3]:
df_paises = pd.read_csv("countries_unprocessed.csv", sep=",")
df_paises.reset_index(inplace=True)
df_paises.rename(columns={'index': 'id_pais'}, inplace=True)
df_paises.head(5)


Unnamed: 0,id_pais,Continent,Country
0,0,Africa,Algeria
1,1,Africa,Angola
2,2,Africa,Benin
3,3,Africa,Botswana
4,4,Africa,Burkina


In [4]:
df_paises.Continent.unique()

array(['Africa', 'Asia', 'Europe', 'North America', 'Oceania',
       'South America'], dtype=object)

In [5]:
df_paises.rename(columns = {'Continent':'id_continente', 'Country':'nombre_pais'}, inplace = True) 
df_paises.head(5)

Unnamed: 0,id_pais,id_continente,nombre_pais
0,0,Africa,Algeria
1,1,Africa,Angola
2,2,Africa,Benin
3,3,Africa,Botswana
4,4,Africa,Burkina


In [6]:
mapping = {
    "North America": 1,
    "South America": 2,
    "Europe": 3,
    "Africa": 4,
    "Asia": 5,
    "Oceania": 6
}

In [7]:
df_paises["id_continente"] = df_paises["id_continente"].replace(mapping).infer_objects(copy=False)
df_paises

  df_paises["id_continente"] = df_paises["id_continente"].replace(mapping).infer_objects(copy=False)


Unnamed: 0,id_pais,id_continente,nombre_pais
0,0,4,Algeria
1,1,4,Angola
2,2,4,Benin
3,3,4,Botswana
4,4,4,Burkina
...,...,...,...
191,191,2,Paraguay
192,192,2,Peru
193,193,2,Suriname
194,194,2,Uruguay


## DIRECCION

In [8]:
rows = []
for _ in range(1000):
    id_direccion = _
    calle = faker.street_name()
    codigo_postal = faker.postcode()
    provincia = faker.state()
    pais_row = df_paises.sample(n=1)
    pais_id = pais_row["id_pais"].values[0]
    pais_nombre = pais_row["nombre_pais"].values[0]
    rows.append({
        "id_direccion": id_direccion,
        "calle": calle,
        "codigo_postal": codigo_postal,
        "provincia": provincia,
        "pais": pais_nombre,
        "id_pais": pais_id
    })

df_direccion = pd.DataFrame(rows)

print(df_direccion)

     id_direccion                      calle codigo_postal   provincia  \
0               0           Vial Iris Calvet         27062       Cádiz   
1               1    Plaza Saturnina Barrios         20222      Teruel   
2               2  Pasaje Herberto Fernández         38430  Las Palmas   
3               3     Avenida de Martín Gual         03517      Cuenca   
4               4       Paseo Natalia Agullo         34105     Melilla   
..            ...                        ...           ...         ...   
995           995    Camino de Miguela Reina         34310    Valencia   
996           996     Calle Heriberto Amores         29177      Burgos   
997           997            Ronda Eric Pont         16166      Murcia   
998           998       Rambla Amado Torrens         36900    Alicante   
999           999  Cuesta Marcelino Castillo         07517      Huesca   

            pais  id_pais  
0          Spain      141  
1      Mauritius       32  
2          Gabon       18  

## INSTITUCIONES

In [9]:
num_instituciones = 1000  
id_directores = list(range(1, num_instituciones + 1))
id_direcciones = list(df_direccion["id_direccion"])

data = {
    "id_institucion": list(range(1, num_instituciones + 1)),
    "nombre_institucion": [faker.company() for _ in range(num_instituciones)],
    "id_director": random.sample(id_directores, num_instituciones),
    "id_direccion": random.sample(id_direcciones, num_instituciones)
}

df_institucion = pd.DataFrame(data)

print(df_institucion)

     id_institucion                              nombre_institucion  \
0                 1                           Anglada y Mata S.Com.   
1                 2                      Infante y asociados S.L.L.   
2                 3                                Minería NTZ S.A.   
3                 4                             Ricart y Gomez S.L.   
4                 5                        Distribuciones XEDI S.L.   
..              ...                                             ...   
995             996            Alimentación del Mediterráneo S.Com.   
996             997                  Claudio Morales Cornejo S.Com.   
997             998  Comercializadora Vilaplana & Asociados S.Coop.   
998             999                       Minería Inteligentes S.A.   
999            1000             María Dolores Vargas Pelayo S.Coop.   

     id_director  id_direccion  
0             10           224  
1            429           942  
2            590            79  
3           100

In [17]:
len(df_institucion.id_director.unique())

1000

In [18]:
len(df_institucion.id_direccion.unique())

1000

## TAREAS

In [20]:
num_tareas = 100  


def generate_task_id():
    return faker.unique.bothify(text='????????##').upper()  # Utiliza caracteres aleatorios y números

data = {
    "id_tarea": [generate_task_id() for _ in range(num_tareas)],
    "min_horas": [random.randint(1, 20) for _ in range(num_tareas)],
    "max_horas": [random.randint(60, 200) for _ in range(num_tareas)]
}

df_tarea = pd.DataFrame(data)


print(df_tarea)

      id_tarea  min_horas  max_horas
0   XBPSIEVT36          3        163
1   SBSVRAJX26         14        177
2   CXOOXSAG43         19        133
3   TOUBFVJK13         19         96
4   IARTAFFX51         20        128
..         ...        ...        ...
95  WNPNJEVG54         14         85
96  ROQBIJSP98          4         94
97  GZMZOMHR64          3        169
98  WHSVDEON49          2        100
99  UVWIZKBU76          9        101

[100 rows x 3 columns]


## VOLUNTARIOS

In [28]:
num_voluntarios = 10000

data = {
    "id_voluntario": list(range(1, num_voluntarios + 1)),
    "nombre": [faker.first_name() for _ in range(num_voluntarios)],
    "apellido": [faker.last_name() for _ in range(num_voluntarios)],
    "email": [faker.email() for _ in range(num_voluntarios)],
    "telefono": [faker.phone_number() for _ in range(num_voluntarios)],
    "fecha_nacimiento": [faker.date_of_birth(minimum_age=15, maximum_age=70) for _ in range(num_voluntarios)],
    "id_tarea": [random.choice(df_tarea['id_tarea']) for _ in range(num_voluntarios)],
    "horas_aportadas": [round(random.uniform(1, 200), 2) for _ in range(num_voluntarios)],
    "porcentaje": [round(random.uniform(0, 1), 2) for _ in range(num_voluntarios)],
    "id_institucion": [random.choice(df_institucion['id_institucion']) for _ in range(num_voluntarios)],
    "id_coordinador": [random.randint(1, 9999) for _ in range(num_voluntarios)]
}

df_voluntario = pd.DataFrame(data)


print(df_voluntario)

      id_voluntario     nombre apellido                       email  \
0                 1   Herminio   Molins        wbaquero@example.com   
1                 2     Eligia   Medina    adrianamulet@example.com   
2                 3      Nydia     Caro        silvio50@example.net   
3                 4  Gertrudis   Amador       ricarda16@example.net   
4                 5     Aitana  Almeida         xmorera@example.org   
...             ...        ...      ...                         ...   
9995           9996     Jenaro     Sola  porfiriocriado@example.com   
9996           9997     África      Tur     casasarturo@example.net   
9997           9998   Eutropio   Aragón         gayaluz@example.net   
9998           9999    Liliana   Castro        rafael40@example.net   
9999          10000   Verónica   Martin        sergio20@example.com   

              telefono fecha_nacimiento    id_tarea  horas_aportadas  \
0         +34877691397       1978-01-11  BKPYNNGJ95           144.17   
1  

## HISTORICO

In [29]:
columnas_seleccionadas = ["id_voluntario", "id_tarea", "id_institucion"]
df_staged = df_voluntario[columnas_seleccionadas].copy()

num_filas = len(df_staged) 

data = {
    "nro_voluntario": df_staged["id_voluntario"],
    "fecha_inicio": [datetime.date(random.randint(1990, 2020), random.randint(1, 12), random.randint(1, 28)) for _ in range(num_filas)],
    "fecha_fin": [],
    "id_tarea": df_staged["id_tarea"],
    "id_institucion": df_staged["id_institucion"]
}


for i in range(num_filas):
    fecha_inicio = data["fecha_inicio"][i]
    delta_years = random.randint(1, 4)
    fecha_fin = fecha_inicio + datetime.timedelta(days=delta_years * 365)
    data["fecha_fin"].append(fecha_fin)

df_historico = pd.DataFrame(data)


print(df_historico)

      nro_voluntario fecha_inicio   fecha_fin    id_tarea  id_institucion
0                  1   2012-10-21  2013-10-21  BKPYNNGJ95             789
1                  2   2004-12-18  2008-12-17  KYMYXXBG12             707
2                  3   2003-05-16  2006-05-15  KTTFAWOY98             165
3                  4   2003-07-12  2006-07-11  BYTBCRZC48             274
4                  5   2004-05-12  2005-05-12  KYMYXXBG12             902
...              ...          ...         ...         ...             ...
9995            9996   2010-03-24  2013-03-23  ROQBIJSP98             132
9996            9997   1996-08-10  1999-08-10  KTTFAWOY98             666
9997            9998   2015-02-23  2018-02-22  WNPNJEVG54             805
9998            9999   1995-01-07  1999-01-06  EVUNIPCL31             502
9999           10000   1996-04-24  2000-04-23  VNUVKIZK02             674

[10000 rows x 5 columns]


## GUARDAR CSVS

In [42]:
dfs = [df_continentes, df_paises, df_direccion, df_institucion, df_tarea, df_voluntario, df_historico]
rutas = ["df_continentes.csv", "df_paises.csv", "df_direccion.csv", "df_institucion.csv", "df_tarea.csv", "df_voluntario.csv","df_historico.csv"]

for d in range(len(rutas)):
    ruta_csv = rutas[d-1]
    df = dfs[d-1]
    if os.path.exists(ruta_csv):
        df.to_csv(ruta_csv, index=False)
        print(f"Archivo CSV existente '{ruta_csv}' sobrescrito correctamente.")
    else:
        df.to_csv(ruta_csv, index=False)
        print(f"Nuevo archivo CSV '{ruta_csv}' creado correctamente.")

Nuevo archivo CSV 'df_historico.csv' creado correctamente.
Nuevo archivo CSV 'df_continentes.csv' creado correctamente.
Nuevo archivo CSV 'df_paises.csv' creado correctamente.
Nuevo archivo CSV 'df_direccion.csv' creado correctamente.
Nuevo archivo CSV 'df_institucion.csv' creado correctamente.
Nuevo archivo CSV 'df_tarea.csv' creado correctamente.
Nuevo archivo CSV 'df_voluntario.csv' creado correctamente.
