Se realizo un estudio con ciertos datos de personas que asistieron a un evento. En este se reunia a egresados de carreras relacionadas a la informatica de ciertas universidades de Costa Rica.

Los datos de cada persona deseados eran:
- Nombre completo
- Provincia donde habita
- Universidad de donde egreso
- Lenguaje de programacion preferido/con el que trabaja actualmente
- Anos de experiencia con ese lenguaje
- Medio por el que se entero del evento

## 1. Generacion o cargado de datos desde archivo
<span style="color:red">*se debe seleccionar alguna de las dos opciones</span>

In [1]:
from data_reader import DataFilesReader
from data_store import DataStore
from data_randomizer import RandomDataGenerator
import pandas as pd

data_list = []
user_input = int(input("Desea generar los datos aleatoriamente? (1)\nSi no (2), se cargaran del archivo 'datos.csv': "))
random_data = True if user_input == 1 else False
    
data_reader = DataFilesReader('first_names.txt', 'last_names.txt', 'provinces.txt',
                              'languages.txt', 'universities.txt', 'mediums.txt')

Desea generar los datos aleatoriamente? (1)
Si no (2), se cargaran del archivo 'datos.csv': 1


### Generacion aleatoria
<span style="color:red">*se debe especificar el tamano deseado de datos (100, 1000, 20000, 25000, ...)</span>

In [2]:
if random_data:
    data_size = int(input("Especifique la cantidad de datos que desea (solo numeros estrictamente divisibles entre 100): "))
    assert data_size % 100 == 0, f'{data_size} no es un numero permitido'

    data_store = DataStore(data_reader)

    data_randomizer = RandomDataGenerator(data_store, data_size)

    data_list = list(zip(data_randomizer.get_names(), data_randomizer.get_provinces(),
                         data_randomizer.get_universities(), data_randomizer.get_languages(),
                         data_randomizer.get_experience_years(),  data_randomizer.get_mediums()))

Especifique la cantidad de datos que desea (solo numeros estrictamente divisibles entre 100): 100


### Impresion de datos
<span style="color:red">*si se selecciono cargado de datos desde archivo (2) se mostraran vacios, ya que es en el siguiente paso donde se cargaran</span>

In [3]:
data_list

[('Saul Jimenez', 'Puntarenas', 'UAM', 'Scala', 0, 'Periodico'),
 ('D4vid Barquero', 'San Jose', 'FIDELITAS', 'Python', 2, 'Instagram'),
 ('Hannia Vasquez', 'Cartago', 'TEC', 'C++', 9, 'Otro'),
 ('Sofia Orozco', 'Heredia', 'UAM', 'Go', 4, 'Amistad'),
 ('Samuel Mejia', 'Cartago', 'UH', 'C#', 8, 'E-mail'),
 ('Edgar Porras', 'Cartago', 'UCR', 'C#', 0, 'Otro'),
 ('Fabian Villalta', 'Limon', 'ULACIT', 'C#', 1, 'E-mail'),
 ('Joel Camacho', 'Guanacaste', 'ULACIT', 'Python', 6, 'Facebook'),
 ('Alan Medin4', 'Guanacaste', 'UCR', 'Java', 2, 'E-mail'),
 ('Leonardo Alfaro', 'Limon', 'UNA', 'Ruby', 0, 'Facebook'),
 ('Jesus B4rquero', 'Heredia', 'TEC', 'Javascript', 1, 'Instagram'),
 ('Josue Lopez', 'Guanacaste', 'UNA', 'Ruby', 5, 'E-mail'),
 ('Fiorella Chew', 'Heredia', 'TEC', 'VBasic', 7, 'Volante'),
 ('Natasha Perez', 'Limon', 'UH', 'Assembly', 6, 'Television'),
 ('Sebastian Cambronero', 'Cartago', 'UH', 'Assembly', 3, 'E-mail'),
 ('Laura Garcia', 'Cartago', 'UNA', 'Swift', 3, 'Otro'),
 ('Maurici

## 2. Creacion del dataframe y cargado de datos

In [4]:
if data_list:
    data_frame = pd.DataFrame(data_list, columns=['Nombre', 'Provincia', 'Universidad',
                                                  'Lenguaje', 'Experiencia', 'Medio'])
else:
    pd.read_csv('datos.csv', index_col=0)
    
data_frame

Unnamed: 0,Nombre,Provincia,Universidad,Lenguaje,Experiencia,Medio
0,Saul Jimenez,Puntarenas,UAM,Scala,0,Periodico
1,D4vid Barquero,San Jose,FIDELITAS,Python,2,Instagram
2,Hannia Vasquez,Cartago,TEC,C++,9,Otro
3,Sofia Orozco,Heredia,UAM,Go,4,Amistad
4,Samuel Mejia,Cartago,UH,C#,8,E-mail
5,Edgar Porras,Cartago,UCR,C#,0,Otro
6,Fabian Villalta,Limon,ULACIT,C#,1,E-mail
7,Joel Camacho,Guanacaste,ULACIT,Python,6,Facebook
8,Alan Medin4,Guanacaste,UCR,Java,2,E-mail
9,Leonardo Alfaro,Limon,UNA,Ruby,0,Facebook


## 3. Limpieza de informacion
<span style="color:red">*elimina filas con nombres que contienen numeros</span>

In [5]:
data_frame = data_frame[~data_frame['Nombre'].str.contains('\d')]
data_frame.reset_index(inplace=True) #Para contrastar el borrado de filas (si se diera el caso)
del data_frame['index']

data_frame

Unnamed: 0,Nombre,Provincia,Universidad,Lenguaje,Experiencia,Medio
0,Saul Jimenez,Puntarenas,UAM,Scala,0,Periodico
1,Hannia Vasquez,Cartago,TEC,C++,9,Otro
2,Sofia Orozco,Heredia,UAM,Go,4,Amistad
3,Samuel Mejia,Cartago,UH,C#,8,E-mail
4,Edgar Porras,Cartago,UCR,C#,0,Otro
5,Fabian Villalta,Limon,ULACIT,C#,1,E-mail
6,Joel Camacho,Guanacaste,ULACIT,Python,6,Facebook
7,Leonardo Alfaro,Limon,UNA,Ruby,0,Facebook
8,Josue Lopez,Guanacaste,UNA,Ruby,5,E-mail
9,Fiorella Chew,Heredia,TEC,VBasic,7,Volante


## 4. Reportes estadisticos

### Universidad con mayor presencia de egresados

In [6]:
universidad = data_frame['Universidad'].mode()[0]
mayor_frame = data_frame[data_frame['Universidad'] == universidad]

print(f"La que tuvo mayor presencia fue: {universidad}, con un total de {mayor_frame.shape[0]} egresados")
mayor_frame

La que tuvo mayor presencia fue: TEC, con un total de 16 egresados


Unnamed: 0,Nombre,Provincia,Universidad,Lenguaje,Experiencia,Medio
1,Hannia Vasquez,Cartago,TEC,C++,9,Otro
9,Fiorella Chew,Heredia,TEC,VBasic,7,Volante
21,Armando Murillo,Alajuela,TEC,Swift,2,Television
24,Guillermo Quintana,Alajuela,TEC,Java,8,E-mail
26,Luis Desanti,Alajuela,TEC,Java,5,Facebook
27,Jose Rivas,San Jose,TEC,Perl,3,E-mail
29,Gerardo McDonald,Heredia,TEC,Ruby,2,E-mail
31,Tomas Martinez,Heredia,TEC,Go,7,Television
45,Erick Varela,Limon,TEC,C,8,Compania
48,Jairo Palmer,Guanacaste,TEC,C,4,E-mail


### Lenguaje de programacion preferido por egresados de la UNA

In [7]:
una_frame = data_frame[data_frame['Universidad'] == 'UNA']

print(f"El lenguaje preferido es: {una_frame['Lenguaje'].mode()[0]}")
una_frame

El lenguaje preferido es: C++


Unnamed: 0,Nombre,Provincia,Universidad,Lenguaje,Experiencia,Medio
7,Leonardo Alfaro,Limon,UNA,Ruby,0,Facebook
8,Josue Lopez,Guanacaste,UNA,Ruby,5,E-mail
12,Laura Garcia,Cartago,UNA,Swift,3,Otro
17,Nicolas Guevara,San Jose,UNA,C,7,Amistad
23,Diego Fuentes,Puntarenas,UNA,C++,6,E-mail
53,Rafael Villegas,Puntarenas,UNA,Perl,1,Instagram
65,Fernando Herrera,Limon,UNA,C++,8,Amistad
73,Miguel Valdes,Puntarenas,UNA,Swift,0,E-mail


### Cantidad de egresados de la carrera de Informatica que habitan en Guanacaste

In [8]:
guanacaste_frame = data_frame[data_frame['Provincia'] == 'Guanacaste']

print(f"La cantidad es: {guanacaste_frame.shape[0]}")
guanacaste_frame

La cantidad es: 8


Unnamed: 0,Nombre,Provincia,Universidad,Lenguaje,Experiencia,Medio
6,Joel Camacho,Guanacaste,ULACIT,Python,6,Facebook
8,Josue Lopez,Guanacaste,UNA,Ruby,5,E-mail
32,Cynthia Soto,Guanacaste,UAM,Java,2,Otro
33,Pedro Brown,Guanacaste,LATINA,C++,6,Otro
48,Jairo Palmer,Guanacaste,TEC,C,4,E-mail
50,Isaias Hidalgo,Guanacaste,UAM,R,7,Compania
51,Gary Medina,Guanacaste,ULACIT,Assembly,1,Periodico
57,Manuel Velazquez,Guanacaste,ULACIT,Javascript,3,Facebook


### Medio por el que se dio a conocer el evento mayoritariamente

In [9]:
medios = data_store.mediums
medio = medios[0]
suma_mayor = data_frame[data_frame['Medio'] == medio].shape[0]

for medio_ in medios[1:]:
    suma = data_frame[data_frame['Medio'] == medio_].shape[0]
    
    if suma_mayor < suma:
        suma_mayor = suma
        medio = medio_

medio_frame = data_frame[data_frame['Medio'] == medio]

print(f'El medio mas efectivo fue: {medio}, atrayendo a un total de {suma_mayor} personas')
medio_frame

El medio mas efectivo fue: E-mail, atrayendo a un total de 17 personas


Unnamed: 0,Nombre,Provincia,Universidad,Lenguaje,Experiencia,Medio
3,Samuel Mejia,Cartago,UH,C#,8,E-mail
5,Fabian Villalta,Limon,ULACIT,C#,1,E-mail
8,Josue Lopez,Guanacaste,UNA,Ruby,5,E-mail
11,Sebastian Cambronero,Cartago,UH,Assembly,3,E-mail
23,Diego Fuentes,Puntarenas,UNA,C++,6,E-mail
24,Guillermo Quintana,Alajuela,TEC,Java,8,E-mail
25,Karol Coto,Puntarenas,UH,Assembly,5,E-mail
27,Jose Rivas,San Jose,TEC,Perl,3,E-mail
29,Gerardo McDonald,Heredia,TEC,Ruby,2,E-mail
37,Marco Flores,Limon,UNED,VBasic,5,E-mail


### Universidad con suma de anos de experiencia de sus egresados menor

In [10]:
universidades = data_store.universities
universidad = universidades[0]
suma_menor = data_frame[data_frame['Universidad'] == universidad]['Experiencia'].sum()

for universidad_ in universidades[1:]:
    suma = data_frame[data_frame['Universidad'] == universidad_]['Experiencia'].sum()
    
    if suma_menor > suma:
        suma_menor = suma
        universidad = universidad_

experiencia_frame = data_frame[data_frame['Universidad'] == universidad]

print(f'La que tiene la suma menor es: {universidad}, con un total de {suma_menor} anos')
experiencia_frame

La que tiene la suma menor es: UACA, con un total de 5 anos


Unnamed: 0,Nombre,Provincia,Universidad,Lenguaje,Experiencia,Medio
16,Ernesto Salas,Limon,UACA,Javascript,0,Television
52,Enrique Piza,Puntarenas,UACA,Assembly,0,Volante
62,Rafael Zamora,Heredia,UACA,Perl,5,Volante
71,Armando Chironi,Limon,UACA,Scala,0,Facebook


## 5. Guardado de datos (.csv)
<span style="color:red">*se guardara el dataframe con los datos ya limpiados en el paso 3</span>

In [11]:
data_frame.to_csv('datos.csv')