# Documentar el modelado 

Ahora, elaboren un documento escrito en español con las siguientes secciones: 

1. Variables en base de datos original. Tengan en cuenta que, al describir esta base de datos, los nombres de las variables deben estar escritas en inglés, tal cual las encuentran en la base de datos original, mientras que las descripciones sí deben estar escritas en español. Esto permite a los otros miembros del grupo volver a la base original y reconocer las variables que están describiendo: 

- Tipo de variable (número, texto, etc.). 
- Descripción de variable.  

2. Variables luego de modeladas. Durante el modelado, ustedes pueden cambiar el nombre de las variables, las pueden dejar en inglés o traducirlas al español. En cualquier caso, por buena práctica, decidan qué idioma van a usar y sean consistentes con esa decisión en todas las variables: 

- Tipo de variable. 
- Descripción corta, máximo 1 párrafo. 

3. Describir paso a paso lo que una persona debería hacer para actualizar los datos y aplicar el modelado que han diseñado. Piensen esta sección como una ayuda a alguien que los va a reemplazar en el trabajo. Esta persona debe entender con precisión cómo replicar lo que diseñaron. Este paso a paso asume que la estructura de la base de datos original no cambia en nuevas versiones. Puede ser tan detallada como ustedes quieran, pero debe ser muy claro cómo crear los nuevos campos y procedimientos para limpiar.

```{admonition} ETL
Todo el proceso se encuenta embebido en el presente sitio web, mayor detalle en [ETL](etl)
```

(variables-originales)=
## Variables en base de datos original

Primero se efectua un print de las columnas que trae el juego de datos

In [1]:
import pandas as pd
pd.set_option('display.max_rows', 200)
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)
pd.set_option('max_colwidth', None)
pd.set_option('display.float_format', lambda x: f'{x:.2f}' )

path:str = './data'
file_name: str = 'Ask A Manager Salary Survey 2021 (Responses) - Form Responses 1.csv'
df = pd.read_csv(f'{path}/{file_name}')
cols = df.columns.tolist()

print('Columnas que trae el dataframe')
print('')
for idx, col in enumerate(cols):
  print(f'{idx:02d} {col}')

Columnas que trae el dataframe

00 Timestamp
01 How old are you?
02 What industry do you work in?
03 Job title
04 If your job title needs additional context, please clarify here:
05 What is your annual salary? (You'll indicate the currency in a later question. If you are part-time or hourly, please enter an annualized equivalent -- what you would earn if you worked the job 40 hours a week, 52 weeks a year.)
06 How much additional monetary compensation do you get, if any (for example, bonuses or overtime in an average year)? Please only include monetary compensation here, not the value of benefits.
07 Please indicate the currency
08 If "Other," please indicate the currency here: 
09 If your income needs additional context, please provide it here:
10 What country do you work in?
11 If you're in the U.S., what state do you work in?
12 What city do you work in?
13 How many years of professional work experience do you have overall?
14 How many years of professional work experience do you ha

```{hint} A las cabeceras originales (variables)
se le coloca los números correlativos por que los nombres originales son extensas, ver el [inicio de este documento](variables-originales) para saber como se llaman
```

A continuación se muestran los tipos para cada columna

In [2]:
print('Tipo de dato por Columnas')
print('')

df.columns = [ f'{i:02d}' for i in range(len(df.columns))]
#for idx, dtype in enumerate(df.dtypes):
#  print(f'{idx:02d} {"String" if "object"==dtype else "Numeric"}')
print(df.info())

Tipo de dato por Columnas

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 28006 entries, 0 to 28005
Data columns (total 18 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   00      28006 non-null  object 
 1   01      28006 non-null  object 
 2   02      27934 non-null  object 
 3   03      28005 non-null  object 
 4   04      7245 non-null   object 
 5   05      28006 non-null  object 
 6   06      20729 non-null  float64
 7   07      28006 non-null  object 
 8   08      199 non-null    object 
 9   09      3036 non-null   object 
 10  10      28006 non-null  object 
 11  11      23006 non-null  object 
 12  12      27929 non-null  object 
 13  13      28006 non-null  object 
 14  14      28006 non-null  object 
 15  15      27790 non-null  object 
 16  16      27838 non-null  object 
 17  17      27834 non-null  object 
dtypes: float64(1), object(17)
memory usage: 3.8+ MB
None


En relación a lo anterior se da una muestra de los datos porque la herramienta reconoce a todos como texto

In [3]:
df.head(5)

Unnamed: 0,00,01,02,03,04,05,06,07,08,09,10,11,12,13,14,15,16,17
0,4/27/2021 11:02:10,25-34,Education (Higher Education),Research and Instruction Librarian,,55000,0.0,USD,,,United States,Massachusetts,Boston,5-7 years,5-7 years,Master's degree,Woman,White
1,4/27/2021 11:02:22,25-34,Computing or Tech,Change & Internal Communications Manager,,54600,4000.0,GBP,,,United Kingdom,,Cambridge,8 - 10 years,5-7 years,College degree,Non-binary,White
2,4/27/2021 11:02:38,25-34,"Accounting, Banking & Finance",Marketing Specialist,,34000,,USD,,,US,Tennessee,Chattanooga,2 - 4 years,2 - 4 years,College degree,Woman,White
3,4/27/2021 11:02:41,25-34,Nonprofits,Program Manager,,62000,3000.0,USD,,,USA,Wisconsin,Milwaukee,8 - 10 years,5-7 years,College degree,Woman,White
4,4/27/2021 11:02:42,25-34,"Accounting, Banking & Finance",Accounting Manager,,60000,7000.0,USD,,,US,South Carolina,Greenville,8 - 10 years,5-7 years,College degree,Woman,White


En aras de no caer en la repetición con la descripción (porque los datos limpios ya las tienen) se deja esta parte para el siguiente punto. Tengase en cuenta el [ETL](etl) para más detalle.

Lo único que se puede indicar que las siguientes columnas se eliminan porque la cantidad de no nulos es muchísimo menor al total de observaciones 28006

- `04 If your job title needs additional context, please clarify here:` Solo tiene 7245 observaciones
- `08 If "Other," please indicate the currency here:` Solo tiene 199 observaciones
- `09 If your income needs additional context, please provide it here:` Solo tiene 3036 observaciones


## Variables luego de modeladas

Se genera el archivo que se subirá a Looker Studio para ello se comparte su estructura luego de efectuado el [ETL](etl).

In [4]:
df_clean = pd.read_csv(f'./industry_salary_output_clean.csv')

print(df_clean.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 28006 entries, 0 to 28005
Data columns (total 16 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   timestamp              28006 non-null  object 
 1   age                    28006 non-null  object 
 2   industry               28006 non-null  object 
 3   job_title              28006 non-null  object 
 4   annual_salary          28006 non-null  float64
 5   monetary_compensation  28006 non-null  float64
 6   currency               28006 non-null  object 
 7   country                28006 non-null  object 
 8   only_us_state          28006 non-null  object 
 9   city                   28004 non-null  object 
 10  work_xp_overall        28006 non-null  object 
 11  work_xp_field          28006 non-null  object 
 12  education              28006 non-null  object 
 13  gender                 28006 non-null  object 
 14  race                   28006 non-null  object 
 15  co

A continación se muestra el conjunto de datos para luego dar una descripción y el tipo de cada una de sus columnas (características)

In [5]:
df_clean.head(5)

Unnamed: 0,timestamp,age,industry,job_title,annual_salary,monetary_compensation,currency,country,only_us_state,city,work_xp_overall,work_xp_field,education,gender,race,convert
0,4/27/2021 11:02:10,25-34,academic,Research and Instruction Librarian,216875565.5,0.0,USD,United States,Massachusetts,Boston,5-7 years,5-7 years,Master's degree,Woman,White,3943.19
1,4/27/2021 11:02:22,25-34,computing or tech,Change & Internal Communications Manager,271700203.32,19904776.8,GBP,United Kingdom,NotAvailable,Cambridge,8-10 years,5-7 years,College degree,Non-binary,White,4976.19
2,4/27/2021 11:02:38,25-34,accounting banking finance,Marketing Specialist,134068531.4,0.0,USD,United States,Tennessee,Chattanooga,2-4 years,2-4 years,College degree,Woman,White,3943.19
3,4/27/2021 11:02:41,25-34,nonprofit,Program Manager,244477910.2,11829576.3,USD,United States,Wisconsin,Milwaukee,8-10 years,5-7 years,College degree,Woman,White,3943.19
4,4/27/2021 11:02:42,25-34,accounting banking finance,Accounting Manager,236591526.0,27602344.7,USD,United States,South Carolina,Greenville,8-10 years,5-7 years,College degree,Woman,White,3943.19


Se proporciona la discripción así como los tipos de cada variable (columna)

In [6]:
df_descripcion = pd.DataFrame({
  'variable': df_clean.columns.tolist(),
  'tipoVariable': ['timestamp', 'string', 'string', 'string', 'float', 'float'
  , 'string', 'string', 'string'
  , 'string', 'string', 'string'
  , 'string', 'string', 'string'
  , 'float'
  ],
  'descripcion': [
    'fecha con hora',
    'rango de edades',
    'industria en la que trabaja',
    'titulo del puesto de trabajo',
    'salario anual',
    'compensacion anual',
    'moneda',
    'pais',
    'estados solo de estados unidos',
    'ciudad',
    'anios de experiencia general',
    'anios de experiencia especifica',
    'educacion',
    'genero',
    'etnia',
    'tipo de cambio a 2024-02-10 de https://www.xe.com/es/currencyconverter/'
  ]
})

df_descripcion.head(20)

Unnamed: 0,variable,tipoVariable,descripcion
0,timestamp,timestamp,fecha con hora
1,age,string,rango de edades
2,industry,string,industria en la que trabaja
3,job_title,string,titulo del puesto de trabajo
4,annual_salary,float,salario anual
5,monetary_compensation,float,compensacion anual
6,currency,string,moneda
7,country,string,pais
8,only_us_state,string,estados solo de estados unidos
9,city,string,ciudad


## Paso a Paso actualizar datos

Como todo el detalle del proceso está en el [ETL](etl), hay que tener en cuenta lo siguiente porque dicho script no está automatizado para ingestar directamente las fuentes, por lo demás, eso va a procesar y generar el archivo que Looker Studio consume actualmente:

1. Cargar la fuente https://docs.google.com/spreadsheets/d/1IPS5dBSGtwYVbjsfbaMCYIWnOuRmJcbequohNxCyGVw/edit?resourcekey#gid=1625408792  

2. Actualizar las divisas de https://www.xe.com/es/currencyconverter/ el cual posee un api (aunque es de pago) para su consumo directo ya sea con python o con bash
![](https://images.ctfassets.net/izij9rskv5y1/5z5ZPZmIsy6KpExpI6kR4s/ff05a2986b702e6a937e1ea687ddfd78/xe-currency-data-api-documentation.png)

3. La estandarización de las `industrias` es algo que se puede aún mejorar más, por favor ver las notas colocadas al módulo 3 en el [Tablero](tablero)

4. Adicional a los pasos anterior está subir el archivo `industry_salary_output_clean.csv` que genera el [ETL](etl) al looker studio para que la información quede actualizada


## Sobre el Sitio Web

Con respecto a la rúbrica para conseguir el puntaje extra, emplee `jupyter book` para crear el presente entregable mediante un pequeño `.devcontainer` y hosteando el sitio en mi cuenta de `github`.