<div style="width:100%; overflow:hidden; background-color:#F1F1E6; padding: 10px; border-style: outset; color:#17469e">
    <div style="width: 80%; float: left;">
    <h2 align="center">Universidad de Sonora</h2>
    <hr style="border-width: 3px; border-color:#17469e">
          <h1>Reconocimiento de patrones: Preparación de los datos</h1>
          <h4>Ramón Soto C. [(rsotoc@moviquest.com)](mailto:rsotoc@moviquest.com/)</h4>
          [ver en nbviewer](http://nbviewer.ipython.org/github/rsotoc/pattern-recognition/blob/master/Intro%201.%20Bases%20cognitivas.ipynb)
    </div>
    <div style="margin-left: 620px;">
          ![](images/escudo_unison.png)
    </div>
</div>

## Caso de estudio: [*Stack Overflow 2018 Developer Survey*](https://www.kaggle.com/stackoverflow/stack-overflow-2018-developer-survey)

Como caso de estudio principal en el presente curso hemos seleccionado la encuesta de desarrolladores 2018 de *Stack Overflow* disponible en [Kaggle](https://www.kaggle.com). En este primer análisis, realizaremos las fases de comprensión del negocio y comprensión de los datos.

### 3. Preparación de los datos


### <span style="color:#313f9e; font-weight: bold;">Selección de los datos:</span>
<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7; ">

De la sección [Verificación de la calidad de los datos](http://localhost:8888/notebooks/Dropbox/Notebooks/pattern-recognition/5.%20Introducción%20V.ipynb#verif), recordamos:

</div>

In [None]:
"""
Reconocimiento de patrones: Preparación de los datos
"""

import pandas as pd
import numpy as np
from operator import itemgetter

import plotly as py
import plotly.graph_objs as go
from IPython.display import display, HTML
from collections import Counter

py.offline.init_notebook_mode(connected=True)


pd.set_option('display.max_columns', 130)
pd.set_option('max_colwidth', 80)

In [None]:
# Contabiliza etiquetas
def get_counters(col_name, label):
    full_list = ";".join(col_name)
    each_word = full_list.split(";")
    each_word = Counter(each_word).most_common()
    return pd.DataFrame(each_word, columns = [label, "Participantes"])

def get_counters_numeric(col, label):
    series = col.value_counts()
    return pd.DataFrame({label: list(series.keys()), "Participantes": list(series)}, 
                    columns = [label, "Participantes"])

# Calcular porcentajes
def percent (row, col):
    count = col.count()
    return 100 * row[1] / count

def get_fig_pie(data, hole = 0, pull = 0):
    labels = [w if len(w)<=30 else w[0:30]+"..." for w in data.iloc[:,0]]
    dg = [
        go.Pie(labels=labels, 
               values=data.iloc[0:,1],
               hole = hole,
               pull = pull,
               hoverinfo = "label+percent",
              )
    ]
    layout = go.Layout(
        autosize=False,
        width=750,
        height=500,
    )
    return go.Figure(data=dg, layout=layout)

In [None]:
path = "Data sets/Stack Overflow Survey/"
df = pd.read_csv(path + "survey_results_public.csv", low_memory=False)

print(df.info())

In [None]:
missing = {}
for col in df.describe(include='all'):
    missing[col] = 100*sum(pd.isnull(df[col])) / df.shape[0]
table = sorted(missing.items(), key=itemgetter(1))

data = pd.DataFrame(table, columns=["Columna", "Valores Faltantes (%)"])
display(HTML(data.to_html()))

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
De estos resultados destacan las variables <code style="background-color:#f7f7f7;">TimeAfterBootcamp</code> y <code style="background-color:#f7f7f7;">MilitaryUS</code> que tienen demasiados valores faltantes y no parecen aportar información importante al entendimiento de la comunidad internacional de desarrolladores de software. <code style="background-color:#f7f7f7;">Respondent</code> tampoco es de interés, pues es tan solo un ID del usuario, específico de la encuesta. Por ello, decidimos eliminar estas tres columnas:
</div>

In [None]:
df = df.drop(['Respondent', 'MilitaryUS', 'TimeAfterBootcamp'], axis=1)
print(df.info())

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
A continuación, exploramos el resultado de eliminar datos con valores faltantes, con una política estricta:
</div>

In [None]:
print(df.dropna().info())

<div style="border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Observamos que esta operación elimina el 99.68% de los datos; el primer registro completo es el 233 y el último el 71414. Es decir, esta no es una buena opción, en este caso. Probaremos a continuación otras opciones más conservadoras:
</div>

In [None]:
print(df.dropna(thresh=63).info())

<div style="border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Incluso permitiendo la mitad de variables indefinidas en cada registro, la pérdida de datos es cercana al 30%.
</div>

<br>
<div style="width:100%; overflow:hidden;">
<div style="width:15%; float:left; padding-right:5px; color:blue; font-weight: bold;">
Conclusión:
</div>

<div style="margin-left: 15%; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Por el momento, no podemos mejorara la calidad de los datos, de manera que conservamos las columnas restantes.
</div>
</div>

### <span style="color:#313f9e; font-weight: bold;">Limpieza de los datos:</span>
<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
La limpieza de datos, se centra principalmente en resolver el problema de valores faltantes. El objetivo es tratar de eliminar esta falla sin corromper los datos. La limpieza generalmente involucra una decisión de compromiso entre estos dos objetivos.
</div>

<hr style="border-width: 3px;">

<div style="width:100%; overflow:hidden;">
<div style="width:15%; float:left; padding-right:5px; color:blue; font-weight: bold;">
Country:
</div>

<div style="margin-left: 15%; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Empezamos analizando la variable 'Country', cuyo porcentaje de valores faltantes es de 0.416772%. Observemos que este valor pudiera deducirse de las variables 'Currency' o 'CurrencySymbol'. 
<br>La cantidad de valores faltantes en 'Country' es:
</div>
</div>

In [None]:
print("Valores faltantes en 'Country':", 
      sum(pd.isnull(df['Country'])),
      "(" + str(round(10000*sum(pd.isnull(df['Country'])) / df.shape[0]) / 100)+"%)")

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
La cantidad de valores faltantes es pequeña, por lo que pueden ignorarse para la mayoría de los cálculos. Antes, observemos que otras variables coinciden en valores faltantes:
</div>

In [None]:
print(df.loc[pd.isnull(df.Country)].describe(include='all'))

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Como puede apreciarse, los registros que no respondieron la pregunta relativa al país, no respondieron ninguna otra pregunta, salvo 'Hobby' y 'OpenSource'. 
<br>
La solución en este caso, entonces, es simple: eliminar los registros con el campo 'Country' nulo. Analizamos nuevamente los datos restantes.
</div>

In [None]:
df = df[pd.notnull(df['Country'])]
df = df.reset_index(drop=True)

print(df.info())
missing = {}
for col in df.describe(include='all'):
    missing[col] = 100*sum(pd.isnull(df[col])) / df.shape[0]
table = sorted(missing.items(), key=itemgetter(1))

data = pd.DataFrame(table, columns=["Columna", "Valores Faltantes (%)"])
display(HTML(data.to_html()))

<hr style="border-width: 3px;">

<div style="width:100%; overflow:hidden;">
<div style="width:15%; float:left; padding-right:5px; color:blue; font-weight: bold;">
Employment:
</div>

<div style="margin-left: 15%; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Otra variable que pudiera ser relativamente simple de limpiar es "Employment". Observemos que los casos de valores faltantes en esta variable pudieran coincidir con los encuestados que  sean estudiantes de tiempo completo y/o con quienes desarrollan por Hobby. En ambos casos, salvo que el encuestado no haya entendido la pregunta y en casos excepcionales en el caso de estudiantes de tiempo completo, es de esperar que debieran haber respondido con una opción de 'no empleado', pero que consideraron innecesario especificar. En cualquier caso, dado el bajo porcentaje de valores nulos, la cantidad de errores sería muy baja.
<br>
Lo primero que analizamos es la cantidad de registros nulos (que corresponden a lo reportado en la tabla):
</div>
</div>

In [None]:
print("Valores faltantes en 'Employment':", 
      sum(pd.isnull(df['Employment'])),
      "(" + str(round(10000*sum(pd.isnull(df['Employment'])) / df.shape[0]) / 100)+"%)")

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Contabilizamos ahora los registros en los que el usuario no contesta la pregunta relacionada a la variable 'Employment' y al mismo tiempo declara ser estudiante de tiempo completo:
</div>

In [None]:
print(df.loc[(pd.isnull(df.Employment)) & (df.Student =='Yes, full-time')].info())

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
516 registros reportan ser estudiantes de tiempo completo. Es razonable pensar que estos desarrolladores dejaron en blanco la pregunta porque no encontraron una respuesta adecuada, siendo las opciones:
<b><ul>
<li>Not employed, but looking for work</li>
<li>Not employed, and not looking for work</li>
</ul></b>

<br>
Comparemos ahora con los que no contestaron y que declaran se desarrolladores por "hobby":
</div>

In [None]:
print(df.loc[(pd.isnull(df.Employment)) & (df.Hobby =='Yes')].info())

In [None]:
print(df.loc[(pd.isnull(df.Employment)) & 
             ((df.Hobby =='Yes') | (df.Student =='Yes, full-time'))].info())

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
En estos casos, podemos hacer una imputación con el valor 'Not employed, and not looking for work'.
</div>

In [None]:
df['Employment'] = df.apply(
    lambda row: 'Not employed, and not looking for work' 
    if (pd.isnull(row.Employment)) & 
             ((row.Hobby =='Yes') | (row.Student =='Yes, full-time'))
    else row['Employment'],
    axis=1
)

print(df.Employment.describe(), "\n\nValores faltantes en 'Employment':", 
      sum(pd.isnull(df['Employment'])),
      "(" + str(round(10000*sum(pd.isnull(df['Employment'])) / df.shape[0]) / 100)+"%)")

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Los valores faltantes se han reducido lo suficiente como para no tener que preocuparse. Hagamos una imputación con un valor nuevo 'Non-responded':
</div>

In [None]:
df['Employment'] = df.apply(
    lambda row: 'Non-responded' if pd.isnull(row.Employment) else row['Employment'], axis=1
)

print("Valores faltantes en 'Employment':", 
      sum(pd.isnull(df['Employment'])),
      "(" + str(round(10000*sum(pd.isnull(df['Employment'])) / df.shape[0]) / 100)+"%)")

<hr style="border-width: 3px;">

<div style="width:100%; overflow:hidden;">
<div style="width:15%; float:left; padding-right:5px; color:blue; font-weight: bold;">
Student:
</div>

<div style="margin-left: 15%; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
En el caso de la variable 'Student', una posible razón de no responder a la pregunta correspondiente, es que el encuestado ya esté laborando (o esté retirado) y que, por lo tanto haya considerado obvio no estar inscrito en un programa educativo (que ofrezca un grado académico). Observemos:
</div>
</div>

In [None]:
print("Valores faltantes en 'Student':", 
      sum(pd.isnull(df['Student'])),
      "(" + str(round(10000*sum(pd.isnull(df['Student'])) / df.shape[0]) / 100)+"%)")

df1 = df.loc[(pd.isnull(df.Student)) & 
             ((df.Employment =='Employed full-time') | (df.Employment =='Retired')
             | (df.Employment =='Independent contractor, freelancer, or self-employed'))
            ]
print("Valores faltantes en 'Student' con razones 'obvias':", 
      sum(pd.isnull(df1['Student'])),
      "(" + str(round(10000*sum(pd.isnull(df1['Student'])) / df.shape[0]) / 100)+"%)")

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
En estos casos, es razonable suponer que la respuesta a la pregunta asociada a la variable 'Student' (Are you currently enrolled in a formal, degree-granting college or university program?) es 'No'. Hacemos la imputación a este valor.
</div>

In [None]:
df['Student'] = df.apply(
    lambda row: 'No' 
    if (pd.isnull(row.Student)) & 
             ((row.Employment =='Employed full-time') | (row.Employment =='Retired')
             | (row.Employment =='Independent contractor, freelancer, or self-employed'))
    else row['Student'],
    axis=1
)

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Otra fuente de esclarecimiento se obtiene de la pregunta 'Which of the following best describes the highest level of formal education that you’ve completed?' (variable 'FormalEducation'). Una posibilidad para que no haya respuesta a esta pregunta, es que el encuestado haya suspendido sus estudios ('I never completed any formal education') o que ya haya terminado de estudiar; si el encuestado ha respondido 'Other doctoral degree (Ph.D, Ed.D., etc.)' hay muy baja posibilidad de equivocarnos si consideramos al encuestado como 'No estudiante', e incluso, si respondió como 'Master’s degree (MA, MS, M.Eng., MBA, etc.)'. Analicemos estas opciones:
</div>

In [None]:
print(df.loc[(pd.isnull(df.Student)) & 
             ((df.FormalEducation =='I never completed any formal education') 
              | (df.FormalEducation =='Other doctoral degree (Ph.D, Ed.D., etc.)')
              | (df.FormalEducation =='Master’s degree (MA, MS, M.Eng., MBA, etc.)'))
            ].info())

In [None]:
df['Student'] = df.apply(
    lambda row: 'No' 
    if (pd.isnull(row.Student)) & 
             ((row.FormalEducation =='I never completed any formal education') 
              | (row.FormalEducation =='Other doctoral degree (Ph.D, Ed.D., etc.)')
              | (row.FormalEducation =='Master’s degree (MA, MS, M.Eng., MBA, etc.)'))
    else row['Student'],
    axis=1
)

print("Valores faltantes en 'Student':", 
      sum(pd.isnull(df['Student'])),
      "(" + str(round(10000*sum(pd.isnull(df['Student'])) / df.shape[0]) / 100)+"%)")

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Los valores faltantes pueden definirse mediante una imputación con el valor 'Non-responded'.
</div>

In [None]:
df['Student'] = df.apply(
    lambda row: 'Non-responded' if pd.isnull(row.Student) else row['Student'], axis=1
)

<hr style="border-width: 3px;">

<div style="width:100%; overflow:hidden;">
<div style="width:20%; float:left; padding-right:5px; color:blue; font-weight: bold;">
FormalEducation:
</div>

<div style="margin-left: 20%; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Analicemos ahora la distribución de la variable 'FormalEducation': 
</div>
</div>

In [None]:
print(df.FormalEducation.describe(), "\n\nValores faltantes:", 
      sum(pd.isnull(df['FormalEducation'])),
     "(" + str(100*sum(pd.isnull(df['FormalEducation'])) / df.shape[0])+"%)")

data = get_counters(df['FormalEducation'].dropna(), "Educación formal")
data['Porcentaje'] = data.apply (lambda row: percent (row, df.FormalEducation),axis=1)
display(HTML(data.to_html()))

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Puesto que su porcentaje es inferior al 5%, de acuerdo a nuestra regla podemos realizar una medida de imputación simple. Asignando la respuesta más común ('Bachelor’s degree (BA, BS, B.Eng., etc.)') acertaríamos aproximadamente en 46% de los casos y tendríamos valores erróneos en aproximadamente el 2% de los datos. Adicionalmente, alrededor de 85% de las respuestas corresponden a opciones que podemos clasificar como "Educación superior", siendo "Bachelor" la opción más representativa. De esta manera, es poco lo que arriesgamos al hacer esta imputación:
</div>

In [None]:
df['FormalEducation'] = df.apply(
    lambda row: 'Bachelor’s degree (BA, BS, B.Eng., etc.)' if pd.isnull(row.FormalEducation) 
    else row['FormalEducation'], axis=1
)

print("Valores faltantes en 'FormalEducation':", 
      sum(pd.isnull(df['FormalEducation'])),
      "(" + str(round(10000*sum(pd.isnull(df['FormalEducation'])) / df.shape[0]) / 100)+"%)")

<hr style="border-width: 3px;">

<div style="width:100%; overflow:hidden;">
<div style="width:20%; float:left; padding-right:5px; color:blue; font-weight: bold;">
YearsCoding:
</div>

<div style="margin-left: 20%; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
En el caso de la variable 'YearsCoding', dada la cantidad de valores faltantes, podemos hacer una imputación en términos de una medida estadística. Dado que la variable es no numérica, la mejor opción es utilizar la moda, es decir, la respuesta más popular: 
</div>
</div>

In [None]:
print("Valores faltantes en 'YearsCoding':", 
      sum(pd.isnull(df['YearsCoding'])),
      "(" + str(round(10000*sum(pd.isnull(df['YearsCoding'])) / df.shape[0]) / 100)+"%)")

In [None]:
data = get_counters(df['YearsCoding'].dropna(), "Años desarrollando")
data['Porcentaje total'] = data.apply (lambda row: percent (row, df['YearsCoding']),axis=1)
display(HTML(data.to_html()))

In [None]:
df['YearsCoding'] = df.apply(
    lambda row: '3-5 years' if pd.isnull(row.YearsCoding) else row['YearsCoding'], axis=1
)

print("Valores faltantes en 'YearsCoding':", 
      sum(pd.isnull(df['YearsCoding'])),
      "(" + str(round(10000*sum(pd.isnull(df['YearsCoding'])) / df.shape[0]) / 100)+"%)")

<hr style="border-width: 3px;">

<div style="width:100%; overflow:hidden;">
<div style="width:20%; float:left; padding-right:5px; color:blue; font-weight: bold;">
DevType:
</div>

<div style="margin-left: 20%; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
La siguiente variable a limpiar es 'DevType'. Observemos su distribución:
</div>
</div>

In [None]:
print(df['DevType'].describe())
print("\nValores faltantes en 'DevType':", 
      sum(pd.isnull(df['DevType'])),
      "(" + str(round(10000*sum(pd.isnull(df['DevType'])) / df.shape[0]) / 100)+"%)")

data = get_counters(df['DevType'].dropna(), "Tipo de desarrollador")
data['Porcentaje'] = data.apply (lambda row: percent (row, df.DevType),axis=1)
display(HTML(data.to_html()))

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Puesto que las respuestas posibles a esta pregunta, listadas en la tabla previa, están estrechamente relacionadas con puestos de trabajo, es de esperar que haya una alta correlación entre los valores nulos de 'DevType' y las respuestas a 'Hobby' y 'Employment'.
Analicemos la coincidencia entre estas variables:
</div>

In [None]:
df1 = df.loc[(pd.isnull(df.DevType)) & (df.Hobby == 'Yes')]
print("\nValores faltantes en 'DevType', con 'Hobby' = 'Yes':", 
      df1.shape[0],
      "(" + str(round(10000*df1.shape[0] / df.shape[0]) / 100)+"%)")

df1 = df.loc[(pd.isnull(df.DevType)) & (df.Employment == 'Retired')]
print("\nValores faltantes en 'DevType', con 'Employment' = 'Retired':", 
      df1.shape[0],
      "(" + str(round(10000*df1.shape[0] / df.shape[0]) / 100)+"%)")

df1 = df.loc[(pd.isnull(df.DevType)) 
             & (df.Employment == 'Not employed, but looking for work')]
print("\nValores faltantes en 'DevType', con 'Employment' = 'Not employed, but looking \
for work':", df1.shape[0],
      "(" + str(round(10000*df1.shape[0] / df.shape[0]) / 100)+"%)")

df1 = df.loc[(pd.isnull(df.DevType)) 
             & (df.Employment == 'Not employed, and not looking for work')]
print("\nValores faltantes en 'DevType', con 'Employment' = 'Not employed, and not \
looking for work':", df1.shape[0],
      "(" + str(round(10000*df1.shape[0] / df.shape[0]) / 100)+"%)")

df1 = df.loc[(pd.isnull(df.DevType)) 
             & ((df.Hobby == 'Yes') | (df.Employment == 'Retired')
                | (df.Employment == 'Not employed, but looking for work')
                | (df.Employment == 'Not employed, and not looking for work'))]
print("\nValores faltantes en 'DevType' bajo condiciones de 'Hobby' y 'Employment'", 
      df1.shape[0], "(" + str(round(10000*df1.shape[0] / df.shape[0]) / 100)+"%)")

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
En todos estos casos, parece razonable pensar que gran parte de los encuestados que no respondieron la pregunta fue porque no se identificaron con ninguna de las opciones mostradas. Para estos casos haremos una imputación con la etiqueta nueva 'None of these'.
</div>

In [None]:
df['DevType'] = df.apply(
    lambda row: 'None of these' 
    if ((pd.isnull(row.DevType)) & ((row.Hobby == 'Yes') | (row.Employment == 'Retired')
                                  | (row.Employment == 'Not employed, but looking for work')
                                  | (row.Employment == 'Not employed, and not looking for work')
                                  )) else row['DevType'], axis=1
)

print("Valores faltantes en 'DevType':", 
      sum(pd.isnull(df['DevType'])),
      "(" + str(round(10000*sum(pd.isnull(df['DevType'])) / df.shape[0]) / 100)+"%)")

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Dada la cantidad de datos que ahora tienen valor nulo en 'DevType', podemos aplicar una regla de imputación simple. En este caso utilizamos lo que pudiera ser un *valor mínimo*, en este caso la misma etiqueta 'None of these'.
</div>

In [None]:
df['DevType'] = df.apply(
    lambda row: 'None of these' if pd.isnull(row.DevType) else row['DevType'], axis=1
)

print("Valores faltantes en 'DevType':", 
      sum(pd.isnull(df['DevType'])),
      "(" + str(round(10000*sum(pd.isnull(df['DevType'])) / df.shape[0]) / 100)+"%)")

<hr style="border-width: 3px;">

<div style="width:100%; overflow:hidden;">
<div style="width:20%; float:left; padding-right:5px; color:blue; font-weight: bold;">
JobSearchStatus:
</div>

<div style="margin-left: 20%; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Observemos ahora la distribución de la variable 'JobSearchStatus'. De antemano, es de esperar que los valores nulos en este caso estén también asociados a las variables 'Hobby' y 'Employment', por lo que hacemos también ese análisis:
</div>
</div>

In [None]:
print("Valores faltantes en 'JobSearchStatus':", 
      sum(pd.isnull(df['JobSearchStatus'])),
      "(" + str(round(10000*sum(pd.isnull(df['JobSearchStatus'])) / df.shape[0]) / 100)+"%)")

data = get_counters(df['JobSearchStatus'].dropna(), "Estatus de búsqueda de empleo")
data['Porcentaje'] = data.apply (lambda row: percent (row, df.JobSearchStatus),axis=1)
display(HTML(data.to_html()))

In [None]:
df1 = df.loc[(pd.isnull(df.JobSearchStatus)) & (df.Hobby == 'Yes')]
print("\nValores faltantes en 'JobSearchStatus', con 'Hobby' = 'Yes':", 
      df1.shape[0],
      "(" + str(round(10000*df1.shape[0] / df.shape[0]) / 100)+"%)")

df1 = df.loc[(pd.isnull(df.JobSearchStatus)) & (df.Employment == 'Retired')]
print("\nValores faltantes en 'JobSearchStatus', con 'Employment' = 'Retired':", 
      df1.shape[0],
      "(" + str(round(10000*df1.shape[0] / df.shape[0]) / 100)+"%)")

df1 = df.loc[(pd.isnull(df.JobSearchStatus)) 
             & (df.Employment == 'Not employed, and not looking for work')]
print("\nValores faltantes en 'JobSearchStatus', con 'Employment' = 'Not employed, and not \
looking for work':", df1.shape[0],
      "(" + str(round(10000*df1.shape[0] / df.shape[0]) / 100)+"%)")

df1 = df.loc[(pd.isnull(df.JobSearchStatus)) 
             & ((df.Hobby == 'Yes') | (df.Employment == 'Retired')
                | (df.Employment == 'Not employed, and not looking for work'))]
print("\nValores faltantes en 'JobSearchStatus' bajo condiciones de 'Hobby' y 'Employment'", 
      df1.shape[0], "(" + str(round(10000*df1.shape[0] / df.shape[0]) / 100)+"%)")

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Se puede observar que gran parte de las respuestas nulas corresponden a encuestados que desarrollan por hobby y/o están retirados y/o empleados pero que no están buscando empleo. Es de suponer que estos usuarios consideraron redundante o no aplicable la pregunta; la respuesta más apropiada para ellos debió ser 'I am not interested in new job opportunities'. 
</div>

In [None]:
df['JobSearchStatus'] = df.apply(
    lambda row: 'I am not interested in new job opportunities' 
    if ((pd.isnull(row.JobSearchStatus)) 
        & ((row.Hobby == 'Yes') | (row.Employment == 'Retired')
           | (row.Employment == 'Not employed, and not looking for work')
          )) else row['JobSearchStatus'], axis=1
)

print("Valores faltantes en 'JobSearchStatus':", 
      sum(pd.isnull(df['JobSearchStatus'])),
      "(" + str(round(10000*sum(pd.isnull(df['JobSearchStatus'])) / df.shape[0]) / 100)+"%)")

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Los valores faltantes restantes ahora son inferiores al 5%, por lo cual podríamos hacer una imputación al valor más frecuente, 'I’m not actively looking, but I am open to new opportunities', que demás, resulta ser un tanto neutral. 
</div>

In [None]:
df['JobSearchStatus'] = df.apply(
    lambda row: 'I’m not actively looking, but I am open to new opportunities' 
    if pd.isnull(row.JobSearchStatus) else row['JobSearchStatus'], axis=1
)

print("Valores faltantes en 'JobSearchStatus':", 
      sum(pd.isnull(df['JobSearchStatus'])),
      "(" + str(round(10000*sum(pd.isnull(df['JobSearchStatus'])) / df.shape[0]) / 100)+"%)")

<hr style="border-width: 3px;">

<div style="width:100%; overflow:hidden;">
<div style="width:20%; float:left; padding-right:5px; color:blue; font-weight: bold;">
UndergradMajor:
</div>

<div style="margin-left: 20%; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Observemos ahora la distribución de la variable 'JobSearchStatus'. De antemano, es de esperar La distribución de respuestas de la variable 'UndergradMajor' es: 
</div>
</div>

In [None]:
print("Valores faltantes en 'UndergradMajor':", 
      sum(pd.isnull(df['UndergradMajor'])),
      "(" + str(round(10000*sum(pd.isnull(df['UndergradMajor'])) / df.shape[0]) / 100)+"%)")

data = get_counters(df['UndergradMajor'].dropna(), "Campo de especialidad")
data['Porcentaje'] = data.apply (lambda row: percent (row, df.UndergradMajor),axis=1)
display(HTML(data.to_html()))

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Una relación obvia ocurre entre 'UndergradMajor' y 'FormalEducation'; si el encuestado no realizó estudios profesionales no tiene sentido el área de especialidad. Analicemos la relación entre ambas variables (antes, recuperamos la cadena completa de la etiqueta 'Secondary school (e.g. American high school, German Realschule or Gymnasium,...'):
</div>

In [None]:
data = get_counters(df['FormalEducation'].dropna(), "Educación formal")
data['Porcentaje'] = data.apply (lambda row: percent (row, df.FormalEducation),axis=1)
 
print(data['Educación formal'][3])

In [None]:
df1 = df.loc[(pd.isnull(df.UndergradMajor)) 
            & (df.FormalEducation == 'I never completed any formal education')]
print("\nValores faltantes en 'UndergradMajor', con 'FormalEducation' = 'I never \
completed any formal education':", 
      df1.shape[0],
      "(" + str(round(10000*df1.shape[0] / df.shape[0]) / 100)+"%)")

df1 = df.loc[(pd.isnull(df.UndergradMajor)) 
            & (df.FormalEducation == 'Primary/elementary school')]
print("\nValores faltantes en 'UndergradMajor', con 'FormalEducation' = \
'Primary/elementary school:", 
      df1.shape[0],
      "(" + str(round(10000*df1.shape[0] / df.shape[0]) / 100)+"%)")

df1 = df.loc[(pd.isnull(df.UndergradMajor)) 
             & (df.FormalEducation == 'Secondary school (e.g. American high school, \
German Realschule or Gymnasium, etc.)')]
print("\nValores faltantes en 'UndergradMajor', con 'FormalEducation' = 'Secondary \
school (e.g. American high school, German Realschule or Gymnasium, etc.)':", 
      df1.shape[0],
      "(" + str(round(10000*df1.shape[0] / df.shape[0]) / 100)+"%)")

df1 = df.loc[(pd.isnull(df.UndergradMajor)) 
             & ((df.FormalEducation == 'I never completed any formal education')
                | (df.FormalEducation == 'Primary/elementary school')
                | (df.FormalEducation == 'Secondary school (e.g. American high school, \
German Realschule or Gymnasium, etc.)'))]
print("\nValores faltantes en 'UndergradMajor' bajo condiciones de 'FormalEducation'", 
      df1.shape[0], "(" + str(round(10000*df1.shape[0] / df.shape[0]) / 100)+"%)")

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
En los casos analizados, no tiene es aplicable la definición de un área de especialidad. Para fines del análisis de la encuesta, una respuesta apropiada sería 'None':
</div>

In [None]:
df['UndergradMajor'] = df.apply(
    lambda row: 'None' 
    if ((pd.isnull(row.UndergradMajor)) 
        & ((row.FormalEducation == 'I never completed any formal education') 
           | (row.FormalEducation == 'Primary/elementary school')
           | (row.FormalEducation == 'Secondary school (e.g. American high school, \
German Realschule or Gymnasium, etc.)')
          )) else row['UndergradMajor'], axis=1
)

print("Valores faltantes en 'UndergradMajor':", 
      sum(pd.isnull(df['UndergradMajor'])),
      "(" + str(round(10000*sum(pd.isnull(df['UndergradMajor'])) / df.shape[0]) / 100)+"%)")

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
El porcentaje de valores faltantes se reduce significativamente, pero sigue estando por arriba de lo que consideramos un caso manejable simple. Por el momento, no hacemos más modificaciones.
</div>

<hr style="border-width: 3px;">

<div style="width:100%; overflow:hidden;">
<div style="width:15%; float:left; padding-right:5px; color:blue; font-weight: bold;">
LastNewJob:
</div>

<div style="margin-left: 15%; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
La distribución de respuestas de la variable 'LastNewJob' es:
</div>
</div>

In [None]:
print("Valores faltantes en 'LastNewJob':", 
      sum(pd.isnull(df['LastNewJob'])),
      "(" + str(round(10000*sum(pd.isnull(df['LastNewJob'])) / df.shape[0]) / 100)+"%)")

data = get_counters(df['LastNewJob'].dropna(), "Tiempo en el nuevo empleo")
data['Porcentaje'] = data.apply (lambda row: percent (row, df.LastNewJob), axis=1)
display(HTML(data.to_html()))

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
De las etiquetas mostradas, observamos que no hay opciones claras para quien ya está retirado o para quien ya ha trabajado, pero actualmente está desempleado. Así mismo, de acuerdo a la pregunta ('When was the last time that you took a job with a new employer?'), tampoco queda clara una opción para quienes trabajan por su cuenta. Analicemos estas relaciones: 
</div>

In [None]:
df1 = df.loc[(pd.isnull(df.LastNewJob)) & (df.Employment == 'Retired')]
print("\nValores faltantes en 'LastNewJob', con 'Employment' = 'Retired':", 
      df1.shape[0],
      "(" + str(round(10000*df1.shape[0] / df.shape[0]) / 100)+"%)")

df1 = df.loc[(pd.isnull(df.LastNewJob)) 
            & (df.Employment == 'Independent contractor, freelancer, or self-employed')]
print("\nValores faltantes en 'LastNewJob' con 'Employment' = 'Independent \
contractor, freelancer, or self-employed':", 
      df1.shape[0],
      "(" + str(round(10000*df1.shape[0] / df.shape[0]) / 100)+"%)")

df1 = df.loc[(pd.isnull(df.LastNewJob)) 
             & (df.Employment == 'Not employed, but looking for work')]
print("\nValores faltantes en 'LastNewJob', con 'Employment' = 'Not employed, but \
looking for work':", 
      df1.shape[0],
      "(" + str(round(10000*df1.shape[0] / df.shape[0]) / 100)+"%)")

df1 = df.loc[(pd.isnull(df.LastNewJob)) 
             & (df.Employment == 'Not employed, and not looking for work')]
print("\nValores faltantes en 'LastNewJob' con 'Employment' = 'Not employed, and not \
looking for work'", 
      df1.shape[0], "(" + str(round(10000*df1.shape[0] / df.shape[0]) / 100)+"%)")

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Hacemos una imputación, en estos casos, con la etiqueta 'Not employed':
</div>

In [None]:
df['LastNewJob'] = df.apply(
    lambda row: 'Not employed' 
    if ((pd.isnull(row.LastNewJob)) 
        & ((row.Employment == 'Retired') 
           | (row.Employment == 'Independent contractor, freelancer, or \
self-employed')
           | (row.Employment == 'Not employed, but looking for work')
           | (row.Employment == 'Not employed, and not looking for work')
          )) else row['LastNewJob'], axis=1
)

print("Valores faltantes en 'LastNewJob':", 
      sum(pd.isnull(df['LastNewJob'])),
      "(" + str(round(10000*sum(pd.isnull(df['LastNewJob'])) / df.shape[0]) / 100)+"%)")

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Por el momento, no hacemos otras modificaciones.
</div>

<hr style="border-width: 3px;">

<div style="width:100%; overflow:hidden;">
<div style="width:25%; float:left; padding-right:5px; color:blue; font-weight: bold;">
LanguageWorkedWith:
</div>

<div style="margin-left: 25%; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
El caso de la variable 'LanguageWorkedWith' es más raro; tratándose de una encuesta a desarrolladores, se esperaría que este reactivo tuviera muy pocos valores vacíos, sin embargo el porcentaje es alto:
</div>
</div>

In [None]:
print("Valores faltantes en 'LanguageWorkedWith':", 
      sum(pd.isnull(df['LanguageWorkedWith'])),
      "(" + str(round(10000*sum(pd.isnull(df['LanguageWorkedWith'])) / df.shape[0]) / 100)+"%)")

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Pudiéramos esperar que estos valores faltantes correspondan a usuarios que no son desarrolladores, sino que ocupan puestos administrativos. Analicemos la relación con la variable 'DevType':
</div>

In [None]:
df1 = df.loc[pd.isnull(df.LanguageWorkedWith)]

data = get_counters(df1['DevType'].dropna(), "Tipo de desarrollador")
data['Porcentaje en nulos'] = data.apply (lambda row: percent (row, df1.DevType), axis=1)
# Obtener lista ordenada de etiquetas en data
sorter = list(data['Tipo de desarrollador'])

d2 = get_counters(df['DevType'].dropna(), "Tipo de desarrollador")
d2['Porcentaje'] = d2.apply (lambda row: percent (row, df.DevType),axis=1)
# Definir valores en la columna como tipo categórico
d2['Tipo de desarrollador'] = d2['Tipo de desarrollador'].astype("category")
# Definir orden de etiqueta según a lista sorter
d2['Tipo de desarrollador'].cat.set_categories(sorter, inplace=True)
# Reordenar de acuerdo con sorter (data)... reindexar
d2 = d2.sort_values(['Tipo de desarrollador']).reset_index(drop=True)

data['Porcentaje global'] = d2['Porcentaje']
display(HTML(data.to_html()))

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Puede observarse que, en términos generales, la distribución de respuestas sobre tipo de desarrollador es la misma para los valores nulos que para el conjunto completo de datos, lo cual significa que no hay una correspondencia de los datos con valores nulos en 'LanguageWorkedWith' con alguno de los subgrupos por tipo de desarrollador. No podemos, por lo pronto, hacer suposiciones razonables.
<br>
Analicemos con más detenimiento la calidad de estos datos:
</div>

In [None]:
df1 = pd.read_csv(path + "survey_results_public.csv", low_memory=False)
df1 = df1.drop(['Respondent', 'MilitaryUS', 'TimeAfterBootcamp'], axis=1)

rows = df1.shape[0]
rowsActual = df.dropna(thresh=63).shape[0]

df1 = df1.loc[pd.isnull(df1.LanguageWorkedWith)]
rows1 = df1.shape[0]
rowsOK = df1.dropna(thresh=63).shape[0]

print("Registros con al menos la mitad de columnas no nulas:",
      "\n* En registros con 'LanguageWorkedWith' nulo:",
      rowsOK, '(' + str(round(10000 * rowsOK / rows1) / 100) + '%; ' 
      + str(round(10000 * rowsOK / rows) / 100) + '% del total)',
           "\n* En la base de datos completa:", rowsActual,
      '(' + str(round(10000 * rowsActual / rows) / 100) + '%)'
)

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
De este análisis, observamos que los datos que tienen valor nulo en 'LanguageWorkedWith' tienen también valores nulos en muchas de sus otras columnas. A continuación presentamos las estadísticas de todas las columnas para los datos con valor nulo en 'LanguageWorkedWith':
</div>

In [None]:
print(df1.describe(include='all'))

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Al analizar este listado, observamos que muchas de las variables de mayor interés para los objetivos de negocio, presentan también gran cantidad de valores nulos para los datos con valor nulo en 'LanguageWorkedWith'. Por lo tanto, una posibilidad es eliminar estos renglones, operación que postergamos, por el momento.
</div>

<hr style="border-width: 3px;">

<div style="width:100%; overflow:hidden;">
<div style="width:25%; float:left; padding-right:5px; color:blue; font-weight: bold;">
YearsCodingProf:
</div>

<div style="margin-left: 25%; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Las estadísticas de la variable 'YearsCodingProf' son:
</div>
</div>

In [None]:
print("Valores faltantes en 'YearsCodingProf':", 
      sum(pd.isnull(df['YearsCodingProf'])),
      "(" + str(round(10000*sum(pd.isnull(df['YearsCodingProf'])) / df.shape[0]) / 100)+"%)")

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Por el momento, dado el porcentaje de datos involucrados, no podemos hacer una imputación simple, como en el caso de 'YearsCoding'. Antes analicemos su relación con 'Hobby' y 'Student':
</div>

In [None]:
df1 = df.loc[(pd.isnull(df.YearsCodingProf)) & (df.Hobby == 'Yes')]
print("\nValores faltantes en 'YearsCodingProf', con 'Hobby' = 'Yes':", 
      df1.shape[0],
      "(" + str(round(10000*df1.shape[0] / df.shape[0]) / 100)+"%)")

df1 = df.loc[(pd.isnull(df.YearsCodingProf)) & (df.Student =='Yes, full-time')]
print("\nValores faltantes en 'YearsCodingProf', con 'Student' ='Yes, full-time':", 
      df1.shape[0],
      "(" + str(round(10000*df1.shape[0] / df.shape[0]) / 100)+"%)")

df1 = df.loc[(pd.isnull(df.YearsCodingProf)) 
             & ((df.Hobby =='Yes') | (df.Student =='Yes, full-time'))]
print("\nValores faltantes en 'YearsCodingProf' con ambas condiciones:", df1.shape[0],
      "(" + str(round(10000*df1.shape[0] / df.shape[0]) / 100)+"%)")

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Estos registros corresponden a encuestados que no trabajan profesionalmente como desarrolladores. Imputémosle como valor la etiqueta 'None':
</div>

In [None]:
df['YearsCodingProf'] = df.apply(
    lambda row: 'None' 
    if ((pd.isnull(row.YearsCodingProf)) 
        & ((row.Hobby =='Yes') | (row.Student =='Yes, full-time') )) 
    else row['YearsCodingProf'], axis=1
)

print("Valores faltantes en 'YearsCodingProf':", 
      sum(pd.isnull(df['YearsCodingProf'])),
      "(" + str(round(10000*sum(pd.isnull(df['YearsCodingProf'])) / df.shape[0]) / 100)+"%)")

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Ahora podemos utilizar la moda como valor de imputación para los valores restantes: 
</div>

In [None]:
df['YearsCodingProf'] = df.apply(
    lambda row: '0-2 years' if pd.isnull(row.YearsCodingProf) 
    else row['YearsCodingProf'], axis=1
)

print("Valores faltantes en 'YearsCodingProf':", 
      sum(pd.isnull(df['YearsCodingProf'])),
      "(" + str(round(10000*sum(pd.isnull(df['YearsCodingProf'])) / df.shape[0]) / 100)+"%)")

<hr style="border-width: 3px;">

<div style="width:100%; overflow:hidden;">
<div style="width:30%; float:left; padding-right:5px; color:blue; font-weight: bold;">
StackOverflowRecommend<br>
StackOverflowVisit<br>
StackOverflowHasAccount<br>
StackOverflowParticipate<br>
StackOverflowJobs<br>
StackOverflowDevStory<br>
StackOverflowJobsRecommend<br>
StackOverflowConsiderMember<br>
</div>

<div style="margin-left: 30%; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Estas variables tienen grandes cantidades de valores faltantes, pero pocas posibilidades de recuperar información "razonablemente obvia". 
<br><br>En el caso de 'StackOverflowJobsRecommend' y 'StackOverflowJobs' existe una posible relación entre quienes no respondieron la pregunta 'How likely is it that you would recommend Stack Overflow Jobs to a friend or colleague? Where 0 is not likely at all and 10 is very likely' (variable 'StackOverflowJobsRecommend') y quienes respondieron alguna de las dos opciones negativas en 'StackOverflowJobs'. Exploremos esta relación:
</div>
</div>

In [None]:
data = get_counters(df['StackOverflowJobsRecommend'].dropna(), 
                    "Recomendaría Stack Overflow Jobs")
data['Porcentaje'] = data.apply (lambda row: 
                                 percent (row, df.StackOverflowJobsRecommend),axis=1)
display(HTML(data.to_html()))

data = get_counters(df['StackOverflowJobs'].dropna(), "Ha visitado Stack Overflow Jobs")
data['Porcentaje'] = data.apply (lambda row: percent (row, df.StackOverflowJobs),axis=1)
display(HTML(data.to_html()))

print("\nValores faltantes en 'StackOverflowJobsRecommend':", 
      sum(pd.isnull(df['StackOverflowJobsRecommend'])),
      "(" + str(round(10000*sum(pd.isnull(df['StackOverflowJobsRecommend'])) 
                      / df.shape[0]) / 100)+"%)")

df1 = df.loc[pd.isnull(df.StackOverflowJobsRecommend) 
             & pd.notnull(df.StackOverflowJobs) & (df.StackOverflowJobs != 'Yes')]
print("Valores faltantes en 'StackOverflowJobsRecommend' con 'StackOverflowJobs' != 'Yes':",
     str(round(10000*df1.shape[0] / df.shape[0]) / 100)+"%")

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Como puede observarse, más de la mitad de quienes no respondieron la pregunta para 'StackOverflowJobsRecommend' no conocen el servicio. Dado que las opciones van de 0 ('not likely') a 10 (very likely), podemos tomar una consideración intermedia (5), que además es el segundo valor más común entre quienes contestaron. La decisión es la más arriesgada que hemos hecho, por la cantidad de registros involucrados. Un argumento en contra de esta decisión es que las respuestas no nulas no están distribuidas simétricamente en torno a 5. Por otra parte, observamos que casi el 75% de quienes no respondieron la pregunta y que si contestaron la pregunta para 'StackOverflowJobs', respondieron conocer el servicio, pero no haberlo visitado, lo cual refleja poco interés en el servicio y pocas posibilidades de que lo visiten en el futuro cercano y lo recomienden.
</div>

In [None]:
df['StackOverflowJobsRecommend'] = df.apply(
    lambda row: '5' if ((pd.isnull(row.StackOverflowJobsRecommend)) 
        & pd.notnull(row.StackOverflowJobs) & (row.StackOverflowJobs != 'Yes')) 
    else row['StackOverflowJobsRecommend'], axis=1
)

print("Valores faltantes en 'StackOverflowJobsRecommend':", 
      sum(pd.isnull(df['StackOverflowJobsRecommend'])),
      "(" + str(round(10000*sum(pd.isnull(df['StackOverflowJobsRecommend'])) 
                      / df.shape[0]) / 100)+"%)")

<hr style="border-width: 3px;">

<div style="width:100%; overflow:hidden;">
<div style="width:25%; float:left; padding-right:5px; color:blue; font-weight: bold;">
AssessJob1 - AssessJob10:
</div>

<div style="margin-left: 25%; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Las variables relacionadas con la evaluación de oportunidades de empleo ('AssessJob1' a 'AssessJob10') tienen una misma cantidad, grande, de valores faltantes. En este caso, vale la pena comparar contra 'Employment':
</div>
</div>

In [None]:
print("Valores faltantes en 'AssessJob1':",
     str(round(10000*sum(pd.isnull(df['AssessJob1'])) / df.shape[0]) / 100)+"%")

df1 = df.loc[(pd.isnull(df.AssessJob1))  & 
             (df.JobSearchStatus =='I am not interested in new job opportunities')]
print("Valores faltantes para encuestados no interesados en ofertas de trabajo:", 
      str(round(10000*df1.shape[0] / df.shape[0]) / 100)+"%")

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Como puede apreciarse, una gran cantidad de quienes no respondieron la pregunta correspondiente a la variable 'AssessJob1' contestaron 'I am not interested in new job opportunities' en la pregunta sobre búsqueda de empleo. En este caso, podemos asignar un valor de 0 a los valores faltantes de este grupo de variables:
</div>

In [None]:
columns = ['AssessJob' + str(i) for i in range(1, 11)]
for col in columns:
    df[col] = df.apply(
        lambda row: 0 
        if ((pd.isnull(row[col])) 
            & (row.JobSearchStatus =='I am not interested in new job opportunities') )
        else row[col], axis=1)    
    print("Valores faltantes en '" + col + "':",
          str(round(10000*sum(pd.isnull(df[col])) / df.shape[0]) / 100)+"%")

<hr style="border-width: 3px;">

<div style="width:100%; overflow:hidden;">
<div style="width:25%; float:left; padding-right:5px; color:blue; font-weight: bold;">
AssessBenefits<br>
JobEmailPriorities<br>
JobContactPriorities1
</div>

<div style="margin-left: 25%; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Las variables 'AssessBenefits1'-'AssessBenefits11', 'JobEmailPriorities1'-'JobEmailPriorities7' y 'JobContactPriorities1'-'JobContactPriorities5' presentan una situación similar a 'AssessJob-x'. Tomamos la misma decisión:
</div>
</div>

In [None]:
print("Valores faltantes en 'AssessBenefits1':",
     str(round(10000*sum(pd.isnull(df['AssessBenefits1'])) / df.shape[0]) / 100)+"%")

df1 = df.loc[(pd.isnull(df.AssessBenefits1))  & 
             (df.JobSearchStatus =='I am not interested in new job opportunities')]
print("Valores faltantes en 'AssessJob1':", 
      str(round(10000*df1.shape[0] / df.shape[0]) / 100)+"%")

In [None]:
columns = ['AssessBenefits' + str(i) for i in range(1, 12)]
for col in columns:
    df[col] = df.apply(
        lambda row: 0 
        if ((pd.isnull(row[col])) 
            & (row.JobSearchStatus =='I am not interested in new job opportunities') )
        else row[col], axis=1)    
    print("Valores faltantes en '" + col + "':",
          str(round(10000*sum(pd.isnull(df[col])) / df.shape[0]) / 100)+"%")

In [None]:
print("Valores faltantes en 'JobEmailPriorities1':",
     str(round(10000*sum(pd.isnull(df['JobEmailPriorities1'])) / df.shape[0]) / 100)+"%")

df1 = df.loc[(pd.isnull(df.JobEmailPriorities1))  & 
             (df.JobSearchStatus =='I am not interested in new job opportunities')]
print("Valores faltantes en 'JobEmailPriorities1':", 
      str(round(10000*df1.shape[0] / df.shape[0]) / 100)+"%")

In [None]:
columns = ['JobEmailPriorities' + str(i) for i in range(1, 8)]
for col in columns:
    df[col] = df.apply(
        lambda row: 0 
        if ((pd.isnull(row[col])) 
            & (row.JobSearchStatus =='I am not interested in new job opportunities') )
        else row[col], axis=1)    
    print("Valores faltantes en '" + col + "':",
          str(round(10000*sum(pd.isnull(df[col])) / df.shape[0]) / 100)+"%")

In [None]:
print("Valores faltantes en 'JobContactPriorities1':",
     str(round(10000*sum(pd.isnull(df['JobContactPriorities1'])) / df.shape[0]) / 100)+"%")

df1 = df.loc[(pd.isnull(df.JobContactPriorities1))  & 
             (df.JobSearchStatus =='I am not interested in new job opportunities')]
print("Valores faltantes en 'JobContactPriorities1':", 
      str(round(10000*df1.shape[0] / df.shape[0]) / 100)+"%")

In [None]:
columns = ['JobContactPriorities' + str(i) for i in range(1, 6)]
for col in columns:
    df[col] = df.apply(
        lambda row: 0 
        if ((pd.isnull(row[col])) 
            & (row.JobSearchStatus =='I am not interested in new job opportunities') )
        else row[col], axis=1)    
    print("Valores faltantes en '" + col + "':",
          str(round(10000*sum(pd.isnull(df[col])) / df.shape[0]) / 100)+"%")

<hr style="border-width: 3px;">

<div style="width:100%; overflow:hidden;">
<div style="width:15%; float:left; padding-right:5px; color:blue; font-weight: bold;">
Salary:
</div>

<div style="margin-left: 15%; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
La variable 'Salary' tiene varios problemas. El primero de ellos es una gran cantidad de valores faltantes, que, sin embargo, pueden mejorarse tomando en cuentas los valores en las variables 'Hobby' y 'Employment'. El primer análisis es determinar cuantos de los que no respondieron la pregunta es porque no trabajan:
</div>
</div>

In [None]:
print("Valores faltantes en 'Salary':",
     str(round(10000*sum(pd.isnull(df['Salary'])) / df.shape[0]) / 100)+"%")

df1 = df.loc[(pd.isnull(df.Salary))  & 
             ((df.Hobby == 'Yes') | (df.Employment == 'Retired')
                | (df.Employment == 'Not employed, but looking for work')
                | (df.Employment == 'Not employed, and not looking for work')
             )]
print("Valores faltantes para encuestados que no trabajan:", 
      str(round(10000*df1.shape[0] / df.shape[0]) / 100)+"%")

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
En estos casos, imputaremos el valor '0' a los valores faltantes:
</div>

In [None]:
df['Salary'] = df.apply(
    lambda row: '0' 
    if ((pd.isnull(row.Salary)) 
        & ((row.Hobby == 'Yes') | (row.Employment == 'Retired') 
           | (row.Employment == 'Not employed, but looking for work')
           | (row.Employment == 'Not employed, and not looking for work')
          )) else row['Salary'], axis=1
)

print("Valores faltantes:", 
      sum(pd.isnull(df['Salary'])),
     "(" + str(round(10000*sum(pd.isnull(df['Salary'])) / df.shape[0]) / 100)+"%)")

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Con los registros restantes, no podemos hacer nada por el momento para limpiar los valores faltantes.
<br>
Otro problema de esta variable, sin embargo, es la presencia de valores atípicos, lo cual ilustramos mostrando las cadenas más largas en los registros:
</div>

In [None]:
salary_list = df['Salary'].dropna().value_counts().index.tolist()
sorted_list = sorted(salary_list, key = len, reverse=True)
print(sorted_list[:20])

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Es evidente que muchos de estos valores no tienen sentido. Al 15 de julio del 2018, la moneda con menor valor (en relación al dólar estadounidense) es el Rial Iraní. \$1.00 USD equivale a 
43,297.99 IRR (no hay símbolo internacional). De esta manera, un salario en riales de 10,000,000,000.00 IRR equivaldría a un salario de \$230,957.60 USD (muy por arriba de los estándares para un desarrollador). De manera que parece seguro eliminar todos los valores que tengan un valor superior a éste. Dado que es de esperar que algunos de estas respuestas sean de personas que no trabajan, volvemos a aplicar el ajuste correspondiente:
</div>

In [None]:
def salary_ok (s):
    if pd.notnull(s):
        s = s.replace(',','')
        val = float(s)
        if val < 10000000000:
            return val
        else:
            return np.nan
    else:
        return np.nan

In [None]:
df['Salary'] = df.apply(lambda row: salary_ok(row.Salary), axis=1)

print("Valores faltantes:", 
      sum(pd.isnull(df['Salary'])),
     "(" + str(round(10000*sum(pd.isnull(df['Salary'])) / df.shape[0]) / 100)+"%)")

In [None]:
df['Salary'] = df.apply(
    lambda row: '0' 
    if ((pd.isnull(row.Salary)) 
        & ((row.Hobby == 'Yes') | (row.Employment == 'Retired') 
           | (row.Employment == 'Not employed, but looking for work')
           | (row.Employment == 'Not employed, and not looking for work')
          )) else row['Salary'], axis=1
)

print("Valores faltantes:", 
      sum(pd.isnull(df['Salary'])),
     "(" + str(round(10000*sum(pd.isnull(df['Salary'])) / df.shape[0]) / 100)+"%)")

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Con los registros restantes, no hacemos más por el momento para limpiar los valores faltantes.
</div>

<hr style="border-width: 3px;">

<div style="width:100%; overflow:hidden;">
<div style="width:15%; float:left; padding-right:5px; color:blue; font-weight: bold;">
CheckInCode:
</div>

<div style="margin-left: 15%; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
'CheckInCode' (¿con que frecuencia actualiza el usuario su código en algún controlador de versiones?) es otra variable con un contenido 'alto' de valores faltantes que se anticipa como viable de ser limpiada. Pudiéramos esperar, en particular, que quienes dejaron la respuesta a la pregunta en blanco se correspondan en gran medida con quienes respondieron la pregunta acerca de qué controlador de versión utilizaban ('VersionControl') con las respuestas 'I don't use version control' y 'Zip file back-ups'. Para analizar esta relación, empezamos por explorar la cantidad de valores faltantes en 'CheckInCode' y, posteriormente, analizamos como se distribuyen los valores no nulos de 'VersionControl' entre los registros con valor nulo en 'CheckInCode':
</div>
</div>

In [None]:
print("Valores faltantes en 'CheckInCode':",
     str(round(10000*sum(pd.isnull(df['CheckInCode'])) / df.shape[0]) / 100)+"%")

In [None]:
df1 = df.loc[pd.isnull(df.CheckInCode)]

data = get_counters(df1['VersionControl'].dropna(), "Controlador de versiones")
data['Porcentaje en nulos'] = data.apply (lambda row: percent (row, df1.VersionControl), axis=1)
display(HTML(data.to_html()))

print("\nValores faltantes en 'CheckInCode' y 'VersionControl':",
     str(round(10000*sum(pd.isnull(df1['VersionControl'])) / df.shape[0]) / 100)+"%")

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Observamos que, aunque si hay una fuerte correlación entre quienes dejaron en blanco la variable 'CheckInCode' y quienes respondieron 'I don't use version control' en la variable 'VersionControl', es mucho mayor la coinicidencia de quienes dejaron en blanco ambas preguntas, por lo que la limpieza será reducida. Realizaremos un imputación con el valor 'Never' a todos los registros con  'CheckInCode' en blanco y 'I don't use version control' en la variable 'VersionControl'; a continuación revisaremos nuevamente la distribución de respuestas de 'VersionControl' en registros con 'CheckInCode' nulo:
</div>

In [None]:
df['CheckInCode'] = df.apply(
    lambda row: 'Never' if ( (pd.isnull(row.CheckInCode))
                            & ( (pd.notnull(row.VersionControl)) 
                               & ( (row.VersionControl == "I don't use version control")
                                  | (row.VersionControl == "Zip file back-ups")) 
                              )
                           ) else row['CheckInCode'], axis=1
)

print("Valores faltantes:",
     str(round(10000*sum(pd.isnull(df['CheckInCode'])) / df.shape[0]) / 100)+"%")

In [None]:
df1 = df.loc[pd.isnull(df.CheckInCode)]

data = get_counters(df1['VersionControl'].dropna(), "Controlador de versiones")
data['Porcentaje en nulos'] = data.apply (
    lambda row: percent (row, df1.VersionControl), axis=1)
display(HTML(data.to_html()))

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
En estos resultados, sorprende que sigan apareciendo registros con la respuesta 'I don't use version control'... después de haber hecho la imputación. Un análisis más fino arroja, por ejemplo, el siguiente resultado:
</div>

In [None]:
suma = 0
for index, row in df.iterrows():
    if pd.isnull(row.CheckInCode) & (row.VersionControl == row.VersionControl):
        if(("I don't" in row.VersionControl) & ("Git" in row.VersionControl)):
            suma += 1
print(suma)

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
De acuerdo a estos resultados, muchos de los que respondieron 'I don't use version control' a la pregunta sobre qué tipo de controlador de versiones utilizaban, agregaron a la respuesta la opción 'Git', lo cual es una contradicción ([*Git is a free and open source distributed version control system...*](https://git-scm.com)). Aunque este resultado no mejora las opciones de limpieza de 'CheckInCode', si descubre una inconsistencia (no obvia) en la variable 'VersionControl': quienes respondieron 'I don't use version control' no pueden agregar ningún controlador de versiones ([*Git*](https://git-scm.com), [*Subversion*](https://subversion.apache.org), [*Team Foundation Version Control*](https://visualstudio.microsoft.com/es/team-services/tfvc/) o [*Mercurial*](https://www.mercurial-scm.org) e incluso tampoco *Copying and pasting files to network shares*). Observemos la ocurrencia de este problema en toda la base de datos (no solo para 'CheckInCode' nulo): 
</div>

In [None]:
suma = 0
for index, row in df.iterrows():
    if pd.notnull(row.VersionControl):
        if(("I don't" in row.VersionControl) 
           & (row.VersionControl != "I don't use version control")):
            suma += 1
print(suma)

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Este resultado muestra que la confusión sólo ocurre en los registros con 'CheckInCode' nulo. Al ser tan pocos registros, no hay gran riesgo en realizar una imputación para limpiar los datos; la decisión será dejar sólo el valor "I don't use version control" en todos los registros en los que aparece esta opción:
</div>

In [None]:
def VersionControl_ok(row):
    if "I don't" in row:
        return "I don't use version control"
    else:
        return row

df['VersionControl'] = df.apply(lambda row: VersionControl_ok(row.VersionControl)
                                if row.VersionControl == row.VersionControl 
                                else np.nan, axis=1)

data = get_counters(df['VersionControl'].dropna(), "Manejador de versiones")
data['Porcentaje'] = data.apply (lambda row: percent (row, df.VersionControl), axis=1)
display(HTML(data.to_html()))

print("Valores faltantes en 'CheckInCode':",
     str(round(10000*sum(pd.isnull(df['CheckInCode'])) / df.shape[0]) / 100)+"%")

<hr style="border-width: 3px;">

<div style="width:100%; overflow:hidden;">
<div style="width:20%; float:left; padding-right:5px; color:blue; font-weight: bold;">
Currency
<br>CurrencySymbol:
</div>

<div style="margin-left: 20%; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Las variables 'Currency' y 'CurrencySymbol' muestran varios problemas. El primero de ellos es que son redundantes 'Currency' es el nombre de la divisa y 'CurrencySymbol' su símbolo y debe haber una correspondencia uno-a-uno. Observemos las estadísticas básicas de ambas variables: 
</div>
</div>

In [None]:
print(df[['Currency', 'CurrencySymbol']].describe())

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Como puede apreciarse, hay una inconsistencia entre el número de etiquetas para ambas variables. La forma de las etiquetas de 'Currency' es la siguiente:
</div>

In [None]:
data = get_counters(df['Currency'].dropna(), "Símbolo de divisa")
display(HTML(data.to_html()))

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Para limpiar estas variables utilizamos una fuente auxiliar; utilizamos un archivo-catálogo de divisas (algunos de los códigos están desactualizados, pero los códigos utilizados son congruentes). Utilizamos este archivo para reemplazar los valores de 'CurrencySymbol' de acuerdo al valor de 'Currency':
</div>

In [None]:
countries_df = pd.read_csv(path + "countries.csv", 
                 names = ['Country', 'CurrencySymbol', 'CurrencySymbolName', 'Currency'])
display(HTML(countries_df.to_html()))

In [None]:
symbols = countries_df.CurrencySymbol.tolist()
currencies = countries_df.Currency.tolist()
dictionary = dict(zip(currencies, symbols))

df['CurrencySymbol'] = df.apply(
    lambda row: dictionary.get(row.Currency) 
    if pd.isnull(row.CurrencySymbol) & pd.notnull(row.Currency)
    else row['CurrencySymbol'], axis=1
)

print(df[['Currency', 'CurrencySymbol']].describe())

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Finalmente, dado que ambas variables son redundantes, descartamos la columna 'Currency':
</div>

In [None]:
df = df.drop(['Currency'], axis=1)

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Otro problema, ahora en la variable 'CurrencySymbol' que hemos conservado, es la cantidad de valores faltantes. Analicemos su magnitud y la relación obvia con la variable 'Salary' (si el encuestado no reportó salario o reportó un salario de 0, no es necesario especificar la divisa):
</div>

In [None]:
print("Valores faltantes en 'CurrencySymbol':", sum(pd.isnull(df['CurrencySymbol'])),
     "(" + str(round(10000*sum(pd.isnull(df['CurrencySymbol'])) / df.shape[0]) / 100)+"%)")

df1 = df.loc[pd.isnull(df.CurrencySymbol)  & 
             (pd.isnull(df.Salary) | (pd.to_numeric(df.Salary) == 0)
             )]
print("Valores faltantes en 'CurrencySymbol' de programadores sin salario:", 
      df1.shape[0], "(" + str(round(10000*df1.shape[0] / df.shape[0]) / 100)+"%)")

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Hagamos una imputación al valor 'None' para estos registros:
</div>

In [None]:
df['CurrencySymbol'] = df.apply(lambda row: 'None'
                                if pd.isnull(row.CurrencySymbol) 
                                & (pd.isnull(row.Salary) | (pd.to_numeric(row.Salary) == 0)) 
                                else row['CurrencySymbol'], axis=1)
print("Valores faltantes en 'CurrencySymbol':", sum(pd.isnull(df['CurrencySymbol'])),
     "(" + str(round(10000*sum(pd.isnull(df['CurrencySymbol'])) / df.shape[0]) / 100)+"%)")

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Los valores faltantes restantes son despreciables, podemos imputarles el valor 'USD' (el más común y con una tasa de cambio muy cercana al segundo valor más común 'EUR'):
</div>

In [None]:
df['CurrencySymbol'] = df.apply(lambda row: 'USD'
                                if pd.isnull(row.CurrencySymbol) 
                                else row['CurrencySymbol'], axis=1)
print("Valores faltantes en 'CurrencySymbol':", sum(pd.isnull(df['CurrencySymbol'])),
     "(" + str(round(10000*sum(pd.isnull(df['CurrencySymbol'])) / df.shape[0]) / 100)+"%)")

<hr style="border-width: 3px;">

<div style="width:100%; overflow:hidden;">
<div style="width:15%; float:left; padding-right:5px; color:blue; font-weight: bold;">
SalaryType:
</div>

<div style="margin-left: 15%; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
La variable 'SalaryType' tiene sentido sólo si el encuestado reportó un salario mayor que cero. Analicemos esta variable y la relación con 'Salary': 
</div>
</div>

In [None]:
print("Valores faltantes en 'SalaryType':", sum(pd.isnull(df['SalaryType'])),
     "(" + str(round(10000*sum(pd.isnull(df['SalaryType'])) / df.shape[0]) / 100)+"%)")

df1 = df.loc[pd.isnull(df.SalaryType)  & 
             (pd.isnull(df.Salary) | (pd.to_numeric(df.Salary) == 0)
             )]
print("Valores faltantes en 'SalaryType' para encuestados sin salario:", 
      df1.shape[0], "(" + str(round(10000*df1.shape[0] / df.shape[0]) / 100)+"%)")

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Hagamos una imputación al valor 'None' para estos registros:
</div>

In [None]:
df['SalaryType'] = df.apply(lambda row: 'None'
                             if pd.isnull(row.SalaryType) 
                             & (pd.isnull(row.Salary) | (pd.to_numeric(row.Salary) == 0))
                             else row['SalaryType'], axis=1)

print("Valores faltantes en 'SalaryType':", sum(pd.isnull(df['SalaryType'])),
     "(" + str(round(10000*sum(pd.isnull(df['SalaryType'])) / df.shape[0]) / 100)+"%)")

data = get_counters(df['SalaryType'].dropna(), "Tipo de salario")
data['Porcentaje'] = data.apply (lambda row: percent (row, df.CompanySize), axis=1)
display(HTML(data.to_html()))

<hr style="border-width: 3px;">

<div style="width:100%; overflow:hidden;">
<div style="width:20%; float:left; padding-right:5px; color:blue; font-weight: bold;">
ConvertedSalary:
</div>

<div style="margin-left: 20%; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
La variable 'ConvertedSalary' (Salary converted to annual USD salaries using the exchange rate on 2018-01-18, assuming 12 working months and 50 working weeks) tiene sentido sólo si el encuestado reportó un salario mayor que cero; si el salario es cero, el valor convertido también sería cero. Analicemos esta variable y la relación con 'Salary': 
</div>
</div>

In [None]:
print("Valores faltantes en 'ConvertedSalary':", sum(pd.isnull(df['ConvertedSalary'])),
     "(" + str(round(10000*sum(pd.isnull(df['ConvertedSalary'])) / df.shape[0]) / 100)+"%)")

df1 = df.loc[pd.isnull(df.ConvertedSalary) & (pd.to_numeric(df.Salary) == 0)]
print("Valores faltantes en 'ConvertedSalary' para encuestados con salario cero:", 
      df1.shape[0], "(" + str(round(10000*df1.shape[0] / df.shape[0]) / 100)+"%)")

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Para todos estos registros, el valor de conversión es cero:
</div>

In [None]:
df['ConvertedSalary'] = df.apply(lambda row: 0
                                 if pd.isnull(row.ConvertedSalary) 
                                 & (pd.to_numeric(row.Salary) == 0)
                                 else row['ConvertedSalary'], axis=1)

print("Valores faltantes en 'ConvertedSalary':", sum(pd.isnull(df['ConvertedSalary'])),
     "(" + str(round(10000*sum(pd.isnull(df['ConvertedSalary'])) / df.shape[0]) / 100)+"%)")

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Otros registros simples de corregir son los que tienen salario diferente de cero, divisa 'USD' y 'SalaryType' no nulo:
</div>

In [None]:
df1 = df.loc[pd.isnull(df.ConvertedSalary) & pd.notnull(df.Salary) ]

data = get_counters(df1['CurrencySymbol'].dropna(), "Símbolo de divisa")
data['Porcentaje'] = data.apply (lambda row: percent (row, df.CurrencySymbol), axis=1)
display(HTML(data.to_html()))

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Si el encuestado especificó su divisa y frecuencia de pago ('SalaryType'), podemos calcular el valor de 'ConvertedSalary':
</div>

In [None]:
dict_salary_type = {'Yearly': 1, 'Monthly': 12, 'Weekly': 50}
# Tasas de cambio en https://www.x-rates.com/... la mayoría
dict_change_rate = {'USD': 1.0, 'EUR': 1.223993, 'BRL': 0.310852, 'INR': 0.015654,
                   'PLN': 0.293886, 'RUB': 0.017721, 'MXN': 0.053591, 'SEK': 0.124758,
                   'CZK': 0.048258, 'ILS': 0.292687, 'ARS': 0.053028, 'IRR': 0.000027,
                   'CAD': 0.803523, 'UAH': 0.03472, 'PKR': 0.009037, 'TRY': 0.265154,
                   'EGP': 0.056433, 'CLP': 0.001652}

def convert_salary(row):
    if pd.isnull(row.Salary):
        return np.nan
    elif pd.to_numeric(row.Salary) == 0:
        return 0
    else:
        converted_salary = pd.to_numeric(row.Salary)
    
    if row.CurrencySymbol in dict_change_rate:
        converted_salary *= dict_change_rate.get(row.CurrencySymbol)
        if row.SalaryType in dict_salary_type:
            return converted_salary * dict_salary_type.get(row.SalaryType)
        else:
            return np.nan
    else:
        return np.nan

df['ConvertedSalary'] = df.apply(lambda row: convert_salary(row) 
                                 if pd.isnull(row.ConvertedSalary)
                                 else row['ConvertedSalary'], axis=1)

print(df['ConvertedSalary'].describe(),
    "\n\nValores faltantes en 'ConvertedSalary':", sum(pd.isnull(df['ConvertedSalary'])),
     "(" + str(round(10000*sum(pd.isnull(df['ConvertedSalary'])) / df.shape[0]) / 100)+"%)")

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Obsérvese que el valor máximo es de \$744,000,000 USD anual. Si tomamos en cuenta que los salarios promedio más altos en USA no rebasan los \$200,000 USD, es obvio que estos valores son falsos, lo cual se evidencia del percentil 75 (el 75% de los encuestados asalariados ganan menos de \$61,000 USD). Hagamos una identificación de valores atípicos:
</div>

In [None]:
import matplotlib
import matplotlib.pyplot as plt
%matplotlib inline  

fig, axarr = plt.subplots(1, 2, figsize=(12, 6))

ax1 = df.boxplot(column='ConvertedSalary', ax=axarr[0])

ax2, bp  = df.boxplot(column='ConvertedSalary', return_type='both', ax=axarr[1])
ax2.set_ylim(-10000, 2.5e5)

plt.show()

outliers = [flier.get_ydata() for flier in bp["fliers"]]
first_outlier = sorted(outliers[0])[0]
print("Cantidad de valores atípicos: {}.".format(len(outliers[0])), 
      "Inicio de los valores atípicos:", first_outlier)

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
En la gráfica de la izquierda puede apreciarse una gran cantidad de valores atípicos, al grado de ocultar por completo la caja. Una sospecha natural es que estos valores sean una broma del encuestado. Analicemos la relación entre los valores atípicos y la variable 'Hobby':
</div>

In [None]:
df1 = df.loc[(df.ConvertedSalary >= first_outlier) & (df.Hobby == 'Yes')]
print("Valores atípicos en 'ConvertedSalary' para programadores por hobby:", 
      df1.shape[0], "(" + str(round(10000*df1.shape[0] / df.shape[0]) / 100)+"%)")

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Como puede apreciarse, una gran parte de los valores atípicos corresponden a registros con 'Hobby' = 'Yes'. Incluso el valor mínimo de la variable en este conjunto de datos está muy por arriba del salario anual promedio. Realizamos una imputación a cero para estos valores:
</div>

In [None]:
df['ConvertedSalary'] = df.apply(lambda row: 0 
                                 if (row.ConvertedSalary >= first_outlier) 
                                 & (row.Hobby == 'Yes')
                                 else row['ConvertedSalary'], axis=1)

fig, axarr = plt.subplots(1, 2, figsize=(12, 6))

ax1 = df.boxplot(column='ConvertedSalary', ax=axarr[0])

ax2, bp  = df.boxplot(column='ConvertedSalary', return_type='both', ax=axarr[1])
ax2.set_ylim(-10000, 2.5e5)

plt.show()

outliers = [flier.get_ydata() for flier in bp["fliers"]]
first_outlier = sorted(outliers[0])[0]
print("Cantidad de valores atípicos: {}.".format(len(outliers[0])), 
      "Inicio de los valores atípicos:", first_outlier)

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Después de la limpieza anterior, aún sigue habiendo datos claramente defectuosos. No es seguro eliminar todos los valores atípicos restantes, modificados ahora por la nueva distribución, ya que pueden ser reales, pero si se puede tomar la decisión de eliminar todos los valores por arriba de \$200,000.00 USD anuales:
</div>

In [None]:
df['ConvertedSalary'] = df.apply(lambda row: 0 
                                 if (row.ConvertedSalary >= 2e5) 
                                 | ((row.ConvertedSalary >= 1.e5) & (row.Hobby == 'Yes'))
                                 else row['ConvertedSalary'], axis=1)

_, bp  = df.boxplot(column='ConvertedSalary', return_type='both')
plt.show()

outliers = [flier.get_ydata() for flier in bp["fliers"]]
first_outlier = sorted(outliers[0])[0]
print("Cantidad de valores atípicos: {}.".format(len(outliers[0])), 
      "Inicio de los valores atípicos:", first_outlier)

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Finalmnete, una vez agotado el tratamiento de la variable 'ConvertedSalary', las variables relacionadas, 'Salary', 'SalaryType' y 'CurrencySymbol' carecen de valor real (para los objetivos del negocio), por lo que podemos descartarlas.
</div>

In [None]:
df = df.drop([ 'Salary', 'SalaryType', 'CurrencySymbol'], axis=1)

<hr style="border-width: 3px;">

<div style="width:100%; overflow:hidden;">
<div style="width:20%; float:left; padding-right:5px; color:blue; font-weight: bold;">
CompanySize:
</div>

<div style="margin-left: 20%; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
La variable 'CompanySize' tiene sentido sólo si el encuestado está empleado, por lo que es de esperar una relación importante entre los valores faltantes en esta variable y las variables 'Hobby', 'Student' y 'Employment': 
</div>
</div>

In [None]:
print("Valores faltantes en 'CompanySize':", sum(pd.isnull(df['CompanySize'])),
     "(" + str(round(10000*sum(pd.isnull(df['CompanySize'])) / df.shape[0]) / 100)+"%)")

df1 = df.loc[(pd.isnull(df.CompanySize)) 
             & ((df.Hobby == 'Yes') 
                | (df.Student == 'Yes, full-time')
                | (df.Employment == 'Retired')
                | (df.Employment == 'Not employed, but looking for work')
                | (df.Employment == 'Not employed, and not looking for work'))]
print("Valores faltantes en 'CompanySize' para no empleados:", 
      df1.shape[0], "(" + str(round(10000*df1.shape[0] / df.shape[0]) / 100)+"%)")

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Hagamos una imputación al valor 'None' para estos registros:
</div>

In [None]:
df['CompanySize'] = df.apply(lambda row: 'None'
                             if pd.isnull(row.CompanySize) 
                             & ((row.Hobby == 'Yes') 
                                | (row.Student == 'Yes, full-time')
                                | (row.Employment == 'Retired')
                                | (row.Employment == 'Not employed, but looking for work')
                                | (row.Employment == 'Not employed, and not looking for work'))
                             else row['CompanySize'], axis=1)

print("Valores faltantes en 'CompanySize':", sum(pd.isnull(df['CompanySize'])),
     "(" + str(round(10000*sum(pd.isnull(df['CompanySize'])) / df.shape[0]) / 100)+"%)")

data = get_counters(df['CompanySize'].dropna(), "Tamaño de la compañía")
data['Porcentaje'] = data.apply (lambda row: percent (row, df.CompanySize), axis=1)
display(HTML(data.to_html()))

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Puesto que ahora, los valores faltantes es muy inferior a 5%, podemos hacer una imputación simple; hagamos una imputación al valor 'None' (la moda y valor mínimo) para estos registros:
</div>

In [None]:
df['CompanySize'] = df.apply(lambda row: 'None'
                             if pd.isnull(row.CompanySize) 
                             else row['CompanySize'], axis=1)

print("Valores faltantes en 'CompanySize':", sum(pd.isnull(df['CompanySize'])),
     "(" + str(round(10000*sum(pd.isnull(df['CompanySize'])) / df.shape[0]) / 100)+"%)")

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Para el resto de registros no tenemos elementos suficientes para una imputación.
</div>

<hr style="border-width: 3px;">

<div style="width:100%; overflow:hidden;">
<div style="width:30%; float:left; padding-right:5px; color:blue; font-weight: bold;">
AdBlocker<br>
AdBlockerDisable<br>
AdBlockerReasons<br>
AdsAgreeDisagree1-3<br>
AdsActions<br>
AdsPriorities1-7<br>
</div>

<div style="margin-left: 30%; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Estas variables tienen grandes cantidades de valores faltantes y es uno de los intereses importantes para la empresa. Sin embargo, no hay muchos elementos para limpiar estas variables.
<br>Analicemos su distribución:
</div>
</div>

In [None]:
print(df[['AdBlocker', 'AdBlockerDisable', 'AdBlockerReasons', 'AdsAgreeDisagree1', 
          'AdsAgreeDisagree2', 'AdsAgreeDisagree3', 'AdsActions', 'AdsPriorities1',
         'AdsPriorities2', 'AdsPriorities3', 'AdsPriorities4', 'AdsPriorities5',
         'AdsPriorities6', 'AdsPriorities7']].info())

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Analicemos la relación entre 'AdBlocker' y 'AdBlockerDisable':
</div>

In [None]:
df1 = df.loc[pd.isnull(df.AdBlockerDisable)
             & pd.notnull(df.AdBlocker) & (df.AdBlocker == 'No') ]
print("Valores faltantes en 'AdBlockerDisable' para 'AdBlocker' negativo:", 
      df1.shape[0], "(" + str(round(10000*df1.shape[0] / df.shape[0]) / 100)+"%)")

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Observemos que muchos de los valores nulos de 'AdBlockerDisable' (In the past month, have you disabled your ad blocker for any reason, even temporarily or for a specific website?) corresponden a quienes respondieron no tener habilitado un bloqueador, 'AdBlocker' Hagamos una imputación por un nuevo valor 'AdBlocker not activated':
</div>

In [None]:
df['AdBlockerDisable'] = df.apply(lambda row: 'AdBlocker not activated'
                             if pd.isnull(row.AdBlockerDisable) 
                                  & pd.notnull(row.AdBlocker) & (row.AdBlocker == 'No') 
                             else row['AdBlockerDisable'], axis=1)

print("Valores faltantes en 'AdBlockerDisable':", sum(pd.isnull(df['AdBlockerDisable'])),
     "(" + str(round(10000*sum(pd.isnull(df['AdBlockerDisable'])) / df.shape[0]) / 100)+"%)")

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
La variable 'AdBlockerReasons' (What are the reasons that you have disabled your ad blocker in the past month?) tiene también una gran cantidad de valores faltantes. Es de esperar que muchos de estos valores se deban a que el encuestado no tiene habilitado una bloqueador o porque no lo ha deshabilitado. Analicemos la relación entre 'AdBlockerReasons' y las variables 'AdBlocker' y 'AdBlockerDisable':
</div>

In [None]:
df1 = df.loc[pd.isnull(df.AdBlockerReasons)
             & ((pd.notnull(df.AdBlocker) & (df.AdBlocker == 'No')) 
                 | (pd.notnull(df.AdBlockerDisable) & (df.AdBlockerDisable == 'No')))]
print("Valores faltantes en 'AdBlockerReasons' con 'AdBlockerDisable' o 'AdBlocker' \
negativos:", df1.shape[0], "(" + str(round(10000*df1.shape[0] / df.shape[0]) / 100)+"%)")

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
El resultado previo confirma la hipótesis; hagamos una imputación a la etiquetas 'AdBlocker not activated' y 'AdBlocker not disabled', según sea el caso:
</div>

In [None]:
def clean_adblocker(row):
    if pd.notnull(row.AdBlocker) & (row.AdBlocker == 'No'):
        return 'AdBlocker not activated'
    elif pd.notnull(row.AdBlockerDisable) & (row.AdBlockerDisable == 'No'):
        return 'AdBlocker not disabled'
    else:
        return np.nan

df['AdBlockerReasons'] = df.apply(lambda row: clean_adblocker(row) 
                                 if pd.isnull(row.AdBlockerReasons)
                                 else row['AdBlockerReasons'], axis=1)

print("Valores faltantes en 'AdBlockerDisable':", sum(pd.isnull(df['AdBlockerDisable'])),
     "(" + str(round(10000*sum(pd.isnull(df['AdBlockerDisable'])) / df.shape[0]) / 100)+"%)")

In [None]:
print(df[['AdBlocker', 'AdBlockerDisable', 'AdBlockerReasons', 'AdsAgreeDisagree1', 
          'AdsAgreeDisagree2', 'AdsAgreeDisagree3', 'AdsActions', 'AdsPriorities1',
         'AdsPriorities2', 'AdsPriorities3', 'AdsPriorities4', 'AdsPriorities5',
         'AdsPriorities6', 'AdsPriorities7']].info())

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
No parece que se puedan reducir los valores faltantes restantes en estas variables, sin tomar riesgos excesivos.
</div>

<hr style="border-width: 3px;">

<div style="width:100%; overflow:hidden;">
<div style="width:20%; float:left; padding-right:5px; color:blue; font-weight: bold;">
JobSatisfaction:
</div>

<div style="margin-left: 20%; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
La variable 'JobSatisfaction' tiene sentido sólo si el encuestado está empleado, por lo que es de esperar una relación importante entre los valores faltantes en esta variable y las variables 'Hobby' y 'Student': 
</div>
</div>

In [None]:
print("Valores faltantes en 'JobSatisfaction':", sum(pd.isnull(df['JobSatisfaction'])),
     "(" + str(round(10000*sum(pd.isnull(df['JobSatisfaction'])) / df.shape[0]) / 100)+"%)")

df1 = df.loc[(pd.isnull(df.JobSatisfaction)) 
             & ((df.Hobby == 'Yes') 
                | (df.Student == 'Yes, full-time'))]
print("Valores faltantes en 'JobSatisfaction' para no profesionales:", 
      df1.shape[0], "(" + str(round(10000*df1.shape[0] / df.shape[0]) / 100)+"%)")

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Como puede apreciarse, gran parte de los registros nulos en 'JobSatisfaction' coinciden con quienes contestaron programar por hobby o que son estudiantes. La respuesta más adecuada pudiera ser 'Neither satisfied nor dissatisfied', ya que es un valor neutral, sin embargo no es la intención del encuestador. Hagamos una imputación a la nueva etiqueta 'Not a professional developer':
</div>

In [None]:
df['JobSatisfaction'] = df.apply(lambda row: 'Not a professional developer'
                             if pd.isnull(row.JobSatisfaction) 
                             & ((row.Hobby == 'Yes') 
                                | (row.Student == 'Yes, full-time'))
                             else row['JobSatisfaction'], axis=1)

print("Valores faltantes en 'JobSatisfaction':", sum(pd.isnull(df['JobSatisfaction'])),
     "(" + str(round(10000*sum(pd.isnull(df['JobSatisfaction'])) / df.shape[0]) / 100)+"%)")

data = get_counters(df['JobSatisfaction'].dropna(), "Satisfacción en el empleo")
data['Porcentaje'] = data.apply (lambda row: percent (row, df.CompanySize), axis=1)
display(HTML(data.to_html()))

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Los valores faltantes restantes están por abajo del 5%, por lo que podemos hacer una imputación simple. Utilizamos el valor 'Neither satisfied nor dissatisfied' que, como ya argumentamos, es un valor neutral:
</div>

In [None]:
df['JobSatisfaction'] = df.apply(lambda row: 'Neither satisfied nor dissatisfied'
                             if pd.isnull(row.JobSatisfaction) 
                             else row['JobSatisfaction'], axis=1)

print("Valores faltantes en 'JobSatisfaction':", sum(pd.isnull(df['JobSatisfaction'])),
     "(" + str(round(10000*sum(pd.isnull(df['JobSatisfaction'])) / df.shape[0]) / 100)+"%)")

<hr style="border-width: 3px;">

<div style="width:100%; overflow:hidden;">
<div style="width:20%; float:left; padding-right:5px; color:blue; font-weight: bold;">
CareerSatisfaction:
</div>

<div style="margin-left: 20%; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
La variable 'CareerSatisfaction' tiene una naturaleza similar a 'JobSatisfaction'; hagamos el mismo tratamiento: 
</div>
</div>

In [None]:
print("Valores faltantes en 'CareerSatisfaction':", sum(pd.isnull(df['CareerSatisfaction'])),
     "(" + str(round(10000*sum(pd.isnull(df['CareerSatisfaction'])) / df.shape[0]) / 100)+"%)")

df1 = df.loc[(pd.isnull(df.CareerSatisfaction)) 
             & ((df.Hobby == 'Yes') 
                | (df.Student == 'Yes, full-time'))]
print("Valores faltantes en 'CareerSatisfaction' para no profesionales:", 
      df1.shape[0], "(" + str(round(10000*df1.shape[0] / df.shape[0]) / 100)+"%)")

In [None]:
df['CareerSatisfaction'] = df.apply(lambda row: 'Not a professional developer'
                             if pd.isnull(row.CareerSatisfaction) 
                             & ((row.Hobby == 'Yes') 
                                | (row.Student == 'Yes, full-time'))
                             else row['CareerSatisfaction'], axis=1)

print("Valores faltantes en 'CareerSatisfaction':", sum(pd.isnull(df['CareerSatisfaction'])),
     "(" + str(round(10000*sum(pd.isnull(df['CareerSatisfaction'])) / df.shape[0]) 
               / 100)+"%)")

data = get_counters(df['CareerSatisfaction'].dropna(), "Satisfacción en el empleo")
data['Porcentaje'] = data.apply (lambda row: percent (row, df.CompanySize), axis=1)
display(HTML(data.to_html()))

In [None]:
df['CareerSatisfaction'] = df.apply(lambda row: 'Neither satisfied nor dissatisfied'
                             if pd.isnull(row.CareerSatisfaction) 
                             else row['CareerSatisfaction'], axis=1)

print("Valores faltantes en 'CareerSatisfaction':", 
      sum(pd.isnull(df['CareerSatisfaction'])),
     "(" + str(round(10000*sum(pd.isnull(df['CareerSatisfaction'])) 
                     / df.shape[0]) / 100)+"%)")

<hr style="border-width: 3px;">

<div style="width:100%; overflow:hidden;">
<div style="width:20%; float:left; padding-right:5px; color:blue; font-weight: bold;">
Valores faltantes restantes:
</div>

<div style="margin-left: 20%; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Para el caso de los valores faltantes restantes, no parece haber elementos suficientes para realizar una mayor limpieza, por lo que los conservaremos como están. Podemos, también, imputar el valor 'Non-responded' a estos valores. 
</div>
</div>

<div style="margin-top: 6px; border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Después del tratamiento realizado, hagamos un último análisis de la calidad de los datos:
</div>

In [None]:
print(df.dropna().info())

In [None]:
print(df.dropna(thresh=63).info())

In [None]:
missing = {}
for col in df.describe(include='all'):
    missing[col] = 100*sum(pd.isnull(df[col])) / df.shape[0]
table = sorted(missing.items(), key=itemgetter(1))

data = pd.DataFrame(table, columns=["Columna", "Valores Faltantes (%)"])
display(HTML(data.to_html()))

<br>

<span style="color:blue; font-weight: bold;">
Conclusiones:
</span>

<div style="border: 1px solid #cfcfcf; padding: 8px 12px; border-radius:2px; background-color:#f7f7f7;">
Al momento hemos eliminado gran parte de los valores faltantes y corregido también gran parte de las inconsistencias. Sin embargo, dado el carácter de los datos y la escasa estructura que presentan, es arriesgado tratar de llevar adelante más actividades de limpieza.
</div>

###### <a name="tarea_7">Tarea 7</a>

Presente el reporte de limpieza de los datos para su caso de estudio.

**Fecha de entrega**: ... agosto.