# Hoy veremos selección condicional

Importamos nuestros paquetes pandas, numpy y matplotlib

In [1]:
import pandas as pd
import numpy as np

Cargamos los datos a utilizar

In [2]:
nls97= pd.read_csv("data/nls97.csv")
nls97.set_index("personid", inplace=True)

Revisaremos que la carga de datos esté ok, para esto revisaremos las 3 primeras filas de nuestro dataframe y ejecutaremos la transpuesta para facilitar la visualicación de los atributos.

In [3]:
nls97[['wageincome','highestgradecompleted','highestdegree']].head(3).T

personid,100061,100139,100284
wageincome,12500.0,120000.0,58000.0
highestgradecompleted,13.0,12.0,7.0
highestdegree,2. High School,2. High School,0. None


Repetiremos lo mismo para algunas otras columnas

Tipos de nombramiento de variables o funciones:
1. Camel Case: la primera letra de cada palabra de una variable o una función va con máyuscula, poor ejemplo: _camelCase_ o _CamelCase_.
2. Snake Case: cada palabra está separa por un underline (\_). Por ejemplo: _snake_case_ o _camel_case_ 

In [4]:
nls97.loc[:, "weeksworked12":"weeksworked17"].head(3).T

personid,100061,100139,100284
weeksworked12,40.0,52.0,0.0
weeksworked13,52.0,52.0,
weeksworked14,52.0,52.0,11.0
weeksworked15,52.0,52.0,52.0
weeksworked16,48.0,53.0,47.0
weeksworked17,48.0,52.0,0.0


Revisemos si existen individuos que hayan recibido remuneración, pero no hayan trabajado

In [5]:
nls97.loc[(nls97.weeksworked16==0) & nls97.wageincome>0, ['weeksworked16','wageincome']]

Unnamed: 0_level_0,weeksworked16,wageincome
personid,Unnamed: 1_level_1,Unnamed: 2_level_1
102625,0.0,1200.0
109403,0.0,5000.0
118704,0.0,25000.0
130701,0.0,12000.0
131151,0.0,65000.0
...,...,...
957344,0.0,90000.0
966697,0.0,65000.0
969334,0.0,5000.0
991756,0.0,9000.0


Busquemos personas que se hayan matriculado en universidades por 4 años

Revisemos los valores únicos que contiene una columna _colenr_ 

In [6]:
nls97.colenrfeb11.unique()

array(['1. Not enrolled', '2. 2-year college ', '3. 4-year college',
       '4. Graduate program', nan], dtype=object)

Vemos que 3 corresponde a 4-year college que es lo que queremos buscar. por lo que aplicamos el siguiente filtro

In [7]:
nls97.filter(like="colenr").apply(lambda x: x.str[0:1]=='3').head(2).T

personid,100061,100139
colenrfeb97,False,False
colenroct97,False,False
colenrfeb98,False,False
colenroct98,False,False
colenrfeb99,False,False
colenroct99,False,False
colenrfeb00,False,False
colenroct00,False,False
colenrfeb01,False,False
colenroct01,False,False


Ahora, nos enfocamos en encontrar, si existe algún (_any_) valor True en nuestras personas, tomamos como ejemplo, las 2 primeras.

In [8]:
nls97.filter(like="colenr").apply(lambda x: x.str[0:1]=='3').any(axis=1).head(2)

personid
100061     True
100139    False
dtype: bool

Busquemos a las personas que tienen un alto sueldo. Definimos un alto sueldo como 3 desviaciones estándar de la media del sueldo.

In [9]:
nls97.shape

(8984, 88)

In [10]:
altosSueldos= nls97.loc[nls97.wageincome > nls97.wageincome.mean()+(nls97.wageincome.std()*3),['wageincome']]
altosSueldos

Unnamed: 0_level_0,wageincome
personid,Unnamed: 1_level_1
131858,235884.0
133619,235884.0
151863,235884.0
164058,235884.0
164897,235884.0
...,...
964406,235884.0
966024,235884.0
976141,235884.0
983819,235884.0


Porcentaje de altos sueldos con respecto al total de encuestados:

In [11]:
100*altosSueldos.shape[0]/nls97.shape[0]

1.3468388245770258

# Búsqueda de inconsistencias

Como ejemplo, hay dos columnas, la primera el de mayor grado académico completado (``highestgradecompleted``) y el mayor grado académico (``highestgrade``)

In [15]:
highschoolcomplete = nls97.loc[nls97.highestgradecompleted<=12, ['highestgradecompleted', 'highestdegree']]

In [16]:
pd.crosstab(highschoolcomplete.highestgradecompleted, highschoolcomplete.highestdegree)

highestdegree,0. None,1. GED,2. High School,3. Associates
highestgradecompleted,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
5.0,0,0,1,0
6.0,11,5,0,0
7.0,24,6,1,0
8.0,113,78,7,0
9.0,112,169,8,0
10.0,111,204,13,0
11.0,120,200,41,0
12.0,9,23,1353,1


Cliente ->conjunto de datos -> realizo tareas de filtrado/procesamiento (80%)| -> modelo o agrupamiento ----------|
^    ^----------------------------------------------------------------------------|------------------------------------|                                                                                                           -  