Partimos de lo que hicimos en el notebook anterior para trabajar con las columnas de datos numéricos. 

Primero vamos a cargarlo nuevamente.

In [None]:
import pandas as pd
from google.colab import drive
drive.mount('/content/drive')

filename = '/content/drive/My Drive/LaboDatos2021/dataframe_clase_3_limpio.csv' 

df = pd.read_csv(filename)

print(df)

Mounted at /content/drive
    Unnamed: 0  Edad  Altura   Peso  Promedio Sexo      LU     Observación 
0            0    25    1.80   83.0      7.79    h  125/89          ninguna
1            1    21    1.89   86.0      9.70    h   35/88          ninguna
2            2    39    1.54   50.0      7.10    m  142/80     hipertension
3            3    49    1.66   70.0      6.54    m  553/83          ninguna
4            4    31    1.70   81.0      7.21    h  495/83     hipertension
5            5    33    1.74   93.0      7.10    h   25/78          ninguna
6            6    29    1.81   82.5      6.90    h  445/81          ninguna
7            7    19    1.82   86.3      8.43    h    5/84          ninguna
8            8    20    1.76   75.0     10.00    m    1/81          ninguna
9           10    32    1.64   60.0      9.10    m  400/80          ninguna
10          11    59    1.70   67.0      8.99   nb  100/89          ninguna
11          12    34    1.81   97.0      7.46    h    1/89    

En la clase vimos que hay distintas formas de remover outliers. En este caso, la columna peso tiene un outliner bastante claro que tiene sentido remover (índice 12), es más, podemos sospechar que alguien se equivocó cuando ingresó los datos. Hubiese pasado algo similar si encontrabamos alguien con edad -4 o 221 años. 

En este caso no vamos a remover datos usando criterios basados en el desvío estándar, aunque sería similar el procedimiento.

In [None]:
import numpy as np
indice = df[np.logical_or(df['Peso']>400, df['Peso']<10)].index  # el indice donde esta la fila con un peso mayor a 400
df_1 = df.drop(indice)
print(df_1)


    Unnamed: 0  Edad  Altura  Peso  Promedio Sexo      LU  Observación 
0            0    25    1.80  83.0      7.79    h  125/89       ninguna
1            1    21    1.89  86.0      9.70    h   35/88       ninguna
2            2    39    1.54  50.0      7.10    m  142/80  hipertension
3            3    49    1.66  70.0      6.54    m  553/83       ninguna
4            4    31    1.70  81.0      7.21    h  495/83  hipertension
5            5    33    1.74  93.0      7.10    h   25/78       ninguna
6            6    29    1.81  82.5      6.90    h  445/81       ninguna
7            7    19    1.82  86.3      8.43    h    5/84       ninguna
8            8    20    1.76  75.0     10.00    m    1/81       ninguna
9           10    32    1.64  60.0      9.10    m  400/80       ninguna
10          11    59    1.70  67.0      8.99   nb  100/89       ninguna
11          12    34    1.81  97.0      7.46    h    1/89       ninguna
13          14    51    1.77  75.0      9.10    h   25/85  hiper

Ahora pensamos como estandarizar las columnas. Supongamos que no hay diferencias en la edad típica en la que se matriculan estudiantes a la Universidad. Entonces tiene sentido hablar del desvío de la media, en unidades de desvío estandar. Es decir, podemos transformar la columna "Edad" a z-scores:

In [None]:
from scipy.stats import zscore
df_1['Edad (z)'] = zscore(df_1['Edad'])
print(df_1)

    Unnamed: 0  Edad  Altura  Peso  ...  Sexo      LU  Observación   Edad (z)
0            0    25    1.80  83.0  ...     h  125/89       ninguna -0.734333
1            1    21    1.89  86.0  ...     h   35/88       ninguna -1.077022
2            2    39    1.54  50.0  ...     m  142/80  hipertension  0.465078
3            3    49    1.66  70.0  ...     m  553/83       ninguna  1.321800
4            4    31    1.70  81.0  ...     h  495/83  hipertension -0.220300
5            5    33    1.74  93.0  ...     h   25/78       ninguna -0.048956
6            6    29    1.81  82.5  ...     h  445/81       ninguna -0.391644
7            7    19    1.82  86.3  ...     h    5/84       ninguna -1.248366
8            8    20    1.76  75.0  ...     m    1/81       ninguna -1.162694
9           10    32    1.64  60.0  ...     m  400/80       ninguna -0.134628
10          11    59    1.70  67.0  ...    nb  100/89       ninguna  2.178521
11          12    34    1.81  97.0  ...     h    1/89       ning

¿Tiene sentido hacer lo mismo para la altura y el peso?

La altura y el peso tienden a ser mayores en hombres que en mujeres. Tendría sentido normalizar cada uno por la media el desvío estandar de su población. O bien usar un método de normalización que no compare con el desvío estándar, por ejemplo, normalización min-max.

Veamos ambos casos. Primero, z-score específico para cada grupo, computado para la altura.

In [None]:
import numpy as np

indice_h = df_1['Sexo']=='h'
indice_m = df_1['Sexo']=='m'

df_1['Altura (z)'] = np.zeros(len(df_1))  # ponemos 0 para despues poder modificarla
print(df_1)
df_1['Altura (z)'][indice_h] = sp.stats.zscore(df_1['Altura'][indice_h])
print(df_1)
df_1['Altura (z)'][indice_m] = sp.stats.zscore(df_1['Altura'][indice_m])
print(df_1)


    Unnamed: 0  Edad  Altura  Peso  ...      LU  Observación   Edad (z) Altura (z)
0            0    25    1.80  83.0  ...  125/89       ninguna -0.734333        0.0
1            1    21    1.89  86.0  ...   35/88       ninguna -1.077022        0.0
2            2    39    1.54  50.0  ...  142/80  hipertension  0.465078        0.0
3            3    49    1.66  70.0  ...  553/83       ninguna  1.321800        0.0
4            4    31    1.70  81.0  ...  495/83  hipertension -0.220300        0.0
5            5    33    1.74  93.0  ...   25/78       ninguna -0.048956        0.0
6            6    29    1.81  82.5  ...  445/81       ninguna -0.391644        0.0
7            7    19    1.82  86.3  ...    5/84       ninguna -1.248366        0.0
8            8    20    1.76  75.0  ...    1/81       ninguna -1.162694        0.0
9           10    32    1.64  60.0  ...  400/80       ninguna -0.134628        0.0
10          11    59    1.70  67.0  ...  100/89       ninguna  2.178521        0.0
11  

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  # Remove the CWD from sys.path while we load stuff.


Por supuesto, queda el problema de que hacer con el caso 'nb'.
Para eso podemos consultar una fuente separada de datos y hacer una modificacion ad-hoc.

In [None]:
df_1['Altura (z)'][10]= 0.59

Aunque (como notó un compañero en el foro) esta normalización muy posiblemente carezca de sentido. Hay evidentemente una dificultad al tener que elegir como normalizar los datos partiendo de información sobre género en una columna donde se recopilaba el sexo de los sujetos. Ante la información faltante, puede ser necesario identificar al sujeto como parte de uno de los dos grupos (si fuese posible) y sino, quizás no se pueda estandarizar los datos y convenga dejarlos así (entendiendo las consecuencias de hacerlo). 

Ahora podemos aplicar la normalizacion min-max al peso.

Notemos que para poder hacer esto necesitamos haber removido el outlier en el peso, de lo contrario, se arruina el procedimiento.

In [None]:
df_1['Peso (norm)'] = (df_1['Peso'] - df_1['Peso'].min())/(df_1['Peso'].max() - df_1['Peso'].min())

print(df_1)

NameError: ignored

Por último, puede que nos interesa calcular alguna normalización especial dependiendo de la aplicación. Quizás queremos comparar el promedio de los alumnos con su promedio histórico, y para eso simplemente lo restamos. 

In [None]:
historico=8.23
df_1['Promedio (historico)'] = df_1['Promedio'] - historico
print(df_1)