# Pandas II

## Primera exploración

Lo primero que uno tiene que hacer cuando recibe un dataset es explorar qué contiene: ser curiosos! 

Algunas preguntas que pueden resultar interesantes: 
1. ¿Cómo son las primeras filas de este data set? 
2. ¿Cómo son los nombres de columnas? 
3. ¿Qué tipos de datos contiene cada columna? ¿Están todos bien? 
4. ¿Hay valores nulos? ¿Los completo? 
5. ¿Los datos son coherentes? Por ejemplo, si estoy trabajando con una variable que la edad de un individuo, los valores son siempre positivos? Tienen un límite máximo? 
6. ¿Hay coherencia entre grupos de datos? Por ejemplo, si estoy trabajando con un datasets que contiene niños en edad escolar diferenciados según si están estudiando primerio o secundario, la edad promedio de primario es menor a la edad promedio de secundario? 

## Ejemplo: explorando un dataset

In [63]:
import pandas as pd
import numpy as np
url='https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.csv'
df= pd.read_csv(url,sep=',', header=None)
print('Inspección de primeras 5 filas: ')
print(df.head())

Inspección de primeras 5 filas: 
   0    1   2   3    4     5      6   7  8
0  6  148  72  35    0  33.6  0.627  50  1
1  1   85  66  29    0  26.6  0.351  31  0
2  8  183  64   0    0  23.3  0.672  32  1
3  1   89  66  23   94  28.1  0.167  21  0
4  0  137  40  35  168  43.1  2.288  33  1


In [47]:
print('Inspección cantidad de filas y columnas:')
print('Cantidad de filas: ',df.shape[0])
print('Cantidad de columnas: ',df.shape[1])

Inspección cantidad de filas y columnas:
Cantidad de filas:  768
Cantidad de columnas:  9


In [50]:
forma = df.shape
type(forma)

tuple

In [54]:
forma

(768, 9)

## Qué significan las variables? 

### Variables incorporadas

0. Numero de veces embarazada (NEMB).
1. Concentracion de plasma de glucosa (GLU) 
2. Presion arterial diastolica en mm Hg (PART).
3. Grosor de piel en triceps en mm (GROS).
4. 2-Hour serum insulin en mu U/ml (HUR).
5. BMI (peso kg/(altura en m)^2 en (BMI).
6. Funcion de prediccion de Diabetes (FPRED)
7. Edad (años)  (AGE).
8. Variable de clase (0 or 1)  (CLASS).

In [59]:
# Renombramos las columnas
nombres_columnas = {0: "NEMB", 
                    1: "GLU", 
                    2: "PART",
                    3:"GROS",
                    4:"HUR",
                    5:"BMI",
                    6:"FPRED",
                    7:"AGE",
                    8:"CLASS"}

In [60]:
nombres_columnas

{0: 'NEMB',
 1: 'GLU',
 2: 'PART',
 3: 'GROS',
 4: 'HUR',
 5: 'BMI',
 6: 'FPRED',
 7: 'AGE',
 8: 'CLASS'}

In [66]:
df = df.rename(columns = nombres_columnas)
df.head()

Unnamed: 0,NEMB,GLU,PART,GROS,HUR,BMI,FPRED,AGE,CLASS
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


## Un poco de manipulación de datos

In [70]:
# Cómo hago si solo quiero analizar las personas mayores a 25 años? 
filtro_aplicar = df['AGE'] > 25
print(filtro_aplicar)
type(filtro_aplicar)

0       True
1       True
2       True
3      False
4       True
       ...  
763     True
764     True
765     True
766     True
767    False
Name: AGE, Length: 768, dtype: bool


pandas.core.series.Series

In [71]:
df_mas25 = df.loc[filtro_aplicar,:]
df_mas25

Unnamed: 0,NEMB,GLU,PART,GROS,HUR,BMI,FPRED,AGE,CLASS
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
4,0,137,40,35,168,43.1,2.288,33,1
5,5,116,74,0,0,25.6,0.201,30,0
...,...,...,...,...,...,...,...,...,...
762,9,89,62,0,0,22.5,0.142,33,0
763,10,101,76,48,180,32.9,0.171,63,0
764,2,122,70,27,0,36.8,0.340,27,0
765,5,121,72,23,112,26.2,0.245,30,0


In [72]:
df_mas25.shape

(501, 9)

In [73]:
# Directo en la misma sentencia: 
df_mas25 = df.loc[df['AGE'] > 25,:]
df_mas25

Unnamed: 0,NEMB,GLU,PART,GROS,HUR,BMI,FPRED,AGE,CLASS
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
4,0,137,40,35,168,43.1,2.288,33,1
5,5,116,74,0,0,25.6,0.201,30,0
...,...,...,...,...,...,...,...,...,...
762,9,89,62,0,0,22.5,0.142,33,0
763,10,101,76,48,180,32.9,0.171,63,0
764,2,122,70,27,0,36.8,0.340,27,0
765,5,121,72,23,112,26.2,0.245,30,0


In [77]:
# Y si quiero elegir algunas columnas? 
df_2col = df.loc[filtro_aplicar,['AGE','HUR']]

In [78]:
df_2col

Unnamed: 0,AGE,HUR
0,50,0
1,31,0
2,32,0
4,33,168
5,30,0
...,...,...
762,33,0
763,63,180
764,27,0
765,30,112


In [79]:
# Y si quiero aplicar filtro y elegir columnas a la vez? 
filtro = df['AGE'] > 25
print(df.loc[filtro,['AGE','HUR']])

     AGE  HUR
0     50    0
1     31    0
2     32    0
4     33  168
5     30    0
..   ...  ...
762   33    0
763   63  180
764   27    0
765   30  112
766   47    0

[501 rows x 2 columns]


In [87]:
# Y si quiero aplicar varios filtros a la vez? 
filtro_1 = df['AGE'] > 25
filtro_2 = df['HUR'] < 150
df_filtro_complejo = df.loc[(filtro_1) & (filtro_2),:]
df_filtro_complejo

Unnamed: 0,NEMB,GLU,PART,GROS,HUR,BMI,FPRED,AGE,CLASS
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
5,5,116,74,0,0,25.6,0.201,30,0
6,3,78,50,32,88,31.0,0.248,26,1
...,...,...,...,...,...,...,...,...,...
761,9,170,74,31,0,44.0,0.403,43,1
762,9,89,62,0,0,22.5,0.142,33,0
764,2,122,70,27,0,36.8,0.340,27,0
765,5,121,72,23,112,26.2,0.245,30,0


In [88]:
df_filtro_complejo.shape

(396, 9)

In [89]:
# Y si quiero aplicar varios que ocurra una cosa o la otra? 
filtro_1 = df['AGE'] > 25
filtro_2 = df['HUR'] < 150
print(df.loc[(filtro_1) | (filtro_2),['AGE','HUR']])

     AGE  HUR
0     50    0
1     31    0
2     32    0
3     21   94
4     33  168
..   ...  ...
763   63  180
764   27    0
765   30  112
766   47    0
767   23    0

[718 rows x 2 columns]


## Arrancando a explorar nulos

In [90]:
# Usando el método info() para resumir el dataset
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 768 entries, 0 to 767
Data columns (total 9 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   NEMB    768 non-null    int64  
 1   GLU     768 non-null    int64  
 2   PART    768 non-null    int64  
 3   GROS    768 non-null    int64  
 4   HUR     768 non-null    int64  
 5   BMI     768 non-null    float64
 6   FPRED   768 non-null    float64
 7   AGE     768 non-null    int64  
 8   CLASS   768 non-null    int64  
dtypes: float64(2), int64(7)
memory usage: 54.1 KB
None


In [92]:
# Aparentemente no hay nulos, verifiquemos: 
print('Detalle de Nulos:')
print(df.isnull().sum())

Detalle de Nulos:
NEMB     0
GLU      0
PART     0
GROS     0
HUR      0
BMI      0
FPRED    0
AGE      0
CLASS    0
dtype: int64


In [93]:
# Usando el método describe() para explorar el dataset:
print(df.describe())

             NEMB         GLU        PART        GROS         HUR         BMI  \
count  768.000000  768.000000  768.000000  768.000000  768.000000  768.000000   
mean     3.845052  120.894531   69.105469   20.536458   79.799479   31.992578   
std      3.369578   31.972618   19.355807   15.952218  115.244002    7.884160   
min      0.000000    0.000000    0.000000    0.000000    0.000000    0.000000   
25%      1.000000   99.000000   62.000000    0.000000    0.000000   27.300000   
50%      3.000000  117.000000   72.000000   23.000000   30.500000   32.000000   
75%      6.000000  140.250000   80.000000   32.000000  127.250000   36.600000   
max     17.000000  199.000000  122.000000   99.000000  846.000000   67.100000   

            FPRED         AGE       CLASS  
count  768.000000  768.000000  768.000000  
mean     0.471876   33.240885    0.348958  
std      0.331329   11.760232    0.476951  
min      0.078000   21.000000    0.000000  
25%      0.243750   24.000000    0.000000  
50%   

In [94]:
# Vemos muchos ceros en variables que no tiene sentido
nun_missing = (df[['GLU','PART','GROS','HUR','BMI']] == 0).sum()
print(nun_missing)

GLU       5
PART     35
GROS    227
HUR     374
BMI      11
dtype: int64


In [95]:
# Para darle tratamiento como nulo, reemplazamos los '0' con 'nan'
df[['GLU','PART','GROS','HUR','BMI']] = df[['GLU','PART','GROS','HUR','BMI']].replace(0, np.nan)
# Cuántos nulos me quedaron en cada variable?
print('Cantidad de nulos:')
print(df.isnull().sum())

Cantidad de nulos:
NEMB       0
GLU        5
PART      35
GROS     227
HUR      374
BMI       11
FPRED      0
AGE        0
CLASS      0
dtype: int64


In [96]:
df.head()

Unnamed: 0,NEMB,GLU,PART,GROS,HUR,BMI,FPRED,AGE,CLASS
0,6,148.0,72.0,35.0,,33.6,0.627,50,1
1,1,85.0,66.0,29.0,,26.6,0.351,31,0
2,8,183.0,64.0,,,23.3,0.672,32,1
3,1,89.0,66.0,23.0,94.0,28.1,0.167,21,0
4,0,137.0,40.0,35.0,168.0,43.1,2.288,33,1


## Tratamiento de nulos
Al momento de trabajar con datos nulos, hay varias opciones: 
1. Eliminar del dataset todas las filas que contienen algún nulo (no suele ser lo mejor, pero en algún caso puede ser conveniente)
2. Imputar los nulos con algún valor (puede ser valor aleatorio, métrica, o resultado de algún modelo para nulos):
    * Forma manual: calculando la métrica que me interese para el reemplazo, e indicando que cada vez que aparezca un nulo inserte ese valor (por ejemplo, reemplazar con la media de la variable)
    * SimpleImputer: es una clase de preprocesamiento de la librería Scikit-learn que se usa para el manejo de datos faltantes. 

### Caso 1: Eliminar registros con datos nulos 

In [97]:
# Usar el método dropna: 
# El parámetro inplace se utiliza para especificar si deseas que la operación de eliminación 
# de valores faltantes se realice directamente en el DataFrame original 
# o si deseas que se cree un nuevo DataFrame con los valores faltantes eliminados.
df_eliminado = df.dropna(inplace = False)
# ¿Cómo quedó el dataframe?
print(df_eliminado.shape)
print(df.shape)

(392, 9)
(768, 9)


### Caso 2: Reemplazar de forma manual

In [98]:
# Vamos a elegir el promedio de cada columna para reemplazar 
promedios = df.mean()
print(promedios)

NEMB       3.845052
GLU      121.686763
PART      72.405184
GROS      29.153420
HUR      155.548223
BMI       32.457464
FPRED      0.471876
AGE       33.240885
CLASS      0.348958
dtype: float64


In [99]:
# Uso el método fillna para reemplazar: 
df_reempl = df.fillna(promedios,
                      inplace = False)

In [101]:
print('Data Frame Reemplazado: ')
print(df_reempl.head())
print('')
print('Data Frame Original: ')
print(df.head())

Data Frame Reemplazado: 
   NEMB    GLU  PART      GROS         HUR   BMI  FPRED  AGE  CLASS
0     6  148.0  72.0  35.00000  155.548223  33.6  0.627   50      1
1     1   85.0  66.0  29.00000  155.548223  26.6  0.351   31      0
2     8  183.0  64.0  29.15342  155.548223  23.3  0.672   32      1
3     1   89.0  66.0  23.00000   94.000000  28.1  0.167   21      0
4     0  137.0  40.0  35.00000  168.000000  43.1  2.288   33      1

Data Frame Original: 
   NEMB    GLU  PART  GROS    HUR   BMI  FPRED  AGE  CLASS
0     6  148.0  72.0  35.0    NaN  33.6  0.627   50      1
1     1   85.0  66.0  29.0    NaN  26.6  0.351   31      0
2     8  183.0  64.0   NaN    NaN  23.3  0.672   32      1
3     1   89.0  66.0  23.0   94.0  28.1  0.167   21      0
4     0  137.0  40.0  35.0  168.0  43.1  2.288   33      1


In [102]:
df_reempl.shape

(768, 9)

### Caso 3: Reemplazar usando SimpleImputer

In [103]:
# Antes que nada, abro las librerías:
from sklearn.impute import SimpleImputer
import numpy as np 

In [104]:
# Pasos a seguir:
# 1) Crear un numpy array con los valores
valores = df.values
# 2) Definir el imputador
imputador = SimpleImputer(missing_values = np.nan, 
                          strategy='mean')

# Algunas estrategias: 
# median, 
# most_frequent, 
# constant (indicando con el parámetro 'fill_value' el valor a asignar)

# 3) Transformar el dataset
transformados = imputador.fit_transform(valores)
print(type(transformados))

<class 'numpy.ndarray'>


In [105]:
transformados

array([[  6.   , 148.   ,  72.   , ...,   0.627,  50.   ,   1.   ],
       [  1.   ,  85.   ,  66.   , ...,   0.351,  31.   ,   0.   ],
       [  8.   , 183.   ,  64.   , ...,   0.672,  32.   ,   1.   ],
       ...,
       [  5.   , 121.   ,  72.   , ...,   0.245,  30.   ,   0.   ],
       [  1.   , 126.   ,  60.   , ...,   0.349,  47.   ,   1.   ],
       [  1.   ,  93.   ,  70.   , ...,   0.315,  23.   ,   0.   ]])

In [106]:
# Transformo el ndarray en dataframe 
transformados = pd.DataFrame(transformados)
print(transformados.head().round(2))

     0      1     2      3       4     5     6     7    8
0  6.0  148.0  72.0  35.00  155.55  33.6  0.63  50.0  1.0
1  1.0   85.0  66.0  29.00  155.55  26.6  0.35  31.0  0.0
2  8.0  183.0  64.0  29.15  155.55  23.3  0.67  32.0  1.0
3  1.0   89.0  66.0  23.00   94.00  28.1  0.17  21.0  0.0
4  0.0  137.0  40.0  35.00  168.00  43.1  2.29  33.0  1.0


In [107]:
# Renombro las columnas 
transformados = transformados.rename(columns = nombres_columnas)
print(transformados)

     NEMB    GLU  PART      GROS         HUR   BMI  FPRED   AGE  CLASS
0     6.0  148.0  72.0  35.00000  155.548223  33.6  0.627  50.0    1.0
1     1.0   85.0  66.0  29.00000  155.548223  26.6  0.351  31.0    0.0
2     8.0  183.0  64.0  29.15342  155.548223  23.3  0.672  32.0    1.0
3     1.0   89.0  66.0  23.00000   94.000000  28.1  0.167  21.0    0.0
4     0.0  137.0  40.0  35.00000  168.000000  43.1  2.288  33.0    1.0
..    ...    ...   ...       ...         ...   ...    ...   ...    ...
763  10.0  101.0  76.0  48.00000  180.000000  32.9  0.171  63.0    0.0
764   2.0  122.0  70.0  27.00000  155.548223  36.8  0.340  27.0    0.0
765   5.0  121.0  72.0  23.00000  112.000000  26.2  0.245  30.0    0.0
766   1.0  126.0  60.0  29.15342  155.548223  30.1  0.349  47.0    1.0
767   1.0   93.0  70.0  31.00000  155.548223  30.4  0.315  23.0    0.0

[768 rows x 9 columns]


## Agrupaciones

In [113]:
print(df.sum())

NEMB      2953.000
GLU      92847.000
PART     53073.000
GROS     15772.000
HUR      61286.000
BMI      24570.300
FPRED      362.401
AGE      25529.000
CLASS      268.000
dtype: float64


In [114]:
print(df[['NEMB','GLU']].mean())

NEMB      3.845052
GLU     121.686763
dtype: float64


In [115]:
print(df[['NEMB','AGE']].median())

NEMB     3.0
AGE     29.0
dtype: float64


In [116]:
# Usemos la variable "CLASS" para presentar algunas agrupaciones
print(df.groupby('CLASS').size())

CLASS
0    500
1    268
dtype: int64


In [117]:
# Medidas de agregación que dependen de otras variables
print(df.groupby('CLASS')[['BMI','AGE','NEMB']].mean())

             BMI        AGE      NEMB
CLASS                                
0      30.859674  31.190000  3.298000
1      35.406767  37.067164  4.865672


In [118]:
# Varias medidas de agregación 
agrupaciones = df.groupby('CLASS').agg(
    
    min_AGE = ('AGE', 'min'),
    mean_AGE = ('AGE', 'mean'),
    max_AGE = ('AGE', 'max'),
    mean_BMI = ('BMI', 'mean')
    
    )

print(agrupaciones.round())

       min_AGE  mean_AGE  max_AGE  mean_BMI
CLASS                                      
0           21      31.0       81      31.0
1           21      37.0       70      35.0


In [122]:
# Generar una nueva variable para agrupar 
bins = [0,25,45,float('inf')]
labels = ['Joven','Mediana','Mayor']
df['Edad_Agrupada'] = pd.cut(df['AGE'], 
                             bins = bins, 
                             labels = labels, 
                             right = False)

In [123]:
df.head()

Unnamed: 0,NEMB,GLU,PART,GROS,HUR,BMI,FPRED,AGE,CLASS,Edad_Agrupada
0,6,148.0,72.0,35.0,,33.6,0.627,50,1,Mayor
1,1,85.0,66.0,29.0,,26.6,0.351,31,0,Mediana
2,8,183.0,64.0,,,23.3,0.672,32,1,Mediana
3,1,89.0,66.0,23.0,94.0,28.1,0.167,21,0,Joven
4,0,137.0,40.0,35.0,168.0,43.1,2.288,33,1,Mediana


In [124]:
df['Edad_Agrupada'].value_counts()

Edad_Agrupada
Mediana    416
Joven      219
Mayor      133
Name: count, dtype: int64

In [125]:
# Calcular NEMB y BMI promedio por grupo de edad 

print(df.groupby('Edad_Agrupada')[['NEMB','BMI']].mean())


                   NEMB        BMI
Edad_Agrupada                     
Joven          1.493151  30.856808
Mediana        4.240385  33.438983
Mayor          6.481203  31.965649


  print(df.groupby('Edad_Agrupada')[['NEMB','BMI']].mean())


In [126]:
cantidad = df.groupby('Edad_Agrupada')['CLASS'].count()
cantidad

  cantidad = df.groupby('Edad_Agrupada')['CLASS'].count()


Edad_Agrupada
Joven      219
Mediana    416
Mayor      133
Name: CLASS, dtype: int64

In [127]:
cantidad_1 = df.groupby('Edad_Agrupada')['CLASS'].sum()
cantidad_1

  cantidad_1 = df.groupby('Edad_Agrupada')['CLASS'].sum()


Edad_Agrupada
Joven       31
Mediana    171
Mayor       66
Name: CLASS, dtype: int64

In [128]:
# Calcular porcentaje de "CLASS" por grupo de edad 
cantidad = df.groupby('Edad_Agrupada')['CLASS'].count()
cantidad_1 = df.groupby('Edad_Agrupada')['CLASS'].sum()
cantidad_1 / cantidad

  cantidad = df.groupby('Edad_Agrupada')['CLASS'].count()
  cantidad_1 = df.groupby('Edad_Agrupada')['CLASS'].sum()


Edad_Agrupada
Joven      0.141553
Mediana    0.411058
Mayor      0.496241
Name: CLASS, dtype: float64

In [129]:
# Pero más simple: 
print(df.groupby('Edad_Agrupada')['CLASS'].mean())

Edad_Agrupada
Joven      0.141553
Mediana    0.411058
Mayor      0.496241
Name: CLASS, dtype: float64


  print(df.groupby('Edad_Agrupada')['CLASS'].mean())
