# Pandas

Herramienta de manipulación de datos de alto nivel, construida sobre Numpy y permite el análisis y limpieza de datos en bruto.

Los principales tipos de datos que pueden representarse con pandas son:

* Datos tabulares que tienen columnas de tipo heterogéneo con etiquetas en columnas y filas.
* Series temporales

Permite leer y escribir datos en diferentes formatos como lo son: CSV, JSON, Excel, bases SQL

Se instala empleando

* pip install pandas
* conda install pandas

# Manipulación de datos con Pandas

In [2]:
# Importar librerias
import pandas as pd # Importar pandas
import numpy  as np # Importar numpy

In [3]:
# Leer archivos separados por comas, extension
df = pd.read_excel('datos/rotacion.xlsx')
df.head(5) ## mostrar primeros 5 registros

Unnamed: 0,Rotación,Edad,Viaje de Negocios,Departamento,Distancia_Casa,Educación,Campo_Educación,Satisfacción_Ambiental,Genero,Cargo,...,Horas_Extra,Porcentaje_aumento_salarial,Rendimiento_Laboral,Años_Experiencia,Capacitaciones,Equilibrio_Trabajo_Vida,Antigüedad,Antigüedad_Cargo,Años_ultima_promoción,Años_acargo_con_mismo_jefe
0,Si,41,Raramente,Ventas,1,2,Ciencias,2,F,Ejecutivo_Ventas,...,Si,11,3,8,0,1,6,4,0,5
1,No,49,Frecuentemente,IyD,8,1,Ciencias,3,M,Investigador_Cientifico,...,No,23,4,10,3,3,10,7,1,7
2,Si,37,Raramente,IyD,2,2,Otra,4,M,Tecnico_Laboratorio,...,Si,15,3,7,3,3,0,0,0,0
3,No,33,Frecuentemente,IyD,3,4,Ciencias,4,F,Investigador_Cientifico,...,Si,11,3,8,3,3,8,7,3,0
4,No,27,Raramente,IyD,2,1,Salud,1,M,Tecnico_Laboratorio,...,No,12,3,6,3,3,2,2,2,2


In [4]:
# dimensiones del dataframe
df.shape

(1470, 24)

In [5]:
# Información general del data frame
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1470 entries, 0 to 1469
Data columns (total 24 columns):
 #   Column                       Non-Null Count  Dtype 
---  ------                       --------------  ----- 
 0   Rotación                     1470 non-null   object
 1   Edad                         1470 non-null   int64 
 2   Viaje de Negocios            1470 non-null   object
 3   Departamento                 1470 non-null   object
 4   Distancia_Casa               1470 non-null   int64 
 5   Educación                    1470 non-null   int64 
 6   Campo_Educación              1470 non-null   object
 7   Satisfacción_Ambiental       1470 non-null   int64 
 8   Genero                       1470 non-null   object
 9   Cargo                        1470 non-null   object
 10  Satisfación_Laboral          1470 non-null   int64 
 11  Estado_Civil                 1470 non-null   object
 12  Ingreso_Mensual              1470 non-null   int64 
 13  Trabajos_Anteriores          1470

In [6]:
# Tipos de datos que existen en las columnas del dataframe
df.dtypes

Rotación                       object
Edad                            int64
Viaje de Negocios              object
Departamento                   object
Distancia_Casa                  int64
Educación                       int64
Campo_Educación                object
Satisfacción_Ambiental          int64
Genero                         object
Cargo                          object
Satisfación_Laboral             int64
Estado_Civil                   object
Ingreso_Mensual                 int64
Trabajos_Anteriores             int64
Horas_Extra                    object
Porcentaje_aumento_salarial     int64
Rendimiento_Laboral             int64
Años_Experiencia                int64
Capacitaciones                  int64
Equilibrio_Trabajo_Vida         int64
Antigüedad                      int64
Antigüedad_Cargo                int64
Años_ultima_promoción           int64
Años_acargo_con_mismo_jefe      int64
dtype: object

El metodo .describe() de los dataframes muestra un resumen de la estadistica descriptiva general de las columnas númericas del dataframe.

* Promedio (mean)
* Desviación estandard (std)
* Valor minimo
* Valor maximo
* Cuartiles (25%, 50% y 75%)

In [7]:
df.describe() # No muestra la informacion de las columnas categoricas

Unnamed: 0,Edad,Distancia_Casa,Educación,Satisfacción_Ambiental,Satisfación_Laboral,Ingreso_Mensual,Trabajos_Anteriores,Porcentaje_aumento_salarial,Rendimiento_Laboral,Años_Experiencia,Capacitaciones,Equilibrio_Trabajo_Vida,Antigüedad,Antigüedad_Cargo,Años_ultima_promoción,Años_acargo_con_mismo_jefe
count,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0
mean,36.92381,9.192517,2.912925,2.721769,2.728571,6502.931293,2.693197,15.209524,3.153741,11.279592,2.79932,2.761224,7.008163,4.229252,2.187755,4.123129
std,9.135373,8.106864,1.024165,1.093082,1.102846,4707.956783,2.498009,3.659938,0.360824,7.780782,1.289271,0.706476,6.126525,3.623137,3.22243,3.568136
min,18.0,1.0,1.0,1.0,1.0,1009.0,0.0,11.0,3.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0
25%,30.0,2.0,2.0,2.0,2.0,2911.0,1.0,12.0,3.0,6.0,2.0,2.0,3.0,2.0,0.0,2.0
50%,36.0,7.0,3.0,3.0,3.0,4919.0,2.0,14.0,3.0,10.0,3.0,3.0,5.0,3.0,1.0,3.0
75%,43.0,14.0,4.0,4.0,4.0,8379.0,4.0,18.0,3.0,15.0,3.0,3.0,9.0,7.0,3.0,7.0
max,60.0,29.0,5.0,4.0,4.0,19999.0,9.0,25.0,4.0,40.0,6.0,4.0,40.0,18.0,15.0,17.0


In [12]:
df.describe(include=['O']) # Mostrar variables categoricas

Unnamed: 0,Rotación,Viaje de Negocios,Departamento,Campo_Educación,Genero,Cargo,Estado_Civil,Horas_Extra
count,1470,1470,1470,1470,1470,1470,1470,1470
unique,2,3,3,6,2,9,3,2
top,No,Raramente,IyD,Ciencias,M,Ejecutivo_Ventas,Casado,No
freq,1233,1043,961,606,882,326,673,1054


## Seleccion e Indexación

In [13]:
# Regresara todos los datos de la columna Phone_type
df['Viaje de Negocios']

0            Raramente
1       Frecuentemente
2            Raramente
3       Frecuentemente
4            Raramente
             ...      
1465    Frecuentemente
1466         Raramente
1467         Raramente
1468    Frecuentemente
1469         Raramente
Name: Viaje de Negocios, Length: 1470, dtype: object

In [16]:
df.Departamento

0       Ventas
1          IyD
2          IyD
3          IyD
4          IyD
         ...  
1465       IyD
1466       IyD
1467       IyD
1468    Ventas
1469       IyD
Name: Departamento, Length: 1470, dtype: object

In [19]:
# Selección de dos o mas columns
df[['Genero','Cargo','Edad']]

Unnamed: 0,Genero,Cargo,Edad
0,F,Ejecutivo_Ventas,41
1,M,Investigador_Cientifico,49
2,M,Tecnico_Laboratorio,37
3,F,Investigador_Cientifico,33
4,M,Tecnico_Laboratorio,27
...,...,...,...
1465,M,Tecnico_Laboratorio,36
1466,M,Representante_Salud,39
1467,M,Director_Manofactura,27
1468,M,Ejecutivo_Ventas,49


In [20]:
## Crear nueva columna
df['Aumento_Salarial'] = df.Ingreso_Mensual * df.Porcentaje_aumento_salarial
df['Aumento_Salarial']

0        65923
1       117990
2        31350
3        31999
4        41616
         ...  
1465     43707
1466    149865
1467    122840
1468     75460
1469     52848
Name: Aumento_Salarial, Length: 1470, dtype: int64

In [None]:

df.drop('Aumento_Salarial',axis=1) # axis = 0 elimina filas(index) axis = 1 elimina columnas

Unnamed: 0,Rotación,Edad,Viaje de Negocios,Departamento,Distancia_Casa,Educación,Campo_Educación,Satisfacción_Ambiental,Genero,Cargo,...,Horas_Extra,Porcentaje_aumento_salarial,Rendimiento_Laboral,Años_Experiencia,Capacitaciones,Equilibrio_Trabajo_Vida,Antigüedad,Antigüedad_Cargo,Años_ultima_promoción,Años_acargo_con_mismo_jefe
0,Si,41,Raramente,Ventas,1,2,Ciencias,2,F,Ejecutivo_Ventas,...,Si,11,3,8,0,1,6,4,0,5
1,No,49,Frecuentemente,IyD,8,1,Ciencias,3,M,Investigador_Cientifico,...,No,23,4,10,3,3,10,7,1,7
2,Si,37,Raramente,IyD,2,2,Otra,4,M,Tecnico_Laboratorio,...,Si,15,3,7,3,3,0,0,0,0
3,No,33,Frecuentemente,IyD,3,4,Ciencias,4,F,Investigador_Cientifico,...,Si,11,3,8,3,3,8,7,3,0
4,No,27,Raramente,IyD,2,1,Salud,1,M,Tecnico_Laboratorio,...,No,12,3,6,3,3,2,2,2,2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1465,No,36,Frecuentemente,IyD,23,2,Salud,3,M,Tecnico_Laboratorio,...,No,17,3,17,3,3,5,2,0,3
1466,No,39,Raramente,IyD,6,1,Salud,4,M,Representante_Salud,...,No,15,3,9,5,3,7,7,1,7
1467,No,27,Raramente,IyD,4,3,Ciencias,2,M,Director_Manofactura,...,Si,20,4,6,0,3,6,2,0,3
1468,No,49,Frecuentemente,Ventas,2,3,Salud,4,M,Ejecutivo_Ventas,...,No,14,3,17,3,2,9,6,0,8


In [None]:

# Para que quede grabado

# df = df.drop('Aumento_Salarial',axis=1) # Forma 1
df.drop(['Aumento_Salarial'], axis=1, inplace=True) # Forma 2

In [26]:
df.columns # nombres de las columnas

Index(['Rotación', 'Edad', 'Viaje de Negocios', 'Departamento',
       'Distancia_Casa', 'Educación', 'Campo_Educación',
       'Satisfacción_Ambiental', 'Genero', 'Cargo', 'Satisfación_Laboral',
       'Estado_Civil', 'Ingreso_Mensual', 'Trabajos_Anteriores', 'Horas_Extra',
       'Porcentaje_aumento_salarial', 'Rendimiento_Laboral',
       'Años_Experiencia', 'Capacitaciones', 'Equilibrio_Trabajo_Vida',
       'Antigüedad', 'Antigüedad_Cargo', 'Años_ultima_promoción',
       'Años_acargo_con_mismo_jefe'],
      dtype='object')

In [27]:
df.index # nombres de los indices

RangeIndex(start=0, stop=1470, step=1)

## Filtros

In [32]:
## Seleccionar todas las filas donde el salario mensual sea superior a 100 mil dolares

df[df['Ingreso_Mensual'] > 15000]

Unnamed: 0,Rotación,Edad,Viaje de Negocios,Departamento,Distancia_Casa,Educación,Campo_Educación,Satisfacción_Ambiental,Genero,Cargo,...,Horas_Extra,Porcentaje_aumento_salarial,Rendimiento_Laboral,Años_Experiencia,Capacitaciones,Equilibrio_Trabajo_Vida,Antigüedad,Antigüedad_Cargo,Años_ultima_promoción,Años_acargo_con_mismo_jefe
18,No,53,Raramente,Ventas,2,4,Ciencias,1,F,Gerente,...,No,16,3,31,3,3,25,8,3,7
25,No,53,Raramente,IyD,5,3,Otra,3,F,Gerente,...,No,11,3,26,3,2,14,13,4,8
29,No,46,Raramente,Ventas,2,4,Mercadeo,2,F,Gerente,...,No,12,3,22,2,2,2,2,2,1
45,Si,41,Raramente,IyD,12,3,Tecnicos,2,F,Director_Investigación,...,No,12,3,23,0,3,22,15,15,8
62,No,50,Raramente,IyD,7,2,Salud,2,F,Director_Investigación,...,Si,12,3,29,2,2,27,3,13,8
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1374,No,58,Raramente,Ventas,21,3,Ciencias,4,F,Gerente,...,Si,13,3,29,2,2,1,0,0,0
1377,No,49,Frecuentemente,IyD,2,1,Ciencias,2,M,Director_Investigación,...,No,15,3,28,3,3,5,4,4,3
1401,No,55,Raramente,RH,26,4,Humanidades,3,M,Gerente,...,Si,18,3,35,0,3,10,9,1,4
1437,No,39,No_Viaja,IyD,9,3,Ciencias,4,M,Gerente,...,No,13,3,21,3,2,6,0,1,3


In [33]:
## Forma 2
df.query('Ingreso_Mensual > 15000')

Unnamed: 0,Rotación,Edad,Viaje de Negocios,Departamento,Distancia_Casa,Educación,Campo_Educación,Satisfacción_Ambiental,Genero,Cargo,...,Horas_Extra,Porcentaje_aumento_salarial,Rendimiento_Laboral,Años_Experiencia,Capacitaciones,Equilibrio_Trabajo_Vida,Antigüedad,Antigüedad_Cargo,Años_ultima_promoción,Años_acargo_con_mismo_jefe
18,No,53,Raramente,Ventas,2,4,Ciencias,1,F,Gerente,...,No,16,3,31,3,3,25,8,3,7
25,No,53,Raramente,IyD,5,3,Otra,3,F,Gerente,...,No,11,3,26,3,2,14,13,4,8
29,No,46,Raramente,Ventas,2,4,Mercadeo,2,F,Gerente,...,No,12,3,22,2,2,2,2,2,1
45,Si,41,Raramente,IyD,12,3,Tecnicos,2,F,Director_Investigación,...,No,12,3,23,0,3,22,15,15,8
62,No,50,Raramente,IyD,7,2,Salud,2,F,Director_Investigación,...,Si,12,3,29,2,2,27,3,13,8
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1374,No,58,Raramente,Ventas,21,3,Ciencias,4,F,Gerente,...,Si,13,3,29,2,2,1,0,0,0
1377,No,49,Frecuentemente,IyD,2,1,Ciencias,2,M,Director_Investigación,...,No,15,3,28,3,3,5,4,4,3
1401,No,55,Raramente,RH,26,4,Humanidades,3,M,Gerente,...,Si,18,3,35,0,3,10,9,1,4
1437,No,39,No_Viaja,IyD,9,3,Ciencias,4,M,Gerente,...,No,13,3,21,3,2,6,0,1,3


In [40]:
df[(df['Ingreso_Mensual']>15000) & (df['Antigüedad_Cargo'] > 5)]

Unnamed: 0,Rotación,Edad,Viaje de Negocios,Departamento,Distancia_Casa,Educación,Campo_Educación,Satisfacción_Ambiental,Genero,Cargo,...,Horas_Extra,Porcentaje_aumento_salarial,Rendimiento_Laboral,Años_Experiencia,Capacitaciones,Equilibrio_Trabajo_Vida,Antigüedad,Antigüedad_Cargo,Años_ultima_promoción,Años_acargo_con_mismo_jefe
18,No,53,Raramente,Ventas,2,4,Ciencias,1,F,Gerente,...,No,16,3,31,3,3,25,8,3,7
25,No,53,Raramente,IyD,5,3,Otra,3,F,Gerente,...,No,11,3,26,3,2,14,13,4,8
45,Si,41,Raramente,IyD,12,3,Tecnicos,2,F,Director_Investigación,...,No,12,3,23,0,3,22,15,15,8
119,No,43,Frecuentemente,Ventas,26,2,Ciencias,3,M,Gerente,...,Si,12,3,25,3,4,25,12,4,12
123,No,51,Raramente,IyD,6,3,Ciencias,1,M,Director_Investigación,...,No,13,3,23,5,3,20,18,15,15
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1331,No,48,Raramente,IyD,10,3,Ciencias,4,M,Director_Investigación,...,No,12,3,29,3,3,22,10,12,9
1348,No,40,Raramente,IyD,1,4,Ciencias,1,M,Gerente,...,No,11,3,22,3,3,19,7,11,16
1351,No,48,Frecuentemente,IyD,22,3,Salud,4,F,Gerente,...,No,11,3,24,3,3,22,17,4,7
1401,No,55,Raramente,RH,26,4,Humanidades,3,M,Gerente,...,Si,18,3,35,0,3,10,9,1,4


In [39]:
# Seleccionar las filas donde Income sea mayor que cero y Phone Type sea igual a Android
df[(df['Ingreso_Mensual']>15000) & (df['Antigüedad_Cargo'] > 5)][['Rotación','Departamento']]

Unnamed: 0,Rotación,Departamento
18,No,Ventas
25,No,IyD
45,Si,IyD
119,No,Ventas
123,No,IyD
...,...,...
1331,No,IyD
1348,No,IyD
1351,No,IyD
1401,No,RH


## Datos Faltantes (Missing data)

In [41]:
# Verificar si hay datos faltantes por columna
df.isnull().any()

Rotación                       False
Edad                           False
Viaje de Negocios              False
Departamento                   False
Distancia_Casa                 False
Educación                      False
Campo_Educación                False
Satisfacción_Ambiental         False
Genero                         False
Cargo                          False
Satisfación_Laboral            False
Estado_Civil                   False
Ingreso_Mensual                False
Trabajos_Anteriores            False
Horas_Extra                    False
Porcentaje_aumento_salarial    False
Rendimiento_Laboral            False
Años_Experiencia               False
Capacitaciones                 False
Equilibrio_Trabajo_Vida        False
Antigüedad                     False
Antigüedad_Cargo               False
Años_ultima_promoción          False
Años_acargo_con_mismo_jefe     False
dtype: bool

In [43]:
# Numero de datos faltantes por columna
df.isnull().sum()

Rotación                       0
Edad                           0
Viaje de Negocios              0
Departamento                   0
Distancia_Casa                 0
Educación                      0
Campo_Educación                0
Satisfacción_Ambiental         0
Genero                         0
Cargo                          0
Satisfación_Laboral            0
Estado_Civil                   0
Ingreso_Mensual                0
Trabajos_Anteriores            0
Horas_Extra                    0
Porcentaje_aumento_salarial    0
Rendimiento_Laboral            0
Años_Experiencia               0
Capacitaciones                 0
Equilibrio_Trabajo_Vida        0
Antigüedad                     0
Antigüedad_Cargo               0
Años_ultima_promoción          0
Años_acargo_con_mismo_jefe     0
dtype: int64

In [44]:
# Eliminar todas las filas que tengan datos faltantes
df.dropna(axis=0) # cuando son filas no es neceario escribir axis=0

Unnamed: 0,Rotación,Edad,Viaje de Negocios,Departamento,Distancia_Casa,Educación,Campo_Educación,Satisfacción_Ambiental,Genero,Cargo,...,Horas_Extra,Porcentaje_aumento_salarial,Rendimiento_Laboral,Años_Experiencia,Capacitaciones,Equilibrio_Trabajo_Vida,Antigüedad,Antigüedad_Cargo,Años_ultima_promoción,Años_acargo_con_mismo_jefe
0,Si,41,Raramente,Ventas,1,2,Ciencias,2,F,Ejecutivo_Ventas,...,Si,11,3,8,0,1,6,4,0,5
1,No,49,Frecuentemente,IyD,8,1,Ciencias,3,M,Investigador_Cientifico,...,No,23,4,10,3,3,10,7,1,7
2,Si,37,Raramente,IyD,2,2,Otra,4,M,Tecnico_Laboratorio,...,Si,15,3,7,3,3,0,0,0,0
3,No,33,Frecuentemente,IyD,3,4,Ciencias,4,F,Investigador_Cientifico,...,Si,11,3,8,3,3,8,7,3,0
4,No,27,Raramente,IyD,2,1,Salud,1,M,Tecnico_Laboratorio,...,No,12,3,6,3,3,2,2,2,2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1465,No,36,Frecuentemente,IyD,23,2,Salud,3,M,Tecnico_Laboratorio,...,No,17,3,17,3,3,5,2,0,3
1466,No,39,Raramente,IyD,6,1,Salud,4,M,Representante_Salud,...,No,15,3,9,5,3,7,7,1,7
1467,No,27,Raramente,IyD,4,3,Ciencias,2,M,Director_Manofactura,...,Si,20,4,6,0,3,6,2,0,3
1468,No,49,Frecuentemente,Ventas,2,3,Salud,4,M,Ejecutivo_Ventas,...,No,14,3,17,3,2,9,6,0,8


In [45]:
# Llenar los datos faltantes con el dato que nos interese
df.fillna(value=0)

Unnamed: 0,Rotación,Edad,Viaje de Negocios,Departamento,Distancia_Casa,Educación,Campo_Educación,Satisfacción_Ambiental,Genero,Cargo,...,Horas_Extra,Porcentaje_aumento_salarial,Rendimiento_Laboral,Años_Experiencia,Capacitaciones,Equilibrio_Trabajo_Vida,Antigüedad,Antigüedad_Cargo,Años_ultima_promoción,Años_acargo_con_mismo_jefe
0,Si,41,Raramente,Ventas,1,2,Ciencias,2,F,Ejecutivo_Ventas,...,Si,11,3,8,0,1,6,4,0,5
1,No,49,Frecuentemente,IyD,8,1,Ciencias,3,M,Investigador_Cientifico,...,No,23,4,10,3,3,10,7,1,7
2,Si,37,Raramente,IyD,2,2,Otra,4,M,Tecnico_Laboratorio,...,Si,15,3,7,3,3,0,0,0,0
3,No,33,Frecuentemente,IyD,3,4,Ciencias,4,F,Investigador_Cientifico,...,Si,11,3,8,3,3,8,7,3,0
4,No,27,Raramente,IyD,2,1,Salud,1,M,Tecnico_Laboratorio,...,No,12,3,6,3,3,2,2,2,2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1465,No,36,Frecuentemente,IyD,23,2,Salud,3,M,Tecnico_Laboratorio,...,No,17,3,17,3,3,5,2,0,3
1466,No,39,Raramente,IyD,6,1,Salud,4,M,Representante_Salud,...,No,15,3,9,5,3,7,7,1,7
1467,No,27,Raramente,IyD,4,3,Ciencias,2,M,Director_Manofactura,...,Si,20,4,6,0,3,6,2,0,3
1468,No,49,Frecuentemente,Ventas,2,3,Salud,4,M,Ejecutivo_Ventas,...,No,14,3,17,3,2,9,6,0,8


In [None]:
## Datos unicos
df['Departamento'].unique()

array(['Ventas', 'IyD', 'RH'], dtype=object)

In [47]:
## Datos unicos
df['Departamento'].nunique()

3

In [49]:
## Verificar Datos duplicados en todas las columnas
df.duplicated().sum()

np.int64(0)

In [50]:
## Eliminar Duplicados
df.drop_duplicates()

Unnamed: 0,Rotación,Edad,Viaje de Negocios,Departamento,Distancia_Casa,Educación,Campo_Educación,Satisfacción_Ambiental,Genero,Cargo,...,Horas_Extra,Porcentaje_aumento_salarial,Rendimiento_Laboral,Años_Experiencia,Capacitaciones,Equilibrio_Trabajo_Vida,Antigüedad,Antigüedad_Cargo,Años_ultima_promoción,Años_acargo_con_mismo_jefe
0,Si,41,Raramente,Ventas,1,2,Ciencias,2,F,Ejecutivo_Ventas,...,Si,11,3,8,0,1,6,4,0,5
1,No,49,Frecuentemente,IyD,8,1,Ciencias,3,M,Investigador_Cientifico,...,No,23,4,10,3,3,10,7,1,7
2,Si,37,Raramente,IyD,2,2,Otra,4,M,Tecnico_Laboratorio,...,Si,15,3,7,3,3,0,0,0,0
3,No,33,Frecuentemente,IyD,3,4,Ciencias,4,F,Investigador_Cientifico,...,Si,11,3,8,3,3,8,7,3,0
4,No,27,Raramente,IyD,2,1,Salud,1,M,Tecnico_Laboratorio,...,No,12,3,6,3,3,2,2,2,2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1465,No,36,Frecuentemente,IyD,23,2,Salud,3,M,Tecnico_Laboratorio,...,No,17,3,17,3,3,5,2,0,3
1466,No,39,Raramente,IyD,6,1,Salud,4,M,Representante_Salud,...,No,15,3,9,5,3,7,7,1,7
1467,No,27,Raramente,IyD,4,3,Ciencias,2,M,Director_Manofactura,...,Si,20,4,6,0,3,6,2,0,3
1468,No,49,Frecuentemente,Ventas,2,3,Salud,4,M,Ejecutivo_Ventas,...,No,14,3,17,3,2,9,6,0,8


## Estadistica Descriptiva

In [51]:

# Media Aritmetica
df.Ingreso_Mensual.mean()

np.float64(6502.931292517007)

In [52]:
# Mediana
df.Ingreso_Mensual.median()

np.float64(4919.0)

In [53]:
# Mediana
df.Ingreso_Mensual.max()

np.int64(19999)