<a href="https://colab.research.google.com/github/AlcidesOxa/datos/blob/master/Importing_preparing_comentarios.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Paquetes para ciencia de datos

In [1]:
import pandas as pd
import numpy as np

# Importando datos

In [None]:
# importar datos en formato csv
Empleados=pd.read_csv("https://raw.githubusercontent.com/AlcidesOxa/datos/master/ejemplo.csv",sep=';',encoding="ISO-8859-1")
Empleados.head()
Empleados.tail()

In [None]:
# muestra los nombres de las variables del Dataframe (Tabla de datos) Empleados
Empleados.columns.values
# diccionario para cambiar nombres de las variables
cambio={'Años estudio':'Anios_estudio', 'Estado Civil':'Estado_civil', 
        'Satisfacción Trabajo':'Satisfaccion_trabajo', 'Fecha contrato':'Fecha_contrato'}
# Renombra las variables del dataframe "Empleados" utilizando el diccionario "cambio"
Empleados.rename(columns=cambio,inplace=True)
Empleados.head()

# Identificación y manejo de datos perdidos

In [None]:
# Dimensiones del dataframe
Empleados.shape
# Eliminar datos perdidos por filas o casos
Empleados.dropna()
# Eliminar datos perdidos por variables o columnas
Empleados.dropna(axis=1)
# Muestra las dimensiones de los 3 dataframes anteriores
print(Empleados.shape,Empleados.dropna().shape,Empleados.dropna(axis=1).shape)

In [None]:
# Dataframe de verdaderos y falsos, verdadero significa que es dato perdido y falso lo contrario
Empleados.isnull()
# Cantidad de datos perdidos por columnas
Empleados.isnull().sum()
# Total de datos por columna
Empleados.isnull().count()
# Cociente de datos perdidos sobre total por columna
Empleados.isnull().sum()/Empleados.isnull().count()
# ordenando en forma descendente
(Empleados.isnull().sum()/Empleados.isnull().count()).sort_values(ascending = False)
# Proporciones de datos perdidos por fila o caso (axis=1)
(Empleados.isnull().sum(axis=1)/Empleados.isnull().count(axis=1)).sort_values(ascending = False)

In [None]:
# lista de empleados a eliminar
casosborrar=[3,5,8]
# Elimina los empleados con muchos datos perdidos
Empleados=Empleados.drop(casosborrar)
# lista de variables a eliminar
varborrar=['Faltas','Permisos']
# Elimina las variables con muchos datos perdidos, axis=1 es para eliminar por columnas
Empleados=Empleados.drop(varborrar,axis=1)
Empleados.columns
Empleados.shape

In [None]:
# cantidad de perdidos por filas
Empleados.isnull().sum(axis=1)
# condición de que la cantidad de perdidos por fila es distinta de cero
cond=Empleados.isnull().sum(axis=1) != 0
Empleados[cond]

In [None]:
# lista de variables categóricas o cualitativas
varcategoricas=['Sexo','Estado_civil','Satisfaccion_trabajo']
# rellenar los datos perdidos de las variables cualitativas con "Desconocido"
Empleados[varcategoricas]=Empleados[varcategoricas].fillna('Desconocido')

# Formateando datos

In [None]:
#Accediendo a la variable "Nombres"
Empleados.Nombres
#Accede al primer carácter de la variable
Empleados.Nombres.str[0]
#Accede al segundo carácter de la variable
Empleados.Nombres.str[1]
#Accede a los 3 primeros caracteres de la variable
Empleados.Nombres.str.slice(3)
#Concatenando strings (cadenas de caracteres) con "+" y lo guardo en "cod"
cod=Empleados.Nombres.str[0]+Empleados.Apellidos.str[0]+Empleados.Fecha_contrato.str.slice(-4)
#Establece el index en el dataframe "Empleados"
Empleados.set_index(cod,inplace=True)
#Valores del index
Empleados.index.values
#otro index
Empleados.set_index([Empleados.Nombres,Empleados.Apellidos])

In [None]:
# Los tipos de variables
Empleados.dtypes
Empleados.info()

In [None]:
#Cambia el tipo de variables de "varcategoricas", de "object" a "category"
Empleados[varcategoricas]=Empleados[varcategoricas].astype('category')
#muestra el tipo de variable
Empleados.Sexo.dtype
Empleados.Estado_civil.dtype
#Cambia la variable Fecha_contrato, de "object" a "datetime"
Empleados['Fecha_contrato']=pd.to_datetime(Empleados.Fecha_contrato)

In [None]:
#Acceder a los valores de las categorías
Empleados.Sexo.cat.categories.values
#Accediendo a elementos
Empleados.Estado_civil.cat.categories.values[0]
Empleados.Estado_civil.cat.categories.values[2]
Empleados.Estado_civil.cat.categories.values[[0,2]]
Empleados.Estado_civil.cat.categories.values[[3,1]]
#muestra en el orden buscado
Empleados.Estado_civil.cat.categories.values[[3,0,2,4,1]]
#lo convierte en lista
Empleados.Estado_civil.cat.categories.values[[3,0,2,4,1]].tolist()
#guarda la lista en orden_ec
orden_ec=Empleados.Estado_civil.cat.categories.values[[3,0,2,4,1]].tolist()
#guarda la lista de satisfaccion en orden_st
orden_st=Empleados.Satisfaccion_trabajo.cat.categories.values[[2,3,0,1]].tolist()
#orden_st=['Mal', 'Regular', 'Bien', 'Desconocido']
#cambia el orden según la lista orden_ec
Empleados.Estado_civil.cat.reorder_categories(orden_ec)
#Guardar el orden nuevo
Empleados.Estado_civil=Empleados.Estado_civil.cat.reorder_categories(orden_ec)
Empleados['Estado_civil']=Empleados.Estado_civil.cat.reorder_categories(orden_ec)
#Guarda el nuevo orden de categorías de la variable satisfacción
Empleados['Satisfaccion_trabajo']=Empleados.Satisfaccion_trabajo.cat.reorder_categories(orden_st)
Empleados.Satisfaccion_trabajo.cat.categories
#Renombra las categorías
Empleados['Satisfaccion_trabajo']=Empleados.Satisfaccion_trabajo.cat.rename_categories(
    ['Insatisfecho(a)','Neutral','Satisfecho(a)','Desconocido'])

# Localización de datos

In [None]:
#Lista de variables, subconjunto de variables del dataframe
variables=['Apellidos','Nombres','Edad','Estado_civil','Fecha_contrato']
Empleados[variables] #dataframe con las variables seleccionadas
Empleados.loc[:,variables] #lo mismo que el anterior
#Lista de casos de algún interés particular
casos=['VC2009','MF2009','PG2013','AM2015']
#Selecciona esos casos de interés
Empleados.loc[casos,:]
#Selecciona esos casos de interés y las variables de interés
Empleados.loc[casos,variables]
#Selecciona casos consecutivos y variables consecutivas
Empleados.loc['VC2009':'JG2011','Sexo':'Gastos']
#combinar
Empleados.loc[casos,'Anios_estudio':'Gastos']

In [None]:
#selecciona casos desde el 4 al 13 y variables de la 4ta a la 6ta
Empleados.iloc[4:14,4:7]
casos=[3,6,11,22] #lista de id's de casos
variables=[1,4,8] #lista de id's de variables
#selecciona datos de aceurdo a las listas anteriores
Empleados.iloc[casos,variables]
#selecciona todas las filas
Empleados.iloc[:,variables]
#selecciona todas las variables
Empleados.iloc[casos,:]

# Selección de datos

In [None]:
#Selecciona a todas las mujeres del dataframe
Empleados[Empleados.Sexo=='Mujer']
#Selecciona a todas las mujeres solteras del dataframe
Empleados[(Empleados.Sexo=='Mujer') & (Empleados.Estado_civil=='Soltero(a)')]
#guarda en condicion1 la selección de mujeres solteras o cualquier divorciado
condicion1=(Empleados.Sexo=='Mujer') & (Empleados.Estado_civil=='Soltero(a)') | (Empleados.Estado_civil=='Divorciado(a)')
#ejecuta la selección con la condicion1
Empleados[condicion1]
#guarda en condicion2 la selección de mujeres que sean solteras o divorciadas
condicion2=(Empleados.Sexo=='Mujer') & ((Empleados.Estado_civil=='Soltero(a)') | (Empleados.Estado_civil=='Divorciado(a)'))
Empleados[condicion2]
#guarda en condicion3 la selección de menores de 40 años y cuya fecha de contrato es posterior a 2015-01-01
condicion3=(Empleados.Edad<40) & (Empleados.Fecha_contrato>'2015-01-01')
Empleados[condicion3]
#guarda en condicion4 la selección de menores de 40 años y cuya fecha de contrato es anterior a 2015-01-01
condicion4=(Empleados.Edad<40) & ~(Empleados.Fecha_contrato>'2015-01-01')
Empleados[condicion4]
#más complejo
Empleados[condicion1 | condicion4]

# Transformación y eliminación de variables

In [None]:
Empleados['Experiencia_lab']=Empleados.Edad-Empleados.Anios_estudio-5
Empleados['Balance']=Empleados.Ingresos-Empleados.Gastos
Empleados['log_exp']=np.log(Empleados.Edad)/np.exp(Empleados.Anios_estudio)
Empleados['log_exp2']=np.log(Empleados.Edad)-np.exp(Empleados.Anios_estudio)
aborrar=['log_exp','log_exp2']
Empleados=Empleados.drop(aborrar,axis=1)

# Normalizaciones

In [None]:
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import MinMaxScaler

In [None]:
SS=StandardScaler()
MM=MinMaxScaler()
varcuantis=['Edad','Anios_estudio','Ingresos','Gastos','Experiencia_lab','Balance']
SS.fit_transform(Empleados[varcuantis])
MM.fit_transform(Empleados[varcuantis])
(Empleados[varcuantis]-Empleados[varcuantis].mean())/Empleados[varcuantis].std()
(Empleados[varcuantis]-Empleados[varcuantis].min())/(Empleados[varcuantis].max()-Empleados[varcuantis].min())

# Binning

In [None]:
ing_min=int(Empleados.Ingresos.min()-1)
ing_max=int(Empleados.Ingresos.max()+2)
ing_ampl=int((ing_max-ing_min)/10)
intervalos = ["{0} - {1}".format(i+1,i+ing_ampl) for i in range(ing_min,ing_max,ing_ampl)]
Empleados['Ingreso_agrup']=pd.cut(Empleados.Ingresos,range(ing_min,ing_max+ing_ampl,ing_ampl),labels=intervalos)
Empleados[['Ingresos','Ingreso_agrup']]

# Variables indicadoras

In [None]:
pd.get_dummies(Empleados.Estado_civil)
pd.get_dummies(Empleados.Estado_civil,dummy_na=True)
pd.get_dummies(Empleados[varcategoricas],prefix=['SX_','EC_','SAT_'])