In [7]:
# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd
import numpy as np

# Visualización
# ------------------------------------------------------------------------------
import matplotlib.pyplot as plt
import seaborn as sns

# Evaluar linealidad de las relaciones entre las variables
# ------------------------------------------------------------------------------
from scipy.stats import shapiro, kstest

# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

# Gestión de los warnings
# -----------------------------------------------------------------------
import warnings
warnings.filterwarnings("ignore")

# Script de exploración: comparando columnas

from src.tolookandcompare import to_doc_info, to_doc_headtail, transform_info, transform_headtail

In [60]:
df_raw = pd.read_csv('files/raw_data.csv')
df_limpio = pd.read_csv('files/raw_data_limpio.csv')

In [57]:
# comprobamos los valores porcentuales e información esencial:
# media, mediana, moda
# número de valores únicos, número de registros, valores nulos, registros duplicados (si la información es relevante)
# la función to_doc imprime información en formato markdown
# si no lo necesitamos, mejor usar transform_info o transform_headtail para comparar

to_doc_info(df_raw,'remotework')



|    dtype: object  |   remotework   |
|-----------|---------------|
||
||1  22.35
||True  21.57
||False  18.95
||0  18.95
||Yes  18.18
||<br>
||**Media:** 0.5411255411255411
||**Mediana:** 1.0
||**Moda:** 1.0
||<br>
||Valores únicos: **5**
||Número de registros: **1678**
||Valores nulos: **0**
||Registros duplicados: **1673**|
---



In [52]:
# mismo resultado que la función to_doc_info, salvo que recomendado para gran volumen
# de registros diferentes: muestra los 5 mayores y los 5 menores porcentualmente.

to_doc_headtail(df_raw, 'roledepartament')


|    dtype: object  |   roledepartament   |
|-----------|---------------|
||
||**Top 5:**
||nan  81.41%
|| Sales exECutIVE  -  Sales   0.12%
|| humAN resoURCEs  -  Human Resources   0.12%
|| labORAtoRy tEcHNICIAN  -  Research & Development   0.12%
|| hEalthCaRe reprEseNTaTiVe  -  Research & Development   0.12%
||**Bottom 5:**
||<br>
|| RESEArCH sCIenTIst  -  Research & Development   0.06%
|| hUMAn reSoUrCES  -  Human Resources   0.06%
|| HUmAN rESOuRceS  -  Human Resources   0.06%
|| SALEs REpRESentatIve  -  Sales   0.06%
|| heaLtHcArE repResENtATiVe  -  Research & Development   0.06%
||<br>
||**Media:** nan
||**Mediana:** nan
||**Moda:** nan
||<br>
||Valores únicos: **301**
||Número de registros: **1678**
||Valores nulos: **1366**
||Registros duplicados: **1377**|
---



In [None]:
print('COLUMNA COMPARADA 1:\n')
transform_info(df_raw,'remotework')
print('----<----<<---<----@')
print('@---->-->-----<-----')
print('COLUMNA COMPARADA 2:\n')
transform_info(df_limpio, 'remotework')

In [None]:
# DEJO LA COMPARACIÓN PORQUE PUEDE HABER UNA IMPRECISIÓN EN LA TRANSFORMACIÓN 

print('COLUMNA COMPARADA 1:\n')
transform_info(df_raw,'remotework')
print('----<----<<---<----@')
print('@---->-->-----<-----')
print('COLUMNA COMPARADA 2:\n')
transform_info(df_limpio, 'remotework')

COLUMNA COMPARADA 1:

Valores únicos: 5
Número de registros: 1678
Valores nulos: 0
Registros duplicados: 1673
dtype: object
----------------

Porcentajes:
remotework
1        22.35
True     21.57
False    18.95
0        18.95
Yes      18.18
Name: proportion, dtype: float64

Estadísticas descriptivas
---------------------------------
Media: 0.54
Mediana: 1.00
Moda: 1.0
----<----<<---<----@
@---->-->-----<-----
COLUMNA COMPARADA 2:

Valores únicos: 2
Número de registros: 1614
Valores nulos: 945
Registros duplicados: 1612
dtype: object
----------------

Porcentajes:
remotework
NaN    58.55
yes    22.30
no     19.14
Name: proportion, dtype: float64

Estadísticas descriptivas
---------------------------------
Media: nan
Mediana: nan
Moda: nan


In [38]:
print('RAW DATA:\n')
transform_info(df_raw,'sameasmonthlyincome')
print('----<----<<---<----@')
print('@---->-->-----<-----')
print('TRANSFORMADO:\n')
transform_info(df_limpio,'monthlyincome')

RAW DATA:

Valores únicos: 493
Número de registros: 1678
Valores nulos: 489
Registros duplicados: 1185
dtype: object
----------------

Porcentajes:
sameasmonthlyincome
NaN          29.14
2342,59$     13.59
4492,84$     13.53
8339,32$      6.26
12783,92$     2.50
             ...  
1980,00$      0.06
2115,83$      0.06
1923,33$      0.06
2241,67$      0.06
15034,17$     0.06
Name: proportion, Length: 494, dtype: float64

Estadísticas descriptivas
---------------------------------
Media: nan
Mediana: nan
Moda: nan
----<----<<---<----@
@---->-->-----<-----
TRANSFORMADO:

Valores únicos: 715
Número de registros: 1614
Valores nulos: 0
Registros duplicados: 899
dtype: float64
----------------

Porcentajes:
monthlyincome
4492.840000     13.88
2342.590000     13.57
8339.320000      8.61
4492.842500      5.76
2342.594167      4.71
                ...  
1811.670000      0.06
2119.170000      0.06
5448.333333      0.06
1848.330000      0.06
16026.666667     0.06
Name: proportion, Length: 715, dty