In [2]:
# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd
import numpy as np

# Visualización
# ------------------------------------------------------------------------------
import matplotlib.pyplot as plt
import seaborn as sns
import sys
sys.path.append("..")

# Evaluar linealidad de las relaciones entre las variables
# ------------------------------------------------------------------------------
from scipy.stats import shapiro, kstest

# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

# Gestión de los warnings
# -----------------------------------------------------------------------
import warnings
warnings.filterwarnings("ignore")

# Script de exploración: comparando columnas

from src.tolookandcompare import to_doc_info, to_doc_headtail, transform_info, transform_headtail

In [3]:
df_raw = pd.read_csv('../files/raw_data.csv')
df_limpio = pd.read_csv('../files/raw_data_limpio.csv')

In [4]:
# comprobamos los valores porcentuales e información esencial:
# media, mediana, moda
# número de valores únicos, número de registros, valores nulos, registros duplicados (si la información es relevante)
# la función to_doc imprime información en formato markdown
# si no lo necesitamos, mejor usar transform_info o transform_headtail para comparar

to_doc_info(df_raw,'remotework')



|    dtype: object  |   remotework   |
|-----------|---------------|
||
||1  22.35
||True  21.57
||False  18.95
||0  18.95
||Yes  18.18
||<br>
||**Media:** 0.5411255411255411
||**Mediana:** 1.0
||**Moda:** 1.0
||<br>
||Valores únicos: **5**
||Número de registros: **1678**
||Valores nulos: **0**
||Registros duplicados: **1673**|
---



In [5]:
# mismo resultado que la función to_doc_info, salvo que recomendado para gran volumen
# de registros diferentes: muestra los 5 mayores y los 5 menores porcentualmente.

to_doc_headtail(df_raw, 'roledepartament')


|    dtype: object  |   roledepartament   |
|-----------|---------------|
||
||**Top 5:**
||nan  81.41%
|| resEaRcH scIENTiSt  -  Research & Development   0.12%
|| rESEArcH SCiEntIst  -  Research & Development   0.12%
|| LABOrATOrY TEchnIcIAn  -  Research & Development   0.12%
|| Sales exECutIVE  -  Sales   0.12%
||**Bottom 5:**
||<br>
|| ManUFACtURiNg DiRECTOr  -  Research & Development   0.06%
|| ResEARcH DiReCToR  -  Research & Development   0.06%
|| MANAgER  -  Research & Development   0.06%
|| labORATORY TechnIcIaN  -  Research & Development   0.06%
|| heaLtHcArE repResENtATiVe  -  Research & Development   0.06%
||<br>
||**Media:** nan
||**Mediana:** nan
||**Moda:** nan
||<br>
||Valores únicos: **301**
||Número de registros: **1678**
||Valores nulos: **1366**
||Registros duplicados: **1377**|
---



In [6]:
print('COLUMNA COMPARADA 1:\n')
transform_info(df_raw,'remotework')
print('----<----<<---<----@')
print('@---->-->-----<-----')
print('COLUMNA COMPARADA 2:\n')
transform_info(df_limpio, 'remotework')

COLUMNA COMPARADA 1:

Valores únicos: 2
Número de registros: 1678
Valores nulos: 985
Registros duplicados: 1676
dtype: float64
----------------

Porcentajes:
remotework
NaN    58.70
1.0    22.35
0.0    18.95
Name: proportion, dtype: float64

Estadísticas descriptivas
---------------------------------
Media: 0.54
Mediana: 1.00
Moda: 1.0
----<----<<---<----@
@---->-->-----<-----
COLUMNA COMPARADA 2:

Valores únicos: 2
Número de registros: 1614
Valores nulos: 0
Registros duplicados: 1612
dtype: object
----------------

Porcentajes:
remotework
yes    61.96
no     38.04
Name: proportion, dtype: float64

Estadísticas descriptivas
---------------------------------
Media: nan
Mediana: nan
Moda: nan


In [7]:
# DEJO LA COMPARACIÓN PORQUE PUEDE HABER UNA IMPRECISIÓN EN LA TRANSFORMACIÓN 

print('COLUMNA COMPARADA 1:\n')
transform_info(df_raw,'remotework')
print('----<----<<---<----@')
print('@---->-->-----<-----')
print('COLUMNA COMPARADA 2:\n')
transform_info(df_limpio, 'remotework')

COLUMNA COMPARADA 1:

Valores únicos: 2
Número de registros: 1678
Valores nulos: 985
Registros duplicados: 1676
dtype: float64
----------------

Porcentajes:
remotework
NaN    58.70
1.0    22.35
0.0    18.95
Name: proportion, dtype: float64

Estadísticas descriptivas
---------------------------------
Media: 0.54
Mediana: 1.00
Moda: 1.0
----<----<<---<----@
@---->-->-----<-----
COLUMNA COMPARADA 2:

Valores únicos: 0
Número de registros: 1614
Valores nulos: 1614
Registros duplicados: 1614
dtype: float64
----------------

Porcentajes:
remotework
NaN    100.0
Name: proportion, dtype: float64

Estadísticas descriptivas
---------------------------------
Media: nan
Mediana: nan
Moda: nan


In [8]:
print('RAW DATA:\n')
transform_info(df_raw,'sameasmonthlyincome')
print('----<----<<---<----@')
print('@---->-->-----<-----')
print('TRANSFORMADO:\n')
transform_info(df_limpio,'monthlyincome')

RAW DATA:

Valores únicos: 493
Número de registros: 1678
Valores nulos: 489
Registros duplicados: 1185
dtype: object
----------------

Porcentajes:
sameasmonthlyincome
NaN          29.14
2342,59$     13.59
4492,84$     13.53
8339,32$      6.26
12783,92$     2.50
             ...  
1956,67$      0.06
10408,33$     0.06
6683,33$      0.06
7452,50$      0.06
3489,17$      0.06
Name: proportion, Length: 494, dtype: float64

Estadísticas descriptivas
---------------------------------
Media: nan
Mediana: nan
Moda: nan
----<----<<---<----@
@---->-->-----<-----
TRANSFORMADO:

Valores únicos: 715
Número de registros: 1614
Valores nulos: 0
Registros duplicados: 899
dtype: float64
----------------

Porcentajes:
monthlyincome
4492.840000     13.88
2342.590000     13.57
8339.320000      8.61
4492.842500      5.76
2342.594167      4.71
                ...  
1846.666667      0.06
3536.666667      0.06
1940.833333      0.06
3578.330000      0.06
13960.000000     0.06
Name: proportion, Length: 715, dty