In [4]:
# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd
import numpy as np

# Visualización
# ------------------------------------------------------------------------------
import matplotlib.pyplot as plt
import seaborn as sns

# Evaluar linealidad de las relaciones entre las variables
# ------------------------------------------------------------------------------
from scipy.stats import shapiro, kstest

# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

# Gestión de los warnings
# -----------------------------------------------------------------------
import warnings
warnings.filterwarnings("ignore")

# Script de exploración: comparando columnas

from src.tolookandcompare import to_doc_info, to_doc_headtail, transform_info, transform_headtail

In [5]:
df_raw = pd.read_csv('files/raw_data.csv')
df_limpio = pd.read_csv('files/raw_data_limpio.csv')

In [6]:
# comprobamos los valores porcentuales e información esencial:
# media, mediana, moda
# número de valores únicos, número de registros, valores nulos, registros duplicados (si la información es relevante)
# la función to_doc imprime información en formato markdown
# si no lo necesitamos, mejor usar transform_info o transform_headtail para comparar

to_doc_info(df_raw,'environmentsatisfaction')



|    dtype: int64  |   environmentsatisfaction   |
|-----------|---------------|
||
||4  28.78
||3  28.07
||2  18.83
||1  18.24
||12  0.42
||35  0.42
||13  0.36
||14  0.36
||47  0.3
||24  0.3
||41  0.24
||42  0.24
||46  0.24
||36  0.24
||48  0.24
||20  0.18
||22  0.18
||11  0.18
||18  0.18
||45  0.18
||27  0.18
||25  0.18
||17  0.18
||37  0.12
||38  0.12
||16  0.12
||31  0.12
||15  0.12
||19  0.12
||29  0.12
||28  0.06
||33  0.06
||21  0.06
||39  0.06
||49  0.06
||10  0.06
||26  0.06
||43  0.06
||<br>
||**Media:** 4.264004767580453
||**Mediana:** 3.0
||**Moda:** 4.0
||<br>
||Valores únicos: **38**
||Número de registros: **1678**
||Valores nulos: **0**
||Registros duplicados: **1640**|
---



In [7]:
# mismo resultado que la función to_doc_info, salvo que recomendado para gran volumen
# de registros diferentes: muestra los 5 mayores y los 5 menores porcentualmente.

to_doc_headtail(df_raw, 'environmentsatisfaction')


|    dtype: int64  |   environmentsatisfaction   |
|-----------|---------------|
||
||**Top 5:**
||4  28.78%
||3  28.07%
||2  18.83%
||1  18.24%
||12  0.42%
||**Bottom 5:**
||<br>
||39  0.06%
||49  0.06%
||10  0.06%
||26  0.06%
||43  0.06%
||<br>
||**Media:** 4.264004767580453
||**Mediana:** 3.0
||**Moda:** 4.0
||<br>
||Valores únicos: **38**
||Número de registros: **1678**
||Valores nulos: **0**
||Registros duplicados: **1640**|
---



In [8]:
print('RAW DATA:\n')
transform_info(df_raw,'environmentsatisfaction')
print('----<----<<---<----@')
print('@---->-->-----<-----')
print('TRANSFORMADO:\n')
transform_info(df_limpio,'environmentsatisfaction')

RAW DATA:

Valores únicos: 38
Número de registros: 1678
Valores nulos: 0
Registros duplicados: 1640
dtype: int64
----------------

Porcentajes:
environmentsatisfaction
4     28.78
3     28.07
2     18.83
1     18.24
12     0.42
35     0.42
13     0.36
14     0.36
47     0.30
24     0.30
41     0.24
42     0.24
46     0.24
36     0.24
48     0.24
20     0.18
22     0.18
11     0.18
18     0.18
45     0.18
27     0.18
25     0.18
17     0.18
37     0.12
38     0.12
16     0.12
31     0.12
15     0.12
19     0.12
29     0.12
28     0.06
33     0.06
21     0.06
39     0.06
49     0.06
10     0.06
26     0.06
43     0.06
Name: proportion, dtype: float64

Estadísticas descriptivas
---------------------------------
Media: 4.26
Mediana: 3.00
Moda: 4.0
----<----<<---<----@
@---->-->-----<-----
TRANSFORMADO:

Valores únicos: 5
Número de registros: 1614
Valores nulos: 0
Registros duplicados: 1609
dtype: int64
----------------

Porcentajes:
environmentsatisfaction
4    29.99
3    29.24
2    19.89
