### GESTIÓN DE NULOS

PONER PÁRRAFO EXPLICATIVO

In [1]:
# importamos las librerías que necesitamos

# Tratamiento de datos
import pandas as pd
import numpy as np
from IPython.display import display


# Librerías de visualización
import seaborn as sns
import matplotlib.pyplot as plt

In [2]:
# ver todas las columnas
pd.set_option('display.max_columns', None)

In [3]:
# ver todas las filas
pd.set_option('display.max_rows', None)

In [4]:
# Cargamos el csv

df = pd.read_csv("ABC_data_sin_columnas_redundantes.csv")

In [5]:
df.head(30)

Unnamed: 0,attrition,businesstravel,dailyrate,department,distancefromhome,education,educationfield,employeenumber,environmentsatisfaction,gender,jobinvolvement,joblevel,jobrole,jobsatisfaction,maritalstatus,monthlyincome,monthlyrate,numcompaniesworked,overtime,percentsalaryhike,performancerating,relationshipsatisfaction,standardhours,stockoptionlevel,totalworkingyears,trainingtimeslastyear,worklifebalance,yearsatcompany,yearssincelastpromotion,yearswithcurrmanager,datebirth,salary,roledepartament,remotework
0,No,,2015.722222,,6,3,,1,1,0,3,5,resEArch DIREcToR,3,,"16280,83$","42330,17$",7,No,13,30.0,3,Full Time,0,,5,30.0,20,15,15,1972,"195370,00$",,Yes
1,No,,2063.388889,,1,4,Life Sciences,2,3,0,2,5,ManAGeR,3,,,"43331,17$",0,,14,30.0,1,,1,340.0,5,30.0,33,11,9,1971,"199990,00$",,1
2,No,travel_rarely,1984.253968,Research & Development,4,2,Technical Degree,3,3,0,3,5,ManaGER,4,Married,,"41669,33$",1,No,11,30.0,4,,0,220.0,3,,22,11,15,1981,"192320,00$",ManaGER - Research & Development,1
3,No,travel_rarely,1771.404762,,2,4,Medical,4,1,1,3,4,ReseArCH DIrECtOr,3,Married,"14307,50$","37199,50$",3,,19,30.0,2,Full Time,2,,2,,20,5,6,1976,"171690,00$",,False
4,No,,1582.771346,,3,3,Technical Degree,5,1,1,4,4,sAleS EXECUtIve,1,Divorced,"12783,92$","33238,20$",2,No,12,30.0,4,,1,,5,30.0,19,2,8,1977,,,0
5,No,,1771.920635,Research & Development,22,3,Medical,6,4,1,3,4,MANAger,4,,"14311,67$","37210,33$",3,No,11,30.0,2,,1,,3,30.0,22,4,7,1975,,MANAger - Research & Development,Yes
6,No,,1032.487286,,25,3,Life Sciences,7,1,1,3,3,Sales ExeCutIVe,1,,"8339,32$","21682,23$",7,,11,30.0,4,Part Time,0,280.0,3,20.0,21,7,9,1964,"100071,84$",,True
7,No,travel_rarely,556.256661,,1,1,,8,2,0,3,2,Sales eXEcUTiVe,3,Married,,"11681,39$",1,No,25,40.0,3,Part Time,0,200.0,3,30.0,20,11,6,1981,"53914,11$",,0
8,No,,1712.18254,,2,5,,9,2,1,3,4,mANAGEr,1,Married,"13829,17$","35955,83$",7,No,16,30.0,2,Full Time,1,220.0,2,30.0,18,11,8,1982,"165950,00$",,True
9,No,travel_frequently,1973.984127,,9,3,,10,1,0,3,5,reSEaRCH DIrectoR,3,,"15943,72$","41453,67$",2,No,17,30.0,2,,1,210.0,2,40.0,18,0,11,1982,,,0


#### Conversión de tipos de datos

Antes de imputar nulos, es necesario que las columnas estén en el tipo correcto. Si no están en el tipo adecuado, pandas no podrá calcular medianas, modas etc y además podrían realizarse mal las imputaciones o convertir nulos en texto. 

Por tanto, el primer paso va a ser corregir los tipos de datos, es decir:

- Convertir columnas numéricas mal tipadas (object) a float o int.

- Normalizar las categóricas (Yes/No, True/False, etc.).

- Pasar las variables cualitativas a tipo category.

In [7]:
import pandas as pd
import numpy as np

# ====================================================
# CONVERTIR COLUMNAS OBJECT A NUMÉRICAS
# ====================================================
# Estas columnas son numéricas pero están mal tipadas (como texto)
cols_numericas = [
    'monthlyincome', 
    'monthlyrate', 
    'totalworkingyears', 
    'performancerating', 
    'worklifebalance'
]

for col in cols_numericas:
    if col in df.columns:
        df[col] = pd.to_numeric(df[col], errors='coerce')

# ====================================================
# NORMALIZAR VARIABLES BOOLEANAS / BINARIAS
# ====================================================
# Convertimos distintos formatos (1/0, True/False, Yes/No)
# a una forma estándar: 'Yes' / 'No'

if 'remotework' in df.columns:
    df['remotework'] = df['remotework'].replace({
        '1': 'Yes', '0': 'No', 
        'true': 'Yes', 'false': 'No', 
        'TRUE': 'Yes', 'FALSE': 'No'
    }).astype(str).str.strip().str.capitalize()

if 'overtime' in df.columns:
    df['overtime'] = df['overtime'].replace({
        '1': 'Yes', '0': 'No', 
        'true': 'Yes', 'false': 'No', 
        'TRUE': 'Yes', 'FALSE': 'No'
    }).astype(str).str.strip().str.capitalize()

# ====================================================
# CONVERTIR COLUMNAS CATEGÓRICAS A 'category'
# ====================================================
# Esto mejora la eficiencia y permite imputar mejor los nulos después
cols_categoricas = [
    'maritalstatus', 
    'businesstravel', 
    'department', 
    'educationfield', 
    'gender'
]

for col in cols_categoricas:
    if col in df.columns:
        df[col] = df[col].astype('category')

# ====================================================
# REVISIÓN FINAL DE TIPOS Y NULOS
# ====================================================
print("\n Tipos de datos actualizados:")
print(df.dtypes)




 Tipos de datos actualizados:
attrition                     object
businesstravel              category
dailyrate                    float64
department                  category
distancefromhome               int64
education                      int64
educationfield              category
employeenumber                 int64
environmentsatisfaction        int64
gender                      category
jobinvolvement                 int64
joblevel                       int64
jobrole                       object
jobsatisfaction                int64
maritalstatus               category
monthlyincome                float64
monthlyrate                  float64
numcompaniesworked             int64
overtime                      object
percentsalaryhike              int64
performancerating            float64
relationshipsatisfaction       int64
standardhours                 object
stockoptionlevel               int64
totalworkingyears            float64
trainingtimeslastyear          int64
worklif

Después,podrán gestionarse adecuadamente los nulos de forma precisa con media, mediana, moda etc según tipo.  Por tanto después de esa conversión que acabamos de comentar, se llevará a cabo la estrategia analizada en el archivo anterior de imputación de nulos en numéricas con la mediana e imputar nulos en categóricas con “Unknown” o la moda. En concreto, tenemos:

Variables numéricas con nulos imputables (imputar con mediana o media por grupo):

- monthlyincome → 29.14 % nulos → imputar con mediana por joblevel.

- totalworkingyears → 32.72 % nulos → imputar con mediana general.

- performancerating → 11.92 % nulos → imputar con moda (3.0).

- worklifebalance → 6.79 % nulos → imputar con moda (3.0).


Variables categóricas  (imputar con “Unknown”):

- maritalstatus → 40.23 % nulos → imputar con “unknown”.

- overtime → 41.48 % nulos → imputar con “unknown”.

- standardhours → (si la conservamos) 20.92 % nulos → “unknown”.


#### IMPUTACIÓN DE NULOS DE VARIABLES NUMÉRICAS

En el EDA inicial, las variables monthlyincome y totalworkingyears presentaban entre un 25 % y 30 % de valores nulos.
Sin embargo, durante el proceso de limpieza se realizó la conversión de tipos de datos desde object a float, para poder analizarlas correctamente como variables numéricas.
En esta conversión, pandas detectó que el resto de los valores que parecían válidos contenían caracteres no numéricos, espacios en blanco o formatos incorrectos (por ejemplo, 'NA', 'nan', 'None', símbolos o texto), y por tanto los convirtió automáticamente en NaN al aplicar pd.to_numeric(errors='coerce').

Como resultado, ambas columnas quedaron con el 100 % de los valores nulos, lo que impide su uso analítico o estadístico.

Por ello, se decidió eliminar ambas variables, ya que no aportaban información útil ni podían imputarse de forma fiable.

In [8]:
# IMPUTACIÓN DE NULOS EN VARIABLES NUMÉRICAS 


# performancerating → imputar con moda (3.0 si no hay)
if 'performancerating' in df.columns:
    moda_perf = df['performancerating'].mode()
    moda_perf = moda_perf[0] if not moda_perf.empty else 3.0
    df['performancerating'].fillna(moda_perf, inplace=True)

# worklifebalance → imputar con moda (3.0 si no hay)
if 'worklifebalance' in df.columns:
    moda_work = df['worklifebalance'].mode()
    moda_work = moda_work[0] if not moda_work.empty else 3.0
    df['worklifebalance'].fillna(moda_work, inplace=True)

# Verificación final
print("Nulos restantes en columnas numéricas:")
print(df[['performancerating', 'worklifebalance']].isna().sum())

Nulos restantes en columnas numéricas:
performancerating    0
worklifebalance      0
dtype: int64


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['performancerating'].fillna(moda_perf, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['worklifebalance'].fillna(moda_work, inplace=True)


#### IMPUTACIÓN DE NULOS DE VARIABLES CATEGÓRICAS

In [9]:
# IMPUTACIÓN DE NULOS EN VARIABLES CATEGÓRICAS (VERSIÓN COMPATIBLE CON CATEGORY)

""" Detecta si cada columna es de tipo categórico.

Si lo es, añade “Unknown” a la lista de categorías válidas antes de hacer el fillna().

Luego realiza la imputación y limpia el formato del texto.

Finalmente, muestra si quedan nulos."""


cat_cols_unknown = ['maritalstatus', 'overtime', 'standardhours']

for col in cat_cols_unknown:
    if col in df.columns:
        # Si la columna es categórica, añadir la categoría 'Unknown' si no existe
        if pd.api.types.is_categorical_dtype(df[col]):
            if 'Unknown' not in df[col].cat.categories:
                df[col] = df[col].cat.add_categories(['Unknown'])
        
        # Imputar los nulos con 'Unknown'
        df[col] = df[col].fillna('Unknown')

        # Limpiar formato y estandarizar capitalización
        df[col] = df[col].astype(str).str.strip().str.capitalize()

# ====================================================
# Verificación final
# ====================================================
print("Nulos restantes en variables categóricas imputadas:")
print(df[cat_cols_unknown].isna().sum())

Nulos restantes en variables categóricas imputadas:
maritalstatus    0
overtime         0
standardhours    0
dtype: int64


  if pd.api.types.is_categorical_dtype(df[col]):
  if pd.api.types.is_categorical_dtype(df[col]):
  if pd.api.types.is_categorical_dtype(df[col]):


In [11]:
# LIMPIEZA FINAL Y COMPROBACIONES COMPLETAS
# ====================================================

# Eliminar columnas sin datos válidos
cols_eliminar = ['monthlyincome', 'totalworkingyears']
df.drop(columns=cols_eliminar, inplace=True, errors='ignore')
print(f"Columnas eliminadas (si existían): {cols_eliminar}")

# Comprobación de nulos + tipo de dato
print("\n Nulos por columna (ordenados por porcentaje):")
nulos_df = pd.DataFrame({
    'Tipo de dato': df.dtypes.astype(str),
    'Nulos': df.isna().sum(),
    'Porcentaje (%)': (df.isna().sum() / len(df) * 100).round(2)
}).sort_values(by='Porcentaje (%)', ascending=False)

display(nulos_df)

# Resumen general de tipos de datos
print("\n Resumen de tipos de datos en el DataFrame:")
print(df.dtypes.value_counts())

Columnas eliminadas (si existían): ['monthlyincome', 'totalworkingyears']

 Nulos por columna (ordenados por porcentaje):


Unnamed: 0,Tipo de dato,Nulos,Porcentaje (%)
monthlyrate,float64,1614,100.0
department,category,1312,81.29
roledepartament,object,1312,81.29
businesstravel,category,772,47.83
educationfield,category,745,46.16
salary,object,274,16.98
dailyrate,float64,0,0.0
distancefromhome,int64,0,0.0
employeenumber,int64,0,0.0
environmentsatisfaction,int64,0,0.0



 Resumen de tipos de datos en el DataFrame:
int64       16
object       8
float64      4
category     1
category     1
category     1
category     1
Name: count, dtype: int64


Como puede observarse, al hacer las conversiones de tipos de datos, han aparecido nuevos nulos que en un primer momento en el EDA inicial no habíamos observado.

#### Variable monthlyrate

Ocurre lo mismo que anteriormente con  monthlyincome y totalworkingyears:

En el EDA inicial, como monthlyrate era object, pandas no reconocía los valores vacíos o erróneos como nulos reales. Al convertirla correctamente a float64, todos los valores no numéricos (por ejemplo " " o "NA") se transformaron en NaN.

El resultado es que la columna se queda completamente vacía y por tanto lo más adecada es eliminarla del dataset.

#### Variable department

De tipo category, tiene un porcentaje de nulos del 81.29 %. Este porcentaje de nulos es poco fiable y con  escasa capacidad explicativa.
Imputar con "Unknown" en este caso no aportaría valor, ya que casi todos los registros serían "Unknown", lo cual se distorsionaría la distribución,
aportaría poco a un modelo predictivo, y no tendría sentido analítico (no sabríamos realmente de qué departamento proviene la mayoría).

Por tanto, la mejor opción es eliminarla completamente del dataset.


#### Variable rolepdepartment

Es de tipo object, con un porcentaje de nulos del  81.29 % , presentando el mismo problema que department. Más del 80 % de sus valores están vacíos. Su nombre sugiere una relación directa o redundancia con department (probablemente describe el rol dentro del departamento). Imputar con "Unknown" en un 80 % de los registros no aporta información útil y puede introducir sesgo en cualquier análisis posterior.

Por tanto la mejor opción es también eliminar roledepartment del dataset.

A continuación eliminamos estas tres columnas:

In [13]:
# ELIMINAR COLUMNAS INÚTILES O VACÍAS
# ====================================================

cols_a_eliminar = ['monthlyrate', 'department', 'roledepartament']

df.drop(columns=cols_a_eliminar, inplace=True, errors='ignore')

print(f"Columnas eliminadas (si existían): {cols_a_eliminar}")

Columnas eliminadas (si existían): ['monthlyrate', 'department', 'roledepartament']


#### Variable businesstravel

Es de tipo category con un porcentaje de nulos del 47.83 %.

Esta variable representa el nivel o frecuencia de viajes de trabajo del empleado, una información potencialmente relevante para el análisis (por ejemplo, puede influir en el equilibrio trabajo-vida o en la satisfacción). Aunque el 47.83 % de valores nulos es alto, no tan extremo como para eliminarla, ya que conserva más de la mitad de registros válidos. Eliminarla haría perder información importante.

En este caso consideramos que la imputación con "Unknown" es una solución adecuada y coherente pues permite conservar la variable, evita sesgos al distinguir claramente los casos donde no se conoce la frecuencia de viajes y  mantiene la estructura categórica sin eliminar observaciones.


A continuación realizamos la imputación de ambas variables:

In [14]:
# IMPUTACIÓN DE NULOS EN 'businesstravel'
# ====================================================

if 'businesstravel' in df.columns:
    # Si la columna es categórica, añadir la categoría 'Unknown' si no existe
    if pd.api.types.is_categorical_dtype(df['businesstravel']):
        if 'Unknown' not in df['businesstravel'].cat.categories:
            df['businesstravel'] = df['businesstravel'].cat.add_categories(['Unknown'])
    
    # Imputar nulos
    df['businesstravel'].fillna('Unknown', inplace=True)
    
    # Estandarizar formato
    df['businesstravel'] = df['businesstravel'].astype(str).str.strip().str.capitalize()
    
    print("Nulos imputados en 'businesstravel' con 'Unknown'")

# ====================================================
# IMPUTACIÓN DE NULOS EN 'educationfield'
# ====================================================

if 'educationfield' in df.columns:
    # Si la columna es categórica, añadir la categoría 'Unknown' si no existe
    if pd.api.types.is_categorical_dtype(df['educationfield']):
        if 'Unknown' not in df['educationfield'].cat.categories:
            df['educationfield'] = df['educationfield'].cat.add_categories(['Unknown'])
    
    # Imputar nulos
    df['educationfield'].fillna('Unknown', inplace=True)
    
    # Estandarizar formato
    df['educationfield'] = df['educationfield'].astype(str).str.strip().str.capitalize()
    
    print("Nulos imputados en 'educationfield' con 'Unknown'")

Nulos imputados en 'businesstravel' con 'Unknown'
Nulos imputados en 'educationfield' con 'Unknown'


  if pd.api.types.is_categorical_dtype(df['businesstravel']):
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['businesstravel'].fillna('Unknown', inplace=True)
  if pd.api.types.is_categorical_dtype(df['educationfield']):
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['educationfield'].fillna('Unknown', inplace=True)


#### Variable educationfield

De tipo category con un porcentaje de nulos del  46.16 %.

Esta variable indica el campo educativo o área de formación del empleado (por ejemplo: Ingeniería, Ciencias, Humanidades…). Es una variable demográficamente y profesionalmente importante, que puede estar relacionada con el rendimiento, el puesto o el salario.

Aunque tiene casi la mitad de los valores faltantes, sigue siendo valiosa porque el resto de observaciones contiene información útil.
Eliminarla supondría perder una dimensión importante del perfil del empleado.

En este caso, imputar los nulos con "Unknown" es la opción más adecuada pues conserva la variable, evita pérdida de información, no introduce sesgo al distinguir los casos sin datos educativos. 

#### Variable salary

La variable salary contenía valores numéricos en formato texto con comas como separador decimal y el símbolo $.
Se realizó una limpieza del formato (sustitución de comas por puntos y eliminación del símbolo de moneda) y conversión a tipo numérico.
Posteriormente, los valores nulos (16.98 %) se imputaron con la mediana del conjunto, garantizando una distribución realista sin distorsionar los extremos.

In [15]:
print(df['salary'].dropna().unique()[:20])

['195370,00$' '199990,00$' '192320,00$' '171690,00$' '100071,84$'
 '53914,11$' '165950,00$' '199730,00$' '134020,00$' '132060,00$'
 '195450,00$' '180410,00$' '192460,00$' '107480,00$' '167520,00$'
 '62010,00$' '198450,00$' '40010,00$' '104470,00$' '191324,62$']


In [16]:
# ====================================================
# LIMPIEZA Y CONVERSIÓN DE LA VARIABLE 'salary'
# ====================================================

if 'salary' in df.columns:
    # Reemplazar comas por puntos y eliminar el símbolo de dólar
    df['salary'] = df['salary'].astype(str).str.replace(',', '.').str.replace('$', '').str.strip()

    # Convertir a tipo numérico
    df['salary'] = pd.to_numeric(df['salary'], errors='coerce')

    # Imputar nulos con la mediana
    mediana_salary = df['salary'].median()
    df['salary'].fillna(mediana_salary, inplace=True)

    print("'salary' convertida a numérica y nulos imputados con la mediana.")
    print(df['salary'].head())
    print("\n Tipo de dato actual:", df['salary'].dtype)

'salary' convertida a numérica y nulos imputados con la mediana.
0    195370.00
1    199990.00
2    192320.00
3    171690.00
4     53914.11
Name: salary, dtype: float64

 Tipo de dato actual: float64


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['salary'].fillna(mediana_salary, inplace=True)


In [17]:
# COMPROBACIÓN DE NULOS EN 'salary'
# ====================================================

nulos_salary = df['salary'].isna().sum()
porcentaje_nulos = round((nulos_salary / len(df)) * 100, 2)

print(f"Nulos en 'salary': {nulos_salary} ({porcentaje_nulos}%)")
print(f"Tipo de dato actual: {df['salary'].dtype}")
print(f"Ejemplo de valores: {df['salary'].head().to_list()}")

Nulos en 'salary': 0 (0.0%)
Tipo de dato actual: float64
Ejemplo de valores: [195370.0, 199990.0, 192320.0, 171690.0, 53914.11]


### COMPROBACIÓN DE NULOS EN EL DATASET

Se observa que ya no queda ninguno

In [18]:
# COMPROBACIÓN FINAL DE NULOS EN EL DATASET
# ====================================================

nulos_restantes = pd.DataFrame({
    'Tipo de dato': df.dtypes.astype(str),
    'Nulos': df.isna().sum(),
    'Porcentaje (%)': (df.isna().sum() / len(df) * 100).round(2)
}).sort_values(by='Porcentaje (%)', ascending=False)

print("Nulos por columna (ordenados por porcentaje):")
display(nulos_restantes)

# Resumen rápido
total_nulos = df.isna().sum().sum()
print(f"\n Total de valores nulos en el dataset: {total_nulos}")

Nulos por columna (ordenados por porcentaje):


Unnamed: 0,Tipo de dato,Nulos,Porcentaje (%)
attrition,object,0,0.0
businesstravel,object,0,0.0
dailyrate,float64,0,0.0
distancefromhome,int64,0,0.0
education,int64,0,0.0
educationfield,object,0,0.0
employeenumber,int64,0,0.0
environmentsatisfaction,int64,0,0.0
gender,category,0,0.0
jobinvolvement,int64,0,0.0



 Total de valores nulos en el dataset: 0


In [19]:
df.head()

Unnamed: 0,attrition,businesstravel,dailyrate,distancefromhome,education,educationfield,employeenumber,environmentsatisfaction,gender,jobinvolvement,joblevel,jobrole,jobsatisfaction,maritalstatus,numcompaniesworked,overtime,percentsalaryhike,performancerating,relationshipsatisfaction,standardhours,stockoptionlevel,trainingtimeslastyear,worklifebalance,yearsatcompany,yearssincelastpromotion,yearswithcurrmanager,datebirth,salary,remotework
0,No,Unknown,2015.722222,6,3,Unknown,1,1,0,3,5,resEArch DIREcToR,3,Unknown,7,No,13,3.0,3,Full time,0,5,3.0,20,15,15,1972,195370.0,Yes
1,No,Unknown,2063.388889,1,4,Life sciences,2,3,0,2,5,ManAGeR,3,Unknown,0,Nan,14,3.0,1,Unknown,1,5,3.0,33,11,9,1971,199990.0,Yes
2,No,Travel_rarely,1984.253968,4,2,Technical degree,3,3,0,3,5,ManaGER,4,Married,1,No,11,3.0,4,Unknown,0,3,3.0,22,11,15,1981,192320.0,Yes
3,No,Travel_rarely,1771.404762,2,4,Medical,4,1,1,3,4,ReseArCH DIrECtOr,3,Married,3,Nan,19,3.0,2,Full time,2,2,3.0,20,5,6,1976,171690.0,False
4,No,Unknown,1582.771346,3,3,Technical degree,5,1,1,4,4,sAleS EXECUtIve,1,Divorced,2,No,12,3.0,4,Unknown,1,5,3.0,19,2,8,1977,53914.11,No


In [20]:
df.to_csv("ABC_data_sin_nulos.csv", index=False, encoding='utf-8')