# Limpieza de Datos (Data Cleaning)

La fase de limpieza de datos es como la "puesta a punto" de los datos antes de que realmente los utilicemos en nuestro análisis. Imagina que estamos preparando una receta: antes de empezar a cocinar, necesitamos lavar, pelar y cortar los ingredientes para asegurarnos de que estén listos para usar. Bueno, en la limpieza de datos, hacemos algo similar, pero con nuestros datos.

Primero, importamos las librerías de Python que necesitamos. Estas son como nuestras herramientas de cocina, como un cuchillo afilado o una tabla de cortar.

Luego, leemos nuestro conjunto de datos. Es como si estuviéramos abriendo la despensa para ver qué ingredientes tenemos disponibles.

Después, viene la parte divertida: ejecutamos una serie de instrucciones en nuestro entorno de Python para limpiar y preparar los datos. Esto implica cosas como eliminar valores duplicados, corregir errores tipográficos, llenar valores faltantes o eliminar columnas que no necesitamos. Básicamente, estamos asegurándonos de que nuestros datos estén en buena forma antes de empezar a analizarlos en serio.

Y ahí lo tienes, eso es básicamente lo que hacemos en la fase de limpieza de datos. ¡Ahora estamos listos para empezar a cocinar con nuestros datos! 🍳🔍


# Importar librerias

In [1]:
import pandas as pd #Librería para manipulación y análisis de datos.
import numpy as np #Librería para operaciones matriciales y numéricas en Python. 
import matplotlib.pyplot as plt #Parte de Matplotlib, es una librería para crear visualizaciones estáticas, animadas e interactivas en Python.
import seaborn as sns #Basada en Matplotlib, es una librería de visualización de datos estadísticos.
import missingno as msno #Librería para visualizar patrones de datos faltantes o nulos. 
import inflection #Librería para convertir entre distintos estilos de nombres de variables
import warnings #Librería estándar de Python que gestiona advertencias durante la ejecución del código. 
import re

# Permite mostrar figuras de matplotlib en el entorno de Jupyter Notebook
%matplotlib inline

# Ignorar las advertencias de Seaborn
warnings.filterwarnings("ignore")

# Carga del archivo
El equipo Henry proporcionó un archivo en formato CSV denominado 'ML_cars', que decidimos renombrar como 'ML_cars original.csv' para mayor claridad. Este archivo fue almacenado en GitHub para facilitar el acceso y la colaboración.


In [5]:
cars = pd.read_csv(r"C:\Users\Gary Alexander Bean\Desktop\Proyecto-Integrador-M6\database\ML_cars original.csv")

# Vista previa de los primeros registros

In [6]:
cars.head()

Unnamed: 0,car_ID,symboling,CarName,fueltype,aspiration,doornumber,carbody,drivewheel,enginelocation,wheelbase,...,enginesize,fuelsystem,boreratio,stroke,compressionratio,horsepower,peakrpm,citympg,highwaympg,price
0,1,3,alfa-romero giulia,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495.0
1,2,3,alfa-romero stelvio,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500.0
2,3,1,alfa-romero Quadrifoglio,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500.0
3,4,2,audi 100 ls,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950.0
4,5,2,audi 100ls,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450.0


# Estadisticas generales del conjunto de datos

In [7]:
print("-----------------------------------------------")
print("\nEstadísticas generales del conjunto de datos ")
print("-----------------------------------------------")
print(cars.info())

-----------------------------------------------

Estadísticas generales del conjunto de datos 
-----------------------------------------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 205 entries, 0 to 204
Data columns (total 26 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   car_ID            205 non-null    int64  
 1   symboling         205 non-null    int64  
 2   CarName           205 non-null    object 
 3   fueltype          205 non-null    object 
 4   aspiration        205 non-null    object 
 5   doornumber        205 non-null    object 
 6   carbody           205 non-null    object 
 7   drivewheel        205 non-null    object 
 8   enginelocation    205 non-null    object 
 9   wheelbase         205 non-null    float64
 10  carlength         205 non-null    float64
 11  carwidth          205 non-null    float64
 12  carheight         205 non-null    float64
 13  curbweight        205 non-null    int64  
