# Lectura, Limpieza y Exportación de Datos con Pandas

## Objetivos

1. **Cargar datasets desde diferentes formatos** (CSV, JSON, Excel, SQL, etc.) utilizando parámetros adecuados (`sep`, `na_values`, `parse_dates`, etc.).  
2. **Detectar y tratar valores faltantes y sucios** (`NaN`, `NULL`, `?`, vacíos), transformándolos en un formato uniforme.  
3. **Ajustar tipos de datos** (fechas, números, cadenas, IDs) para que el dataset sea más consistente.  
4. **Aplicar análisis preliminar** (`info()`, `head()`,shape) para conocer la estructura y calidad de los datos.  
5. **Exportar el DataFrame limpio en múltiples formatos** (CSV, Excel, JSON, SQL, y opcionalmente binarios como Pickle/Parquet/HDF5).  


##  Librerías


In [7]:
import pandas as pd
import numpy as np
import sqlite3
import os

## Lectura de dataset desde una fuente externa o local


In [10]:
# Cargar dataset de autos con configuración correcta
df = pd.read_csv(
    "datasets/car_data.csv",
    sep=";",                           # archivo usa punto y coma
    na_values=["NA", "NULL", "?", ""], # normalizar nulos
    parse_dates=["Date"],              # columna de fechas
    thousands=",",                     # separador de miles en Price ($)
    decimal=".",                       # separador decimal
    dtype={
        "Car_id": "string",            # Car_id es alfanumérico
        "Dealer_No": "string",         # códigos de dealer
        "Phone": "string"              # teléfono como string
    }
)

# Limpiar espacios en nombres de columnas
df.columns = df.columns.str.strip()

print("✅ Dataset cargado correctamente")
print(f"📏 Dimensiones: {df.shape}")
print(f"📋 Columnas: {list(df.columns)}")


✅ Dataset cargado correctamente
📏 Dimensiones: (23879, 16)
📋 Columnas: ['Car_id', 'Date', 'Customer Name', 'Gender', 'Annual Income', 'Dealer_Name', 'Company', 'Model', 'Engine', 'Transmission', 'Color', 'Price ($)', 'Dealer_No', 'Body Style', 'Phone', 'Dealer_Region']


## 🔍 Exploración rápida de los datos

Ahora que tenemos el dataset cargado, vamos a explorarlo de forma básica para entender qué contiene:



In [11]:
# 1. ¿Cómo se ven las primeras filas?
print("\nPrimeras filas:")
print(df.head())

# 2. ¿Cuántas filas y columnas tiene?
print("Shape (filas, columnas):", df.shape)

# 3. ¿Qué tipos de datos hay?
print("\nTipos de datos y memoria:")
print(df.info())




Primeras filas:
         Car_id       Date Customer Name Gender  Annual Income  \
0  C_CND_000001 2022-01-02     Geraldine   Male        13500.0   
1  C_CND_000002 2022-01-02           Gia   Male      1480000.0   
2  C_CND_000003 2022-01-02        Gianna   Male      1035000.0   
3  C_CND_000004 2022-01-02       Giselle   Male        13500.0   
4  C_CND_000005 2022-01-02         Grace   Male      1465000.0   

                           Dealer_Name   Company       Model  \
0  Buddy Storbeck's Diesel Service Inc      Ford  Expedition   
1                     C & M Motors Inc     Dodge     Durango   
2                          Capitol KIA  Cadillac    Eldorado   
3               Chrysler of Tri-Cities    Toyota      Celica   
4                    Chrysler Plymouth     Acura          TL   

                      Engine Transmission       Color  Price ($)   Dealer_No  \
0  DoubleÂ Overhead Camshaft         Auto       Black    26000.0  06457-3834   
1  DoubleÂ Overhead Camshaft         Auto

# Limpieza de Datos


In [4]:

print("Valores faltantes por columna:")
missing = df.isnull().sum()
missing_pct = (df.isnull().sum() / len(df) * 100).round(1)
missing_report = pd.DataFrame({
    'Faltantes': missing,
    'Porcentaje': missing_pct
}).sort_values('Porcentaje', ascending=False)

# Solo mostrar columnas con valores faltantes
print(missing_report[missing_report['Faltantes'] > 0])

❓ Valores faltantes por columna:
               Faltantes  Porcentaje
Car_id             23768        99.5
Date               23768        99.5
Customer Name      23768        99.5
Gender             23768        99.5
Annual Income      23768        99.5
Dealer_Name        23768        99.5
Company            23768        99.5
Model              23768        99.5
Engine             23768        99.5
Transmission       23768        99.5
Color              23768        99.5
Price ($)          23768        99.5
Dealer_No          23768        99.5
Body Style         23768        99.5
Phone              23768        99.5
Dealer_Region      23768        99.5


In [12]:
## Exportación del dataset trabajado a una fuente externa o local


In [5]:
# Crear carpeta de exportación
os.makedirs("export", exist_ok=True)

# Exportar en diferentes formatos
df.to_csv("export/car_data_clean.csv", index=False, encoding="utf-8")
df.to_excel("export/car_data_clean.xlsx", index=False)
df.to_json("export/car_data_clean.json", orient="records", indent=2, force_ascii=False)

print("✅ Datos exportados en:")
print("   📄 CSV: export/car_data_clean.csv")
print("   📊 Excel: export/car_data_clean.xlsx")
print("   🔗 JSON: export/car_data_clean.json")

print(f"\n📏 Exportamos {len(df):,} registros con {len(df.columns)} columnas")

✅ Datos exportados en:
   📄 CSV: export/car_data_clean.csv
   📊 Excel: export/car_data_clean.xlsx
   🔗 JSON: export/car_data_clean.json

📏 Exportamos 23,879 registros con 16 columnas
