# Creación DataFrames con Pandas

**Curso:** Python para Ciencia de Datos
**Tema:** Creación DataFrames desde diferentes objetivos: Listas, Diccionarios, Archivos CSV, JSON, Excel, etc.
**Fecha:** 07 de Octubre, 2025

---

In [44]:
# Invocación de clases para cargar datos sin preocuparse por encoding
from data_loader import load_data, load_and_clean
import pandas as pd

# Cargar cualquier archivo sin preocuparte por encoding
df = load_data('online_retail.csv')

print(df.head())

📊 Separador detectado: ','
🔤 Encoding detectado: ascii (100.0% confianza)
⚠️ Error de encoding, intentando con latin-1
  InvoiceNo StockCode                          Description  Quantity  \
0    536365    85123A   WHITE HANGING HEART T-LIGHT HOLDER         6   
1    536365     71053                  WHITE METAL LANTERN         6   
2    536365    84406B       CREAM CUPID HEARTS COAT HANGER         8   
3    536365    84029G  KNITTED UNION FLAG HOT WATER BOTTLE         6   
4    536365    84029E       RED WOOLLY HOTTIE WHITE HEART.         6   

    InvoiceDate  UnitPrice  CustomerID         Country  
0  12/1/10 8:26       2.55     17850.0  United Kingdom  
1  12/1/10 8:26       3.39     17850.0  United Kingdom  
2  12/1/10 8:26       2.75     17850.0  United Kingdom  
3  12/1/10 8:26       3.39     17850.0  United Kingdom  
4  12/1/10 8:26       3.39     17850.0  United Kingdom  


# Limpieza y Preparación de Datos con Pandas

La calidad de un análisis de datos o de un modelo de machine learning depende directamente de la calidad de los datos de entrada. El proceso de **limpieza de datos** (o *data cleaning*) consiste en identificar y corregir errores, inconsistencias y valores faltantes en un dataset para asegurar que sea preciso y fiable.

**Pandas** es la librería por excelencia en Python para esta tarea, ofreciéndonos un arsenal de herramientas para transformar datos "sucios" en un formato limpio y estructurado.

## 1. Preparación: Creando un Dataset "Sucio"

Para nuestro ejercicio, vamos a crear un pequeño DataFrame de Pandas que simula los problemas más comunes que encontrarás en el mundo real: valores faltantes, tipos de datos incorrectos, duplicados y texto inconsistente.

In [45]:
import pandas as pd
import numpy as np

# Creamos un diccionario con datos "sucios"
data = {
    'fecha_venta': ['2025-10-01', '2025-10-02', '2025-10-03', '2025-10-03', '2025-10-05', '2025-10-06'],
    'producto': [' Laptop ', 'Mouse', 'Teclado', 'Teclado', 'Monitor', ' laptop '],
    'precio': [1200, 45, '70.0', '70.0', 320, 1250],
    'cantidad': [1, 2, 1, 1, np.nan, 1] # np.nan representa un valor faltante
}

# Creamos el DataFrame
df = pd.DataFrame(data)

print("--- DataFrame Original (Sucio) ---")
df

--- DataFrame Original (Sucio) ---


Unnamed: 0,fecha_venta,producto,precio,cantidad
0,2025-10-01,Laptop,1200.0,1.0
1,2025-10-02,Mouse,45.0,2.0
2,2025-10-03,Teclado,70.0,1.0
3,2025-10-03,Teclado,70.0,1.0
4,2025-10-05,Monitor,320.0,
5,2025-10-06,laptop,1250.0,1.0


## 2. Primer Vistazo y Conversión de Tipos

El primer paso siempre es entender nuestros datos. Usamos `.info()` para ver un resumen, incluyendo los tipos de datos de cada columna.

**Observaciones:**
* `fecha_venta` es un `object` (texto), cuando debería ser una fecha.
* `precio` es un `object` porque contiene valores de texto.
* `cantidad` tiene un valor faltante (5 non-null de 6).

In [47]:
# .info() nos da un diagnóstico rápido del DataFrame
df.info()


# Convertimos la columna de fecha a un tipo de dato de fecha real
df['fecha_venta'] = pd.to_datetime(df['fecha_venta'])

# Convertimos el precio a un tipo numérico, 'coerce' convierte errores en NaT
df['precio'] = pd.to_numeric(df['precio'], errors='coerce')

print("\n--- DataFrame con Tipos Corregidos ---")
df.info()



<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   fecha_venta  6 non-null      object 
 1   producto     6 non-null      object 
 2   precio       6 non-null      object 
 3   cantidad     5 non-null      float64
dtypes: float64(1), object(3)
memory usage: 324.0+ bytes

--- DataFrame con Tipos Corregidos ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype         
---  ------       --------------  -----         
 0   fecha_venta  6 non-null      datetime64[ns]
 1   producto     6 non-null      object        
 2   precio       6 non-null      float64       
 3   cantidad     5 non-null      float64       
dtypes: datetime64[ns](1), float64(2), object(1)
memory usage: 324.0+ bytes


## 3. Manejo de Valores Faltantes (NaN)

Los valores faltantes son el enemigo de muchos análisis y modelos. Tenemos dos estrategias principales:

1.  **Eliminarlos (`.dropna()`):** Rápido y fácil, pero puedes perder información valiosa si eliminas muchas filas.
2.  **Imputarlos (`.fillna()`):** Reemplazarlos con un valor estimado (como la media, la mediana o un valor constante).

In [48]:
# Primero, vemos cuántos valores faltantes hay por columna
print("--- Valores Faltantes por Columna ---")
print(df.isnull().sum())

# Decidimos imputar la cantidad faltante con la mediana de esa columna
mediana_cantidad = df['cantidad'].median()
df['cantidad'].fillna(mediana_cantidad, inplace=True)

print("\n--- DataFrame sin Valores Faltantes ---")
print(df.isnull().sum())

--- Valores Faltantes por Columna ---
fecha_venta    0
producto       0
precio         0
cantidad       1
dtype: int64

--- DataFrame sin Valores Faltantes ---
fecha_venta    0
producto       0
precio         0
cantidad       0
dtype: int64


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['cantidad'].fillna(mediana_cantidad, inplace=True)


## 4. Eliminación de Duplicados

Los datos duplicados pueden sesgar nuestros resultados (ej. contar una venta dos veces).

* **`.duplicated()`**: Identifica las filas que son duplicados exactos.
* **`.drop_duplicates()`**: Elimina esas filas duplicadas.

In [49]:
# Verificamos si hay filas duplicadas
print(f"Número de filas duplicadas: {df.duplicated().sum()}")

# Eliminamos las filas duplicadas, 'inplace=True' modifica el DataFrame directamente
df.drop_duplicates(inplace=True)

print(f"DataFrame después de eliminar duplicados. Filas restantes: {len(df)}")

Número de filas duplicadas: 1
DataFrame después de eliminar duplicados. Filas restantes: 5


## 5. Limpieza de Texto y Creación de Nuevas Columnas

A menudo, los datos de texto son inconsistentes. Es una buena práctica estandarizarlos (ej. a minúsculas, sin espacios extra). También podemos crear nuevas columnas a partir de las existentes.

In [55]:
# Limpiamos la columna 'producto' usando métodos de string (.str)
df['producto'] = df['producto'].str.strip().str.lower()

# Creamos una nueva columna 'ingreso_total'
df['ingreso_total'] = df['precio'] * df['cantidad']

print("--- DataFrame Final y Limpio ---")
df

--- DataFrame Final y Limpio ---


Unnamed: 0,fecha_venta,producto,precio,cantidad,ingreso_total
0,2025-10-01,laptop,1200.0,1.0,1200.0
1,2025-10-02,mouse,45.0,2.0,90.0
2,2025-10-03,teclado,70.0,1.0,70.0
4,2025-10-05,monitor,320.0,1.0,320.0
5,2025-10-06,laptop,1250.0,1.0,1250.0
