<a href="https://colab.research.google.com/github/manuelarguelles/fundamentos_python_y_limpieza_101/blob/main/1_Fundamentos_de_Python_y_Limpieza_de_Datos_con_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
x = 5
y = 6
print (5+6)

11


# Sesión 4.18: Fundamentos de Python y Limpieza de Datos con Pandas

## Objetivos de la Sesión
1. Configurar entorno con Jupyter Notebooks
2. Aprender estructuras básicas de Pandas (Series y DataFrames)
3. Cargar datos desde archivos CSV
4. Realizar limpieza de datos: nulos, duplicados, tipos de datos
5. Filtrar, ordenar y transformar datos
6. Crear un pipeline completo de limpieza

---

## 1. Importación de Librerías

Importamos las librerías necesarias para el análisis de datos.

In [None]:
# Importar librerías principales
import pandas as pd  # Para manipulación de datos
import numpy as np   # Para operaciones numéricas

# Configuración para mostrar más columnas y filas
pd.set_option('display.max_columns', None)  # Mostrar todas las columnas
pd.set_option('display.max_rows', 100)      # Mostrar hasta 100 filas
pd.set_option('display.width', None)        # Ancho automático

# Verificar versiones
print(f"Pandas version: {pd.__version__}")
print(f"NumPy version: {np.__version__}")

Pandas version: 2.2.2
NumPy version: 2.0.2


---
## 2. Pandas Series - Estructura Unidimensional

Una **Series** es un array unidimensional con índices etiquetados.

In [None]:
# Crear una Series desde una lista
ventas_enero = pd.Series([150000, 200000, 175000, 300000])
print("Series con índices automáticos:")
print(ventas_enero)
print(f"\nTipo: {type(ventas_enero)}")

Series con índices automáticos:
0    150000
1    200000
2    175000
3    300000
dtype: int64

Tipo: <class 'pandas.core.series.Series'>


In [None]:
# Crear Series con índices personalizados
ventas_por_mes = pd.Series(
    [150000, 200000, 175000, 300000],
    index=['Enero', 'Febrero', 'Marzo', 'Abril']
)
print("Series con índices personalizados:")
print(ventas_por_mes)

Series con índices personalizados:
Enero      150000
Febrero    200000
Marzo      175000
Abril      300000
dtype: int64


In [None]:
# Crear Series desde un diccionario
precios_productos = pd.Series({
    'Laptop': 1299.99,
    'Mouse': 25.50,
    'Teclado': 89.99,
    'Monitor': 349.99
})
print("Series desde diccionario:")
print(precios_productos)

Series desde diccionario:
Laptop     1299.99
Mouse        25.50
Teclado      89.99
Monitor     349.99
dtype: float64


In [None]:
# Operaciones básicas con Series
print("Operaciones con Series:")
print(f"Suma total: ${ventas_por_mes.sum():,.2f}")
print(f"Promedio: ${ventas_por_mes.mean():,.2f}")
print(f"Máximo: ${ventas_por_mes.max():,.2f}")
print(f"Mínimo: ${ventas_por_mes.min():,.2f}")

# Operaciones vectorizadas
print("\nIncrementar 10% todas las ventas:")
print(ventas_por_mes * 1.1)

# Filtrado
print("\nMeses con ventas > 180,000:")
print(ventas_por_mes[ventas_por_mes > 180000])

Operaciones con Series:
Suma total: $825,000.00
Promedio: $206,250.00
Máximo: $300,000.00
Mínimo: $150,000.00

Incrementar 10% todas las ventas:
Enero      165000.0
Febrero    220000.0
Marzo      192500.0
Abril      330000.0
dtype: float64

Meses con ventas > 180,000:
Febrero    200000
Abril      300000
dtype: int64


---
## 3. Pandas DataFrames - Estructura Bidimensional

Un **DataFrame** es una estructura bidimensional (tabla) con filas y columnas etiquetadas.

In [None]:
# Crear DataFrame desde un diccionario
ventas_df = pd.DataFrame({
    'producto': ['Laptop', 'Mouse', 'Teclado', 'Monitor'],
    'precio': [1299.99, 25.50, 89.99, 349.99],
    'cantidad': [5, 50, 30, 10],
    'categoria': ['Computadoras', 'Accesorios', 'Accesorios', 'Computadoras']
})

print("DataFrame de ventas:")
print(ventas_df)

DataFrame de ventas:
  producto   precio  cantidad     categoria
0   Laptop  1299.99         5  Computadoras
1    Mouse    25.50        50    Accesorios
2  Teclado    89.99        30    Accesorios
3  Monitor   349.99        10  Computadoras


In [None]:
# Explorar la anatomía del DataFrame
print("=== ANATOMÍA DEL DATAFRAME ===\n")

# Dimensiones (filas, columnas)
print(f"Dimensiones (filas, columnas): {ventas_df.shape}")

# Nombres de columnas
print(f"\nColumnas: {ventas_df.columns.tolist()}")

# Índices
print(f"\nÍndices: {ventas_df.index.tolist()}")

# Tipos de datos
print("\nTipos de datos por columna:")
print(ventas_df.dtypes)

=== ANATOMÍA DEL DATAFRAME ===

Dimensiones (filas, columnas): (4, 4)

Columnas: ['producto', 'precio', 'cantidad', 'categoria']

Índices: [0, 1, 2, 3]

Tipos de datos por columna:
producto      object
precio       float64
cantidad       int64
categoria     object
dtype: object


In [None]:
# Métodos de inspección rápida
print("=== INSPECCIÓN RÁPIDA ===\n")

# Primeras filas
print("Primeras 3 filas:")
print(ventas_df.head(3))

# Últimas filas
print("\nÚltimas 2 filas:")
print(ventas_df.tail(2))

=== INSPECCIÓN RÁPIDA ===

Primeras 3 filas:
  producto   precio  cantidad     categoria
0   Laptop  1299.99         5  Computadoras
1    Mouse    25.50        50    Accesorios
2  Teclado    89.99        30    Accesorios

Últimas 2 filas:
  producto  precio  cantidad     categoria
2  Teclado   89.99        30    Accesorios
3  Monitor  349.99        10  Computadoras


In [None]:
# Información general del DataFrame
print("Información general del DataFrame:")
print(ventas_df.info())

Información general del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   producto   4 non-null      object 
 1   precio     4 non-null      float64
 2   cantidad   4 non-null      int64  
 3   categoria  4 non-null      object 
dtypes: float64(1), int64(1), object(2)
memory usage: 260.0+ bytes
None


In [None]:
# Estadísticas descriptivas
print("Estadísticas descriptivas (solo columnas numéricas):")
print(ventas_df.describe())

print("\n\nEstadísticas de todas las columnas:")
print(ventas_df.describe(include='all'))

Estadísticas descriptivas (solo columnas numéricas):
            precio   cantidad
count     4.000000   4.000000
mean    441.367500  23.750000
std     589.348332  20.564938
min      25.500000   5.000000
25%      73.867500   8.750000
50%     219.990000  20.000000
75%     587.490000  35.000000
max    1299.990000  50.000000


Estadísticas de todas las columnas:
       producto       precio   cantidad     categoria
count         4     4.000000   4.000000             4
unique        4          NaN        NaN             2
top      Laptop          NaN        NaN  Computadoras
freq          1          NaN        NaN             2
mean        NaN   441.367500  23.750000           NaN
std         NaN   589.348332  20.564938           NaN
min         NaN    25.500000   5.000000           NaN
25%         NaN    73.867500   8.750000           NaN
50%         NaN   219.990000  20.000000           NaN
75%         NaN   587.490000  35.000000           NaN
max         NaN  1299.990000  50.000000      

---
## 4. Selección de Datos en DataFrames

Diferentes métodos para acceder y seleccionar datos.

In [None]:
# Selección de columnas
print("=== SELECCIÓN DE COLUMNAS ===\n")

# Una columna (retorna Series)
print("Una columna (tipo Series):")
print(ventas_df['producto'])
print(f"Tipo: {type(ventas_df['producto'])}")

# Múltiples columnas (retorna DataFrame)
print("\n\nMúltiples columnas (tipo DataFrame):")
print(ventas_df[['producto', 'precio']])
print(f"Tipo: {type(ventas_df[['producto', 'precio']])}")

=== SELECCIÓN DE COLUMNAS ===

Una columna (tipo Series):
0     Laptop
1      Mouse
2    Teclado
3    Monitor
Name: producto, dtype: object
Tipo: <class 'pandas.core.series.Series'>


Múltiples columnas (tipo DataFrame):
  producto   precio
0   Laptop  1299.99
1    Mouse    25.50
2  Teclado    89.99
3  Monitor   349.99
Tipo: <class 'pandas.core.frame.DataFrame'>


In [None]:
# Acceso con .loc[] (por etiquetas)
print("=== ACCESO CON .loc[] ===\n")

# Seleccionar una fila
print("Fila con índice 0:")
print(ventas_df.loc[0])

# Seleccionar rango de filas (inclusivo en ambos extremos)
print("\n\nFilas 0 a 2 (inclusivo):")
print(ventas_df.loc[0:2])

# Seleccionar filas y columnas específicas
print("\n\nFilas 0-2, columnas 'producto' y 'precio':")
print(ventas_df.loc[0:2, ['producto', 'precio']])

# Todas las filas, columnas específicas
print("\n\nTodas las filas, columnas seleccionadas:")
print(ventas_df.loc[:, ['producto', 'cantidad']])

=== ACCESO CON .loc[] ===

Fila con índice 0:
producto           Laptop
precio            1299.99
cantidad                5
categoria    Computadoras
Name: 0, dtype: object


Filas 0 a 2 (inclusivo):
  producto   precio  cantidad     categoria
0   Laptop  1299.99         5  Computadoras
1    Mouse    25.50        50    Accesorios
2  Teclado    89.99        30    Accesorios


Filas 0-2, columnas 'producto' y 'precio':
  producto   precio
0   Laptop  1299.99
1    Mouse    25.50
2  Teclado    89.99


Todas las filas, columnas seleccionadas:
  producto  cantidad
0   Laptop         5
1    Mouse        50
2  Teclado        30
3  Monitor        10


In [None]:
# Acceso con .iloc[] (por posición numérica)
print("=== ACCESO CON .iloc[] ===\n")

# Primera fila
print("Primera fila (posición 0):")
print(ventas_df.iloc[0])

# Primeras 3 filas (exclusivo en límite superior)
print("\n\nPrimeras 3 filas (0:3):")
print(ventas_df.iloc[0:3])

# Todas las filas, primeras 2 columnas
print("\n\nTodas las filas, primeras 2 columnas:")
print(ventas_df.iloc[:, 0:2])

# Última fila
print("\n\nÚltima fila:")
print(ventas_df.iloc[-1])

=== ACCESO CON .iloc[] ===

Primera fila (posición 0):
producto           Laptop
precio            1299.99
cantidad                5
categoria    Computadoras
Name: 0, dtype: object


Primeras 3 filas (0:3):
  producto   precio  cantidad     categoria
0   Laptop  1299.99         5  Computadoras
1    Mouse    25.50        50    Accesorios
2  Teclado    89.99        30    Accesorios


Todas las filas, primeras 2 columnas:
  producto   precio
0   Laptop  1299.99
1    Mouse    25.50
2  Teclado    89.99
3  Monitor   349.99


Última fila:
producto          Monitor
precio             349.99
cantidad               10
categoria    Computadoras
Name: 3, dtype: object


In [None]:
# Selección booleana (filtrado)
print("=== SELECCIÓN BOOLEANA ===\n")

# Filtro simple
print("Productos con precio > 100:")
print(ventas_df[ventas_df['precio'] > 100])

# Múltiples condiciones con AND
print("\n\nPrecio > 50 Y cantidad > 10:")
print(ventas_df[(ventas_df['precio'] > 50) & (ventas_df['cantidad'] > 10)])

# Múltiples condiciones con OR
print("\n\nCategoría Accesorios O precio < 100:")
print(ventas_df[(ventas_df['categoria'] == 'Accesorios') | (ventas_df['precio'] < 100)])

# Filtro con .isin()
categorias = ['Computadoras', 'Tablets']
print(f"\n\nProductos en categorías {categorias}:")
print(ventas_df[ventas_df['categoria'].isin(categorias)])

=== SELECCIÓN BOOLEANA ===

Productos con precio > 100:
  producto   precio  cantidad     categoria
0   Laptop  1299.99         5  Computadoras
3  Monitor   349.99        10  Computadoras


Precio > 50 Y cantidad > 10:
  producto  precio  cantidad   categoria
2  Teclado   89.99        30  Accesorios


Categoría Accesorios O precio < 100:
  producto  precio  cantidad   categoria
1    Mouse   25.50        50  Accesorios
2  Teclado   89.99        30  Accesorios


Productos en categorías ['Computadoras', 'Tablets']:
  producto   precio  cantidad     categoria
0   Laptop  1299.99         5  Computadoras
3  Monitor   349.99        10  Computadoras


---
## 5. Carga de Datos desde CSV

Ahora vamos a cargar el dataset real con problemas típicos de datos sucios.

In [None]:
# Cargar el archivo CSV con datos crudos
# NOTA: Asegurarse de que el archivo 'ventas_raw.csv' esté en el mismo directorio

df_raw = pd.read_csv('ventas_raw.csv')

print("=== DATOS CARGADOS (RAW) ===")
print(f"Dimensiones: {df_raw.shape}")
print(f"\nPrimeras 10 filas:")
print(df_raw.head(10))

=== DATOS CARGADOS (RAW) ===
Dimensiones: (21, 11)

Primeras 10 filas:
  transaccion_id fecha_venta producto_id             producto     categoria  \
0         TXN001  2024-01-15     PROD001   Laptop Dell XPS 13  Computadoras   
1         TXN002  2024-01-16     PROD002    Mouse Logitech MX    Accesorios   
2         TXN003  2024/01/17     PROD003     Teclado Mecánico    Accesorios   
3         TXN004  2024-01-18     PROD004  Monitor Samsung 27"  Computadoras   
4         TXN005  2024-01-19     PROD001   Laptop Dell XPS 13  Computadoras   
5         TXN006  2024-01-20     PROD005      Webcam Logitech    Accesorios   
6         TXN007  15-01-2024     PROD006       Audífonos Sony    Accesorios   
7         TXN008  2024-01-22     PROD007       Tablet Samsung       Tablets   
8         TXN009  2024-01-23     PROD002    Mouse Logitech MX    accesorios   
9         TXN010  2024-01-24     PROD008         Impresora HP   Periféricos   

    precio  cantidad cliente_id              cliente  regio

In [None]:
# Exploración inicial del dataset crudo
print("=== EXPLORACIÓN INICIAL ===\n")
print(df_raw.info())

=== EXPLORACIÓN INICIAL ===

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21 entries, 0 to 20
Data columns (total 11 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   transaccion_id  21 non-null     object 
 1   fecha_venta     20 non-null     object 
 2   producto_id     21 non-null     object 
 3   producto        21 non-null     object 
 4   categoria       21 non-null     object 
 5   precio          20 non-null     object 
 6   cantidad        20 non-null     float64
 7   cliente_id      21 non-null     object 
 8   cliente         21 non-null     object 
 9   region          21 non-null     object 
 10  descuento       18 non-null     float64
dtypes: float64(2), object(9)
memory usage: 1.9+ KB
None


In [None]:
# Estadísticas descriptivas del dataset crudo
print("Estadísticas descriptivas:")
print(df_raw.describe(include='all'))

Estadísticas descriptivas:
       transaccion_id fecha_venta producto_id            producto   categoria  \
count              21          20          21                  21          21   
unique             20          19          15                  15          10   
top            TXN001  2024-01-15     PROD001  Laptop Dell XPS 13  Accesorios   
freq                2           2           4                   4           8   
mean              NaN         NaN         NaN                 NaN         NaN   
std               NaN         NaN         NaN                 NaN         NaN   
min               NaN         NaN         NaN                 NaN         NaN   
25%               NaN         NaN         NaN                 NaN         NaN   
50%               NaN         NaN         NaN                 NaN         NaN   
75%               NaN         NaN         NaN                 NaN         NaN   
max               NaN         NaN         NaN                 NaN         NaN   



In [None]:
# Estadísticas descriptivas del dataset crudo
print("Estadísticas descriptivas:")
print(df_raw.describe(include='all'))

Estadísticas descriptivas:
       transaccion_id fecha_venta producto_id            producto   categoria  \
count              21          20          21                  21          21   
unique             20          19          15                  15          10   
top            TXN001  2024-01-15     PROD001  Laptop Dell XPS 13  Accesorios   
freq                2           2           4                   4           8   
mean              NaN         NaN         NaN                 NaN         NaN   
std               NaN         NaN         NaN                 NaN         NaN   
min               NaN         NaN         NaN                 NaN         NaN   
25%               NaN         NaN         NaN                 NaN         NaN   
50%               NaN         NaN         NaN                 NaN         NaN   
75%               NaN         NaN         NaN                 NaN         NaN   
max               NaN         NaN         NaN                 NaN         NaN   



---
## 6. Detección de Problemas en los Datos

Identificamos todos los problemas presentes en el dataset.

In [None]:
# 1. Detectar valores nulos
print("=== DETECCIÓN DE VALORES NULOS ===\n")
print("Nulos por columna:")
print(df_raw.isnull().sum())

print(f"\nTotal de valores nulos: {df_raw.isnull().sum().sum()}")
print(f"Porcentaje de nulos por columna:")
print((df_raw.isnull().sum() / len(df_raw)) * 100)

=== DETECCIÓN DE VALORES NULOS ===

Nulos por columna:
transaccion_id    0
fecha_venta       1
producto_id       0
producto          0
categoria         0
precio            1
cantidad          1
cliente_id        0
cliente           0
region            0
descuento         3
dtype: int64

Total de valores nulos: 6
Porcentaje de nulos por columna:
transaccion_id     0.000000
fecha_venta        4.761905
producto_id        0.000000
producto           0.000000
categoria          0.000000
precio             4.761905
cantidad           4.761905
cliente_id         0.000000
cliente            0.000000
region             0.000000
descuento         14.285714
dtype: float64


In [None]:
# Ver filas con valores nulos
print("Filas que contienen valores nulos:")
print(df_raw[df_raw.isnull().any(axis=1)])

Filas que contienen valores nulos:
   transaccion_id fecha_venta producto_id           producto   categoria  \
2          TXN003  2024/01/17     PROD003   Teclado Mecánico  Accesorios   
5          TXN006  2024-01-20     PROD005    Webcam Logitech  Accesorios   
6          TXN007  15-01-2024     PROD006     Audífonos Sony  Accesorios   
8          TXN009  2024-01-23     PROD002  Mouse Logitech MX  accesorios   
13         TXN013         NaN     PROD003   Teclado Mecánico  Accesorios   
19         TXN019  2024-02-03     PROD014    Batería Externa  Accesorios   

   precio  cantidad cliente_id              cliente  region  descuento  
2   89.99      30.0     CLI003         Carlos López    Este        NaN  
5   79.99       NaN     CLI006    Sofia Hernández    Centro        0.0  
6     NaN      25.0     CLI007       Pedro González     Sur        0.2  
8   25.50     100.0     CLI009         Roberto Díaz    Este        NaN  
13  89.99      12.0     CLI013    Francisco Morales   Norte        

In [None]:
# 2. Detectar duplicados
print("=== DETECCIÓN DE DUPLICADOS ===\n")
print(f"Total de filas duplicadas: {df_raw.duplicated().sum()}")

# Ver las filas duplicadas
print("\nFilas duplicadas:")
print(df_raw[df_raw.duplicated(keep=False)])

=== DETECCIÓN DE DUPLICADOS ===

Total de filas duplicadas: 1

Filas duplicadas:
   transaccion_id fecha_venta producto_id            producto     categoria  \
0          TXN001  2024-01-15     PROD001  Laptop Dell XPS 13  Computadoras   
10         TXN001  2024-01-15     PROD001  Laptop Dell XPS 13  Computadoras   

     precio  cantidad cliente_id     cliente region  descuento  
0   1299.99       2.0     CLI001  Juan Pérez  Norte        0.1  
10  1299.99       2.0     CLI001  Juan Pérez  Norte        0.1  


In [None]:
# 3. Inspeccionar tipos de datos incorrectos
print("=== PROBLEMAS EN TIPOS DE DATOS ===\n")
print("Tipos actuales:")
print(df_raw.dtypes)

print("\n⚠️ Problemas identificados:")
print("- 'fecha_venta' es object, debería ser datetime")
print("- 'precio' es object (contiene símbolos $), debería ser float")
print("- 'cantidad' es object, debería ser int")

=== PROBLEMAS EN TIPOS DE DATOS ===

Tipos actuales:
transaccion_id     object
fecha_venta        object
producto_id        object
producto           object
categoria          object
precio             object
cantidad          float64
cliente_id         object
cliente            object
region             object
descuento         float64
dtype: object

⚠️ Problemas identificados:
- 'fecha_venta' es object, debería ser datetime
- 'precio' es object (contiene símbolos $), debería ser float
- 'cantidad' es object, debería ser int


In [None]:
# 4. Ver valores únicos en columnas categóricas
print("=== VALORES ÚNICOS EN CATEGORÍAS ===\n")

print("Categorías únicas (problema de mayúsculas/minúsculas):")
print(df_raw['categoria'].unique())

print("\nRegiones únicas:")
print(df_raw['region'].unique())

=== VALORES ÚNICOS EN CATEGORÍAS ===

Categorías únicas (problema de mayúsculas/minúsculas):
['Computadoras' 'Accesorios' 'Tablets' 'accesorios' 'Periféricos' 'Redes'
 'Almacenamiento' 'Componentes' 'COMPUTADORAS' 'Mobiliario']

Regiones únicas:
['Norte' 'Sur' 'Este' 'Oeste' 'Centro']


In [None]:
# 5. Detectar valores fuera de rango
print("=== VALORES FUERA DE RANGO ===\n")

# Intentar convertir cantidad a numérico para ver problemas
df_raw['cantidad_temp'] = pd.to_numeric(df_raw['cantidad'], errors='coerce')

print("Estadísticas de cantidad (después de conversión):")
print(df_raw['cantidad_temp'].describe())

print("\n⚠️ Cantidades negativas o cero:")
print(df_raw[df_raw['cantidad_temp'] <= 0][['transaccion_id', 'producto', 'cantidad_temp']])

# Eliminar columna temporal
df_raw.drop('cantidad_temp', axis=1, inplace=True)

=== VALORES FUERA DE RANGO ===

Estadísticas de cantidad (después de conversión):
count     20.000000
mean      27.650000
std       47.157379
min       -5.000000
25%        2.750000
50%       11.000000
75%       30.000000
max      200.000000
Name: cantidad_temp, dtype: float64

⚠️ Cantidades negativas o cero:
   transaccion_id        producto  cantidad_temp
16         TXN016  Mousepad Gamer           -5.0


---
## 7. Pipeline de Limpieza de Datos

Ahora aplicamos un proceso sistemático de limpieza paso a paso.

In [None]:
# Crear una copia para trabajar sin modificar los datos originales
df = df_raw.copy()

print("=== INICIO DEL PROCESO DE LIMPIEZA ===")
print(f"Registros iniciales: {len(df)}")
print(f"Columnas: {len(df.columns)}")

=== INICIO DEL PROCESO DE LIMPIEZA ===
Registros iniciales: 21
Columnas: 11


### Paso 1: Limpieza de Duplicados

In [None]:
# Eliminar duplicados completos
print("PASO 1: Eliminación de duplicados")
print(f"Duplicados encontrados: {df.duplicated().sum()}")

df = df.drop_duplicates()

print(f"Registros después de eliminar duplicados: {len(df)}")

PASO 1: Eliminación de duplicados
Duplicados encontrados: 1
Registros después de eliminar duplicados: 20


### Paso 2: Limpieza y Conversión de Fechas

In [None]:
# Convertir fechas (múltiples formatos)
print("PASO 2: Conversión de fechas")

# Ver formatos actuales
print("Muestra de fechas antes de convertir:")
print(df['fecha_venta'].head(10))

# Convertir con inferencia automática
df['fecha_venta'] = pd.to_datetime(df['fecha_venta'], errors='coerce')

# Ver resultado
print("\nDespués de conversión:")
print(df['fecha_venta'].head(10))
print(f"Tipo de datos: {df['fecha_venta'].dtype}")

# Ver si hay fechas que no pudieron convertirse (NaT)
print(f"\nFechas nulas (NaT) después de conversión: {df['fecha_venta'].isna().sum()}")

PASO 2: Conversión de fechas
Muestra de fechas antes de convertir:
0    2024-01-15
1    2024-01-16
2    2024/01/17
3    2024-01-18
4    2024-01-19
5    2024-01-20
6    15-01-2024
7    2024-01-22
8    2024-01-23
9    2024-01-24
Name: fecha_venta, dtype: object

Después de conversión:
0   2024-01-15
1   2024-01-16
2          NaT
3   2024-01-18
4   2024-01-19
5   2024-01-20
6          NaT
7   2024-01-22
8   2024-01-23
9   2024-01-24
Name: fecha_venta, dtype: datetime64[ns]
Tipo de datos: datetime64[ns]

Fechas nulas (NaT) después de conversión: 3


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['fecha_venta'] = pd.to_datetime(df['fecha_venta'], errors='coerce')


In [None]:
# Ver filas con fechas nulas
print("Registros con fecha nula:")
print(df[df['fecha_venta'].isna()][['transaccion_id', 'fecha_venta', 'producto']])

Registros con fecha nula:
   transaccion_id fecha_venta          producto
2          TXN003         NaT  Teclado Mecánico
6          TXN007         NaT    Audífonos Sony
13         TXN013         NaT  Teclado Mecánico


### Paso 3: Limpieza y Conversión de Precios

In [None]:
# Limpiar y convertir precios
print("PASO 3: Limpieza de precios")

# Ver valores actuales
print("Muestra de precios antes de limpiar:")
print(df['precio'].head(10))

# Eliminar símbolos y convertir
df['precio'] = df['precio'].astype(str).str.replace('$', '', regex=False).str.replace(',', '', regex=False)
df['precio'] = pd.to_numeric(df['precio'], errors='coerce')

print("\nDespués de limpieza:")
print(df['precio'].head(10))
print(f"Tipo de datos: {df['precio'].dtype}")

# Estadísticas
print("\nEstadísticas de precios:")
print(df['precio'].describe())

# Ver precios nulos
print(f"\nPrecios nulos: {df['precio'].isna().sum()}")

PASO 3: Limpieza de precios
Muestra de precios antes de limpiar:
0    1299.99
1     $25.50
2      89.99
3     349.99
4    1299.99
5      79.99
6        NaN
7     450.00
8      25.50
9     199.99
Name: precio, dtype: object

Después de limpieza:
0    1299.99
1      25.50
2      89.99
3     349.99
4    1299.99
5      79.99
6        NaN
7     450.00
8      25.50
9     199.99
Name: precio, dtype: float64
Tipo de datos: float64

Estadísticas de precios:
count      19.000000
mean      326.834737
std       451.716846
min        12.990000
25%        47.495000
50%        95.000000
75%       349.990000
max      1299.990000
Name: precio, dtype: float64

Precios nulos: 1


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['precio'] = df['precio'].astype(str).str.replace('$', '', regex=False).str.replace(',', '', regex=False)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['precio'] = pd.to_numeric(df['precio'], errors='coerce')


### Paso 4: Conversión de Cantidades

In [None]:
# Convertir cantidades a enteros
print("PASO 4: Conversión de cantidades")

# Convertir
df['cantidad'] = pd.to_numeric(df['cantidad'], errors='coerce')

print(f"Tipo de datos: {df['cantidad'].dtype}")
print("\nEstadísticas:")
print(df['cantidad'].describe())

# Identificar cantidades problemáticas
print("\nCantidades nulas o <= 0:")
print(df[(df['cantidad'].isna()) | (df['cantidad'] <= 0)][['transaccion_id', 'producto', 'cantidad']])

PASO 4: Conversión de cantidades
Tipo de datos: float64

Estadísticas:
count     19.000000
mean      29.000000
std       48.050899
min       -5.000000
25%        3.500000
50%       12.000000
75%       30.000000
max      200.000000
Name: cantidad, dtype: float64

Cantidades nulas o <= 0:
   transaccion_id         producto  cantidad
5          TXN006  Webcam Logitech       NaN
16         TXN016   Mousepad Gamer      -5.0


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['cantidad'] = pd.to_numeric(df['cantidad'], errors='coerce')


### Paso 5: Manejo de Valores Nulos

In [None]:
# Estrategia de manejo de nulos
print("PASO 5: Manejo de valores nulos")

print("\nResumen de nulos antes de tratamiento:")
print(df.isnull().sum())

# Estrategia por columna:
# - fecha_venta: eliminar filas (crítico para análisis temporal)
# - precio: eliminar filas (crítico para cálculos)
# - cantidad: imputar con 1 (asumimos una unidad)
# - descuento: imputar con 0 (sin descuento)

# Eliminar filas con fecha o precio nulo
registros_antes = len(df)
df = df.dropna(subset=['fecha_venta', 'precio'])
registros_despues = len(df)

print(f"\nFilas eliminadas por fecha/precio nulo: {registros_antes - registros_despues}")

# Imputar cantidad nula con 1
df['cantidad'].fillna(1, inplace=True)

# Imputar descuento nulo con 0
df['descuento'].fillna(0, inplace=True)

print("\nResumen de nulos después de tratamiento:")
print(df.isnull().sum())

PASO 5: Manejo de valores nulos

Resumen de nulos antes de tratamiento:
transaccion_id    0
fecha_venta       3
producto_id       0
producto          0
categoria         0
precio            1
cantidad          1
cliente_id        0
cliente           0
region            0
descuento         3
dtype: int64

Filas eliminadas por fecha/precio nulo: 3

Resumen de nulos después de tratamiento:
transaccion_id    0
fecha_venta       0
producto_id       0
producto          0
categoria         0
precio            0
cantidad          0
cliente_id        0
cliente           0
region            0
descuento         0
dtype: int64


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['cantidad'].fillna(1, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['descuento'].fillna(0, inplace=True)


### Paso 6: Normalización de Texto

In [None]:
# Normalizar strings
print("PASO 6: Normalización de texto")

# Eliminar espacios extras en todas las columnas de texto
columnas_texto = ['transaccion_id', 'producto', 'categoria', 'cliente', 'region']

for col in columnas_texto:
    df[col] = df[col].str.strip()

# Normalizar categorías a Title Case
print("\nCategorías antes:")
print(df['categoria'].unique())

df['categoria'] = df['categoria'].str.title()

print("\nCategorías después:")
print(df['categoria'].unique())

# Normalizar regiones
df['region'] = df['region'].str.title()

print("\nRegiones únicas:")
print(df['region'].unique())

PASO 6: Normalización de texto

Categorías antes:
['Computadoras' 'Accesorios' 'Tablets' 'accesorios' 'Periféricos' 'Redes'
 'Almacenamiento' 'Componentes' 'COMPUTADORAS' 'Mobiliario']

Categorías después:
['Computadoras' 'Accesorios' 'Tablets' 'Periféricos' 'Redes'
 'Almacenamiento' 'Componentes' 'Mobiliario']

Regiones únicas:
['Norte' 'Sur' 'Oeste' 'Centro' 'Este']


### Paso 7: Filtrado de Valores Válidos

In [None]:
# Filtrar registros válidos
print("PASO 7: Filtrado de valores válidos")

registros_antes = len(df)

# Filtrar: precio > 0, cantidad > 0, descuento entre 0 y 1
df = df[
    (df['precio'] > 0) &
    (df['cantidad'] > 0) &
    (df['descuento'] >= 0) &
    (df['descuento'] <= 1)
]

registros_despues = len(df)

print(f"Registros eliminados por valores inválidos: {registros_antes - registros_despues}")
print(f"Registros válidos restantes: {registros_despues}")

PASO 7: Filtrado de valores válidos
Registros eliminados por valores inválidos: 2
Registros válidos restantes: 15


### Paso 8: Conversión Final de Tipos de Datos

In [None]:
# Asegurar tipos correctos
print("PASO 8: Conversión final de tipos")

# Convertir cantidad a int (ya es float después de fillna)
df['cantidad'] = df['cantidad'].astype(int)

# IDs como string
df['transaccion_id'] = df['transaccion_id'].astype(str)
df['producto_id'] = df['producto_id'].astype(str)
df['cliente_id'] = df['cliente_id'].astype(str)

print("Tipos de datos finales:")
print(df.dtypes)

PASO 8: Conversión final de tipos
Tipos de datos finales:
transaccion_id            object
fecha_venta       datetime64[ns]
producto_id               object
producto                  object
categoria                 object
precio                   float64
cantidad                   int64
cliente_id                object
cliente                   object
region                    object
descuento                float64
dtype: object


### Paso 9: Creación de Columnas Calculadas

In [None]:
# Crear columnas derivadas
print("PASO 9: Creación de columnas calculadas")

# Calcular total de venta
df['total'] = df['cantidad'] * df['precio']

# Calcular precio final con descuento
df['precio_final'] = df['precio'] * (1 - df['descuento'])

# Calcular total final
df['total_final'] = df['cantidad'] * df['precio_final']

# Extraer componentes de fecha
df['año'] = df['fecha_venta'].dt.year
df['mes'] = df['fecha_venta'].dt.month
df['dia'] = df['fecha_venta'].dt.day
df['dia_semana'] = df['fecha_venta'].dt.day_name()

# Crear período año-mes
df['año_mes'] = df['fecha_venta'].dt.to_period('M')

print("Columnas añadidas:")
print(df[['transaccion_id', 'total', 'precio_final', 'total_final', 'año', 'mes']].head())

PASO 9: Creación de columnas calculadas
Columnas añadidas:
  transaccion_id    total  precio_final  total_final   año  mes
0         TXN001  2599.98     1169.9910     2339.982  2024    1
1         TXN002  1275.00       24.2250     1211.250  2024    1
2         TXN004  3499.90      297.4915     2974.915  2024    1
3         TXN005  1299.99     1169.9910     1169.991  2024    1
4         TXN006    79.99       79.9900       79.990  2024    1


### Paso 10: Ordenamiento y Reset de Índice

In [None]:
# Ordenar por fecha y resetear índice
print("PASO 10: Ordenamiento final")

df = df.sort_values('fecha_venta').reset_index(drop=True)

print("Primeras filas después de ordenar:")
print(df.head())

PASO 10: Ordenamiento final
Primeras filas después de ordenar:
  transaccion_id fecha_venta producto_id             producto     categoria  \
0         TXN001  2024-01-15     PROD001   Laptop Dell XPS 13  Computadoras   
1         TXN002  2024-01-16     PROD002    Mouse Logitech MX    Accesorios   
2         TXN004  2024-01-18     PROD004  Monitor Samsung 27"  Computadoras   
3         TXN005  2024-01-19     PROD001   Laptop Dell XPS 13  Computadoras   
4         TXN006  2024-01-20     PROD005      Webcam Logitech    Accesorios   

    precio  cantidad cliente_id          cliente  region  descuento    total  \
0  1299.99         2     CLI001       Juan Pérez   Norte       0.10  2599.98   
1    25.50        50     CLI002     María García     Sur       0.05  1275.00   
2   349.99        10     CLI004     Ana Martínez   Oeste       0.15  3499.90   
3  1299.99         1     CLI005   Luis Rodríguez   Norte       0.10  1299.99   
4    79.99         1     CLI006  Sofia Hernández  Centro      

---
## 8. Validaciones Post-Limpieza

Verificamos que los datos estén correctos y completos.

In [None]:
# Validaciones finales
print("=== VALIDACIONES POST-LIMPIEZA ===\n")

# 1. Verificar que no hay nulos en columnas críticas
columnas_criticas = ['transaccion_id', 'fecha_venta', 'producto', 'precio', 'cantidad']
nulos_criticos = df[columnas_criticas].isnull().sum().sum()

print(f"1. Nulos en columnas críticas: {nulos_criticos}")
assert nulos_criticos == 0, "⚠️ Aún hay nulos en columnas críticas"
print("   ✓ No hay nulos en columnas críticas")

# 2. Verificar tipos de datos
print("\n2. Verificación de tipos de datos:")
assert df['fecha_venta'].dtype == 'datetime64[ns]', "Fecha no es datetime"
print("   ✓ Fechas en formato datetime")

assert df['precio'].dtype in ['float64', 'float32'], "Precio no es float"
print("   ✓ Precios en formato numérico")

assert df['cantidad'].dtype in ['int64', 'int32'], "Cantidad no es int"
print("   ✓ Cantidades en formato entero")

# 3. Verificar rangos válidos
print("\n3. Verificación de rangos:")
assert (df['precio'] > 0).all(), "Hay precios <= 0"
print("   ✓ Todos los precios son positivos")

assert (df['cantidad'] > 0).all(), "Hay cantidades <= 0"
print("   ✓ Todas las cantidades son positivas")

assert (df['descuento'] >= 0).all() and (df['descuento'] <= 1).all(), "Descuentos fuera de rango"
print("   ✓ Descuentos entre 0 y 1")

# 4. Verificar que no hay duplicados
print(f"\n4. Duplicados: {df.duplicated().sum()}")
assert df.duplicated().sum() == 0, "Hay duplicados"
print("   ✓ No hay registros duplicados")

print("\n" + "="*50)
print("✅ TODAS LAS VALIDACIONES PASARON CORRECTAMENTE")
print("="*50)

=== VALIDACIONES POST-LIMPIEZA ===

1. Nulos en columnas críticas: 0
   ✓ No hay nulos en columnas críticas

2. Verificación de tipos de datos:
   ✓ Fechas en formato datetime
   ✓ Precios en formato numérico
   ✓ Cantidades en formato entero

3. Verificación de rangos:
   ✓ Todos los precios son positivos
   ✓ Todas las cantidades son positivas
   ✓ Descuentos entre 0 y 1

4. Duplicados: 0
   ✓ No hay registros duplicados

✅ TODAS LAS VALIDACIONES PASARON CORRECTAMENTE


---
## 9. Resumen Final y Comparación

In [None]:
# Comparación antes vs después
print("=== COMPARACIÓN: DATOS CRUDOS VS DATOS LIMPIOS ===\n")

print(f"Registros originales:    {len(df_raw)}")
print(f"Registros limpios:       {len(df)}")
print(f"Registros eliminados:    {len(df_raw) - len(df)}")
print(f"Porcentaje retenido:     {(len(df) / len(df_raw)) * 100:.1f}%")

print(f"\nColumnas originales:     {len(df_raw.columns)}")
print(f"Columnas finales:        {len(df.columns)}")
print(f"Columnas añadidas:       {len(df.columns) - len(df_raw.columns)}")

print(f"\nMemoria original:        {df_raw.memory_usage(deep=True).sum() / 1024:.2f} KB")
print(f"Memoria final:           {df.memory_usage(deep=True).sum() / 1024:.2f} KB")

=== COMPARACIÓN: DATOS CRUDOS VS DATOS LIMPIOS ===

Registros originales:    21
Registros limpios:       15
Registros eliminados:    6
Porcentaje retenido:     71.4%

Columnas originales:     11
Columnas finales:        19
Columnas añadidas:       8

Memoria original:        11.62 KB
Memoria final:           8.37 KB


In [None]:
# Vista final del dataset limpio
print("=== DATASET LIMPIO - PRIMERAS 10 FILAS ===")
print(df.head(10))

=== DATASET LIMPIO - PRIMERAS 10 FILAS ===
  transaccion_id fecha_venta producto_id             producto       categoria  \
0         TXN001  2024-01-15     PROD001   Laptop Dell XPS 13    Computadoras   
1         TXN002  2024-01-16     PROD002    Mouse Logitech MX      Accesorios   
2         TXN004  2024-01-18     PROD004  Monitor Samsung 27"    Computadoras   
3         TXN005  2024-01-19     PROD001   Laptop Dell XPS 13    Computadoras   
4         TXN006  2024-01-20     PROD005      Webcam Logitech      Accesorios   
5         TXN008  2024-01-22     PROD007       Tablet Samsung         Tablets   
6         TXN009  2024-01-23     PROD002    Mouse Logitech MX      Accesorios   
7         TXN010  2024-01-24     PROD008         Impresora HP     Periféricos   
8         TXN012  2024-01-26     PROD010      SSD Samsung 1TB  Almacenamiento   
9         TXN014  2024-01-28     PROD011     RAM Corsair 16GB     Componentes   

    precio  cantidad cliente_id          cliente  region  descuen

In [None]:
# Información final del dataset
print("=== INFORMACIÓN FINAL DEL DATASET ===")
print(df.info())

=== INFORMACIÓN FINAL DEL DATASET ===
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15 entries, 0 to 14
Data columns (total 19 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   transaccion_id  15 non-null     object        
 1   fecha_venta     15 non-null     datetime64[ns]
 2   producto_id     15 non-null     object        
 3   producto        15 non-null     object        
 4   categoria       15 non-null     object        
 5   precio          15 non-null     float64       
 6   cantidad        15 non-null     int64         
 7   cliente_id      15 non-null     object        
 8   cliente         15 non-null     object        
 9   region          15 non-null     object        
 10  descuento       15 non-null     float64       
 11  total           15 non-null     float64       
 12  precio_final    15 non-null     float64       
 13  total_final     15 non-null     float64       
 14  año             15 non

---
## 10. Análisis Exploratorio Básico

Ahora que tenemos datos limpios, podemos hacer análisis básico.

In [None]:
# Análisis por categoría
print("=== VENTAS POR CATEGORÍA ===\n")

ventas_categoria = df.groupby('categoria').agg({
    'total_final': 'sum',
    'cantidad': 'sum',
    'transaccion_id': 'count'
}).round(2)

ventas_categoria.columns = ['Ventas Totales', 'Unidades Vendidas', 'Num Transacciones']
ventas_categoria = ventas_categoria.sort_values('Ventas Totales', ascending=False)

print(ventas_categoria)

=== VENTAS POR CATEGORÍA ===

                Ventas Totales  Unidades Vendidas  Num Transacciones
categoria                                                           
Computadoras           8547.35                 17                  5
Accesorios             7709.34                391                  5
Componentes            2508.00                 30                  1
Almacenamiento         2391.82                 20                  1
Tablets                2025.00                  5                  1
Periféricos            1519.92                  8                  1
Mobiliario              959.97                  4                  1


In [None]:
# Análisis por región
print("=== VENTAS POR REGIÓN ===\n")

ventas_region = df.groupby('region').agg({
    'total_final': ['sum', 'mean'],
    'transaccion_id': 'count'
}).round(2)

ventas_region.columns = ['Total Ventas', 'Ticket Promedio', 'Num Transacciones']
ventas_region = ventas_region.sort_values('Total Ventas', ascending=False)

print(ventas_region)

=== VENTAS POR REGIÓN ===

        Total Ventas  Ticket Promedio  Num Transacciones
region                                                  
Norte        8003.07          2000.77                  4
Este         6458.00          2152.67                  3
Oeste        6347.28          1586.82                  4
Sur          4773.06          1591.02                  3
Centro         79.99            79.99                  1


In [None]:
# Top 10 productos más vendidos
print("=== TOP 10 PRODUCTOS MÁS VENDIDOS ===\n")

top_productos = df.groupby('producto').agg({
    'cantidad': 'sum',
    'total_final': 'sum'
}).round(2)

top_productos.columns = ['Unidades', 'Ventas Totales']
top_productos = top_productos.sort_values('Ventas Totales', ascending=False).head(10)

print(top_productos)

=== TOP 10 PRODUCTOS MÁS VENDIDOS ===

                     Unidades  Ventas Totales
producto                                     
Laptop Dell XPS 13          4         4679.96
Monitor Samsung 27"        13         3867.39
Mouse Logitech MX         150         3761.25
RAM Corsair 16GB           30         2508.00
Cable HDMI                200         2468.10
SSD Samsung 1TB            20         2391.82
Tablet Samsung              5         2025.00
Impresora HP                8         1519.92
Batería Externa            40         1400.00
Silla Gamer                 4          959.97


In [None]:
# Análisis temporal
print("=== VENTAS POR MES ===\n")

ventas_mes = df.groupby('año_mes').agg({
    'total_final': 'sum',
    'transaccion_id': 'count'
}).round(2)

ventas_mes.columns = ['Ventas Totales', 'Num Transacciones']

print(ventas_mes)

=== VENTAS POR MES ===

         Ventas Totales  Num Transacciones
año_mes                                   
2024-01        19663.34                 11
2024-02         5998.06                  4


---
## 11. Exportar Datos Limpios

Guardamos el dataset limpio para uso futuro.

In [None]:
# Guardar datos limpios
nombre_archivo = 'ventas_clean.csv'
df.to_csv(nombre_archivo, index=False)

print(f"✅ Datos limpios guardados en: {nombre_archivo}")
print(f"   Registros: {len(df)}")
print(f"   Columnas: {len(df.columns)}")

✅ Datos limpios guardados en: ventas_clean.csv
   Registros: 15
   Columnas: 19


---
## 12. Resumen de Aprendizajes

### Conceptos Cubiertos:
1. ✓ Jupyter Notebooks y entorno de trabajo
2. ✓ Pandas Series y DataFrames
3. ✓ Carga de datos desde CSV
4. ✓ Selección y filtrado de datos (`.loc[]`, `.iloc[]`, booleanos)
5. ✓ Detección de problemas (nulos, duplicados, tipos incorrectos)
6. ✓ Limpieza de datos sistemática
7. ✓ Conversión de tipos de datos
8. ✓ Creación de columnas calculadas
9. ✓ Validaciones de calidad de datos
10. ✓ Análisis exploratorio básico

### Próximos Pasos:
- Sesión 4.19: Funciones avanzadas (apply, map, groupby) e ingesta a PostgreSQL
- Agregar visualizaciones con Matplotlib/Seaborn
- Automatizar el pipeline de limpieza