In [1]:
import pandas as pd

0. SINTAXIS BÁSICA

In [2]:
# Lectura simple
#df = pd.read_csv('archivo.csv')

1. LECTURA BÁSICA

In [3]:
# Preparar datos de ejemplo
import pandas as pd
import os

# Crear directorio si no existe
os.makedirs('datos', exist_ok=True)

# Crear archivo CSV de ventas
ventas_csv = """fecha,cliente,producto,cantidad,precio_unitario,total
2024-01-15,Empresa A,Consultoría,40,150,6000
2024-01-16,Empresa B,Análisis,20,200,4000
2024-01-17,Empresa C,Desarrollo,60,180,10800
2024-01-18,Empresa A,Consultoría,30,150,4500
2024-01-19,Empresa D,Análisis,25,200,5000"""

with open('datos/ventas.csv', 'w', encoding='utf-8') as f:
    f.write(ventas_csv)

# Leer el archivo
df_ventas = pd.read_csv('datos/ventas.csv')
print("Datos de ventas:")
print(df_ventas)

Datos de ventas:
        fecha    cliente     producto  cantidad  precio_unitario  total
0  2024-01-15  Empresa A  Consultoría        40              150   6000
1  2024-01-16  Empresa B     Análisis        20              200   4000
2  2024-01-17  Empresa C   Desarrollo        60              180  10800
3  2024-01-18  Empresa A  Consultoría        30              150   4500
4  2024-01-19  Empresa D     Análisis        25              200   5000


2. ESPECIFICAR TIPOS DE DATOS

In [4]:
# Definir tipos de datos específicos
dtypes = {
    'cliente': 'string',
    'producto': 'string',
    'cantidad': 'int32',
    'precio_unitario': 'float32',
    'total': 'float32'
}

df_ventas_typed = pd.read_csv('datos/ventas.csv', dtype=dtypes)
print("\nTipos de datos:")
print(df_ventas_typed.dtypes)

print(df_ventas)


Tipos de datos:
fecha                      object
cliente            string[python]
producto           string[python]
cantidad                    int32
precio_unitario           float32
total                     float32
dtype: object
        fecha    cliente     producto  cantidad  precio_unitario  total
0  2024-01-15  Empresa A  Consultoría        40              150   6000
1  2024-01-16  Empresa B     Análisis        20              200   4000
2  2024-01-17  Empresa C   Desarrollo        60              180  10800
3  2024-01-18  Empresa A  Consultoría        30              150   4500
4  2024-01-19  Empresa D     Análisis        25              200   5000


3. MANEJO DE FECHAS

In [5]:
# Parsear columnas de fecha automáticamente
df_ventas_fechas = pd.read_csv(
    'datos/ventas.csv',
    parse_dates=['fecha']
)

print("\nCon fechas parseadas:")
print(df_ventas_fechas.info())

print(df_ventas)


Con fechas parseadas:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 6 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   fecha            5 non-null      datetime64[ns]
 1   cliente          5 non-null      object        
 2   producto         5 non-null      object        
 3   cantidad         5 non-null      int64         
 4   precio_unitario  5 non-null      int64         
 5   total            5 non-null      int64         
dtypes: datetime64[ns](1), int64(3), object(2)
memory usage: 372.0+ bytes
None
        fecha    cliente     producto  cantidad  precio_unitario  total
0  2024-01-15  Empresa A  Consultoría        40              150   6000
1  2024-01-16  Empresa B     Análisis        20              200   4000
2  2024-01-17  Empresa C   Desarrollo        60              180  10800
3  2024-01-18  Empresa A  Consultoría        30              150   4500
4  2024-01-19 

4. SELECCIÓN DE COLUMNAS

In [6]:
# Leer solo columnas específicas
columnas_interes = ['fecha', 'cliente', 'total']
df_parcial = pd.read_csv(
    'datos/ventas.csv',
    usecols=columnas_interes,
    parse_dates=['fecha']
)

print("\nSolo columnas seleccionadas:")
print(df_parcial)


Solo columnas seleccionadas:
       fecha    cliente  total
0 2024-01-15  Empresa A   6000
1 2024-01-16  Empresa B   4000
2 2024-01-17  Empresa C  10800
3 2024-01-18  Empresa A   4500
4 2024-01-19  Empresa D   5000


5. ESTABLECER ÍNDICE

In [7]:
# Crear CSV con IDs
proyectos_csv = """id_proyecto,nombre_proyecto,cliente,fecha_inicio,fecha_fin,presupuesto,estado
P001,Transformación Digital,Tech Corp,2024-01-01,2024-03-31,150000,Activo
P002,Análisis de Mercado,Finance Ltd,2024-02-01,2024-04-30,80000,Activo
P003,Optimización Procesos,Retail SA,2023-11-01,2024-01-31,95000,Completado
P004,Estrategia Cloud,Tech Corp,2024-03-01,2024-06-30,200000,Planificado
P005,Due Diligence,Energy Co,2024-01-15,2024-02-28,120000,Activo"""

with open('datos/proyectos.csv', 'w', encoding='utf-8') as f:
    f.write(proyectos_csv)

# Usar columna como índice
df_proyectos = pd.read_csv(
    'datos/proyectos.csv',
    index_col='id_proyecto',
    parse_dates=['fecha_inicio', 'fecha_fin']
)

print("\nProyectos con ID como índice:")
print(df_proyectos)


Proyectos con ID como índice:
                    nombre_proyecto      cliente fecha_inicio  fecha_fin  \
id_proyecto                                                                
P001         Transformación Digital    Tech Corp   2024-01-01 2024-03-31   
P002            Análisis de Mercado  Finance Ltd   2024-02-01 2024-04-30   
P003          Optimización Procesos    Retail SA   2023-11-01 2024-01-31   
P004               Estrategia Cloud    Tech Corp   2024-03-01 2024-06-30   
P005                  Due Diligence    Energy Co   2024-01-15 2024-02-28   

             presupuesto       estado  
id_proyecto                            
P001              150000       Activo  
P002               80000       Activo  
P003               95000   Completado  
P004              200000  Planificado  
P005              120000       Activo  


6. ARCHIVOS CON DIFERENTES LIMITADORES

In [8]:
# Archivo con punto y coma
empleados_csv = """id_empleado;nombre;departamento;salario;fecha_contratacion
E001;Ana García;Consultoría;45000;2021-03-15
E002;Carlos López;Análisis;50000;2020-07-01
E003;María Torres;Consultoría;48000;2021-01-20
E004;Juan Pérez;Desarrollo;55000;2019-11-10
E005;Laura Ruiz;Análisis;52000;2020-09-05"""

with open('datos/empleados.csv', 'w', encoding='utf-8') as f:
    f.write(empleados_csv)

# Leer con delimitador personalizado
df_empleados = pd.read_csv(
    'datos/empleados.csv',
    sep=';',
    parse_dates=['fecha_contratacion']
)

print("Empleados (delimitador ;):")
print(df_empleados)

Empleados (delimitador ;):
  id_empleado        nombre departamento  salario fecha_contratacion
0        E001    Ana García  Consultoría    45000         2021-03-15
1        E002  Carlos López     Análisis    50000         2020-07-01
2        E003  María Torres  Consultoría    48000         2021-01-20
3        E004    Juan Pérez   Desarrollo    55000         2019-11-10
4        E005    Laura Ruiz     Análisis    52000         2020-09-05


7. ARCHIVOS CON ENCABEZADOS MÚLTIPLES

In [9]:
# CSV con información adicional en las primeras líneas
reporte_csv = """Reporte de Horas Facturables
Generado: 2024-01-20
Período: Enero 2024

consultor,semana1,semana2,semana3,semana4,total
Ana García,40,38,42,40,160
Carlos López,45,40,43,42,170
María Torres,38,40,39,38,155"""

with open('datos/reporte_horas.csv', 'w', encoding='utf-8') as f:
    f.write(reporte_csv)

# Saltar las primeras líneas
df_horas = pd.read_csv(
    'datos/reporte_horas.csv',
    skiprows=4  # Saltar las primeras 4 líneas
)

print("Reporte de horas (sin encabezado):")
print(df_horas)

Reporte de horas (sin encabezado):
      consultor  semana1  semana2  semana3  semana4  total
0    Ana García       40       38       42       40    160
1  Carlos López       45       40       43       42    170
2  María Torres       38       40       39       38    155


8. MANEJO DE VALORES FALTANTES

In [10]:
# CSV con valores faltantes
metricas_csv = """proyecto,q1,q2,q3,q4,satisfaccion_cliente
Proyecto A,25000,30000,,35000,4.5
Proyecto B,40000,45000,50000,55000,
Proyecto C,,20000,22000,25000,4.2
Proyecto D,60000,N/A,70000,75000,4.8
Proyecto E,30000,35000,PENDING,40000,4.0"""

with open('datos/metricas.csv', 'w', encoding='utf-8') as f:
    f.write(metricas_csv)

# Especificar valores que representan NA
df_metricas = pd.read_csv(
    'datos/metricas.csv',
    na_values=['N/A', 'PENDING', '']
)

print("Métricas con valores faltantes:")
print(df_metricas)
print("\nValores nulos por columna:")
print(df_metricas.isnull().sum())

Métricas con valores faltantes:
     proyecto       q1       q2       q3     q4  satisfaccion_cliente
0  Proyecto A  25000.0  30000.0      NaN  35000                   4.5
1  Proyecto B  40000.0  45000.0  50000.0  55000                   NaN
2  Proyecto C      NaN  20000.0  22000.0  25000                   4.2
3  Proyecto D  60000.0      NaN  70000.0  75000                   4.8
4  Proyecto E  30000.0  35000.0      NaN  40000                   4.0

Valores nulos por columna:
proyecto                0
q1                      1
q2                      1
q3                      2
q4                      0
satisfaccion_cliente    1
dtype: int64


9. LECTURA DE ARCHIVOS GRANDES

In [None]:
# Para archivos muy grandes, leer por chunks (pedazos)
chunk_size = 2

# Simular procesamiento por chunks
chunks = []
for chunk in pd.read_csv('datos/ventas.csv', chunksize=chunk_size):
    # Procesar cada chunk
    chunk_procesado = chunk[chunk['total'] > 4500]
    chunks.append(chunk_procesado)

# Combinar todos los chunks
df_filtrado = pd.concat(chunks, ignore_index=True)
print("\nVentas > 4500 (procesado por chunks):")
print(df_filtrado)


Ventas > 4500 (procesado por chunks):
        fecha    cliente     producto  cantidad  precio_unitario  total
0  2024-01-15  Empresa A  Consultoría        40              150   6000
1  2024-01-17  Empresa C   Desarrollo        60              180  10800
2  2024-01-19  Empresa D     Análisis        25              200   5000


10. CODIFICACIÓN Y CARÁCTERES ESPECIALES

In [12]:
# CSV con caracteres especiales
clientes_latam = """empresa,país,contacto,teléfono
Tecnología São Paulo,Brasil,José Silva,+55-11-1234-5678
Consultoría México,México,María González,+52-55-8765-4321
Análisis Bogotá,Colombia,Andrés Muñoz,+57-1-9876-5432
"""

with open('datos/clientes_latam.csv', 'w', encoding='utf-8') as f:
    f.write(clientes_latam)

# Leer con encoding UTF-8
df_clientes = pd.read_csv('datos/clientes_latam.csv', encoding='utf-8')
print("Clientes LATAM:")
print(df_clientes)

Clientes LATAM:
                empresa      país        contacto          teléfono
0  Tecnología São Paulo    Brasil      José Silva  +55-11-1234-5678
1    Consultoría México    México  María González  +52-55-8765-4321
2       Análisis Bogotá  Colombia    Andrés Muñoz   +57-1-9876-5432


11. VALIDACIÓN Y LIMPIEZA POST-IMPORTACIÓN

In [13]:
# Función para validar datos importados
def validar_datos_csv(df, nombre_archivo):
    print(f"\n=== Validación de {nombre_archivo} ===")
    print(f"Forma: {df.shape}")
    print(f"Columnas: {list(df.columns)}")
    print(f"\nTipos de datos:")
    print(df.dtypes)
    print(f"\nValores nulos:")
    print(df.isnull().sum())
    print(f"\nPrimeras 3 filas:")
    print(df.head(3))

# Validar datos importados
validar_datos_csv(df_ventas, "ventas.csv")


=== Validación de ventas.csv ===
Forma: (5, 6)
Columnas: ['fecha', 'cliente', 'producto', 'cantidad', 'precio_unitario', 'total']

Tipos de datos:
fecha              object
cliente            object
producto           object
cantidad            int64
precio_unitario     int64
total               int64
dtype: object

Valores nulos:
fecha              0
cliente            0
producto           0
cantidad           0
precio_unitario    0
total              0
dtype: int64

Primeras 3 filas:
        fecha    cliente     producto  cantidad  precio_unitario  total
0  2024-01-15  Empresa A  Consultoría        40              150   6000
1  2024-01-16  Empresa B     Análisis        20              200   4000
2  2024-01-17  Empresa C   Desarrollo        60              180  10800


12. EXPORTAR A CSV

In [14]:
# Crear DataFrame de ejemplo
resumen_mensual = pd.DataFrame({
    'mes': ['Enero', 'Febrero', 'Marzo'],
    'ingresos': [250000, 280000, 310000],
    'gastos': [180000, 195000, 205000],
    'utilidad': [70000, 85000, 105000]
})

# Exportar a CSV
resumen_mensual.to_csv(
    'datos/resumen_mensual.csv',
    index=False,  # No incluir el índice
    encoding='utf-8'
)

# Exportar con opciones adicionales
resumen_mensual.to_csv(
    'datos/resumen_mensual_formato.csv',
    index=False,
    sep=';',  # Usar punto y coma
    decimal=',',  # Usar coma para decimales
    float_format='%.2f'  # Formato de decimales
)

print("Archivos exportados exitosamente")

Archivos exportados exitosamente


In [11]:
def cuadrado ( n ): 
    return n ** 2

resultado = cuadrado(4)

In [10]:
def saludar(nombre="Amigo"): return f"Hola, {nombre}"

resultado = saludar()