# Obtención de Datos desde Archivos

Nuestro objetivo: comprender algunos métodos principales para leer y escribir datos desde diferentes tipos de archivos, como CSV y Excel, utilizando la librería pandas en Python.

### Archivos: CSV y Excel.

Cuál es la diferencia entre ambos?

**CSV o Comma Separated Values** son un formato muy común para almacenar datos tabulares en texto plano, donde las columnas están separadas por comas (o cualquier separador que queramos).


Los **archivos Excel** (.xls, .xlsx) son un formato que puede contener múltiples hojas de cálculo, gráficos y más. pandas proporciona herramientas robustas para interactuar con ellos.




In [14]:
#Archivos CSV: Crear, Escribir y leer
#Crear
#Método útil: to_csv() de pandas

import pandas as pd

data = {
    'Nombre': ['Alice', 'Bob', 'Charlie', 'David'],
    'Edad': [24, 27, 22, 32],
    'Ciudad': ['Santiago', 'Valparaíso', 'Concepción', 'Puerto Montt']
}


df_ejemplo = pd.DataFrame(data)
print(df_ejemplo)

# Guardamos el DataFrame a un archivo CSV
# 'index=False' evita que pandas escriba el índice del DataFrame como una columna en el CSV
df_ejemplo.to_csv('datos_alumnos.csv', index=False) #sep default ,


    Nombre  Edad        Ciudad
0    Alice    24      Santiago
1      Bob    27    Valparaíso
2  Charlie    22    Concepción
3    David    32  Puerto Montt


In [18]:
# Leemos el archivo CSV
#Método útil: read_csv
df_csv = pd.read_csv('datos_alumnos.csv', encoding='utf8')

print(df_csv)

    Nombre  Edad        Ciudad
0    Alice    24      Santiago
1      Bob    27    Valparaíso
2  Charlie    22    Concepción
3    David    32  Puerto Montt


In [19]:
#Archivos CSV: Leer y escribir
#Escribir
#Función útil: to_csv() de pandas

# Añadimos una nueva columna al DataFrame
df_csv['Promedio_Notas'] = [6.5, 5.8, 7.0, 6.2]

# Guardamos el DataFrame modificado a un nuevo archivo CSV
nombre_nuevo_csv = 'datos_alumnos_actualizado.csv'
df_csv.to_csv(nombre_nuevo_csv, sep=';', index=False) # 'index=False' es crucial para no escribir el índice

#Leemos con función nativa de python: lo identifica como notas, no lo transforma a Data Frame, por eso no separa entre registros.
with open(nombre_nuevo_csv, 'r') as f:
    print(f.read())

Nombre;Edad;Ciudad;Promedio_Notas
Alice;24;Santiago;6.5
Bob;27;Valparaíso;5.8
Charlie;22;Concepción;7.0
David;32;Puerto Montt;6.2



# Python y archivos excel

Librerías xlrd y openpyxl

Para leer y escribir archivos Excel con pandas, necesitas tener instaladas ciertas librerías auxiliares:

xlrd: Para leer archivos .xls (formato antiguo de Excel).

openpyxl: Para leer y escribir archivos .xlsx (formato moderno de Excel).

In [28]:
# Creamos un DataFrame para la primera hoja
data_hoja1 = {
    'Mes': ['Enero', 'Febrero', 'Marzo'],
    'Ventas': [1500, 1700, 1600]
}
df_hoja1 = pd.DataFrame(data_hoja1)

# Creamos otro DataFrame para una segunda hoja
data_hoja2 = {
    'Producto_ID': ['P101', 'P102', 'P103'],
    'Stock': [100, 250, 75]
}
df_hoja2 = pd.DataFrame(data_hoja2)

# Escribimos los DataFrames en diferentes hojas del mismo archivo Excel
with pd.ExcelWriter('analisis_ventas_2024.xlsx', engine='openpyxl') as writer:
    df_hoja1.to_excel(writer, sheet_name='Resumen Ventas', index=False)
    df_hoja2.to_excel(writer, sheet_name='Resumen Ventas', index=False, startcol=2)


In [26]:
# Leemos la primera hoja (por nombre)
#Utilizamos read_excel
#df_ventas = pd.read_excel('reporte_ventas.xlsx', sheet_name='Resumen Ventas')
#print(df_ventas)

# Leemos la segunda hoja (por índice)
df_inventario = pd.read_excel('reporte_ventas.xlsx', sheet_name=0) # sheet_name=1 es la segunda hoja
print(df_inventario)


       Mes  Ventas Producto_ID  Stock
0    Enero    1500        P101    100
1  Febrero    1700        P102    250
2    Marzo    1600        P103     75


In [29]:
# Creamos datos para el resumen anual
data_anual = {
    'Año': [2024],
    'Ventas_Totales': [50000]
}
df_anual = pd.DataFrame(data_anual)

# Creamos datos para el desglose trimestral
data_trimestral = {
    'Trimestre': [1, 2, 3, 4],
    'Ventas': [12000, 13000, 12500, 12500]
}
df_trimestral = pd.DataFrame(data_trimestral)


# Escribimos ambos DataFrames en diferentes hojas del mismo archivo Excel
with pd.ExcelWriter('analisis_ventas_2024.xlsx', engine='openpyxl') as writer:
    df_anual.to_excel(writer, sheet_name='Resumen Anual 2', index=False)
    df_trimestral.to_excel(writer, sheet_name='Ventas Trimestrales 2', index=False)
