## CARGAR DATOS EN DATAFRAMES

In [2]:
import pandas as pd

#### Cargar un archivo CSV

In [3]:
# Creamos un DataFrame a partir de un archivo CSV

ventas = pd.read_csv("../datos/ventas.csv")
ventas

Unnamed: 0.1,Unnamed: 0,Trimestre 1,Trimestre 2,Trimestre 3,Trimestre 4
0,Sucursal Norte,1001,1002,1003,1004
1,Sucursal Este,2001,2002,2003,2004
2,Sucursal Oeste,3001,3002,3003,3004
3,Sucursal Sur,4001,4002,4003,4004


In [4]:
# Corregir y especificar que columna corresponde a los índices del DataFrame
# Usando "index_col= 0" se especifica cual columna será los índices

ventas = pd.read_csv("../datos/ventas.csv", index_col = 0)
ventas

Unnamed: 0,Trimestre 1,Trimestre 2,Trimestre 3,Trimestre 4
Sucursal Norte,1001,1002,1003,1004
Sucursal Este,2001,2002,2003,2004
Sucursal Oeste,3001,3002,3003,3004
Sucursal Sur,4001,4002,4003,4004


In [5]:
# Leer un archivo CSV que esta separado por un caracter diferente
# Usando sep = "$" se puede especificar cual será el símbolo de separación del archivo

ventas = pd.read_csv("../datos/ventas_con_simbolo.csv", index_col = 0, sep = "$")
ventas

Unnamed: 0,Trimestre 1,Trimestre 2,Trimestre 3,Trimestre 4
Sucursal Norte,1001,1002,1003,1004
Sucursal Este,2001,2002,2003,2004
Sucursal Oeste,3001,3002,3003,3004
Sucursal Sur,4001,4002,4003,4004


In [21]:
# Cargar o solamente leer una o varias columnas en específico
# Usando usecols = [fila_1, fila_2,...] se especifica las columnas que solamente se quiere cargar

ventas = pd.read_csv("../datos/ventas.csv", index_col = 0, usecols = [0, 2, 4])
ventas

Unnamed: 0,Trimestre 2,Trimestre 4
Sucursal Norte,1002,1004
Sucursal Este,2002,2004
Sucursal Oeste,3002,3004
Sucursal Sur,4002,4004


In [22]:
# Cargar o solamente leer una o varias columnas en específico
# Usando usecols = [fila_1, fila_2,...] se especifica las columnas que solamente se quiere cargar

ventas = pd.read_csv("../datos/ventas.csv", usecols = ["Trimestre 2", "Trimestre 3"])
ventas

Unnamed: 0,Trimestre 2,Trimestre 3
0,1002,1003
1,2002,2003
2,3002,3003
3,4002,4003


In [7]:
# Cargar o leer solamente un número determinado de renglones/filas
# Usando nrows = 2 se especifica que solamente quiero cargar 2 filas/renglones

ventas = pd.read_csv("../datos/ventas.csv", index_col = 0, nrows = 2)
ventas

Unnamed: 0,Trimestre 1,Trimestre 2,Trimestre 3,Trimestre 4
Sucursal Norte,1001,1002,1003,1004
Sucursal Este,2001,2002,2003,2004


In [8]:
# Cargar un archivo CSV sin encabezado

ventas = pd.read_csv("../datos/ventas_sin_encabezado.csv", index_col = 0)
ventas

Unnamed: 0_level_0,1001,1002,1003,1004
Sucursal Norte,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Sucursal Este,2001,2002,2003,2004
Sucursal Oeste,3001,3002,3003,3004
Sucursal Sur,4001,4002,4003,4004


In [9]:
# Arreglar el DataFrame sin encabezado
# Usando "header = None" se arregla el problema en caso de que el CSV no haya tenido encabezados

ventas = pd.read_csv("../datos/ventas_sin_encabezado.csv", index_col = 0, header = None)
ventas

Unnamed: 0_level_0,1,2,3,4
0,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Sucursal Norte,1001,1002,1003,1004
Sucursal Este,2001,2002,2003,2004
Sucursal Oeste,3001,3002,3003,3004
Sucursal Sur,4001,4002,4003,4004


In [10]:
# Agregar encabezados a un DataFrame al leer un CSV
# Usando "names = [encabezado_1, encabezado_2, ...]" se especifica que nombres irán en los encabezados

ventas = pd.read_csv("../datos/ventas_sin_encabezado.csv", index_col = 0, header = None, names = ["T1", "T2", "T3", "T4"])
ventas

Unnamed: 0,T1,T2,T3,T4
Sucursal Norte,1001,1002,1003,1004
Sucursal Este,2001,2002,2003,2004
Sucursal Oeste,3001,3002,3003,3004
Sucursal Sur,4001,4002,4003,4004


In [11]:
# Leer un archivo CSV con datos basura

ventas = pd.read_csv("../datos/ventas_con_basura.csv")
ventas

Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Estos son los datos de ventas
,Trimestre 1,Trimestre 2,Trimestre 3,Trimestre 4
Sucursal Norte,1001,1002,1003,1004
Sucursal Este,2001,2002,2003,2004
Sucursal Oeste,3001,3002,3003,3004
Sucursal Sur,4001,4002,4003,4004
Las ventas las registró Juan Pérez,,,,


In [12]:
# Arreglar el archivo 
# Usando "skiprows = #fila" podemos decirle que no lea una o varias filas/renglones al momento de cargar el CSV

ventas = pd.read_csv("../datos/ventas_con_basura.csv", skiprows = 1, index_col = 0)
ventas

Unnamed: 0,Trimestre 1,Trimestre 2,Trimestre 3,Trimestre 4
Sucursal Norte,1001.0,1002.0,1003.0,1004.0
Sucursal Este,2001.0,2002.0,2003.0,2004.0
Sucursal Oeste,3001.0,3002.0,3003.0,3004.0
Sucursal Sur,4001.0,4002.0,4003.0,4004.0
Las ventas las registró Juan Pérez,,,,


In [13]:
# No leer las ultimas filas/renglones
# Usando "skipfooter = # de fila"

ventas = pd.read_csv("../datos/ventas_con_basura.csv", skiprows = 1, skipfooter = 1, index_col = 0, engine = "python")
ventas

Unnamed: 0,Trimestre 1,Trimestre 2,Trimestre 3,Trimestre 4
Sucursal Norte,1001,1002,1003,1004
Sucursal Este,2001,2002,2003,2004
Sucursal Oeste,3001,3002,3003,3004
Sucursal Sur,4001,4002,4003,4004


#### Cargar un archivo Excel

In [14]:
# Crear un DataFrame a partir de cargar un archivo Excel
# Esta forma solo carga la primera hoja/sheet

ventas = pd.read_excel("../datos/ventas_anuales.xlsx", index_col = 0, skiprows = 1)
ventas

Unnamed: 0,Trimestre 1,Trimestre 2,Trimestre 3,Trimestre 4
Sucursal Norte,1001,1002,1003,1004
Sucursal Este,2001,2002,2003,2004
Sucursal Oeste,3001,3002,3003,3004
Sucursal Sur,4001,4002,4003,4004


In [15]:
# Cargar una pestaña diferente del libro del Excel
# Usando "sheet_name = Nombre_de_la_Hoja" se puede cargar una hoja en especifico del libro de Excel
# Si el valor de "sheet_name = None" cargará toda el libro de Excel (todas las hojas)

ventas = pd.read_excel("../datos/ventas_anuales.xlsx", index_col = 0, skiprows = 1, sheet_name = None)
ventas

{'2020':                 Trimestre 1  Trimestre 2  Trimestre 3  Trimestre 4
 Sucursal Norte         1001         1002         1003         1004
 Sucursal Este          2001         2002         2003         2004
 Sucursal Oeste         3001         3002         3003         3004
 Sucursal Sur           4001         4002         4003         4004,
 '2021':                 Trimestre 1  Trimestre 2  Trimestre 3  Trimestre 4
 Sucursal Norte         2001         2002         2003         2004
 Sucursal Este          4001         4002         4003         4004
 Sucursal Oeste         6001         6002         6003         6004
 Sucursal Sur           8001         8002         8003         8004}

In [16]:
# Acceder a una hoja del libro Excel en el DataFrame

ventas["2020"]

Unnamed: 0,Trimestre 1,Trimestre 2,Trimestre 3,Trimestre 4
Sucursal Norte,1001,1002,1003,1004
Sucursal Este,2001,2002,2003,2004
Sucursal Oeste,3001,3002,3003,3004
Sucursal Sur,4001,4002,4003,4004


In [17]:
# Acceder a una hoja del libro Excel en el DataFrame

ventas["2021"]

Unnamed: 0,Trimestre 1,Trimestre 2,Trimestre 3,Trimestre 4
Sucursal Norte,2001,2002,2003,2004
Sucursal Este,4001,4002,4003,4004
Sucursal Oeste,6001,6002,6003,6004
Sucursal Sur,8001,8002,8003,8004
