<a href="https://colab.research.google.com/github/joseverajim/Actividades-2.1-y-2.2-Extracci-n-de-Datos-/blob/main/ACTIVIDAD_2_1_(Extracci%C3%B3n_de_Datos).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import pandas as pd
from pathlib import Path

In [10]:
xlsx_path = "/content/Datos_Facturación.xlsx"
df = pd.read_excel(xlsx_path, sheet_name=0, engine="openpyxl")
print(df.shape)
print("Columnas:", list(df.columns))

(10895, 13)
Columnas: ['Unnamed: 0', 'CVE_DOC', 'CVE_CLPV', 'STATUS', 'CVE_VEND', 'FECHAELAB', 'FECHA_DOC', 'FECHA_ENT', 'FECHA_VEN', 'FECHA_CANCELA', 'CAN_TOT', 'DES_TOT', 'DES_FIN']


In [11]:
# 1) Tipado básico y fechas
for col in ["FECHAELAB", "FECHA_DOC", "FECHA_ENT", "FECHA_VEN", "FECHA_CANCELA"]:
    if col in df.columns:
        df[col] = pd.to_datetime(df[col], errors="coerce")

In [12]:
# Asegurar tipos numéricos donde aplica
if "CVE_VEND" in df.columns:
    df["CVE_VEND"] = pd.to_numeric(df["CVE_VEND"], errors="coerce").astype("Int64")

if "CVE_CLPV" in df.columns:
    df["CVE_CLPV"] = pd.to_numeric(df["CVE_CLPV"], errors="coerce")

if "CAN_TOT" in df.columns:
    df["CAN_TOT"] = pd.to_numeric(df["CAN_TOT"], errors="coerce")

In [14]:
# Comando para omitir pasos al guardar (Saver)
def save_csv(dataframe, name, keep_index=False):
    path = f"/content/{name}"
    dataframe.to_csv(path, index=keep_index)
    print(f"Guardado: {path} -> shape={dataframe.shape}")

In [None]:
# 3) Filtros

In [15]:
# Filtro 1: CVE_CLPV entre 1000 y 2000 (inclusive)
# Variables filtradas: CVE_CLPV
filtro1 = df[(df["CVE_CLPV"] >= 1000) & (df["CVE_CLPV"] <= 2000)]
save_csv(filtro1, "filtro1_CVE_CLPV.csv")

Guardado: /content/filtro1_CVE_CLPV.csv -> shape=(581, 13)


In [16]:
# Filtro 2: CVE_VEND todas excepto 4 y 5
# Variables filtradas: CVE_VEND (se conservan NaN)
filtro2 = df[~df["CVE_VEND"].isin([4, 5])]
save_csv(filtro2, "filtro2_CVE_VEND.csv")

Guardado: /content/filtro2_CVE_VEND.csv -> shape=(10090, 13)


In [17]:
# Filtro 3: FECHA_ENT = 28/02/2022 (igualdad por día; ignora hora)
# Variables filtradas: FECHA_ENT
fecha_obj = pd.to_datetime("2022-02-28").date()
filtro3 = df[df["FECHA_ENT"].dt.date == fecha_obj]
save_csv(filtro3, "filtro3_FECHA_ENT.csv")

Guardado: /content/filtro3_FECHA_ENT.csv -> shape=(17, 13)


In [18]:
# Filtro 4: CAN_TOT < 5951.7  OR  STATUS == "E"
# Variables filtradas: CAN_TOT, STATUS
cond_can = df["CAN_TOT"] < 5951.7
cond_status = df["STATUS"] == "E"
filtro4 = df[cond_can | cond_status]
save_csv(filtro4, "filtro4_CAN_TOT_STATUS.csv")

Guardado: /content/filtro4_CAN_TOT_STATUS.csv -> shape=(10817, 13)


In [19]:
# Filtro 5: Solo columnas CVE_DOC, FECHA_ENT, FECHA_VEN, CAN_TOT
# Variables filtradas: selección de columnas
cols5 = ["CVE_DOC", "FECHA_ENT", "FECHA_VEN", "CAN_TOT"]
filtro5 = df.loc[:, cols5]
save_csv(filtro5, "filtro5_columnas.csv")

Guardado: /content/filtro5_columnas.csv -> shape=(10895, 4)


In [20]:
# Filtro 6: Solo filas 7001-7099 (1-indexadas)
# Nota: iloc es base 0; 7001..7099 => iloc[7000:7099] (incluye 7000 y excluye 7099)
# Esto devuelve 99 filas (7001 a 7099 inclusive).
filtro6 = df.iloc[7000:7099]
save_csv(filtro6, "filtro6_filas7001_7099.csv")

Guardado: /content/filtro6_filas7001_7099.csv -> shape=(99, 13)


In [21]:
# Filtro 7: Index = CVE_VEND (valores: 1, 2), mostrar FECHAELAB
# Variables filtradas: CVE_VEND, FECHAELAB; se guarda conservando el índice
filtro7 = (
    df[df["CVE_VEND"].isin([1, 2])]
    .set_index("CVE_VEND")[["FECHAELAB"]]
    .sort_index()
)
save_csv(filtro7, "filtro7_index_CVEVEND.csv", keep_index=True)

Guardado: /content/filtro7_index_CVEVEND.csv -> shape=(8665, 1)


In [22]:
print("\nResumen shapes:")
print({
    "filtro1": filtro1.shape,
    "filtro2": filtro2.shape,
    "filtro3": filtro3.shape,
    "filtro4": filtro4.shape,
    "filtro5": filtro5.shape,
    "filtro6": filtro6.shape,
    "filtro7": filtro7.shape
})


Resumen shapes:
{'filtro1': (581, 13), 'filtro2': (10090, 13), 'filtro3': (17, 13), 'filtro4': (10817, 13), 'filtro5': (10895, 4), 'filtro6': (99, 13), 'filtro7': (8665, 1)}
