In [1]:
import requests
import pandas as pd 

In [2]:
tablas_ine = ['2076','46298'] 

In [3]:
# O el parámetro que la API requiera
params = { "limit": 3 }

In [4]:
def extract_data(tabla_to_extract):
    # Realizar la solicitud GET
    response = requests.get(f"https://servicios.ine.es/wstempus/jsCache/es/DATOS_TABLA/{tabla_to_extract}?tip=AM&", params=params)

    # Verificar si la solicitud fue exitosa
    if response.status_code == 200:
        try:
            # Parsear los datos JSON
            data = response.json()
            # Convertir los datos a un DataFrame
            df = pd.DataFrame(data)
        except ValueError as e:
            # Manejar errores de parsing de JSON
            print(f"Error al parsear JSON: {e}")
            df = pd.DataFrame()  # Retornar un DataFrame vacío
    else:
        # Manejar el error de solicitud
        print(f"Error en la solicitud: {response.status_code}")
        print(response.text)
        df = pd.DataFrame()  # Retornar un DataFrame vacío

    return df.head()

In [6]:
#pip install openpyxl

In [7]:
#configurar pandas para mostrar el contenido completo
pd.set_option('display.max_colwidth', None)  #sin límite de ancho de columna
pd.set_option('display.max_rows', None)      #mostrar todas las filas
pd.set_option('display.max_columns', None)   #mostrar todas las columnas

In [17]:
for tabla_to_extract in tablas_ine:
    df = extract_data(tabla_to_extract)
    if not df.empty:
        # df_transform = transform(df)
        # Guardar como archivo Excel usando to_excel
        df.head().to_excel(f'C:/Users/dcastells/Desktop/MI_PATH/projects_sql_python/data/landing_zone/{tabla_to_extract}.xlsx', index=False)
        # Insertar en SQL Server
        df.to_sql(tabla_to_extract, engine, if_exists="replace", index=False)
        print(f"La tabla {tabla_to_extract} fue procesada")

La tabla 2076 fue procesada
La tabla 46298 fue procesada


In [36]:
import pandas as pd
import json

def explode_columnas(df):
    rows = []
    
    for _, row in df.iterrows():
        # Convertir las columnas MetaData y Data en diccionarios si no lo son
        meta_data = json.loads(row['MetaData']) if isinstance(row['MetaData'], str) else row['MetaData']
        data = json.loads(row['Data']) if isinstance(row['Data'], str) else row['Data']
        
        # Crear filas para cada clave-valor de MetaData
        if isinstance(meta_data, dict):
            for key, value in meta_data.items():
                rows.append({
                    'COD': row['COD'],
                    'Nombre': row['Nombre'],
                    'Tipo': 'MetaData',
                    'Clave': key,
                    'Valor': value
                })
        
        # Crear filas para cada clave-valor de Data
        if isinstance(data, dict):
            for key, value in data.items():
                rows.append({
                    'COD': row['COD'],
                    'Nombre': row['Nombre'],
                    'Tipo': 'Data',
                    'Clave': key,
                    'Valor': value
                })
    
    # Convertir las filas generadas en un nuevo DataFrame
    exploded_df = pd.DataFrame(rows)
    return exploded_df

# Ejemplo de uso:
# df = pd.read_csv("ruta_del_archivo.csv")  # O el DataFrame que ya tienes cargado
df_exploded = explode_columnas(df)
# print(df_exploded)


In [38]:
import pandas as pd
import json

def desglosar_meta_y_data(df):
    rows = []
    
    for _, row in df.iterrows():
        # Procesar Meta_Valor si no es None
        if row['Meta_Valor'] is not None:
            meta_value = json.loads(row['Meta_Valor']) if isinstance(row['Meta_Valor'], str) else row['Meta_Valor']
            for key, value in meta_value.items():
                rows.append({
                    'COD': row['COD'],
                    'Nombre': row['Nombre'],
                    'Tipo': row['Tipo'],
                    'Clave': row['Clave'],
                    'SubClave': key,
                    'SubValor': value
                })
        
        # Procesar Data_Valor si no es None
        if row['Data_Valor'] is not None:
            data_value = json.loads(row['Data_Valor']) if isinstance(row['Data_Valor'], str) else row['Data_Valor']
            for key, value in data_value.items():
                rows.append({
                    'COD': row['COD'],
                    'Nombre': row['Nombre'],
                    'Tipo': row['Tipo'],
                    'Clave': row['Clave'],
                    'SubClave': key,
                    'SubValor': value
                })
    
    # Crear un DataFrame con las filas desglosadas
    desglosado_df = pd.DataFrame(rows)
    return desglosado_df

# Ejemplo de uso:
# df = pd.read_csv("ruta_del_archivo.csv")  # O el DataFrame que ya tienes cargado
df_desglosado = desglosar_meta_y_data(df_desglosado)
# print(df_desglosado)
df_desglosado


Unnamed: 0,COD,Nombre,Tipo,Clave,SubClave,SubValor
0,EOT43602,Vitoria-Gasteiz. Tarifa media diaria (ADR). Total categorías. Dato base.,MetaData,Item_0,Id,571
1,EOT43602,Vitoria-Gasteiz. Tarifa media diaria (ADR). Total categorías. Dato base.,MetaData,Item_0,T3_Variable,PUNTOS TURISTÍCOS
2,EOT43602,Vitoria-Gasteiz. Tarifa media diaria (ADR). Total categorías. Dato base.,MetaData,Item_0,Nombre,Vitoria-Gasteiz
3,EOT43602,Vitoria-Gasteiz. Tarifa media diaria (ADR). Total categorías. Dato base.,MetaData,Item_0,Codigo,01059
4,EOT43602,Vitoria-Gasteiz. Tarifa media diaria (ADR). Total categorías. Dato base.,MetaData,Item_1,Id,284338
5,EOT43602,Vitoria-Gasteiz. Tarifa media diaria (ADR). Total categorías. Dato base.,MetaData,Item_1,T3_Variable,Concepto turístico
6,EOT43602,Vitoria-Gasteiz. Tarifa media diaria (ADR). Total categorías. Dato base.,MetaData,Item_1,Nombre,Tarifa media diaria (ADR)
7,EOT43602,Vitoria-Gasteiz. Tarifa media diaria (ADR). Total categorías. Dato base.,MetaData,Item_1,Codigo,F
8,EOT43602,Vitoria-Gasteiz. Tarifa media diaria (ADR). Total categorías. Dato base.,MetaData,Item_2,Id,9834
9,EOT43602,Vitoria-Gasteiz. Tarifa media diaria (ADR). Total categorías. Dato base.,MetaData,Item_2,T3_Variable,TIPO DE CATEGORIA


In [10]:
pip install pyodbc

Collecting pyodbc
  Downloading pyodbc-5.2.0-cp310-cp310-win_amd64.whl.metadata (2.8 kB)
Downloading pyodbc-5.2.0-cp310-cp310-win_amd64.whl (68 kB)
Installing collected packages: pyodbc
Successfully installed pyodbc-5.2.0
Note: you may need to restart the kernel to use updated packages.


In [12]:
import pyodbc

# Configuración de la conexión
conexion = pyodbc.connect(
    'DRIVER={ODBC Driver 17 for SQL Server};'
    'SERVER=localhost;'
    'DATABASE=staging;'
    'UID=AbolrousHazem;'
    'PWD=340$Uuxwp7Mcxo7Khy'
)

cursor = conexion.cursor()


In [None]:
pip install sqlalchemy

In [15]:
import pandas as pd
from sqlalchemy import create_engine

# Configuración de conexión a SQL Server
engine = create_engine(
    "mssql+pyodbc://AbolrousHazem:340$Uuxwp7Mcxo7Khy@localhost/staging?driver=ODBC+Driver+17+for+SQL+Server"
)