# Conexion de Python a SQL Server
Proyecto: International Debt Statistics



Bajar Data

In [None]:
# Configurar el entorno
!pip install requests pandas plotly




In [None]:
# Importar bibliotecas
import requests  # para realizar la solicitud a la API y obtener los datos en formato JSON
import json
import pandas as pd
import plotly.express as px
import plotly.io as pio

# Configurar el renderizador predeterminado para el entorno de cuaderno
pio.renderers.default = "notebook"


In [None]:
# Obtener el ID de la fuente de datos

# Obtener todas las fuentes de datos del Banco Mundial
sources = requests.get("https://api.worldbank.org/v2/sources?per_page=100&format=json")
sources_json = sources.json()

# Encontrar el ID de la fuente para International Debt Statistics
for source in sources_json[1]:
    if source["name"] == "International Debt Statistics":
        ids_source_id = source["id"]
        print(f"El ID de la fuente para International Debt Statistics es {ids_source_id}")
        break


El ID de la fuente para International Debt Statistics es 6


In [None]:
# Obtener los indicadores indiponibles para International Debt Statistics
indicators = requests.get(f"https://api.worldbank.org/v2/sources/{ids_source_id}/indicators?per_page=1000&format=json")
indicators_json = indicators.json()

# Mostrar indicadores disponibles
for indicator in indicators_json[1]:  # Mostrar los indicadores
    print(f"{indicator['id']}: {indicator['name']}")


BM.GSR.TOTL.CD: Imports of goods, services and primary income (BoP, current US$)
BN.CAB.XOKA.CD: Current account balance (BoP, current US$)
BX.GRT.EXTA.CD.DT: Grants, excluding technical cooperation (current US$)
BX.GRT.TECH.CD.DT: Technical cooperation grants (current US$)
BX.GSR.TOTL.CD: Exports of goods, services and primary income (BoP, current US$)
BX.KLT.DINV.CD.DT: Foreign direct investment, net inflows in reporting economy (DRS, current US$)
BX.KLT.DREM.CD.DT: Primary income on FDI (current US$)
BX.PEF.TOTL.CD.DT: Portfolio investment, equity (DRS, current US$)
BX.TRF.PWKR.CD.DT: Personal remittances, received (current US$)
DT.AMT.BLAT.CB.CD: CB, bilateral (AMT, current US$)
DT.AMT.BLAT.CD: PPG, bilateral (AMT, current US$)
DT.AMT.BLAT.GG.CD: GG, bilateral (AMT, current US$)
DT.AMT.BLAT.OPS.CD: OPS, bilateral (AMT, current US$)
DT.AMT.BLAT.PRVG.CD: PRVG, bilateral (AMT, current US$)
DT.AMT.BLAT.PS.CD: PS, bilateral (AMT, current US$)
DT.AMT.BLTC.CB.CD: CB, bilateral concessiona

In [None]:
# Seleccionar un indicador
indicator_id = "DT.DOD.DLXF.CD" #[3]


In [None]:
# Descargar los datos para el indicador seleccionado en el archibo 'debt'
data = requests.get(f"https://api.worldbank.org/v2/country/all/indicator/{indicator_id}?per_page=10000&format=json")
data_json = data.json()

# Convertir los datos a un df
data_list = []
for entry in data_json[1]:
    data_list.append({
        "country": entry["country"]["value"],
        "date": entry["date"],
        "value": entry["value"]
    })

debt = pd.DataFrame(data_list)
debt.head(5)


Unnamed: 0,country,date,value
0,Africa Eastern and Southern,2023,
1,Africa Eastern and Southern,2022,
2,Africa Eastern and Southern,2021,
3,Africa Eastern and Southern,2020,
4,Africa Eastern and Southern,2019,


# Revisar Tipos de Dato de Campos

Determinar el tipo de dato correcto por campo para ser utilizado en SQL Server.[1]

In [None]:
# Verificar el tipo de datos
debt.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   country  10000 non-null  object 
 1   date     10000 non-null  object 
 2   value    3509 non-null   float64
dtypes: float64(1), object(2)
memory usage: 234.5+ KB


In [None]:
# Cambiar el nombre de la columna 'date'
debt.rename(columns={'date': 'anyo'}, inplace=True)


In [None]:
# Cambiar el tipo de dato de la columna 'country'
debt['country'] = debt['country'].astype(str)


In [None]:
# Cambiar el tipo de dato de la columna 'value'
debt['value'] = debt['value'].apply(lambda x: round(x, 2) if pd.notnull(x) else x)


#Aplica una función lambda para redondear los valores a dos decimales (equivalente a money en SQL) solo si el valor no es nulo (pd.notnull).

In [None]:
# Verificación de los Cambios
print(debt.dtypes)


country     object
anyo        object
value      float64
dtype: object


Obtener Datos Complementarios:
Regiones y Niveles de Ingreso

In [None]:
# Obtener los datos de países y regiones del Banco Mundial
url = "https://api.worldbank.org/v2/country?format=json&per_page=300"
response = requests.get(url)
data = response.json()

# Convertir los datos a un DataFrame de pandas
region = pd.DataFrame(data[1])

# Seleccionar las columnas relevantes
region = region[['id', 'name', 'region', 'incomeLevel']]            # id (código del país), name (nombre del país), region (diccionario con la clave id) e incomeLevel (diccionario con la clave value)
region.columns = ['country_code', 'country', 'region', 'income_level']

# Extraer el valor de la clave 'id' de los diccionarios en la columna 'region'
region['region'] = region['region'].apply(lambda x: x['id'])        # la función apply para extraer el valor de la clave id de los diccionarios en la columna region.
region['income_level'] = region['income_level'].apply(lambda x: x['value'])

# Crear un diccionario de mapeo de siglas a nombres completos
region_mapping = {
    'AFR': 'África',
    'EAS': 'Asia Oriental y Pacífico',
    'ECS': 'Europa y Asia Central',
    'LCN': 'América Latina y el Caribe',
    'MEA': 'Oriente Medio y Norte de África',
    'NAC': 'América del Norte',
    'SAS': 'Asia Meridional',
    'SSF': 'África Subsahariana'
}

# Agregar una columna con el nombre completo de la región
region['region_full'] = region['region'].map(region_mapping)        # el método map para agregar una nueva columna region_full con los nombres completos de las regiones.

# Mostrar las primeras filas del DataFrame
region.head(5)



Unnamed: 0,country_code,country,region,income_level,region_full
0,ABW,Aruba,LCN,High income,América Latina y el Caribe
1,AFE,Africa Eastern and Southern,,Aggregates,
2,AFG,Afghanistan,SAS,Low income,Asia Meridional
3,AFR,Africa,,Aggregates,
4,AFW,Africa Western and Central,,Aggregates,


In [None]:
# Verificar el tipo de datos de cada columna en 'region'
region.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 296 entries, 0 to 295
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   country_code  296 non-null    object
 1   country       296 non-null    object
 2   region        296 non-null    object
 3   income_level  296 non-null    object
 4   region_full   217 non-null    object
dtypes: object(5)
memory usage: 11.7+ KB


In [None]:
# Cambiar el tipo de dato de la columna 'country_code' a String
region['country_code'] = region['country_code'].astype(str)


In [None]:
# Cambiar el tipo de dato de la columna  'country' a String
region['country'] = region['country'].astype(str)


In [None]:
# Cambiar el tipo de dato de la columna 'region' a String
region['region'] = region['region'].astype(str)


In [None]:
# Cambiar el tipo de dato de la columna 'income_level' a String
region['income_level'] = region['income_level'].astype(str)



In [None]:
# Cambiar el tipo de dato de la columna 'region_full' a String
region['region_full'] = region['region_full'].astype(str)



In [None]:
# Verificar cambios en el tipo de datos
print(region.dtypes)


country_code    object
country         object
region          object
income_level    object
region_full     object
dtype: object


# Cargar DataFrames a SQL Server

Conexion a SQL Server

In [None]:
# Facilita la interacción entre pandas y SQL Server
!pip install sqlalchemy  #[2]

import pandas as pd
from sqlalchemy import create_engine


In [None]:
# Crear la conexión al motor de SQLAlchemy
engine = create_engine('mssql+pymssql://your_username:your_password@your_server_name/your_database_name')


Cargar DataFrames en Tablas SQL

In [None]:
# Cargar el DataFrame 'debt' en la tabla 'debt_table'
debt.to_sql('debt', con=engine, if_exists='replace', index=False)
print("Datos del DataFrame 'debt' cargados en la tabla 'debt'")

# Cargar el DataFrame 'region' en la tabla 'region_table'
region.to_sql('region', con=engine, if_exists='replace', index=False)
print("Datos del DataFrame 'region' cargados en la tabla 'region'")


In [None]:
# Cerrar conexión
engine.dispose()
print("Conexión cerrada")


#----------------------------

[1] En pandas, el tipo de dato 'object' se utiliza para representar datos heterogéneos, incluyendo cadenas de texto y es completamente compatible con 'nvarchar' en SQL Server.

Cuando se convierte una columna a 'str' en pandas, sigue apareciendo como object, ya que es la representación genérica para cadenas, por lo que se puede seguir utilizando 'object'.

Pese a esto, se tuvo problema en la conexion, por el tipo de dato.

[2] SQLAlchemy (es una herramienta de ORM -Object-Relational Mapping-), que usa un motor de base de datos (engine) que gestiona la conexión a SQL Server, y maneja automáticamente la conexión a la base de datos.