# PANDAS SERIES & DATAFRAMES

*   Modulos
*   Crear una serie
*   Crear un dataframe
*   Carga de datos
*   Resumen de los datos: dimensiones y estructuras
*   Detección y tratamiento de valores ausentes
*   Variables dummy
*   Ordenar el dataframe
*   filtrar por columna o fila
*   Query con pandas
* Joins



## Modulos
*modulos/paquetes/librerias*

* Previo a usar un modulo se debe primero *descargar*, *instalar* y luego si se puede *importar*

Si se recibe un error de este tipo *ModuleNotFoundError: No module named 'NOMBRE_MODULO_DESEADO'* se puede solucionar de la siguiente forma :

    * en CMD/TERMINAL usar el comando: pip install NOMBRE_MODULO_DESEADO
    * en la rutina se incluye la instrucción: !pip install NOMBRE_MODULO_DESEADO
    * especificar las librerias/modulos que se necesitan y la versión en un requirements.txt

In [None]:
import os # importar los modulos

In [None]:
import pandas as pd # traernos las funciones para importar y trabajar con tablas de datos
import numpy as np # traernos las funciones para trabajar con arreglos/matrices/vectores datos

## Crear una serie

Estructura unidimensional

* creando una serie de pandas a partir de un diccionario

In [None]:
# crear un diccionario
s = {
    'Jairo': 1020159, 
    'Felipe': 1020486, 
    'Omar': 1020754
    } 

# crear una serie de pandas usando el diccionario
ds_000 = pd.Series(s) 

# ver serie de pandas
ds_000 

* creando una serie de pandas a partir de listas

In [None]:
valores = [1020159, 1020486, 1020754] # creamos un listado con la serie de informacion
list_indx = ['Jairo', 'Felipe', 'Omar'] # creamos un listado con los indices o nombres de las filas

ds_000 = pd.Series(
    valores,
    index = list_indx
    )# usamos la funcion pd.series para obtener una serie de pandas
ds_000

* crear una serie de pandas con solo una lista de valores

In [None]:
s = ['Jairo', 'Felipe', 'Omar']
ds_000 = pd.Series(s) # crear una serie de pandas solo con una lista
ds_000 # ver serie de pandas

## Crear un dataframe

    * NOMBRE UNICO QUE IDENTIFIQUE CADA COLUMNA : no hay dos columnas con el mismo nombre
    * FORMATO : una misma columna no puede mas de un tipo de dato (o solamente numerica o solamente texto, o solamente otro tipo)

In [None]:
# crear un diccionario
dm_000 = {
    'Job Title': ['Android Developer', 'Full Stack Web Developer', 'Full Stack Web Developer'],
    'Salary': [3456, 6789,12345]
    }

# construir un dataframe a partir de un diccionario (las llaves las va a utilizar para generar columnas)
df_000 = pd.DataFrame(data=dm_000)
df_000

In [None]:
# crear un dataframe desde una serie de pandas
s = [1020159, 1020486, 1020754,999999] # lista de informacion con el salario
list_indx = ['Jairo', 'Felipe', 'Omar','juan'] # lista con el trabajador
ds_000 = pd.Series(s,index = list_indx) # crear una serie de pandas con la lista de informacion y de indices


# crear un diccionario utilizando la serie de pandas generada anteriormente
dm_000 = {
    'Job Title': ['Android Developer', 'Full Stack Web Developer', 'Full Stack Web Developer','Unemployed'],
    'Salary': ds_000
    }

df_000 = pd.DataFrame(data=dm_000) # crear el datfarame a partir de la serie de pandas
df_000

In [None]:
# crear una matriz o arreglo de datos usando numpy
da_000 = np.array(
    [
        ['Jairo', 'Android Developer', 1020159],
        ['Felipe', 'Full Stack Web Developer', 1020486],
        ['Omar', 'Full Stack Web Developer', 1020754]
        ]
        )

# a partir de un array de numpy construyo el dataframe
df_000 = pd.DataFrame(
    data= da_000,
    columns= ['Name', 'Job Title', 'Salary']
    ) # usar el arrglo de numpy e indicar explicitamente el nopmbre las columnas

df_000


* generar un dataframe vacío

In [None]:
df_000 = pd.DataFrame()
df_000

## Carga de datos

**Qué se necesita para leer/acceder a un recurso de información? ...**

1. Saber dónde está ubicado?
2. Saber cómo se llama el recurso de información?
3. Qué método/estrategia/función me sirve para leerlo?

### Carga de un archivo plano

In [None]:
# CONSTRUIR LA DIRECCION DE UBICACION UN RECURSO DE INFORMACION
mainpath = "https://raw.githubusercontent.com/elprincipitogauss/lesson/main/" # direccion o ruta de ubicacion del archivo
filename = "Salary_Dataset_with_Extra_Features.csv" # el nombre del archivo y la extension
fullpath = os.path.join(mainpath, filename) # concatenar la direccion completa
fullpath

    * pd.read_csv()

In [None]:
 # utilizar la funcion de lectura de "archivos planos" de pandas para leer archivo ubicado en la ruta
df_000 = pd.read_csv(fullpath) # lea archivo en ruta ( .txt , .csv y .tsv)
df_000 # muestreme que hay en la variable

* parametrizar la lectura del archivo

In [None]:
df_001 = pd.read_csv(fullpath, sep=",") # seperador de columnas
df_001

In [None]:
df_001 = pd.read_csv(
    fullpath, # ruta
    sep=",", # separador
    header = 'infer' # lectura del encabezado
    ) # parametrizar la lectura del archivo
df_001

In [None]:
list_colnames = ['A', 'B', 'C', 'D', 'E', 'F', 'G','H'] # creo un listado ( de nombres de columnas)

df_002 = pd.read_csv(
    fullpath, # ruta
    sep=",", # separador
    names = list_colnames # el listado de nombres de columnas
    ) # leer el archivo indicando el nombre de las columnas

df_002

In [None]:
list_colnames = ['A', 'B', 'C', 'D', 'E', 'F', 'G','H'] # creo un listado ( de nombres de columnas)

df_003 = pd.read_csv(
    fullpath,
    sep=",",
    names = list_colnames,

    skiprows = 1 # salte la la primer fila en la lectura
    )
df_003

### Carga de un archivo de excel

In [None]:
# construir ruta de ubicacion del archivo
mainpath = "https://raw.githubusercontent.com/elprincipitogauss/lesson/main/"
filename = "Salary_Dataset_with_Extra_Features.xlsx"
fullpath = os.path.join(mainpath, filename)
fullpath

    * pd.read_excel

*NOTA* :  se debe tener instaldo el modulo --openpyxl--

In [None]:
df_004 = pd.read_excel(fullpath) # usar la funcion de lectura de excel para pandas
df_004

In [None]:
# para una descripcion rapida del dataframe
df_004.info()

In [None]:
df_004 = pd.read_excel(
    fullpath,
    sheet_name = 0 # seleccionar una hojas del excel
    ) # usar la funcion de lectura de excel para pandas
df_004

In [None]:
df_004 = pd.read_excel(
    fullpath,
    sheet_name = 'Salary_Dataset_with_Extra_Featu' # seleccionar una hojas del excel
    ) # usar la funcion de lectura de excel para pandas
df_004

## Carga masiva de archivos

In [None]:
# lista de adirecciones donde estan ubicados cada uno de los archivo
list_filename = [
    "https://raw.githubusercontent.com/elprincipitogauss/lesson/main/Salary_Dataset_with_Extra_Features_pt1.xlsx",
    "https://raw.githubusercontent.com/elprincipitogauss/lesson/main/Salary_Dataset_with_Extra_Features_pt2.xlsx",
    "https://raw.githubusercontent.com/elprincipitogauss/lesson/main/Salary_Dataset_with_Extra_Features_pt3.xlsx"
    ]

# crear una lista vacia contenedora
list_df = [] 

#estructura de control for
for file_i in list_filename:
  list_df.append(pd.read_excel(file_i)) # la lista vacia se va a llenar de cada uno de los dataframes que va a leer

list_df # ver contenido de la lista

![picture](https://raw.githubusercontent.com/elprincipitogauss/lesson/main/bindrows.png)

In [None]:
# canaatidad de filas de cada dataframe
3413+10030+6246

    * pd.concat

In [None]:
# enlistamos las direcciones a consultar con los exceles
list_filename = [
    "https://raw.githubusercontent.com/elprincipitogauss/lesson/main/Salary_Dataset_with_Extra_Features_pt1.xlsx",
    "https://raw.githubusercontent.com/elprincipitogauss/lesson/main/Salary_Dataset_with_Extra_Features_pt2.xlsx",
    "https://raw.githubusercontent.com/elprincipitogauss/lesson/main/Salary_Dataset_with_Extra_Features_pt3.xlsx"
    ]

# nota : no se necesita generar dataframe contenedor vacio

# recorrer la lista para leer cada uno de los exceles
for file_i in list_filename:

  df_a = pd.read_excel(file_i) # generar un dataframe leyendo la direccion en el iterando
  
  try: # intente realizar ...
    df_cont = pd.concat([df_cont,df_a]) # pegar por abajo la nueva base leida a la base inicial
  except:
    df_cont = df_a # el datframe leido va a ser el datframe inicial del contenedor

df_cont

* listar archivos de un directorio

In [None]:
def busqueda_directorio_archivos(directorio,patron):
    """
    directorio: es la ruta del directorio que se quiere explorar
    patron: el patron que debe coincidir con el nombre en la busqueda de los archivos
    """
    archivos = os.listdir(directorio)
    resultado = list(filter(lambda x: patron in x, archivos))
    return resultado


In [None]:
busqueda_directorio_archivos(directorio = '.',patron = 'Analisis')

## Resumen de los datos: dimensiones y estructuras

In [None]:
# backup de la información
df = df_000.copy() # reserva una copia de la informacion en la memoria
df

In [None]:
df.head(5) #  encabezado del dataframe

In [None]:
df.tail(5) # la cola de la tabla

In [None]:
df.columns # el nombre de las columnas de la tabla

In [None]:
df.shape # las dimensiones del dataframe (rows, columns)

In [None]:
# resumen estdistico de cada columna
# segun de el tipo de datos realizar un descriptivo rapido
# da prioridad a las columnas numericas
df.describe()

* Nota : seleccionar columnas de un dataframe usando las llavesdataframe
[[columna_1, columna_2,..., columna_n]]

In [None]:
# resumen estdistico de cada columna
# segun de el tipo de datos realizar un descriptivo rapido
# da prioridad a las columnas numericas se debe filtrar solo texto eenn caso de describir cols texto
df[['Company Name', 'Job Title']].describe()

In [None]:
df.dtypes # tipo de datos en cada columna

In [None]:
df.info() # resumen rapido de la informacion del dataframe

## Tratamiento y detección de valores ausentes

In [None]:
# variable que se le asigna un texto que es el nombre de una columna #feature=atributos=variables=columnas
ftr_name = "Rating" 

In [None]:
# ver columna seleccionada
df[ftr_name]

In [None]:
# si la informacion de cada elemento de la columna es nula
pd.isnull(df[ftr_name]) 

In [None]:
# si la informacion de cada elemento de la columna no es nula
pd.notnull(df[ftr_name]) 

In [None]:
# cuantos vacios hay?
cuantos_vacios = pd.isnull(df[ftr_name]).values.ravel().sum() # sumar los trues (cuando es vacio)
print('La columna '+ftr_name+ ' posee {} registros vacíos'.format(cuantos_vacios))

In [None]:
# cuantos no son vacios?
cuantos_llenos = pd.notnull(df[ftr_name]).values.ravel().sum() # suma los trues (cuando no es vacio)
print('La columna '+ftr_name+ ' posee {} registros con información'.format(cuantos_llenos))

### Borrar valores ausentes

In [None]:
# filtrar el dataframe según el registro que posee vacios en la columna
df[pd.isnull(df[ftr_name])]

In [None]:
# recorrer el dataframe usando los numeros de filas
# otr form  de usar rangos usando : limite_inferior:limite_superior
# nnunca lleg al limite_superior
# iloc loclizr por index
df.iloc[16:21] 

* revisión y borrado por eje filas

In [None]:
# borrar filas que contengan todos los campos vacios
df.dropna(
    axis=0,  # cuando axis = 0 hace referencia a las filas
    how="all" # todos los campos vacios
    ).iloc[16:21] 


In [None]:
# borrar filas que contengan por lo menos un campo
df.dropna(
    axis=0, # cuando axis = 0 hace referencia a las filas
    how="any" # por lo menos algun campo esté vacio
    ).iloc[16:21] 

* revisión y borrado por eje columnas

In [None]:
# borrar columnas que contengan todos los registros vacios
df.dropna(
    axis=1, # cuando axis = 1 el entiendo que va a realizarlo por columnas
    how="all"
    ).iloc[16:21]  


In [None]:
# borrar columnas que contengan por lo menos un campo
df.dropna(
    axis=1, # cuando axis = 1 el entiendo que va a realizarlo por columnas
    how="any"
    ).iloc[16:21]  


### imputar valores ausentes

In [None]:
df_imputed = df.copy() # copy realiza una copia en otra variable

In [None]:
df_imputed.info()

In [None]:
# llene todos los vacios (NaN NA Null) con "ceros" numerico
df_test_000 = df_imputed.fillna(0)
print(df_test_000.iloc[16:21] )
df_test_000.info() 

In [None]:
df_test_000 = df_imputed.fillna('0')
print(df_test_000.iloc[16:21] )
df_test_000.info() # llene todos los vacios con "ceros" en texto

In [None]:
# #dos formas de guardar el resultado del cambio
# df_imputed.fillna('0',inplace=True)
# df_imputed = df_imputed.fillna('0')

* realizar la imputacion según el contexto

In [None]:
# seleccionar columna quie se quiere afectar (imputar)
ftr_name = 'Rating'

# saca el promedio de la columna seleccionada
promedio = df_imputed[ftr_name].mean() 
# saca el promedio de la columna seleccionada
mediana = df_imputed[ftr_name].median() 

print('el promedio de la columna {} es {} y su mediana es {}'.format(ftr_name,str(promedio),str(mediana)))

In [None]:
# recorrer el dataframe usando los numeros de filas
df.iloc[16:21] 

In [None]:
#los diferentes metodos de rellenar o imputacion

# seleccionar la columna
ftr_name = 'Rating'

# rellenar con un valor dado
df_imputed["X_0_numerico"] = df_imputed[ftr_name].fillna(0) # imputar con un numero para todos los ausentes
df_imputed["X_0_texto"] = df_imputed[ftr_name].fillna('0')# imputar con un texto para todos los ausentes

# relleno segun contexto
df_imputed["X_promedio"] = df_imputed[ftr_name].fillna(df_imputed[ftr_name].mean())# imputar con un numero resultado de obtewner el promedio de la columna para todos los ausentes
df_imputed["X_mediana"] = df_imputed[ftr_name].fillna(df_imputed[ftr_name].median())# imputar con un numero resultado de obtewner la mediano de la columna para todos los ausentes
df_imputed["X_forward"] = df_imputed[ftr_name].fillna(method="ffill") # imputar con el anterior valor en la columna para todos los ausentes
df_imputed["X_backward"] = df_imputed[ftr_name].fillna(method="backfill")# imputar con el posterior valor en la columna para todos los ausentes

# ver resultado de las estrategias de imputacion
columnas_resultado = [ftr_name,"X_0_numerico","X_0_texto","X_promedio","X_mediana","X_forward","X_backward"]
df_imputed[columnas_resultado][16:21]

In [None]:
nombre_columna = "Company Name"
df_imputed[df_imputed[nombre_columna].isnull()] # el registro vacio

In [None]:
df_imputed.iloc[67:72] # fila 69 es la que posee un valor vacio

In [None]:
#los diferentes metodos de rellenar o imputacion
nombre_columna = "Company Name"

# rellenar con un valor dado
df_imputed["X_0_numerico"] = df_imputed[nombre_columna].fillna(0) # imputar con un numero para todos los ausentes
df_imputed["X_cualquier_texto"] = df_imputed[nombre_columna].fillna('Alcaldia')# imputar con un texto para todos los ausentes

# relleno segun contexto
df_imputed["X_forward"] = df_imputed[nombre_columna].fillna(method="ffill") # imputar con el anterior valor en la columna para todos los ausentes
df_imputed["X_backward"] = df_imputed[nombre_columna].fillna(method="backfill")# imputar con el posterior valor en la columna para todos los ausentes

# ver resultado de las estrategias de imputacion
columnas_resultado = [nombre_columna,"X_0_numerico","X_cualquier_texto","X_forward","X_backward"]
df_imputed[columnas_resultado][67:72]

## Variables dummy

In [None]:
df_dummies = df.copy() # sacando una copia del df original

In [None]:
df_dummies["Employment Status"].values # reviisar posibles valores que puede haber en columna seleccionada

In [None]:
df_dummies["Employment Status"].value_counts()# reviisar posibles valores que puede haber en columna seleccionada

In [None]:
vars_dummies = pd.get_dummies(
    df_dummies["Employment Status"], # la columna original
    prefix="Empl_status:" # agrega un prefijo al nuevo nombre de la columna
    ) # obtener las columnas dummies a pártir de columna referencia
vars_dummies

In [None]:
# 1er paso - convertir en dummies columna categorica (entrega tantas columnas como categorias tenga la columna original)
vars_dummies = pd.get_dummies(
    df_dummies["Employment Status"], 
    prefix="Empl_status:"
    ) # obtener las columnas dummies a pártir de columna referencia

# 2do paso - borrar columna original que se convirtió a dummies
df_drop_var = df_dummies.drop(
    ["Employment Status"], 
    axis = 1 # eliminar columnas
    ) # construir las dummies apartir del status

# 3er paso -  concatenar (pegar columnas a la derecha) el df con columnas dummies
df_dummies = pd.concat(
    [df_drop_var, vars_dummies], 
    axis = 1 # pegar por la derecha la tabla construida de dummies (pegar por columna)
    ) 

# revisar encabezado con reusltado
df_dummies.head()

## Ordenar el dataframe

In [None]:
df.head(5)

In [None]:
# ordenemelo utilizando la columna de formma ascendente
df.sort_values(
    by=['Rating'], # segun la informacion de la colum
    ascending=True # de forma ascendente (de menor a mayor)
    ) 

In [None]:
# ordenemelo utilizando la columna de formma ascendente
df.sort_values(
    by=['Rating'], # segun la informacion de la column
    ascending=False # de forma descendente (de mayor a menor)
    ) 

In [None]:
df.sort_values(
    by=['Location']
    ) # ascendente (de menor a mayor o de A a la Z) : ascending=True
# cuando hay vacios los suele dejar al final

In [None]:
df.sort_values(
    by=['Location'], 
    ascending=False # descendente (de mayor a menor o de Z a la A) : ascending=False
    ) 
# cuando hay vacios los suele dejar al final

In [None]:
# ordenar por varias columnas
df.sort_values(
    by=['Rating','Location','Salary','Salaries Reported'], 
    ascending=False # desc
    ) 

In [None]:
# prueba
df.sort_values(
    by=['Rating','Location','Salary','Salaries Reported'], 
    ascending=False
    )[df.Rating == 1.0][0:15] # ordenar por varias columnas

## Filtrar por columna o fila

### filtrar por columnas (axis 1)

In [None]:
df.filter(
    items=['Rating', 'Salary'], 
    axis=1 # filtrar usando el axis 1 indica que los items filtrados columnas
    ) 

In [None]:
df.filter(
    like='Job', 
    axis=1
    ) # seleccion columnas segun coincida con un patron

In [None]:
df.filter(
    like='e', 
    axis=1
    ) # seleccion columnas segun coincida con un patron

In [None]:
df.filter(
    regex='e$', # las que terminen en 'e'
    axis=1
    ) # seleccionar las que coincidancon un patron utilzando expresiones regulares


### filtrar por fila (index) (axis = 0)

In [None]:
df.filter(
    items=[227,267], 
    axis=0
    )#  filtrar por fila utilizando el axis 0

In [None]:
df.filter(
    like='227', 
    axis=0
    ) #  filtrar por fila utilizando el axis 0 que coincidan en el nombre del indice

In [None]:
df.filter(
    regex = '227$', 
    axis = 0
    ) # todas las que el indice termine en 227

## Query con pandas (Consulta)

* seleccionar columnas

In [None]:
df['Salary']

In [None]:
df.Salary

1ra forma

In [None]:
df.filter(items=['Salary','Rating'], axis = 1) # filtrar por columnas

2da forma

In [None]:
df[['Salary','Rating']] # seleccionar columnas del dataframe a seleccionar

* realizar descriptivo

In [None]:
df.Salary.describe() # descriptivo rapido de la informacion

* evaluar condiciones en cada fila

In [None]:
df['Salary'] >  490000 # genera una columna con la evaluación a la condición # WHERE

In [None]:
df['Rating'] > 4.3

In [None]:
# copia dataframe
df_test_001 = df.copy()
# crear nueva columna con condiciones
df_test_001['condicion_1'] = df['Salary'] > 490000
df_test_001['condicion_2'] = df['Rating'] > 4.3
df_test_001['condicion_INTERSECCION'] = (df['Salary'] > 490000) & (df['Rating'] > 4.3)
df_test_001['condicion_UNION'] = (df['Salary'] > 490000) | (df['Rating'] > 4.3)


# revisar resultado
df_test_001[['Salary','Rating','condicion_1','condicion_2','condicion_INTERSECCION','condicion_UNION']]

* filtrar según se evalua condiciones

In [None]:
# condiciones logicas
condicion1 = df['Salary'] > 490000
condicion2 = df['Rating'] > 4.3

# filtrar según condicion evaluada
df[condicion1 & condicion2] # and (& se usa para la interseccion :  cumplir al mismo tiempo ambas)

In [None]:
condicion1 = df['Salary'] > 490000
condicion2 = df['Rating'] > 4.3

df[condicion1 | condicion2] # OR (| union que se cumplan por lo menos una de las dos condicioens)

In [None]:
df[(df['Salary'] > 490000)|(df['Rating']>4.3)] # utilizar el resultado de evaluar la condicion para filtrar

In [None]:
df.query('Salary > 490000 | Rating>4.3') # realizar un query con condicion

In [None]:
# hay dos formas de seleccionar o llamar una columna utilizando [] o utilizando el punto
df[df['Salaries Reported'] == df.Rating] # filtrar dataframe cuando cumple condicion

In [None]:
# uso de comillas especiales para columnas que tienen nombres con espacios `nombre variable`
df.query('`Salaries Reported` == Rating') # obtener mismo resultado de consulta

In [None]:
# puedo escribir "and" o "&"
# estrictamente ambas condiciones debe cumplir
df.query('(`Salaries Reported` == Rating) and (Salary > 200000)')

In [None]:
# puedo escribir "or" o "|"
# por lo menos alguna de las condiciones debe cumplir
df.query('(`Salaries Reported` == Rating) or (Salary > 600000)')

In [None]:
# poblacion
poblacion = df.shape[0]
#query 1
# ((`Salaries Reported` == Rating) or (Salary > 600000))
resultado_q1 = df.query('(`Salaries Reported` == Rating) or (Salary > 600000)').shape[0]

#query 2
# not ((`Salaries Reported` == Rating) or (Salary > 600000))
resultado_q2 = poblacion- resultado_q1

print(' el resultado del query 2 (la negacion del query 1) es : {}'.format(resultado_q2))

In [None]:
# puedo escribir "not" o "!"
# niega el cumplimiento de condiciones
df.query('not ((`Salaries Reported` == Rating) or (Salary > 600000))')

In [None]:
# la cantidad de registros resultado de la negación resulta en el complemento de la afirmación
no_cumplen = df.query('not ((`Salaries Reported` == Rating) or (Salary > 600000))').shape[0]
si_cumplen = df.query('(`Salaries Reported` == Rating) or (Salary > 600000)').shape[0]
print('los registros que cumnplen con la condicion 1 son {} \n y los registros que cumplen con la condicion 2 son {} \n y en total la cantidad de registros es {}'.format(si_cumplen,no_cumplen,si_cumplen+no_cumplen))

In [None]:
# poder conjugar/encadenar/depender varias condiciones
# or |
# and &
# not !
df.query('(`Salaries Reported` == Rating) or not (Salary > 100000)')

## Joins

![picture](https://raw.githubusercontent.com/elprincipitogauss/lesson/main/img_joins.jpg)

In [None]:
# creo dos dataframes

df_izq = pd.DataFrame(
    np.array([['Jairo', 'AD', 120159], ['Felipe', 'FSWD', 444568], ['Marcela', 'UX', 215444], ['Omar', 'FSWD', 421554], ['Celia', 'ADP', 159445]]),
    columns=['Name', 'Job Title Code', 'Salary']
    )


df_der = pd.DataFrame(
    np.array([['AD', 'Android Developer', 'Part time'], ['FSWD', 'Full Stack Web Developer', 'Full time'], ['TE', 'Test Engineer', 'Full time'], ['ADP', 'Advanced Python Developer', 'Part time']]),
    columns=['Job Title Code', 'Job Title Description', 'work']
    )

In [None]:
df_izq # llave es "Job Title Code"

In [None]:
df_der # llave es "Job Title Code"

* la función se usa para realizar join es pandas.merge (pd.merge)

solo se necesita entender y indicar:

**1. conjuntos de datos a cruzar**

**2. tipo de join**

**3. llaves para realizar cruce (opcional : la funcion pd.merge es capaz de buscar y encontrar la mejor llave si en ambos dataframes tienen el mismo nombres) deben tener el mismo tipo de dato**

    * pd.merge

In [None]:

# parametro how indica que tipo de join realizar
# parametro on indica las columnas que quiero utilizar de llaves para el cruce
df_joint_i = pd.merge(
    df_izq, # dataframe de la izquierda
    df_der, # dataframe de la derecha
    how='left', # tipo de join
    on = 'Job Title Code' # llave para realizar cruce
    )
# debo indicar los dataframes, el tipo de join en el HOW y la llave en ON
df_joint_i

In [None]:
df_joint_i = pd.merge(df_izq, df_der, how='right', on = 'Job Title Code')
df_joint_i

In [None]:
df_joint_i = pd.merge(df_izq, df_der, how='inner', on = 'Job Title Code')
df_joint_i

In [None]:
df_joint_i = pd.merge(df_izq, df_der, how='outer', on = 'Job Title Code') # full
df_joint_i

## Exportar dataframe

In [None]:
# exportar a formato excel
# Escribir el DataFrame en un archivo Excel
nombre_archivo_excel = 'archivo_salida.xlsx' # .xlsm .xlsb .xls .xlsx

df_joint_i.to_excel(
    nombre_archivo_excel, # la ruta de salida incluyendo el nombre del archivo
    index=False,  # si exporta los indices de las filas
    sheet_name='resultado_join' #el nombre de la hoja
    )


In [None]:
# Escribir en un archivo Excel con varias pestañas
nombre_archivo_excel = 'archivo_salida_varias_pestanas.xlsx'

# instruccion para exportar varias tablas en diferentes hojas de un mismo excel
with pd.ExcelWriter(nombre_archivo_excel, engine='openpyxl') as writer:
    df_izq.to_excel(writer, sheet_name='empleados') # crea hoja 'empleados' 
    df_der.to_excel(writer, sheet_name='roles', index=True) # crea hoja 'roles' 
    df_joint_i.to_excel(writer, sheet_name='vista', index=False) # crea hoja 'vista'

* un archivo de excel tiene un limite maximo de 1,048,576 filas, por lo tanto, cuando uno va a exportar un archivo que supera ese limite es recomendable exportarlo a un archivo plano

In [None]:
nombre_archivo_salida = 'archivo_salida.txt' # .txt .csv .tsv
# exportar a formato plano 
df_joint_i.to_csv(
    nombre_archivo_salida, # la ruta en donde quiero exportarlo
    sep='>', # el serpador de columnas
    index=False # al exportar escribe el indice de filas (como informacion)
    )

## SQL

In [None]:
# revisar como se escribe una rutina de conexión a una base de datos
try:
  import pyodbc # libreria para realizar conexión
  conn = pyodbc.connect(
                      'Driver={SQL Server};' # driver de conexión
                      'Server= SERVERlesson;' # el servidor / donde está?
                      'Database= DBlesson;' # nombre de la base de datos
                      'user = andresito;' # usuario con permisos de conexion
                      'password = seguro123456' # password /credenciales
                      'Trusted_Connection= yes;' # que utilice las credenciales del usuario del equipo
                      ) # credenciales y configuración de la conexion
  cursor = conn.cursor()
except:
  print("No se puede realizar conexión")

In [None]:
try:
  SQL_Query = pd.read_sql_query(
    '''select * FROM dbo.table_lesson''', # query SQL
    conn # cursor conector
    )
except:
  print("Como no se puede realizar conexión no permite realizar el query")

## Bibliografía

* (2022,Montenegro y Montenegro) Aprendizaje profundo. Diplomado de IA y AP.
* BeginnersGuide. link :https://wiki.python.org/moin/BeginnersGuide/Programmers
* Uniwebsidad. link :https://uniwebsidad.com/libros/algoritmos-python