<a href="https://colab.research.google.com/github/JLuceroVasquez/pandas-es-formatos-de-archivo/blob/main/cuaderno_clases.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Pandas E/S: trabajando con diferentes formatos de archivo
Durante el curso se enseño a usar la biblioteca Pandas para importar y exportar datos en diferentes formatos de archivo. Específicamente, se enseñó como trabajar con archivos CSV, Excel, JSON, HTML y XML, así como a leer y escribir en bases de datos SQL.

Con fines didácticos, para cada tipo de archivo, se abordó un caso de uso distinto a fin de trabajar con diferentes tipos de información.

In [1]:
import pandas as pd

##Importando archivos csv
Para visitar la documentación oficial de la función ***read_csv*** hacer [click aquí](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html)

In [None]:
#A modo de prueba se restringirá la importación de las 5 primeras filas y 3 columnas.
url_csv0 = 'https://raw.githubusercontent.com/JLuceroVasquez/pandas-es-formatos-de-archivo/refs/heads/main/data/csv/superstore_data.csv'
superstore_df0 = pd.read_csv(url_csv0, nrows=5, usecols=['Id','Year_Birth','Income']) #Se puede indicar la posición en lugar del nombre en el parámetro usecols.
superstore_df0

Unnamed: 0,Id,Year_Birth,Income
0,1826,1970,84835
1,1,1961,57091
2,10476,1958,67267
3,1386,1967,32474
4,5371,1989,21474


In [None]:
#Se crea una variable global que almacene la URL con la dirección al archivo CSV(separado por comas).
url_csv1 = 'https://raw.githubusercontent.com/JLuceroVasquez/pandas-es-formatos-de-archivo/refs/heads/main/data/csv/superstore_data.csv'

#Leemos el contenido del archivo con el método read_csv.
superstore_df1= pd.read_csv(url_csv1)
superstore_df1.head()

Unnamed: 0,Id,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,MntFishProducts,MntSweetProducts,MntGoldProds,NumDealsPurchases,NumWebPurchases,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,Response,Complain
0,1826,1970,Graduation,Divorced,84835.0,0,0,6/16/2014,0,189,...,111,189,218,1,4,4,6,1,1,0
1,1,1961,Graduation,Single,57091.0,0,0,6/15/2014,0,464,...,7,0,37,1,7,3,7,5,1,0
2,10476,1958,Graduation,Married,67267.0,0,1,5/13/2014,0,134,...,15,2,30,1,3,2,5,2,0,0
3,1386,1967,Graduation,Together,32474.0,1,1,11/5/2014,0,10,...,0,0,0,1,1,0,2,7,0,0
4,5371,1989,Graduation,Single,21474.0,1,0,8/4/2014,0,6,...,11,0,34,2,3,1,2,7,1,0


In [None]:
#Se realiza el mismo procedimiento para el segundo archivo csv, que contiene la misma información separadas por punto y coma.
url_csv2 = 'https://raw.githubusercontent.com/JLuceroVasquez/pandas-es-formatos-de-archivo/refs/heads/main/data/csv/superstore_data_punto_coma.csv'

superstore_df2= pd.read_csv(url_csv2, sep=';')
superstore_df2.head()

Unnamed: 0,Id,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,MntFishProducts,MntSweetProducts,MntGoldProds,NumDealsPurchases,NumWebPurchases,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,Response,Complain
0,1826,1970,Graduation,Divorced,84835.0,0,0,6/16/2014,0,189,...,111,189,218,1,4,4,6,1,1,0
1,1,1961,Graduation,Single,57091.0,0,0,6/15/2014,0,464,...,7,0,37,1,7,3,7,5,1,0
2,10476,1958,Graduation,Married,67267.0,0,1,5/13/2014,0,134,...,15,2,30,1,3,2,5,2,0,0
3,1386,1967,Graduation,Together,32474.0,1,1,11/5/2014,0,10,...,0,0,0,1,1,0,2,7,0,0
4,5371,1989,Graduation,Single,21474.0,1,0,8/4/2014,0,6,...,11,0,34,2,3,1,2,7,1,0


###Identificamos el formato de codificación
A fin de evitar problemas de lectura al conocer el formato en que se representan los caracteres del archivo a importar. La codificación, cuando es diferente al UTF8, debe especificarse como un parámetro del método pd.read_csv.

In [None]:
#Importamos la biblioteca chardet para detectar el encoding de un archivo CSV.
import chardet

In [None]:
#Abrimos el archivo guardado en Drive y guardamos su contenido escrito en binario en la variable file.
with open('/content/drive/MyDrive/Aprendizaje-vigente/Programa ONE/Ruta 5 - Aprendiendo a hacer ETL/3-pandas-es-formatos-de-archivo/aula1/superstore_data.csv','rb') as file:
  #Leemos el archivo con el método read(), y solicitamos que se identifique su codificación con chardet.detect.
  print(chardet.detect(file.read()))

{'encoding': 'ascii', 'confidence': 1.0, 'language': ''}


In [None]:
#No funcionó al ingresar como nombre de archivo el URL de GitHub.
with open(url_csv1,'rb') as file:
  print(chardet.detect(file.read()))

FileNotFoundError: [Errno 2] No such file or directory: 'https://raw.githubusercontent.com/JLuceroVasquez/pandas-es-formatos-de-archivo/refs/heads/main/data/csv/superstore_data.csv'

###Exportando datos en un archivo csv
Se exportó el dataframe de prueba como un archivo csv, que fue almacenado en un directorio de Google Drive.
Para visitar la documentación oficial del método ***to_csv*** hacer [click aquí](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_csv.html).

In [None]:
#Se declara la ruta de Google Drive donde se guardará el dataframe como archivo csv.
path_csv = '/content/drive/MyDrive/Aprendizaje-vigente/Programa ONE/Ruta 5 - Aprendiendo a hacer ETL/3-pandas-es-formatos-de-archivo/aula1/data-exportada.csv'

#Se exporta el df de prueba con el método to_csv.
superstore_df0.to_csv(path_csv, index=False)

#Se comprueba el contenido del archivo exportado.
pd.read_csv(path_csv)

Unnamed: 0,Id,Year_Birth,Income
0,1826,1970,84835
1,1,1961,57091
2,10476,1958,67267
3,1386,1967,32474
4,5371,1989,21474


###Desafío del aula 1
Leer [este archivo](https://raw.githubusercontent.com/alura-es-cursos/1980-Pandas_IO/datos_sus/datos_sus.csv) usando la función `read_csv` de la biblioteca Pandas. Se deben agregar algunos parámetros para que la lectura se realice correctamente. Entonces, aquí hay algunos consejos:
1. Asegúrese de que el archivo CSV esté separado por una coma o punto y coma.
2. La codificación del archivo es ISO-8859-1.
3. Las primeras tres líneas del archivo se pueden ignorar, ya que el encabezado sólo comienza en la cuarta línea.
4. Las últimas 9 líneas también se pueden ignorar, ya que son sólo información sobre dónde se tomaron los datos.
5. Para eliminar las últimas líneas es necesario agregar el parámetro engine='python'.

In [None]:
#Creamos una variable global que contenga el enlace al archivo.
url_desafio = 'https://raw.githubusercontent.com/alura-es-cursos/1980-Pandas_IO/datos_sus/datos_sus.csv'

In [None]:
#Importamos la biblioteca chardet para verificar la codificación del archivo.
import chardet

#Verificamos la decodificación del archivo, indicando la ruta del archivo en mi Google Drive.
with open('/content/drive/MyDrive/Aprendizaje-vigente/Programa ONE/Ruta 5 - Aprendiendo a hacer ETL/3-pandas-es-formatos-de-archivo/aula1/datos_sus.csv', 'rb') as file_desafio:
  print(chardet.detect(file_desafio.read()))

{'encoding': 'ISO-8859-1', 'confidence': 0.73, 'language': ''}


In [None]:
#Mediante parámetros de la función read_csv importamos los datos en un dataframe.
df_desafio = pd.read_csv(url_desafio, sep=";", engine='python', skiprows=3, skipfooter=9, encoding='ISO-8859-1')
df_desafio.head()

Unnamed: 0,Unidade da Federação,2008/Jan,2008/Fev,2008/Mar,2008/Abr,2008/Mai,2008/Jun,2008/Jul,2008/Ago,2008/Set,...,2020/Jul,2020/Ago,2020/Set,2020/Out,2020/Nov,2020/Dez,2021/Jan,2021/Fev,2021/Mar,Total
0,Rondônia,138852839,293128342,154168252,152531496,164595384,140615068,306527901,323149461,311717863,...,1182468713,1173330776,1020198514,795513945,935794629,888083655,926601459,773059704,1102330947,99641125468
1,Acre,90241600,149720626,179402848,173046942,181944392,182849600,251175459,208910714,227570853,...,391519320,364014282,339124221,404432144,327659010,369699731,371572312,353842792,407704592,45004853047
2,Amazonas,473552942,711899057,819663549,825937842,783139990,847727362,936885872,935253270,936309935,...,1976946014,1805993143,1784101563,1640831510,1989561791,1776516769,2143028917,2591713455,2203217622,191724793605
3,Roraima,65788953,77793931,71868803,83999439,86234796,83244066,99669309,89427118,91042417,...,301548830,282648618,292804391,309031373,362103105,345446094,326692847,351977373,398553008,32887696509
4,Pará,1886474411,1955375820,2193734270,2084282969,2324995288,2324068756,2400222356,2334121803,2517226132,...,4080412643,4438571588,3682024947,3696593134,3900431580,3801514579,3835468246,3768831423,3327639289,470530900229


In [None]:
#Verificamos las dimensiones del dataframe (cantidad de filas y columnas).
df_desafio.shape

(28, 161)

In [None]:
#Verificamos la información del dataframe importado, debido a la cantidad de columnas consultamos por una numérica.
'''
Se observa que las columnas numéricas contienen cadenas de texto (object).
Debido a que los datos fueron escritos con comas en lugar puntos para expresar
los decimales
'''
df_desafio['2008/Jan'].info()

<class 'pandas.core.series.Series'>
RangeIndex: 28 entries, 0 to 27
Series name: 2008/Jan
Non-Null Count  Dtype 
--------------  ----- 
28 non-null     object
dtypes: object(1)
memory usage: 356.0+ bytes


##Importando archivo excel
Un archivo de hoja de cálculo Microsofot llamado Excel tiene la extensión ***.xlsx***. A continuación se importarán los datos de emisiones de gases de efecto invernadero de diferentes países a lo largo de varios años.
Hacer [clic aquí](https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html) para acceder a la documentación oficial de la función ***read_excel***.

In [None]:
#Se asigna a una variable global el enlace al archivo URL.
url_xlsx='https://github.com/JLuceroVasquez/pandas-es-formatos-de-archivo/raw/refs/heads/main/data/xlsx/emisiones_co2.xlsx'

#Se lee el archivo con la función read_excel.
emisionesco2_df1 = pd.read_excel(url_xlsx)
emisionesco2_df1.head()

Unnamed: 0,País,ISO 3166-1 alpha-3,Año,Total,Carbón,Aceite,Gas,Cemento,Quema,Otros,Per Capita
0,Afganistán,AFG,1750,0.0,,,,,,,
1,Afganistán,AFG,1751,0.0,,,,,,,
2,Afganistán,AFG,1752,0.0,,,,,,,
3,Afganistán,AFG,1753,0.0,,,,,,,
4,Afganistán,AFG,1754,0.0,,,,,,,


In [None]:
#Verificamos la forma y nombres de las hojas del libro de excel.
dimensiones = emisionesco2_df1.shape

nombre_hojas = pd.ExcelFile(url_xlsx).sheet_names

print(f'El archivo tiene {dimensiones[0]} filas y {dimensiones[1]} columnas.\nEl archivo tiene las siguientes hojas: {nombre_hojas}')

El archivo tiene 63104 filas y 11 columnas.
El archivo tiene las siguientes hojas: ['emisiones_C02', 'emisiones_percapita', 'fuentes']


###Parámetros de la función read_excel

In [None]:
#Tras conocer que el libro contiene 3 hojas, se importan las 2 restantes.
'''
La primera hoja ya fue importada al ser "0" el valor por defecto del parámetro "sheet_name"
'''
emisionesco2_df2 = pd.read_excel(url_xlsx, sheet_name = 'emisiones_percapita', usecols='A:D')
emisionesco2_df3 = pd.read_excel(url_xlsx, sheet_name = 'fuentes')
emisionesco2_df2.head()

Unnamed: 0,País,ISO 3166-1 alpha-3,Año,Total
0,Afganistán,AFG,1750,
1,Afganistán,AFG,1751,
2,Afganistán,AFG,1752,
3,Afganistán,AFG,1753,
4,Afganistán,AFG,1754,


In [None]:
emisionesco2_df3.tail()

Unnamed: 0,País,ISO 3166-1 alpha-3,Año,Total,Carbón,Aceite,Gas,Cemento,Quema,Otros,Per Capita
63099,Global,WLD,2017,"CDIAC 2022, BP, and Sum of countries",CDIAC 2022 and BP,CDIAC 2022 and BP,CDIAC 2022 and BP,Andrew cement,CDIAC 2022 and GCP,[NONE],"CDIAC 2022, BP, Sum of countries, and UN popul..."
63100,Global,WLD,2018,"CDIAC 2022, BP, and Sum of countries",CDIAC 2022 and BP,CDIAC 2022 and BP,CDIAC 2022 and BP,Andrew cement,CDIAC 2022 and GCP,[NONE],"CDIAC 2022, BP, Sum of countries, and UN popul..."
63101,Global,WLD,2019,"CDIAC 2022, BP, and Sum of countries",CDIAC 2022 and BP,CDIAC 2022 and BP,CDIAC 2022 and BP,Andrew cement,CDIAC 2022 and GCP,[NONE],"CDIAC 2022, BP, Sum of countries, and UN popul..."
63102,Global,WLD,2020,"CDIAC 2022, BP, and Sum of countries",CDIAC 2022 and BP,CDIAC 2022 and BP,CDIAC 2022 and BP,Andrew cement,CDIAC 2022 and GCP,[NONE],"CDIAC 2022, BP, Sum of countries, and UN popul..."
63103,Global,WLD,2021,"CDIAC 2022, BP, and Sum of countries",CDIAC 2022 and BP,CDIAC 2022 and BP,CDIAC 2022 and BP,Andrew cement,CDIAC 2022 and GCP,[NONE],"CDIAC 2022, BP, Sum of countries, and UN popul..."


In [None]:
#Se importa el intervalo del tercer dataframe para visualizar las primeras 10 filas y 4 columnas.
emisionesco2_df4 = pd.read_excel(url_xlsx, sheet_name = 'fuentes', usecols='A:D', nrows=10)
emisionesco2_df4

Unnamed: 0,País,ISO 3166-1 alpha-3,Año,Total
0,Afganistán,AFG,1750,[NONE]
1,Afganistán,AFG,1751,[NONE]
2,Afganistán,AFG,1752,[NONE]
3,Afganistán,AFG,1753,[NONE]
4,Afganistán,AFG,1754,[NONE]
5,Afganistán,AFG,1755,[NONE]
6,Afganistán,AFG,1756,[NONE]
7,Afganistán,AFG,1757,[NONE]
8,Afganistán,AFG,1758,[NONE]
9,Afganistán,AFG,1759,[NONE]


###Exportando a un archivo excel

In [None]:
#Con el método to_excel exportamos un dataframe en un archivo xlsx.
path_xlsx = '/content/drive/MyDrive/Aprendizaje-vigente/Programa ONE/Ruta 5 - Aprendiendo a hacer ETL/3-pandas-es-formatos-de-archivo/aula2/emisiones_exportado.xlsx'

emisionesco2_df2.to_excel(path_xlsx, index = False)

#Comprobamos que la exportación haya sido correcta.
pd.read_excel(path_xlsx)

Unnamed: 0,País,ISO 3166-1 alpha-3,Año,Total
0,Afganistán,AFG,1750,
1,Afganistán,AFG,1751,
2,Afganistán,AFG,1752,
3,Afganistán,AFG,1753,
4,Afganistán,AFG,1754,
...,...,...,...,...
63099,Global,WLD,2017,4749682.0
63100,Global,WLD,2018,4792753.0
63101,Global,WLD,2019,4775633.0
63102,Global,WLD,2020,4497423.0


###Importamos un archivo de Google Sheets
Se importaron cada hoja a partir de una URL personalizada, asegurando la conexión con la API de Google Sheets y que el formato de salida sea un archivo csv.

In [None]:
#Se declaran las variables globales que permitirán personalizar las url.
id_sheets = '1LnqZeN7I7F2-RCUI5iCKNwYb0Akjobh0NPEkIwiWHKI'
name_sheet1 = 'emisiones_C02'
name_sheet2 = 'emisiones_percapita'
name_sheet3 = 'fuentes'

'''
Se personalizan las URL. No es necesario personalizar una URL para la hoja 1,
si no se especifica el nombre, Pandas interpreta que se trata de la hoja 1.

'gbiz/tq?tqx=out:csv' permite a GColab conectarse a GSheets, consultar los datos en formato csv.
'&sheet={sheet_name}' permite saber que hoja consultar.
'''
url_sheet1 = f'https://docs.google.com/spreadsheets/d/{id_sheets}/gviz/tq?tqx=out:csv&sheet'
url_sheet2 = f'https://docs.google.com/spreadsheets/d/{id_sheets}/gviz/tq?tqx=out:csv&sheet={name_sheet2}'
url_sheet3 = f'https://docs.google.com/spreadsheets/d/{id_sheets}/gviz/tq?tqx=out:csv&sheet={name_sheet3}'


In [None]:
#Se cargan las hojas del GSheet en dataframes independientes.
gsheets_df1 = pd.read_csv(url_sheet1)
gsheets_df2 = pd.read_csv(url_sheet2)
gsheets_df3 = pd.read_csv(url_sheet3)

#Se consulta las dimensiones de cada daframe.
print(f'La hoja 1 una tiene {gsheets_df1.shape} dimensiones.\nLa hoja 2 tiene {gsheets_df2.shape}dimensiones.\nLa hoja 3 tiene {gsheets_df3.shape}dimensiones')

La hoja 1 una tiene (63104, 11) dimensiones.
La hoja 2 tiene (63104, 10).
La hoja 3 tiene (63104, 11)


###Desafío del aula 2
Tenemos un link de Google Sheets que contiene datos importantes sobre las emisiones de dióxido de carbono en todo el mundo. El conjunto de datos se obtuvo de Kaggle y consta de las emisiones de CO2 per cápita de todos los países del mundo entre 1990 y 2019.

En este desafío, tu función es leer este link de Google Sheets y luego guardar el DataFrame obtenido en formato CSV.

In [None]:
'''
Se declaran las variables que permitir personalizar la url.
Como el libro consta de una sola hoja, se omitió declarar el nombre de la hoja.
'''
id_sheets_desafio = '1Kvy8SJ-Pf_Cc2sjrRuvfvmxtShYd7qXBasYTJ32ZfFQ'
output_format = 'csv'

url_desafio_aula2 = f'https://docs.google.com/spreadsheets/d/{id_sheets_desafio}/gviz/tq?tqx=out:{output_format}&sheet'
df_desafio_aula2 = pd.read_csv(url_desafio_aula2)
df_desafio_aula2.head(3)

Unnamed: 0,Country Name,country_code,Region,Indicator Name,1990,1991,1992,1993,1994,1995,...,2011,2012,2013,2014,2015,2016,2017,2018,2019,2019.1
0,Aruba,ABW,Latin America & Caribbean,CO2 emissions (metric tons per capita),,,,,,,...,,,,,,,,,,
1,Afghanistan,AFG,South Asia,CO2 emissions (metric tons per capita),191745115.0,167681579.0,95957742.0,8472111.0,75545827.0,68467956.0,...,29650624.0,259295334.0,18562366.0,146235617.0,172896741.0,149789334.0,131694556.0,1632953.0,159824372.0,159824372.0
2,Angola,AGO,Sub-Saharan Africa,CO2 emissions (metric tons per capita),553661955.0,544538649.0,543557223.0,70898423.0,836804405.0,912141485.0,...,985522312.0,950695879.0,1036293852.0,1099779111.0,113504405.0,1031811348.0,81330073.0,777674934.0,792137069.0,792137069.0


##Importando archivo JSON
JSON (Javascript Object Notation) es un formato ligero para la transimisión de datos entre sistemas. Almacena los datos en pares claves valor que pueden visualizar con más facilidad en visores en línea como [json.viewer.stack.hu](https://jsonviewer.stack.hu/).

In [None]:
#Se importo una archivo JSON desde repositorio de GitHub, almacenando la URL en un variable.
url_json1 = 'https://github.com/JLuceroVasquez/pandas-es-formatos-de-archivo/raw/refs/heads/main/data/json/pacientes.json'

#Mediante la función read_json se importó como dataframe los datos.
pacientes_df1 =  pd.read_json(url_json1)
pacientes_df1.head()

Unnamed: 0,ID_paciente,Enfermedad_corazon,IMC,Fumador,Consumo_alcohol,AVC,Salud_fisica,Salud_mental,Dificultad_caminar,Sexo_biologico,Rango_edad,Raza,Diabetes,Actividad_fisica,Salud_general,Horas_sueño,Asma,Enfermedad_renal,Cancer_piel
0,0,No,16.6,Sí,No,No,3,30,No,Femenino,55-59,Blanca,Sí,Sí,Muy buena,5,Sí,No,Sí
1,1,No,20.34,No,No,Sí,0,0,No,Femenino,80 ó +,Blanca,No,Sí,Muy buena,7,No,No,No
2,2,No,26.58,Sí,No,No,20,30,No,Masculino,65-69,Blanca,Sí,Sí,Razonable,8,Sí,No,No
3,3,No,24.21,No,No,No,0,0,No,Femenino,75-79,Blanca,No,No,Buena,6,No,No,Sí
4,4,No,23.71,No,No,No,28,0,Sí,Femenino,40-44,Blanca,No,Sí,Muy buena,8,No,No,No


###Normalización de archivos
Cuando los valores del diccionario JSON tienen diccionarios anidados en una lista, se recomienda entender su estructura con visualizadores como [JSON CRACK](https://jsoncrack.com/editor). Luego, las columnas con datos anidadas se pueden normalizar con la función pd.json_normalize. Normalizar permite extraer en columnas la información anidada.

In [None]:
#Se almacenó en una variable global los datos que contiene la URL del segundo archivo JSON.
url_json2 = 'https://github.com/JLuceroVasquez/pandas-es-formatos-de-archivo/raw/refs/heads/main/data/json/pacientes_2.json'

#Se intentó el procedimiento común mediante el pd.read_json, sin parámetros.
pacientes_df2 = pd.read_json(url_json2)
pacientes_df2.head() #El resultado no facilita la visualización de datos en la columna "Pacientes".

Unnamed: 0,Investigación,Año,Pacientes
0,Indicadores clave de enfermedades cardíacas,2020,"{'ID': '01', 'Rango_edad': '55-59', 'Sexo_biol..."
1,Indicadores clave de enfermedades cardíacas,2020,"{'ID': '02', 'Rango_edad': '80 ó +', 'Sexo_bio..."
2,Indicadores clave de enfermedades cardíacas,2020,"{'ID': '03', 'Rango_edad': '65-69', 'Sexo_biol..."


In [None]:
#Se normaliza la columna "Pacientes".
pacientes_df3 = pd.json_normalize(pacientes_df2['Pacientes'])
pacientes_df3.head()

Unnamed: 0,ID,Rango_edad,Sexo_biologico,Raza,IMC,Fumador,Consumo_alcohol,Salud_física,Salud_mental,Dificultad_caminar,Actividad_física,Salud_general,Horas_sueño,Problemas_salud
0,1,55-59,Mujer,Blanca,16.6,Sí,No,3,30,No,Sí,Muy buena,5,"[Diabetes, Asma, Cancer_piel]"
1,2,80 ó +,Mujer,Blanca,20.34,No,No,0,0,No,Sí,Muy buena,7,[AVC]
2,3,65-69,Masculino,Blanca,26.58,Sí,No,20,30,No,Sí,Muy buena,8,"[Diabetes, Asma]"


###¿Cómo añado todas las columnas en un nuevo dataframe?
`pd.json_normalize` solo admite como input un diccionario o lista de diccionarios. La solución es leer el archivo json como diccionario con el módulo `json` de Python. Luego, en la función `pd.json_normalize`, indicamos la columna con diccionarios anidados con el parámetro `record_path` y las columnas cuyos valores se repetiran en cada fila con el parámetro `meta`.

In [None]:
#Importamos el módulo json.
import json

#Leemos los datos del archivo json con el módulo json de Python.
#Se empleó la dirección de Drive, pues open no detecta datos en la URL de Github.
with open('/content/drive/MyDrive/Aprendizaje-vigente/Programa ONE/Ruta 5 - Aprendiendo a hacer ETL/3-pandas-es-formatos-de-archivo/aula3/pacientes_2.json','r') as f:
  pacientes_json2 = json.loads(f.read())

print(type(pacientes_json2))

<class 'dict'>


In [None]:
#Se normaliza el diccionario importado, añadiendo las columnas con valores repetidos para cada fila.
pacientes_df4 = pd.json_normalize(pacientes_json2, record_path='Pacientes', meta=['Investigación', 'Año'])
pacientes_df4

Unnamed: 0,ID,Rango_edad,Sexo_biologico,Raza,IMC,Fumador,Consumo_alcohol,Salud_física,Salud_mental,Dificultad_caminar,Actividad_física,Salud_general,Horas_sueño,Problemas_salud,Investigación,Año
0,1,55-59,Mujer,Blanca,16.6,Sí,No,3,30,No,Sí,Muy buena,5,"[Diabetes, Asma, Cancer_piel]",Indicadores clave de enfermedades cardíacas,2020
1,2,80 ó +,Mujer,Blanca,20.34,No,No,0,0,No,Sí,Muy buena,7,[AVC],Indicadores clave de enfermedades cardíacas,2020
2,3,65-69,Masculino,Blanca,26.58,Sí,No,20,30,No,Sí,Muy buena,8,"[Diabetes, Asma]",Indicadores clave de enfermedades cardíacas,2020


###Exportando a un archivo json

In [None]:
#Con el método to_json() se exporta a un archivo json el dataframe trabajado.
path_json = '/content/drive/MyDrive/Aprendizaje-vigente/Programa ONE/Ruta 5 - Aprendiendo a hacer ETL/3-pandas-es-formatos-de-archivo/aula3/pacientes_exportado.json'

pacientes_df4.to_json(path_json)

#Se lee el archivo exportado para verificar su contenido.
pd.read_json(path_json)

Unnamed: 0,ID,Rango_edad,Sexo_biologico,Raza,IMC,Fumador,Consumo_alcohol,Salud_física,Salud_mental,Dificultad_caminar,Actividad_física,Salud_general,Horas_sueño,Problemas_salud,Investigación,Año
0,1,55-59,Mujer,Blanca,16.6,Sí,No,3,30,No,Sí,Muy buena,5,"[Diabetes, Asma, Cancer_piel]",Indicadores clave de enfermedades cardíacas,2020
1,2,80 ó +,Mujer,Blanca,20.34,No,No,0,0,No,Sí,Muy buena,7,[AVC],Indicadores clave de enfermedades cardíacas,2020
2,3,65-69,Masculino,Blanca,26.58,Sí,No,20,30,No,Sí,Muy buena,8,"[Diabetes, Asma]",Indicadores clave de enfermedades cardíacas,2020


###Desafío aula 3: Importando desde una API
JSON es un formato empleado para transmitir datos entre sistemas utilizando una API (Application Programming Interface). Es una interfaz de programación de aplicaciones que permite la comunicación entre diferentes programas o sistemas. A continuación, se realizó un ejemplo de cómo utilizar la biblioteca requests y el módulo JSON para obtener datos de las API.

In [None]:
#Importamos el módulo requests de Python.
import requests

#Cargamos la consulta a la API de fruityvice en la variable datos_frutas.
datos_frutas = requests.get('https://fruityvice.com/api/fruit/all')
type(datos_frutas)

In [None]:
#Convertimos los datos de la consulta en texto con el método text.
#Almacenamos los datos leidos como texto en la variable resultado.
resultado = json.loads(datos_frutas.text)

#La API transmite los datos en una lista de diccionario, que hemos cargado en la variable resultado.
type(resultado)

list

In [None]:
#Convertimos los datos de la lista de diccionario en un dataframe con la función pd.DataFrame().
dataframe_api = pd.DataFrame(resultado)
dataframe_api.head()

Unnamed: 0,name,id,family,order,genus,nutritions
0,Persimmon,52,Ebenaceae,Rosales,Diospyros,"{'calories': 81, 'fat': 0.0, 'sugar': 18.0, 'c..."
1,Strawberry,3,Rosaceae,Rosales,Fragaria,"{'calories': 29, 'fat': 0.4, 'sugar': 5.4, 'ca..."
2,Banana,1,Musaceae,Zingiberales,Musa,"{'calories': 96, 'fat': 0.2, 'sugar': 17.2, 'c..."
3,Tomato,5,Solanaceae,Solanales,Solanum,"{'calories': 74, 'fat': 0.2, 'sugar': 2.6, 'ca..."
4,Pear,4,Rosaceae,Rosales,Pyrus,"{'calories': 57, 'fat': 0.1, 'sugar': 10.0, 'c..."


In [None]:
'''
Como tenemos una lista de diccionarios anidada en la clave nutritions,
usamos el método pd.json_normalize para convertir los datos anidados en
columnas.
'''
dataframe_api2 = pd.json_normalize(resultado)
dataframe_api2.head()

Unnamed: 0,name,id,family,order,genus,nutritions.calories,nutritions.fat,nutritions.sugar,nutritions.carbohydrates,nutritions.protein
0,Persimmon,52,Ebenaceae,Rosales,Diospyros,81,0.0,18.0,18.0,0.0
1,Strawberry,3,Rosaceae,Rosales,Fragaria,29,0.4,5.4,5.5,0.8
2,Banana,1,Musaceae,Zingiberales,Musa,96,0.2,17.2,22.0,1.0
3,Tomato,5,Solanaceae,Solanales,Solanum,74,0.2,2.6,3.9,0.9
4,Pear,4,Rosaceae,Rosales,Pyrus,57,0.1,10.0,15.0,0.4


##Leyendo páginas en HTML y XML
En esta aula se aprendió a importar tablas desde páginas HTML y archivos XML usando pandas.

Con respecto al caso de HTML, en clase se importó la tabla de las 100 mejores películas americanas según el ranking elaborado en 1998 y 2007 por la AFI y publicado en una página web de Wikipedia.

El segundo caso de estudio analizó un archivo XML de IMDB con Pandas. Se usó read_xml() para convertir el XML en un DataFrame, facilitando la visualización y manipulación de datos de películas. Así, se transformó un formato desconocido en una tabla clara para su análisis.

###Importando páginas web
Tras inspeccionar la página web de wikipedia llamado [AFI's 100 Years...100 Movies](https://en.wikipedia.org/wiki/AFI%27s_100_Years...100_Movies), se comprobó que el elemento a importar era efectivamente una tabla HTML (tenia la clase `<class=table>`). En concreto, era la segunda tabla de la página web.

In [None]:
#Se asigna a una variable la URL del archivo html subido al repositorio de Github.
url_movieshtml = 'https://github.com/JLuceroVasquez/pandas-es-formatos-de-archivo/raw/refs/heads/main/data/html_xml/peliculas_wikipedia.html'

#Se genera una lista de 3 dataframes correspondientes a las 3 tablas html de la pagina.
lista_tablas_movieshtml = pd.read_html(url_movieshtml)
type(lista_tablas_movieshtml)

list

In [None]:
#Se asigna el objeto (df) en la posición 2 (indice 1) a una nueva variable.
movies100_df = lista_tablas_movieshtml[1]
movies100_df.head()

Unnamed: 0,Film,Release year,Director,Production companies,Rank
0,Citizen Kane,1941,Orson Welles,RKO Radio Pictures,1
1,Casablanca,1942,Michael Curtiz,Warner Bros. Pictures,2
2,The Godfather,1972,Francis Ford Coppola,"Paramount Pictures, Alfran Productions",3
3,Gone with the Wind,1939,Victor Fleming,Selznick International Pictures,4
4,Lawrence of Arabia,1962,David Lean,Horizon Pictures,5


###Exportando a una página html

In [None]:
#Se guarda la ruta de Google Drive a donde se exportará la página.
path_movieshtml = '/content/drive/MyDrive/Aprendizaje-vigente/Programa ONE/Ruta 5 - Aprendiendo a hacer ETL/3-pandas-es-formatos-de-archivo/aula4/peliculas_exportadas.html'

#Se exporta con el método .to_hmtl, ignorando el índice.
movies100_df.to_html(path_movieshtml, index=False)

#Se corrobora que se pueda importar correctamente.
movies100_df2 = pd.read_html(path_movieshtml)
tipo = type(movies100_df2)
tamano = len(movies100_df2)
print(f'Se importó una {tipo} de {tamano} elementos.')

Se importó una <class 'list'> de 1 elementos.


In [None]:
#Se visuliza que la función pd.read_html importa la taba html en una lista.
movies100_df2[0].head()

Unnamed: 0,Film,Release year,Director,Production companies,Rank
0,Citizen Kane,1941,Orson Welles,RKO Radio Pictures,1
1,Casablanca,1942,Michael Curtiz,Warner Bros. Pictures,2
2,The Godfather,1972,Francis Ford Coppola,"Paramount Pictures, Alfran Productions",3
3,Gone with the Wind,1939,Victor Fleming,Selznick International Pictures,4
4,Lawrence of Arabia,1962,David Lean,Horizon Pictures,5


###Importando un archivo xml
Es un formato de archivo que se utiliza para almacenar y transportar datos. Tiene una estructura similar al HTML, pero es más denso y extensible.

In [None]:
#Se asigna el URL del archivo xml almanacenado en Github.
url_moviesxml = 'https://raw.githubusercontent.com/JLuceroVasquez/pandas-es-formatos-de-archivo/refs/heads/main/data/html_xml/imdb_top_1000.xml'

#Se lee y guardan los datos en un dataframe con el método .to_xml.
moviesxml_df = pd.read_xml(url_moviesxml)
moviesxml_df.head(3)

Unnamed: 0,index,Poster_Link,Series_Title,Released_Year,Certificate,Runtime,Genre,IMDB_Rating,Overview,Meta_score,Director,Star1,Star2,Star3,Star4,No_of_Votes,Gross
0,0,https://m.media-amazon.com/images/M/MV5BMDFkYT...,The Shawshank Redemption,1994,A,142 min,Drama,9.3,Two imprisoned men bond over a number of years...,80.0,Frank Darabont,Tim Robbins,Morgan Freeman,Bob Gunton,William Sadler,2343110,28341469
1,1,https://m.media-amazon.com/images/M/MV5BM2MyNj...,The Godfather,1972,A,175 min,"Crime, Drama",9.2,An organized crime dynasty's aging patriarch t...,100.0,Francis Ford Coppola,Marlon Brando,Al Pacino,James Caan,Diane Keaton,1620367,134966411
2,2,https://m.media-amazon.com/images/M/MV5BMTMxNT...,The Dark Knight,2008,UA,152 min,"Action, Crime, Drama",9.0,When the menace known as the Joker wreaks havo...,84.0,Christopher Nolan,Christian Bale,Heath Ledger,Aaron Eckhart,Michael Caine,2303232,534858444


In [None]:
#Se exporta el dataframe en un archivo xml, almacenado en la ruta Drive declarada.
path_filexml = '/content/drive/MyDrive/Aprendizaje-vigente/Programa ONE/Ruta 5 - Aprendiendo a hacer ETL/3-pandas-es-formatos-de-archivo/aula4/peliculas_imb.xml'
moviesxml_df.to_xml(path_filexml)


###Desafío del aula 4
Vanessa es una científica de datos que está haciendo algunos análisis con datos ambientales. Está desarrollando un proyecto para evaluar el impacto ambiental de las actividades humanas en diferentes países del mundo, pero para ello necesita estimaciones de población de esos países. Al buscar en Internet, encontró una tabla de estimaciones de población en un artículo de la página de [Wikipedia](https://es.wikipedia.org/wiki/Anexo:Pa%C3%ADses_y_territorios_dependientes_por_poblaci%C3%B3n).

Al igual que Vanessa, tu desafío es obtener un DataFrame de la tabla que contiene la información del número de habitantes de cada país.

In [None]:
#Descargamos la página de Wikipedia, comprobando que la tabla de interés es la n°1.
url_poblacionhtml = 'https://github.com/JLuceroVasquez/pandas-es-formatos-de-archivo/raw/refs/heads/main/data/html_xml/poblacion_wikipedia.html'

#Cargamos las tablas html de la página en una lista de Dataframes.
lista_paginapoblacion = pd.read_html(url_poblacionhtml)
type(lista_paginapoblacion)

list

In [None]:
#Asignamos la primera tabla a una nueva variable.
poblacion_df = lista_paginapoblacion[0]
poblacion_df.head(3)

Unnamed: 0,N.º,País (o territorio dependiente),Proyección exponencial de la población al 1/7/2025[7]​,Total mun- dial (%),Cambio medio anual (%)[8]​,Cambio absoluto anual promedio,Cambio medio abs. total anual (%),Años para even- tual du- pli- ca- ción[9]​,"Censo más reciente, última estimación oficial, proyección de la ONU o reloj de población nacional",Fecha de esta última cifra de población en particular (d/mm/aaaa)[10]​,Tipo[11]​,Enlace o hipervínculo (usualmente de tipo oficial) de esta última cifra de población
0,,Mundo,8 083 056 000,10000,103,83 358 000,10000,68,8 194 564 000,2/07/2025,R,www.worldometers.info
1,1.0,India,1 417 492 000,1754,90,12 692 000,1523,78,1 417 492 000,1/07/2025,A,web.archive.org
2,2.0,China[12]​,1 407 934 000,1742,-5,-1 390 000,-,-,1 408 280 000,31/12/2024,E,www.stats.gov.cn


##Leyendo un banco de datos
Tu supervisor te ha pedido que crees un banco de datos a partir de un archivo CSV proporcionado por un banco, para realizar consultas más específicas y obtener insights de la base de clientes.

Aunque la base de datos está en formato CSV, puedes trabajar con SQL dentro de Python utilizando la biblioteca [SQL Alchemy](https://www.sqlalchemy.org/) y el SGBD SQLite, que ya viene instalado en Google Cloud, para crear el motor de datos.

###Creando un banco de datos local
Se configurará un motor de datos que realice operaciones en memoria RAM utilizando SQLite y la biblioteca SQL Alchemy, para luego poder importar la base de datos de clientes del banco en una tabla de este motor.

In [2]:
#Para crear un banco de datos local, importar sqlalchemy y alguno de sus métodos.
import sqlalchemy
from sqlalchemy import create_engine, MetaData, Table, inspect, text
'''
create_engine: Funcion para crear el motor de datos.
Metadata: Clase para guardar información de las tablas.
Table: Clase para trabajar con las tablas.
inspect: Función para inspeccionar bancos de datos.
text: Función para convertir las queries en texto.
'''

'''
Se creó una variable engine para almacenar un motor de datos SQLite y
referenciarlo al construir tablas, crear consultas o realizar inspecciones en
memoria RAM.
'''
engine = create_engine('sqlite:///:memory:')

###Escribiendo en un banco de datos
Se importa datos desde un [archivo CSV](https://github.com/alura-es-cursos/1980-Pandas_IO/raw/1980-aula5/1980-aula5.zip) a una tabla SQL utilizando Pandas para leer el archivo y SQLAlchemy para interactuar con la base de datos.

In [12]:
'''
datos de un archivo CSV a una tabla SQL usando Pandas y SQLAlchemy. Leíste el CSV con read_csv, lo guardaste en un dataframe y luego usaste to_sql para crear una tabla en tu motor SQL. Finalmente, verificaste la creación de la tabla con el método inspect.
'''
#Se almacena el path de Google Drive correspondiente al archivo CSV del banco.
path_bancodatos = '/content/drive/MyDrive/Aprendizaje-vigente/Programa ONE/Ruta 5 - Aprendiendo a hacer ETL/3-pandas-es-formatos-de-archivo/aula5/clientes_banco.csv'

#Se importan los datos a un dataframe.
banco_df = pd.read_csv(path_bancodatos)
banco_df.shape #Resultado :(438463, 11)
banco_df.head()

Unnamed: 0,ID_Cliente,Edad,Grado_estudio,Estado_civil,Tamaño_familia,Categoria_de_renta,Ocupacion,Años_empleado,Rendimiento_anual,Tiene_carro,Vivienda
0,5008804,32,Nivel superior,Relación-estable,2,Empleado,Otro,12,427500.0,1,Departamento alquilado
1,5008805,32,Nivel superior,Relación-estable,2,Empleado,Otro,12,427500.0,1,Departamento alquilado
2,5008806,58,Nivel intermedio,Casado,2,Empleado,Seguridad,3,112500.0,1,Casa/Departamento propio
3,5008808,52,Nivel intermedio,Soltero,1,Business Partner,Ventas,8,270000.0,0,Casa/Departamento propio
4,5008809,52,Nivel intermedio,Soltero,1,Business Partner,Ventas,8,270000.0,0,Casa/Departamento propio


In [4]:
#Se exporta el dataframe a un banco de datos sql que se guardará en el engine SQLite.
banco_clientes = banco_df.to_sql(name='Clientes', con=engine, index=False)

In [5]:
'''
El método to_sql de Pandas devuelve un entero que representa el número de filas
insertadas en la tabla SQL. En este caso, banco_clientes contiene el número de
registros del dataframe banco_df que fueron escritos en la tabla 'Clientes' del
motor SQL.
'''
banco_clientes #Resultado: 438463
type(banco_clientes)

int

In [10]:
#Se realiza una inspección al motor de datos SQLite creado.
inspector = inspect(engine)

#Se aplica el método .get_table_names al inspector para comprobar que la tabla "Clientes" existe.
inspector.get_table_names()

['Clientes', 'Empleados']

###Leyendo una consulta SQL
Se realizan consultas SQL con Pandas usando `read_sql`, filtrando datos y cargándolos en DataFrames. También se guardan DataFrames como tablas SQL con `to_sql` y leer tablas completas con `read_sql_table`.

In [7]:
#Se almacenó en una variable global la consulta SQL.
query = 'SELECT * FROM Clientes WHERE Categoria_de_renta="Empleado"'
tipo_1 = type(query)

#Se convirtió el texto de query a un tipo de texto SQLAlchemy.
query_2 = text(query)
tipo_2 = type(query_2)
print(f'La variable query es de tipo {tipo_1}. Mientras que la variable query_2 es de tipo {tipo_2}.')

La variable query es de tipo <class 'str'>. Mientras que la variable query_2 es de tipo <class 'sqlalchemy.sql.elements.TextClause'>.


In [8]:
#Se leyó la consulta mediante la función pd.read_sql.
empleados_df = pd.read_sql(sql = query_2, con = engine)
empleados_df

Unnamed: 0,ID_Cliente,Edad,Grado_estudio,Estado_civil,Tamaño_familia,Categoria_de_renta,Ocupacion,Años_empleado,Rendimiento_anual,Tiene_carro,Vivienda
0,5008804,32,Nivel superior,Relación-estable,2,Empleado,Otro,12,427500.0,1,Departamento alquilado
1,5008805,32,Nivel superior,Relación-estable,2,Empleado,Otro,12,427500.0,1,Departamento alquilado
2,5008806,58,Nivel intermedio,Casado,2,Empleado,Seguridad,3,112500.0,1,Casa/Departamento propio
3,5008815,46,Nivel superior,Casado,2,Empleado,Contabilidad,2,270000.0,1,Casa/Departamento propio
4,5112956,46,Nivel superior,Casado,2,Empleado,Contabilidad,2,270000.0,1,Casa/Departamento propio
...,...,...,...,...,...,...,...,...,...,...,...
226054,6837905,43,Nivel intermedio,Casado,3,Empleado,Otro,7,355050.0,1,Casa/Departamento propio
226055,6837906,43,Nivel intermedio,Casado,3,Empleado,Otro,7,355050.0,1,Casa/Departamento propio
226056,6839936,34,Nivel intermedio,Casado,3,Empleado,Construcción Civil,5,135000.0,1,Casa/Departamento propio
226057,6840222,43,Nivel intermedio,Soltero,1,Empleado,Construcción Civil,8,103500.0,0,Casa/Departamento propio


In [9]:
#Se exportó el dataframe como una tabla sql al motor SQLite.
empleados_df.to_sql(name='Empleados', con=engine, index=False)

226059

In [11]:
#Se importó y leyó la tabla Empleados, seleccionando 3 columnas, con la función pd.read_sql_table.
pd.read_sql_table(table_name='Empleados', con=engine, columns=['ID_Cliente','Grado_estudio','Rendimiento_anual'])

Unnamed: 0,ID_Cliente,Grado_estudio,Rendimiento_anual
0,5008804,Nivel superior,427500.0
1,5008805,Nivel superior,427500.0
2,5008806,Nivel intermedio,112500.0
3,5008815,Nivel superior,270000.0
4,5112956,Nivel superior,270000.0
...,...,...,...
226054,6837905,Nivel intermedio,355050.0
226055,6837906,Nivel intermedio,355050.0
226056,6839936,Nivel intermedio,135000.0
226057,6840222,Nivel intermedio,103500.0


###Actualizando un banco de datos
Se usaron `DELETE FROM` y `UPDATE` con cláusulas `WHERE` para operaciones específicas. Se implementó manejo de errores con **try...except** y SQLAlchemyError, verificando los cambios consultando la tabla.

In [13]:
#Se importa la biblioteca SQLAlchemyError.
from sqlalchemy.exc import SQLAlchemyError

In [21]:
#Se desea eliminar el registro correspondiente al cliente con id 5008804 de la tabla clientes.
query_3= 'DELETE FROM Clientes WHERE 	ID_Cliente="5008804"'

#Se crea un bloque try except else para ejecutar el query y mostrar un mensaje, de error o resultado.
'''
El resultado figura como cero pues ya se había ejecutado (y por tanto borrado)
el registro antes. El resultado que devuelve es un cursor(CursorResult).
'''
try:
  r_set = engine.connect().execute(text(query_3))
except SQLAlchemyError as e:
  print(e)
else:
  print(f'Cantidad de registros actualizados:{r_set.rowcount}\n{type(r_set)}')

Cantidad de registros actualizados:0
<class 'sqlalchemy.engine.cursor.CursorResult'>


In [18]:
#Se desea actualizar a "Nivel superior" el grado académico del cliente con id 5008808 en la tabla clientes.
query_4 = 'UPDATE Clientes SET Grado_estudio="Nivel superior" WHERE ID_Cliente="5008808"'

#Se crea un bloque try except else para ejecutar el query y mostrar un mensaje, de error o resultado.
try:
  r_set = engine.connect().execute(text(query_4))
except SQLAlchemyError as e:
  print(e)
else:
  print('Cantidad de registros actualizados:',r_set.rowcount)

Cantidad de registros actualizados: 1


In [20]:
#Verificamos los cambios en la tabla Clientes.
pd.read_sql_table(table_name='Clientes', con=engine)

Unnamed: 0,ID_Cliente,Edad,Grado_estudio,Estado_civil,Tamaño_familia,Categoria_de_renta,Ocupacion,Años_empleado,Rendimiento_anual,Tiene_carro,Vivienda
0,5008805,32,Nivel superior,Relación-estable,2,Empleado,Otro,12,427500.0,1,Departamento alquilado
1,5008806,58,Nivel intermedio,Casado,2,Empleado,Seguridad,3,112500.0,1,Casa/Departamento propio
2,5008808,52,Nivel superior,Soltero,1,Business Partner,Ventas,8,270000.0,0,Casa/Departamento propio
3,5008809,52,Nivel intermedio,Soltero,1,Business Partner,Ventas,8,270000.0,0,Casa/Departamento propio
4,5008810,52,Nivel intermedio,Soltero,1,Business Partner,Ventas,8,270000.0,0,Casa/Departamento propio
...,...,...,...,...,...,...,...,...,...,...,...
438457,6840104,62,Nivel intermedio,Divorciado,1,Pensionista,Otro,0,135000.0,0,Casa/Departamento propio
438458,6840222,43,Nivel intermedio,Soltero,1,Empleado,Construcción Civil,8,103500.0,0,Casa/Departamento propio
438459,6841878,22,Nivel superior,Soltero,1,Business Partner,Ventas,1,54000.0,0,Vive con los padres
438460,6842765,59,Nivel intermedio,Casado,2,Pensionista,Otro,0,72000.0,0,Casa/Departamento propio


###Desafío del aula 5
Usted es responsable de crear una base de datos local de clientes para una institución financiera. Disponemos del [archivo CSV](https://github.com/alura-es-cursos/1980-Pandas_IO/raw/clientes_banco/clientes_banco.csv.zip) con los datos de los clientes.

Tu misión es:
1. Crear la base de datos local con la biblioteca SQLAlchemy.
2. Escribir los datos del archivo CSV en esta base de datos local.
3. Realizar tres actualizaciones en la base de datos.

####Misión 1: Crear la base de datos

In [33]:
#Se crea el motor sqlite.
engine_desafio = create_engine('sqlite:///:memory:')

####Misión 2: Escribir en la base de datos

In [34]:
#Se asigna a ruta donde se encuentra el csv a una variable global.
path_desafio_bd = '/content/drive/MyDrive/Aprendizaje-vigente/Programa ONE/Ruta 5 - Aprendiendo a hacer ETL/3-pandas-es-formatos-de-archivo/aula5/desafio_banco.csv'

#Con la función read_csv se importan los datos.
desafiobanco_df = pd.read_csv(path_desafio_bd)

#Con el método to_sql se exportan los datos en el motor creado.
desafiobanco_df.to_sql(name='Clientes_desafio', con=engine_desafio, index=False)

438463

In [35]:
#Corroboramos su existencia
inspector_desafio = inspect(engine_desafio)
inspector_desafio.get_table_names()

['Clientes_desafio']

In [37]:
pd.read_sql_table('Clientes_desafio', con=engine_desafio).head(3)

Unnamed: 0,ID_Cliente,Edad,Grado_estudio,Estado_civil,Tamaño_familia,Categoria_de_renta,Ocupacion,Años_empleado,Rendimiento_anual,Tiene_carro,Vivienda
0,5008804,32,Nivel superior,Relación-estable,2,Empleado,Otro,12,427500.0,1,Departamento alquilado
1,5008805,32,Nivel superior,Relación-estable,2,Empleado,Otro,12,427500.0,1,Departamento alquilado
2,5008806,58,Nivel intermedio,Casado,2,Empleado,Seguridad,3,112500.0,1,Casa/Departamento propio


####Misión 3.1: Actualizar un registro
Actualizar el registro del cliente ID 6840104 cuyo rendimiento anual cambió a 300000.

In [40]:
#Query
query_5 = 'UPDATE Clientes_desafio SET Rendimiento_anual=300000.0 WHERE ID_Cliente="6840104"'
#Bloque try...except...else
try:
  cursor = engine_desafio.connect().execute(text(query_5))
except SQLAlchemyError as e:
  print(e)
else:
  print('#Registros actualizados:', cursor.rowcount)

#Registros actualizados: 1


####Misión 3.2: Eliminar un registro
Eliminar el registro de cliente ID 5008809, ya que esta persona ya no tiene cuenta en la institución financiera.

In [41]:
#Query
query_6 = 'DELETE FROM Clientes_desafio WHERE ID_Cliente="5008809"'
#Bloque try...except...else
try:
  cursor = engine_desafio.connect().execute(text(query_6))
except SQLAlchemyError as e:
  print(e)
else:
  print('#Registros eliminados:', cursor.rowcount)

#Registros eliminados: 1


####Misión 3.3: Crear un nuevo registro
Crear un nuevo registro de cliente siguiendo las especificaciones a continuación:

- ID_cliente: 6850985
- Edad: 33
- Grado_estudio: Doctorado
- Estado_civil: Soltero
- Tamaño_familia: 1
- Categoria_de_renta: Empleado
- Ocupacion: TI
- Años_empleado: 2
- Rendimiento_anual: 290000
- Tiene_carro: 0
- Vivienda: Casa/Departamento propio

In [42]:
#Query
query_7 = 'INSERT INTO Clientes_desafio (ID_Cliente, Edad,	Grado_estudio,'\
          'Estado_civil, Tamaño_familia, Categoria_de_renta, Ocupacion,'\
          'Años_empleado, Rendimiento_anual, Tiene_carro, Vivienda)'\
          'VALUES (6850985, 33, "Doctorado", "Soltero", 1, "Empleado", "TI", 2,'\
          '290000, 0, "Casa/Departamento propio")'

#Bloque try...except...else
try:
  cursor = engine_desafio.connect().execute(text(query_7))
except SQLAlchemyError as e:
  print(e)
else:
  print('#Registros añadidos:', cursor.rowcount)

#Registros añadidos: 1


In [43]:
pd.read_sql_table('Clientes_desafio', con=engine_desafio)

Unnamed: 0,ID_Cliente,Edad,Grado_estudio,Estado_civil,Tamaño_familia,Categoria_de_renta,Ocupacion,Años_empleado,Rendimiento_anual,Tiene_carro,Vivienda
0,5008804,32,Nivel superior,Relación-estable,2,Empleado,Otro,12,427500.0,1,Departamento alquilado
1,5008805,32,Nivel superior,Relación-estable,2,Empleado,Otro,12,427500.0,1,Departamento alquilado
2,5008806,58,Nivel intermedio,Casado,2,Empleado,Seguridad,3,112500.0,1,Casa/Departamento propio
3,5008808,52,Nivel intermedio,Soltero,1,Business Partner,Ventas,8,270000.0,0,Casa/Departamento propio
4,5008810,52,Nivel intermedio,Soltero,1,Business Partner,Ventas,8,270000.0,0,Casa/Departamento propio
...,...,...,...,...,...,...,...,...,...,...,...
438458,6840222,43,Nivel intermedio,Soltero,1,Empleado,Construcción Civil,8,103500.0,0,Casa/Departamento propio
438459,6841878,22,Nivel superior,Soltero,1,Business Partner,Ventas,1,54000.0,0,Vive con los padres
438460,6842765,59,Nivel intermedio,Casado,2,Pensionista,Otro,0,72000.0,0,Casa/Departamento propio
438461,6842885,51,Nivel intermedio,Casado,2,Empleado,Ventas,3,121500.0,0,Casa/Departamento propio
